Archivos de la categoría Ranking Encuestas

Ranking de Encuestas 2.0

Uno de los objetivos de tresquintos es analizar encuestas de opinión pública. Una forma de analizar encuestas es tender inferencias cada vez que una encuestadora publica una encuesta nueva. Otra forma de analizar encuestas es tender inferencias en base a múltiples encuestas, de múltiples encuestadoras distintas. Los que conocen el terreno de la opinión pública en Chile sabrán que la segunda forma no es nada de fácil. Las encuestas difieren en varios aspectos. Tienen diferencias significativas en sus ‘diseños metodológicos’, ‘tamaños de muestra’ y ‘fechas de trabajo de campo’.

Durante la campaña presidencial de 2009 hubo un par de sitios que intentaron tender inferencias en base a múltiples encuestas, al ponderar varias de ellas en un indicador único que intentaba representar el valor real de la intención de voto para cada candidato. El sitio TodoPolítica solo consideró las 4 encuestas más recientes. Promedió el valor de la última encuesta con las 3 anteriores en una regresión local para generar su indicador único. El sitio Vota 2009 de La Tercera tuvo una aproximación similar. Ponderó todas las encuestas con una media aritmética para dar con su propio indicador único.

En ambos casos, encuestadoras y encuestas fueron comparadas par a par. En el caso de TodoPolítica, las encuestas presenciales que entrevistaron a más de 1,000 personas con un margen de error de 3,0% fueron consideradas igual de relevantes que las encuestas telefónicas que entrevistaron a 600 personas con un margen de error de 4,5%. En el caso de Vota2009, las encuestas que se realizaron durante fines de 2008 (más de un año antes de la elección!) fueron consideradas igual de relevantes que las encuestas que fueron realizadas a fines de 2009 (menos de un mes antes de la elección!).

Comparar encuestadoras y sus encuestas involucra un proceso metodológico complejo. Justamente porque todas las encuestas difieren, las respectivas proporciones de intención de voto que reportan tienden a ser distintos. Por ejemplo, podemos anticipar proporciones diferentes dependiendo si las encuestas son presenciales o telefónicas, o si los entrevistados son seleccionados por cuota o de forma aleatoria. Incluso si todas las encuestadoras tuvieran las mismas características particulares, es probable que observáramos diferencias en sus resultados.

Para crear un indicador único sin sesgo, es importante partir de la base que todas las encuestadoras tienen características particulares distintas y todas sus encuestas introducen error en sus predicciones. El primer paso es asignarles mayor peso en el indicador único a las encuestadoras que tienen encuestas que introducen menos error en sus predicciones. Para determinar que encuestadora tiene menos error, mire las encuestas que sondearon intención de voto para la primera vuelta de la elección presidencial de 2009. En total, consideré 12 encuestadoras:

  • CEP
  • CERC
  • Direct Media
  • El Mercurio-Opina
  • Giro País (Subjetiva)
  • Imaginacción
  • IPSOS
  • La Segunda (UDD)
  • La Tercera
  • MORI
  • TNS-Time
  • UDP

Para crear el ranking, se necesita un mínimo nivel de homogeneidad entre las encuestadoras. Es decir, se debe usar datos que midan lo mismo. No todas las encuestas reportan el porcentaje de encuestados que se declara registrado para votar. Por ejemplo, la encuestadora CERC excluye nulos, blancos y abstenciones. Es decir, la intención de voto por candidato suma 100%. Las otras encuestas, en cambio, sí reportan nulos, blancos, abstenciones, por lo cual los votos válidos suman menos de 100%. Para homogeneizar las encuestadoras, normalicé los datos de todas las encuestas a 100%.

Si suponemos que todas las encuestadoras diseñan sus encuestas metodológicamente bien, deberíamos esperar que aquellas con un menor margen de error (o un mayor número de encuestados) tengan una mejor capacidad predictiva. Sin embargo, el siguiente cuadro muestra que no hay una asociación entre margen de error y capacidad predictiva. Algunas encuestas con un bajo margen de error fallaron más que otras encuestas con un alto margen de error. Por ejemplo, la encuestadora con el menor margen de error (Ipsos, con 2,5%) tuvo la octava mejor predicción (de doce!) de intención de voto para Piñera.

Eso es suficiente evidencia para sostener que el margen de error no es la única fuente de error en las encuestas. Si el margen de error fuera el único error de las encuestas, todas las encuestas tendrían una predicción correcta, dentro de su margen de error. En esencia, esto significa que las encuestadoras introducen un error natural a partir de su particular proceso metodológico. Para medir el error de cualquier encuesta, propongo aislar sus fuentes de error en una parte provista por la encuestadora y una parte no provista por la encuestadora:

ERROR REAL = Error Reportado + Error-No-Forzado

Ahora bien, en vez de mirar el error de cada encuesta en las predicciones de cada candidato, decidí fijar un parámetro de estimación. Principalmente porque es común que una encuesta reporte una predicción correcta para un candidato, pero falle significativamente en su predicción para el resto. Por ejemplo, MORI hizo la segunda mejor predicción de votación para Piñera, pero tuvo mayor error que el resto de las encuestas en la predicción de votación para los otros candidatos.

En este caso el parámetro de estimación más importante es el que mide la diferencia en votación entre los dos candidatos con más preferencias. Esto tiene sentido porque a menudo sabemos quién es el favorito, pero no sabemos por cuánto. En elecciones competitivas esta distancia es crucial. Si ambos candidatos giran en torno al 50% de las preferencias,  lo importante es conocer la distancia entre ambos. Por ejemplo, en 2009, todas las encuestas reportaron a Piñera como favorito, pero todas con distancias de Frei diferentes.

Error Reportado

El primer paso es estimar el Error Reportado. Esta es la diferencia entre la predicción del parámetro de cada encuesta y el parámetro real. Es la forma más básica de medir el error de una encuesta. El siguiente cuadro muestra el error reportado para el parámetro de estimación. La columna ‘Parámetro Estimado’ es la predicción del parámetro (la diferencia entre Piñera y Frei). La columna ‘Error Parámetro’ es la diferencia entre parámetro estimado y el parámetro real. La columna ‘Error Reportado’ es el valor absoluto de ‘Error Parámetro’.

El índice de mayor interés es ‘Error Reportado’, que muestra la distancia absoluta del parámetro estimado de cada encuesta y el parámetro real (14,5%). El promedio de error reportado de todas las encuestas fue de 3,7%. Esto significa que en general las encuestas hicieron buenas predicciones, haciendo una estimación relativamente cercana al resultado de la elección. De todas las encuestas La Segunda/UDD tuvo el error reportado más bajo (0,05%) con una predicción de 14%, mientras que ICSOUDP tuvo el error reportado más alto (7,9%) con una predicción de 6,6%.

Error-No-Forzado

El segundo paso es estimar el Error-No-Forzado. Esta es la diferencia entre el error reportado y el margen de error. Es lo que el margen de error no explica en el error reportado de la encuesta. El siguiente cuadro muestra el error-no-forzado para el parámetro de estimación. La columna ‘Error Reportado’ es el valor absoluto de ‘Error Parámetro’. La columna ‘Margen de Error’ muestra el margen de error que reporta la encuesta. La columna ‘Error No Forzado’ es la diferencia entre el error reportado y el margen de error.

El índice de mayor interés es ‘Error No Forzado’, que muestra el error que tiene una encuesta, que no puede ser explicado por su margen de error. Un índice negativo significa que la encuesta tuvo una predicción dentro de su margen de error. Un índice positivo significa que la encuesta tuvo una predicción fuera de su margen de error. De las 12 encuestas, 5 estuvieron dentro de sus margenes de error. De las 7 encuestas restantes, Imaginacción tuvo un error-no-forzado más bajo (0,7%), y UDP tuvo el error-no-forzado más alto (5,2%).

Error-No-Forzado Relativo

El tercer paso es estimar el Error-No-Forzado Relativo. Esta es la diferencia entre el error-no-forzado de cada encuesta y el promedio de error-no-forzado de todas las encuestas. Esto permite estimar la capacidad predictiva de cada encuesta en base a la capacidad predictiva promedio de todas las encuestas. El siguiente cuadro muestra el error-no-forzado relativo. Las columnas ‘Margen de Error’ y ‘Error No Forzado’ son lo mismo que arriba. La columna ‘Error No Forzado Relativo’ es la diferencia entre ‘Error No Forzado’ y el promedio de ‘Error No Forzado’.

El índice de mayor interés es ‘Error No Forzado Relativo’, que muestra el error que tiene una encuesta, en comparación con todas las encuestas. Un índice negativo significa que la encuesta tuvo un error-no-forzado menor que el promedio de todas las encuestas. Un índice positivo significa que la encuesta tuvo error-no-forzado mayor que el promedio de todas las encuestas. Por ejemplo, La Tercera tuvo un error-no-forzado de 1,4% menos que el resto de las encuestas. Asimismo, Giro País/Subjetiva tuvo un error-no-forzado de 0,03% más que el resto de las encuestas.

Personalmente, tengo algunas aprensiones metodológicas con las características particulares de algunas de las encuestadoras que figuran en la parte superior del ranking. Principalmente con los tamaños de las muestras y los métodos de recopilación de datos. Sin embargo, el ranking esta construido en base a la capacidad predictiva de las encuestas, y no a sus características metodológicas. Para efectos de un ranking, las encuestas que tienen a introducir un error-no-forzado relativo menor deben tender a figurar en la parte alta de la tabla.

Un argumento en contra de este punto es que no todas las encuestas son predictivas. Dado que algunas encuestas se hacen con meses de anticipación a la elección (e.g., UDP), las encuestadoras pueden argumentar que su encuesta es solo una foto del momento. La respuesta es simple. Cuando una encuestadora decide preguntar sobre “la elección del próximo Domingo”, esta haciendo una predicción. Además, si cada año electoral la encuestadora hace la misma pregunta con la misma distancia de tiempo a la elección, podremos fácilmente anticipar su error real.

Ranking de Encuestas

El siguiente cuadro muestra el ranking de encuestas. Para ver cómo se construye el ranking, pinchar aquí. El ranking estará disponible permanentemente en la barra lateral. Además, será actualizado cada vez que se recopilen y se sistematizen datos nuevos.

Ranking de Encuestas

(actualización: para ver el Ranking de Encuestas 2.0, pinchar aquí.)

Con miras al proyecto de proyección electoral de tresquintos, he estado pensando en cómo usar las encuestas. Los que conocen el terreno de la opinión pública en Chile sabrán que no es nada de fácil.

Durante la campaña presidencial de 2009, hubo un par de sitios que intentó ponderar encuestas. El resultado fue –metodólogicamente– paupérrimo. Por un lado, el sitio TodoPolítica promedió el valor de la última encuesta con las tres anteriores. Así, con una aproximación lineal simple, ponderó las 4 encuestas para generar un indicador único. Por otro lado, el sitio Vota 2009 de La Tercera simplemente mostró el resultado de las encuestas una al lado de otra. Es decir, igualó la capacidad predictiva de todas las encuestas.

En ambos casos, fueron comparadas par a par las encuestas presenciales que entrevistaron a más de 1,000 personas con un márgen de error de 3.0%, con las encuestas telefónicas que entrevistaron a 600 personas con un márgen de error de 4.5%.

Denuevo, los que saben de encuestas en Chile, saben que ponderar encuestas es un proceso mucho más complejo. Primero, porque cada encuesta usa una metodología diferente. Las diferencias más significativas están en el tamaño de las muestras, en los márgenes de error, en las zonas sondeadas y en sus métodos de recopilacion de datos: si son encuestas presenciales o telefonicas, o si los entrevistados son seleccionados por cuota o de forma aleatoria, etc. Un segundo problema es que aún si pudiesemos igualar las encuestas 1 a 1, ¿cómo las ponderamos? ¿Qué criterio usamos para darle mayor peso a una encuesta por sobre otra? Es decir, ¿cómo usar los datos que están disponibles para comparar una encuesta con otra?

Estaba en ésta reflexión, cuando me cruzé con el aporte académico de Joseph Shipman (ver aquí). En su artículo, An Interval Measure of Election Poll Accuracy, Shipman repasa los principales métodos para comparar la destreza de encuestas. Para no entrar en un debate extremadamente técnico, sólo voy a mencionar que dentro de los métodos más usados –o bien, más válidos en el mundo académico– figura el método de Mollster, ideado en 1949.

De este modo, cualquier análisis electoral que incuya más de una encuesta debe ponderar los sondeos por su destreza. Debe existir un ranking donde las encuestas más predictivas tengan mayor valor a las encuestas menos predictivas. En lo que sigue de este post, voy a explicar cómo se puede construir un ranking usando el método de Mollster.

Para partir, necesitamos encuestadoras. En la siguiente lista, seleccioné todas las encuestas que sondearon intención de voto en la primera vuelta de la elección presidencial de 2009. Un total de 13 encuestas:

  • CEP
  • CERC
  • Direct Media
  • El Mercurio (Opina)
  • Gemines
  • Giro País (Subjetiva)
  • Imaginacción
  • IPSOS
  • La Segunda (UDD)
  • La Tercera
  • MORI
  • TNS-Time
  • ICSO-UDP

Antes de seguir, un breve comentario sobre la homologación de encuestas.  Tal como mencione más arriba, es imposible tomar las encuestas per se y promediarlas para crear un indicador único. Por eso necesitamos crear el ranking: sólo ahí estaemos en capacidad de sumar las encuestas ponderando por su capacidad predictiva.

Sin embargo, para crear el ranking, necesitamos un mínimo nivel de homogenidad entre las encuestas seleccionadas para compararlas con el fin de crear el ranking. El mayor problema en este ambito es equiparar las encuestas para que hablen el mismo idioma. Me explico, en sus predicciones la encuesta CERC excluye nulos, blancos y abstenciones. Es decir, la votación por los candidatos, en su encuesta, suma 100%. Las otras encuestas, en cambio, sí reportan nulos, blancos, abstenciones, por lo cual los votos válidos suman menos de 100%.

Por ese motivo, y para evitar levantar una discusión técnica –sobre si son mejores las encuestas metodológicamente rigurosas o bien las que no lo son pero siempre le apuntan–, tuve que normalizar los datos de todas las encuestas a 100%. Así, las encuestas están hablando el mismo idioma.

La siguiente tabla muestra la destreza de las encuestas chilenas en la elección de 2009. Siguiendo el método métrico de Mollster (n°5), uso un intervalo estimativo de error. Elegí este método para evitar entrar en una discusión teórcia sobre qué hacer con los encuestados que votan nulo, blanco o no saben. Siguiendo a Mollster, utilizo el intervalo diferencial entre los dos candidatos más votados, en éste caso Piñera y Frei. Es decir, mido la destreza de cada encuesta en base a su capacidad de predecir el diferencial real entre los dos candidatos más votados.

La tabla muestra que en general las encuestas en Chile tienen destreza para predecir resultados electorales (más allá de si son metodológicamente correctas). Del total de encuestas registradas entre 2008 y 2009, las encuestas fallaron en 3 puntos en promedio. Las encuestas predijieron que la diferencia entre Piñera y Frei iba ser de 18.18 puntos, cuando realmente fue de 14.45 puntos. Una diferencia de 3.73 puntos.

Naturalmente este márgen fue mayor para las encuestas de 2008, cuando los candidatos aún no estaban designados. En 2008, las encuestas fallaron por 15 puntos promedio. Sin embargo a medida que se acercó la elección, las encuestas se volvieron más certeras. Las encuestas registradas en 2009 sólo se equivocaron en 1.47 puntos promedio. Asimismo, las encuestas que sondearon intención de voto en el intervalo de 30 días previos a la elección, sólo se equivocaron en 1.37 puntos.

Ese es el panorama general. La evidencia muestra que las encuestas en Chile son buenas. Al menos operan dentro (o cerca)  del 3% de márgen de error que reportan.

Pero, el cuadro de arriba no nos dice nada sobre el rendimiento particular de cada encuesta. La siguiente tabla muestra la destreza de cada encuesta en base a su último sondeo. Este es el ranking de encuestas.

Caveat emptor. Al leer esta tabla hay que mantener en mente que algunas de las encuestas sondearon la elección por última vez con varios meses de anticipación. Por ejemplo, MORI sondeó intención de voto en la primera vuelta por última vez en Julio de 2009. TNS-Time lo hizo en Mayo de 2009. Sin embargo esto no significa que ambas encuestas están más abajo porque sondearon la elección con mucha anticipación. Mas bien estan abajo porque la última vez que sondearon se equivocaron más que el resto. Por ejemplo, Direct Media y Giro País (Subjetiva),  sondearon dentro del intervalo del último mes, y ellos están abajo en el ranking porque hicieron una mala predicción.

Cada encuesta sondea cuando quiere. Si MORI quiere sondear en Julio de 2009 para una elección de diciembre, su capacidad predictiva va ser naturalmente baja. En definitiva, una encuesta como MORI, tiene poca utilidad en predecir resultados electorales.

Vamos al grano. El ranking muestra varios índices. El primer índice muestra la predicción de cada encuesta. PREDICCION se refiere a la predicción de la determinada encuesta en cuanto al intervalo diferencial entre Piñera y Frei. Por ejemplo, en su último sondeo, La Segunda predijo que el intervalo iba ser de 14 puntos. El segundo índice muestra el error de la encuesta. ERROR FORZADO se refiere a la diferencia entre la predicción de la encuesta y el valor real. El error forzado de La Segunda es de 0.0045 porque la diferencia real fue de 14.45 (0.1445-0.1400=0.0045). En resumen, si ordenaramos las encuestas en base a ERROR FORZADO podemos ver qué tan lejos estuvo cada encuesta de la realidad. El tercer índice representa el promedio de error que tiene una encuesta en comparacion con el promedio de las demás (“+/-“). Mientras menor es este índice, mejor es la encuesta. La Segunda se equivoca en 0.3 puntos menos que el promedio del resto de las encuestas. Mientras mayor es este índice, peor es la encuesta. Giro País se equivoca en 0.25 puntos más que el promedio del resto de las encuestas.

En definitiva, las mejores encuestas de 2009 fueron La Segunda, CERC, El Mercurio (Opina), Imaginacción y ICSO-UDP. Esas encuestas tuvieron un menor error al promedio de las encuestas. CERC, IPSOS, Gemines y La Tercera fueron encuestas promedio. Finalmente, Giro País (Subjetiva), TNS-Time, Direct Media y MORI están al final del ranking. Esas encuestas se equivocaron significativamente más que lo que se equivocó el promedio de las encuestas.