Ranking de Encuestas

(actualización: para ver el Ranking de Encuestas 2.0, pinchar aquí.)

Con miras al proyecto de proyección electoral de tresquintos, he estado pensando en cómo usar las encuestas. Los que conocen el terreno de la opinión pública en Chile sabrán que no es nada de fácil.

Durante la campaña presidencial de 2009, hubo un par de sitios que intentó ponderar encuestas. El resultado fue –metodólogicamente– paupérrimo. Por un lado, el sitio TodoPolítica promedió el valor de la última encuesta con las tres anteriores. Así, con una aproximación lineal simple, ponderó las 4 encuestas para generar un indicador único. Por otro lado, el sitio Vota 2009 de La Tercera simplemente mostró el resultado de las encuestas una al lado de otra. Es decir, igualó la capacidad predictiva de todas las encuestas.

En ambos casos, fueron comparadas par a par las encuestas presenciales que entrevistaron a más de 1,000 personas con un márgen de error de 3.0%, con las encuestas telefónicas que entrevistaron a 600 personas con un márgen de error de 4.5%.

Denuevo, los que saben de encuestas en Chile, saben que ponderar encuestas es un proceso mucho más complejo. Primero, porque cada encuesta usa una metodología diferente. Las diferencias más significativas están en el tamaño de las muestras, en los márgenes de error, en las zonas sondeadas y en sus métodos de recopilacion de datos: si son encuestas presenciales o telefonicas, o si los entrevistados son seleccionados por cuota o de forma aleatoria, etc. Un segundo problema es que aún si pudiesemos igualar las encuestas 1 a 1, ¿cómo las ponderamos? ¿Qué criterio usamos para darle mayor peso a una encuesta por sobre otra? Es decir, ¿cómo usar los datos que están disponibles para comparar una encuesta con otra?

Estaba en ésta reflexión, cuando me cruzé con el aporte académico de Joseph Shipman (ver aquí). En su artículo, An Interval Measure of Election Poll Accuracy, Shipman repasa los principales métodos para comparar la destreza de encuestas. Para no entrar en un debate extremadamente técnico, sólo voy a mencionar que dentro de los métodos más usados –o bien, más válidos en el mundo académico– figura el método de Mollster, ideado en 1949.

De este modo, cualquier análisis electoral que incuya más de una encuesta debe ponderar los sondeos por su destreza. Debe existir un ranking donde las encuestas más predictivas tengan mayor valor a las encuestas menos predictivas. En lo que sigue de este post, voy a explicar cómo se puede construir un ranking usando el método de Mollster.

Para partir, necesitamos encuestadoras. En la siguiente lista, seleccioné todas las encuestas que sondearon intención de voto en la primera vuelta de la elección presidencial de 2009. Un total de 13 encuestas:

  • CEP
  • CERC
  • Direct Media
  • El Mercurio (Opina)
  • Gemines
  • Giro País (Subjetiva)
  • Imaginacción
  • IPSOS
  • La Segunda (UDD)
  • La Tercera
  • MORI
  • TNS-Time
  • ICSO-UDP

Antes de seguir, un breve comentario sobre la homologación de encuestas.  Tal como mencione más arriba, es imposible tomar las encuestas per se y promediarlas para crear un indicador único. Por eso necesitamos crear el ranking: sólo ahí estaemos en capacidad de sumar las encuestas ponderando por su capacidad predictiva.

Sin embargo, para crear el ranking, necesitamos un mínimo nivel de homogenidad entre las encuestas seleccionadas para compararlas con el fin de crear el ranking. El mayor problema en este ambito es equiparar las encuestas para que hablen el mismo idioma. Me explico, en sus predicciones la encuesta CERC excluye nulos, blancos y abstenciones. Es decir, la votación por los candidatos, en su encuesta, suma 100%. Las otras encuestas, en cambio, sí reportan nulos, blancos, abstenciones, por lo cual los votos válidos suman menos de 100%.

Por ese motivo, y para evitar levantar una discusión técnica –sobre si son mejores las encuestas metodológicamente rigurosas o bien las que no lo son pero siempre le apuntan–, tuve que normalizar los datos de todas las encuestas a 100%. Así, las encuestas están hablando el mismo idioma.

La siguiente tabla muestra la destreza de las encuestas chilenas en la elección de 2009. Siguiendo el método métrico de Mollster (n°5), uso un intervalo estimativo de error. Elegí este método para evitar entrar en una discusión teórcia sobre qué hacer con los encuestados que votan nulo, blanco o no saben. Siguiendo a Mollster, utilizo el intervalo diferencial entre los dos candidatos más votados, en éste caso Piñera y Frei. Es decir, mido la destreza de cada encuesta en base a su capacidad de predecir el diferencial real entre los dos candidatos más votados.

La tabla muestra que en general las encuestas en Chile tienen destreza para predecir resultados electorales (más allá de si son metodológicamente correctas). Del total de encuestas registradas entre 2008 y 2009, las encuestas fallaron en 3 puntos en promedio. Las encuestas predijieron que la diferencia entre Piñera y Frei iba ser de 18.18 puntos, cuando realmente fue de 14.45 puntos. Una diferencia de 3.73 puntos.

Naturalmente este márgen fue mayor para las encuestas de 2008, cuando los candidatos aún no estaban designados. En 2008, las encuestas fallaron por 15 puntos promedio. Sin embargo a medida que se acercó la elección, las encuestas se volvieron más certeras. Las encuestas registradas en 2009 sólo se equivocaron en 1.47 puntos promedio. Asimismo, las encuestas que sondearon intención de voto en el intervalo de 30 días previos a la elección, sólo se equivocaron en 1.37 puntos.

Ese es el panorama general. La evidencia muestra que las encuestas en Chile son buenas. Al menos operan dentro (o cerca)  del 3% de márgen de error que reportan.

Pero, el cuadro de arriba no nos dice nada sobre el rendimiento particular de cada encuesta. La siguiente tabla muestra la destreza de cada encuesta en base a su último sondeo. Este es el ranking de encuestas.

Caveat emptor. Al leer esta tabla hay que mantener en mente que algunas de las encuestas sondearon la elección por última vez con varios meses de anticipación. Por ejemplo, MORI sondeó intención de voto en la primera vuelta por última vez en Julio de 2009. TNS-Time lo hizo en Mayo de 2009. Sin embargo esto no significa que ambas encuestas están más abajo porque sondearon la elección con mucha anticipación. Mas bien estan abajo porque la última vez que sondearon se equivocaron más que el resto. Por ejemplo, Direct Media y Giro País (Subjetiva),  sondearon dentro del intervalo del último mes, y ellos están abajo en el ranking porque hicieron una mala predicción.

Cada encuesta sondea cuando quiere. Si MORI quiere sondear en Julio de 2009 para una elección de diciembre, su capacidad predictiva va ser naturalmente baja. En definitiva, una encuesta como MORI, tiene poca utilidad en predecir resultados electorales.

Vamos al grano. El ranking muestra varios índices. El primer índice muestra la predicción de cada encuesta. PREDICCION se refiere a la predicción de la determinada encuesta en cuanto al intervalo diferencial entre Piñera y Frei. Por ejemplo, en su último sondeo, La Segunda predijo que el intervalo iba ser de 14 puntos. El segundo índice muestra el error de la encuesta. ERROR FORZADO se refiere a la diferencia entre la predicción de la encuesta y el valor real. El error forzado de La Segunda es de 0.0045 porque la diferencia real fue de 14.45 (0.1445-0.1400=0.0045). En resumen, si ordenaramos las encuestas en base a ERROR FORZADO podemos ver qué tan lejos estuvo cada encuesta de la realidad. El tercer índice representa el promedio de error que tiene una encuesta en comparacion con el promedio de las demás (“+/-“). Mientras menor es este índice, mejor es la encuesta. La Segunda se equivoca en 0.3 puntos menos que el promedio del resto de las encuestas. Mientras mayor es este índice, peor es la encuesta. Giro País se equivoca en 0.25 puntos más que el promedio del resto de las encuestas.

En definitiva, las mejores encuestas de 2009 fueron La Segunda, CERC, El Mercurio (Opina), Imaginacción y ICSO-UDP. Esas encuestas tuvieron un menor error al promedio de las encuestas. CERC, IPSOS, Gemines y La Tercera fueron encuestas promedio. Finalmente, Giro País (Subjetiva), TNS-Time, Direct Media y MORI están al final del ranking. Esas encuestas se equivocaron significativamente más que lo que se equivocó el promedio de las encuestas.

Deja un comentario