Archivos de la categoría Metodología

El pronóstico de TresQuintos.com

La elección presidencial de Chile se realizó el 17 de noviembre de 2013. Como es costumbre, varias encuestadoras presentaron sus pronóstico de resultados en los tres meses que antecedieron la elección. Usando los pronósticos de las encuestadoras como insumo, TresQuintos.com también presentó un pronóstico. En este artículo mostramos que — en comparación — el pronóstico de TresQuintos.com fue el mejor.

No hay una sola forma para comparar pronósticos. Hay varias, y en este artículo abordamos las tres más comunes. Primero, comparamos el pronóstico de las encuestadoras de intención de voto para cada candidato con el pronóstico de TresQuintos.com de intención de voto para cada candidato. Naturalmente es pronóstico para el primer lugar es el pronóstico más sensible (y probablemente el más importante), dado que es la estadística más relevante.

Segundo, comparamos el pronóstico de las encuestadoras para la diferencia en la intención de voto entre candidaturas claves con el pronóstico de TresQuintos.com para la diferencia en la intención de voto entre candidaturas claves. Este pronóstico es importante, dado que es la estadística que anuncia la llegada del segundo lugar, entre otros. Es particularmente importante en elecciones con segunda vuelta y en que el tercer lugar parece estar reñido.

Tercero, comparamos el error absoluto y el error promedio de las encuestadoras con el error absoluto y el error promedio de TresQuintos.com. Es la mejor manera de medir la eficacia de cada pronóstico para predecir la intención de voto de cada uno de los candidatos. Es sin duda el método de comparación más utilizado hoy en día, dado que toma en cuenta el rendimiento general de los modelos e instrumentos, y no solo los pronósticos más mediáticos.

Si comparamos los pronósticos de intención de voto para el primer lugar, los dos mejores fueron La Segunda-UDD y TresQuintos.com. Fueron los únicos que estuvieron a menos de 1% del resultado para el primer lugar. Bachelet obtuvo 46,67%; La Segunda-UDD dijo que sería 46,51% y TresQuintos.com dijo que sería 47,29%. Conecta tuvo el tercer pronóstico más acertado, dijo que sería 49,20%. El siguiente cuadro muestra la comparación.

Si comparamos los pronósticos para la diferencia en la intención de voto entre candidaturas claves, el mejor fue TresQuintos.com. La diferencia entre Bachelet y Matthei fue 21,66%; TresQuintos.com dijo que sería 22,89%. El segundo pronóstico más cercano se desvió 5% hacia abajo (La Segunda-UDD con 16,28%) y el tercer pronóstico más cercano se desvió 5% hacia arriba (Conecta con 27,32%). El siguiente cuadro muestra la comparación.

Si comparamos los pronósticos en base a su error absoluto, el menos erróneo fue el pronóstico de TresQuintos.com. Si se suma el error del pronóstico de intención de voto para cada uno de los candidatos, TresQuintos.com tuvo el error más bajo (con una diferencia absoluta de 9,53%). El segundo mejor pronóstico fue el de Conecta (con 11,56%), y el tercer mejor pronóstico fue el de El Mercurio-Opina (con 13,78%).

Si comparamos los pronósticos en base a su error promedio, el menos erróneo fue el de TresQuintos.com. Si se promedia el error del pronóstico de intención de voto para cada uno de los candidatos, TresQuintos.com tuvo el error más bajo (con una promedio de 1,06%). El segundo mejor pronóstico fue el de Conecta (con 1,28%), y el tercer mejor pronóstico fue el de El Mercurio-Opina (1,53%). El siguiente cuadro muestra la comparación.

Quedan preguntas por responder. Cómo por ejemplo: ¿por qué todas las encuestadoras (incluso TresQuintos.com y salvo ICHEM) pronosticaron que Parisi vencería a Enríquez-Ominami?. Ya habrá tiempo para eso, y bastante, como adelantamos más abajo. Pero lo importante, por ahora, es el big picture. Es haber dado un paso crucial para entender el comportamiento de encuestas y encuestadoras. Particularmente bajo el nuevo esquema de voto voluntario.

Lo satisfactorio es haber desarrollado un instrumento válido con un método sólido por dentro y replicable por fuera. Es haber desarrollado un modelo transparente. En los últimos meses publicamos más de 20 artículos documentando cada paso que tomamos para realizar el pronóstico (para ver, pinchar aquí), contestamos decenas de e-mails con dudas metodológicas, y compartimos nuestros datos con quienes se acercaron.

Esto no termina aquí. Tal como lo hicimos con el pronóstico ex-post para la elección de Chile en 2009 (para ver, pinchar aquí), y con el pronóstico ex-ante para la elección de Venezuela en 2013 (para ver, pinchar aquí), cerraremos bien el ciclo electoral. En los próximos días (y quizás meses) vamos a estar publicando evaluaciones especificas del pronóstico de TresQuintos.com. Vamos a contestar las preguntas que fijamos antes de comenzar (para ver, pinchar aquí).

Finalmente, unas palabras para los seguidores de TresQuintos.com. En gran parte cientistas políticos y economistas. Pero también periodistas y político aficionados. Gracias a ellos, a sus correcciones, a sus ideas y a sus sugerencias vía teléfono, email y Twitter. Sobre todo a aquellos que nos acompañaron la noche de la elección, con una evaluación en tiempo real del pronóstico de TresQuintos.com (ver aquíaquí y aquí).

Sesgo IPSOS: ¿Bachelet gana en primera vuelta?

En Diciembre de 2011 escribí un artículo sobre la metodología sesgada de la encuestadora IPSOS (para ver, pinchar aquí). Tras notar una gruesa tendencia a favorecer a Piñera en sus encuestas de aprobación presidencial, llegue a la siguiente conclusión:

“Mi intuición es que la encuesta esta sesgada hacia Piñera. Creo que su aprobación verdadera es bastante más baja de lo que reporta la encuesta ISPOS.”

Cerca de dos años después, renace la sospecha sobre la parcialidad de la encuestadora. La hipótesis es que IPSOS tiene un sesgo para favorecer a personeros, partidos y candidatos de la Alianza. La hipótesis es que favoreció a Piñera durante su gobierno, y favoreció a Matthei durante su campaña electoral. (Independiente de si existe o no existe el sesgo: en el caso de que sí existe inevitablemente, quedará abierta la pregunta si es intencional o por negligencia).

Si se toman todas las encuestas que presentaron una estadística de intención de voto para cada candidato durante el ciclo electoral de 2013, y se usa la metodología de tresquintos (para ver, pinchar aquí) para realizar el pronóstico electoral, el point estimate es 44,6% para Bachelet y 24,2% para Matthei. El siguiente gráfico muestra la variación en la intención de voto desde Agosto de 2013, y el point estimate en Noviembre de 2013:

Con la sospecha de que la encuestadora IPSOS podría estar sesgada, decidimos separar sus cuatro encuestas (con fechas medianas de trabajo de campo: 29-08-2013; 29-09-2013; 12-10-2013; 28-08-2013), del resto. En promedio, IPSOS se desvía significativamente de la media. La línea roja representa el promedio de IPSOS, la línea a trazos representa el promedio de todas las encuestas, y  la línea a puntos representa el promedio de todas las encuestas menos IPSOS.

No hay duda que IPSOS tiene un sesgo en sus encuestas de intención de voto. Si se usan las encuestas IPSOS en el modelo de pronóstico, varía el point estimate para Bachelet pero no el de Matthei. La diferencia entre usar IPSOS y no usar IPSOS significa bajar a Bachelet del 50%; no tiene un efecto para Matthei. El siguiente cuadro es nuestro pronóstico final para la elección (para ver detalles, pinchar aquí), considerando correcciones a la encuesta IPSOS, dado su sesgo.

Como un ejercicio adicional, decidimos correr el modelo con todas las encuestas, menos la de IPSOS. En ese escenario desaparece la variación en la intención de voto de Bachelet. Es decir, sin IPSOS es posible sostener que Bachelet nunca tuvo la varianza que estimamos en el modelo con todas las encuestas, o en el modelo con correcciones a IPSOS. Más importante aún, el point estimate de Bachelet es 51,1%, con un mínimo de 45,5% y un máximo de 56,3%.

¿Qué significa todo esto? Por un lado, comprueba que existe un sesgo en IPSOS. O bien que todas las encuestas, menos IPSOS, tienen un sesgo. Entre las dos alternativas, parece más razonable la primera. Por otro lado, significa que si el sesgo de IPSOS es más grande que lo que estimamos en el modelo correctivo, habría que eliminar por completo sus encuestas. En ese caso (solo comprobable después de la elección), anticipamos que el último pronóstico es el correcto.

Cabe destacar que nuestro pronóstico final (el que incluye una corrección por el sesgo de IPSOS) tiene un point estimate de 47,3% para Bachelet con una variación que va entre 40,7% y 54,4%. Si es que el sesgo es mayor al esperado, lo probable es que la votación de Bachelet sea mayor a la del point estimate, y se mueva más cerca al point estimate del modelo que excluye todas las encuestas IPSOS. Es decir, su votación tendría una base de 47,3% y un tope de 56,3%.

Pronósticos electorales: actualizar y calibrar

En los pronósticos electorales que recientemente lanzamos distinguimos entre una calibración y una actualización. La similitud es que en ambos casos agregamos una encuesta a la matriz de datos. La diferencia es la fecha mediana del trabajo de campo de la encuesta. La calibración es cuando agregamos una encuesta con una fecha mediana de trabajo de campo más antigua que la última encuesta en la matriz de datos. La actualización es cuando agregamos una encuesta que con una fecha mediana de trabajo de campo más reciente que la última encuesta en la matriz de datos.

La diferencia es sutil, pero sensible. Como explicamos en varios artículos de este sitio (ver aquí), cuando agregamos una encuesta nueva, cambia el peso de las encuestas viejas. Mientras que las encuestas nuevas pesan 100%, las encuestas viejas toman una ponderación de acuerdo al número de días que la separan de la elección. Cuando agregamos una encuesta antigua, entra pesando menos que cuando agregamos una encuesta reciente. Además, la lógica de la inferencia bayesiana que utilizamos es justamente corregir la forma en que pensamos sobre el pasado al recibir información sobre el presente.

Un ejemplo puede clarificar la diferencia. Al usar estadística bayesiana usamos el intervalo de credibilidad (análogo al intervalo de confianza). Este intervalo muestra el rango dentro del cual puede caer el pronóstico. Entre otras características cabe destacar que no es un intervalo simétrico (un candidato puede tener un margen superior mayor que un margen inferior). Al agregar una encuesta a la matriz de datos, el intervalo disminuye alrededor de su fecha. Cuando se calibra el pronóstico, el intervalo disminuye antes en la simulación. Cuando se actualiza, el intervalo disminuye en lo más reciente de la simulación.

Pronóstico Presidencial 2013: Caveat Emptor

Algunas aclaraciones sobre lo que el pronóstico presidencial 2013 no es y lo que el pronóstico presidencial es:
.
  1. Esto no es un pronóstico electoral tradicional. El objetivo central de un pronóstico tradicional sería acertar al resultado de la elección presidencial. 
  2. Esto es un pronóstico electoral experimental. El objetivo central de este pronóstico experimental es acertar al valor real de la opinión pública.
  3. Suponemos que hay una alta correlación entre el resultado de una elección presidencial y el valor real de la opinión pública.
  4. Entendemos que el promedio de las encuestas que tienen sesgos no resuelven en el valor real de la opinión pública.
  5. Entendemos que si se calibran las encuestas que tienen sesgos, su promedio sí resuelve en el valor real de la opinión pública.
  6. Tratamos de maximizar la intensidad y significancia de la correlación, mediante la calibración de encuestas de acuerdo a valores predeterminados y variables especificas.
  7. El modelo está construido de tal forma que no puede entregar un pronóstico menos acertado que la peor encuesta y no puede entregar un pronóstico más acertado que la mejor encuesta.
  8. No somos adivinos. Si las encuestas arrojan pronósticos malos, es probable que nosotros lo repliquemos.
  9. En éste artículo se puede leer más sobre el método que usamos para acertar al valor real de la opinión pública en la elección presidencial de 2009 (ver aquí).
  10. En éste artículo se puede leer más sobre lo que anticipamos serán los resultados del pronóstico (ver aquí).

Más preguntas que respuestas

Una de las cosas intrínsecas a hacer pronósticos electorales es que al final se puede comparar el pronóstico con el resultado de la elección. Hay solo dos resultados posibles: o se acierta, o no se acierta. Acertar es estar dentro del intervalo de confianza del pronóstico; no acertar es no estar dentro del intervalo de confianza del pronóstico. 

Como se ha repetido en varios artículos de este sitio, Tresquintos está más orientado a métodos que a resultados. Nos interesa más el método que el resultado. Naturalmente, lo óptimo sería lograr ambos, pero no siempre se puede. Sobre todo cuando el experimento es en tiempo real, y hay muchas variables intervinientes.

De cualquier forma, y como en cualquier experimento, anticipamos que el verdadero proceso de aprendizaje vendrá después de comparar el resultado de la elección con el pronóstico. En ese momento, anticipamos que habrá más preguntas que respuestas. Por eso, el verdadero aporte del pronóstico, será responder esas preguntas. Abajo adelantamos algunas de ellas:

  1. ¿Fue acertado el pronóstico?
  2. ¿En qué falló el pronóstico?
  3. ¿Cómo se comportaron las encuestas nacionales?
  4. ¿Cómo se comportaron las encuestas locales?
  5. ¿Cómo votaron los indecisos?
  6. ¿Estuvieron acertadas las prioridades a priori?
  7. ¿A qué velocidad se desintegraron las encuestas?

Las falencias metodológicas de la encuesta CEP

Publicado en La Tercera

Los resultados de la última encuesta del Centro de Estudios Públicos (CEP) desataron una serie de comentarios cruzados entre los comandos de Michelle Bachelet y Evelyn Matthei. La imposición de la ex presidenta (con 44%) por sobre la ex senadora (12%), tuvo tantos efectos políticos como repercusiones en el CEP. Las críticas metodológicas a la encuesta de parte de Joaquín Lavín (Jefe de Campaña de Matthei) con el objetivo de defender la candidata de su coalición finalmente dieron paso a la renuncia de la coordinadora de la encuesta CEP, Carolina Segovia. Si bien Segovia manifestó a través de los medios que su salida respondía al fin de un ciclo, y no a los hechos que rodearon el trabajo de campo de la última encuesta, hay varias pistas que sugieren lo contrario.

La pregunta es si la encuesta del CEP tiene las falencias metodológicas que se le atribuyen desde el comando de Matthei. Si la encuesta efectivamente tiene las falencias metodológicas, significaría que tanto la defensa de Lavín, como la salida de Segovia estarían justificadas. Significaría que Matthei en realidad está más cerca de Bachelet que lo que indica la encuesta, y que Segovia es la responsable directa por distorsionar la brecha entre ambas candidatas. Pero, por el contrario, si la encuesta no tiene las falencias metodológicas que se le atribuyen, significaría que las críticas de Lavín son sencillamente parte de una defensa corporativa de la candidatura de su sector, y que la salida de Segovia no es más que una casualidad de la batalla electoral.

Entonces, ¿tiene falencias metodológicas la encuesta del CEP?

La primera encuesta del CEP se propuso medir–entre otras cosas–la intención de voto de Bachelet y Laurence Golborne, entre Abril y Mayo. Pero cuando la UDI bajó a Golborne el 29 de Abril, el CEP decidió suspender la encuesta. La decisión se basó en que la encuesta llevaba cerca de la mitad (50%) del trabajo de campo hecho, es decir 15 días. La segunda encuesta del CEP se propuso medir la intención de voto de Bachelet y Pablo Longueira, entre Julio y Agosto. Pero cuando la UDI bajó a Longueira el 17 de Julio, el CEP decidió suspender la encuesta una segunda vez. Pero a diferencia de la suspensión permanente de la primera encuesta, la segunda encuesta se suspendió solo momentáneamente. Principalmente porque solo llevaba 4 días del trabajo de campo.

Las decisiones de suspender la primera encuesta “permanentemente” y suspender la segunda encuesta “momentáneamente” fueron deliberaciones técnicas basadas en la utilidad de los trabajos de campo ya hechos. Mientras que el momento del cambio de escenario en la primera encuesta (la bajada de Golborne) no permitía obtener inferencias validas, el momento del cambio de escenario en la segunda encuesta (la bajada de Longueira) sí permitía obtener inferencias validas. Por cierto, para salvar las inferencias, Segovia y el CEP decidieron mantener la pregunta abierta y eliminar la pregunta cerrada. La única diferencia de la segunda encuesta con encuestas anteriores, decidieron, sería el número de personas entrevistadas (alrededor de 150 personas menos).

La crítica metodológica de Lavín, donde acusa a la encuesta CEP de tener “cero validez estadística”, se basa únicamente en el hecho que cuando el CEP empezó su trabajo de campo Matthei no era candidata. Pero su crítica, entonces, no es estadística, es coyuntural. En ese caso, es la crítica de Lavín la que tiene “cero validez”, y no la metodología de la encuesta del CEP. Lavín critica la encuesta porque su coalición no tuvo un candidato al comienzo del trabajo de campo, no porque la encuesta está mal hecha. Pero al final del día lo que deja es que Matthei marca solo 12% porque la encuesta está mal hecha. En ese sentido, según la lógica de Lavín, Matthei habría marcado significativamente más si hubiera sido proclamada candidata 4 días antes.

Lejos de lo que sugiere Lavín, la encuesta CEP refleja con precisión la intención de voto entre los candidatos. Representa las preferencias electorales como lo habría hecho cualquier encuesta que utilizara preguntas abiertas. Asimismo, la encuesta tiene las mismas ventajas y desventajas que aquellos simboliza, como la sobre-representación de los candidatos más conocidos (en cual caso el 12% de Matthei estaría “inflado”). La única diferencia entre la encuesta presentada por el CEP y lo que Lavín habría deseado, es el margen de error. En la encuesta presentada por el CEP el margen de error es 2,71%. Si Matthei hubiera sido candidata desde el principio del trabajo de campo (solo 4 días antes), el margen de error sería 2,55%.

Las criticas de Lavín no pueden ser fundamentadas bajo cualquier canon científico aceptable por la comunidad académica. La encuesta no tiene las falencias metodológicas que se le atribuyen, y por lo propuesto arriba significa que las criticas de Lavín son una defensa corporativa de Matthei, y que la salida de Segovia no es más que una casualidad de la batalla electoral. Lo de Lavín fue una mala movida estratégica con consecuencias a largo plazo. Al desacreditar la encuesta CEP desechó la oportunidad de usar su segunda encuesta (programada para Octubre) para mostrar el avance de Matthei. Pero más importante, sumó la encuesta CEP a la ya larga lista de instrumentos estadísticos (como la Casen y el Censo) sin validez.

El Sesgo pro-Alianza de la Adimark

Publicado en El Mostrador

En Agosto de 2012 tres de las encuestadoras más importantes del país hicieron su trabajo de campo: Adimark, CEP y UDP. Cuando se publicaron sus respectivas encuestas, la diferencia en los resultados de las preguntas políticas fueron significativamente diferentes. En la pregunta sobre popularidad presidencial, Adimark reportó un 36% de aprobación, la CEP reportó un 27% de aprobación, y la UDP reportó un 29% de aprobación. A simple es evidente que Adimark es la que obtiene el resultado diferente. Al mirar esta diferencia en encuestas anteriores surge una tendencia: Adimark tiende a sobre-estimar resultados a favor de la Alianza. La pregunta que surge, entonces, es si el sesgo pro-Alianza de Adimark es intencional.

No es la primera vez que alguien advierte que Adimark tiene un sesgo pro-Alianza. Pero hasta el momento nadie ha presentado evidencia para establecer que así sea. Por eso, en está columna voy a intentar responder si el sesgo es intencional. Para hacerlo de forma rigurosa, parto de la base que “Adimark es inocente hasta ser encontrado culpable”. Si realmente tiene un sesgo pro-Alianza, hay que demostrar que tiene una probabilidad significativamente más alta de favorecer a la Alianza que la que tienen otras encuestadoras. Ergo, es un tema comparativo. Lo ideal sería comparar las encuestas de Adimark con la realidad. Pero como no existe un índice de aprobación real, solo podemos usar proxies. En este sentido el mejor proxy es la encuestadora CEP.

Hay dos buenas razones para usar a la CEP como proxy. La primera es que las encuestas de la CEP se diseñan e implementan sin fines de lucro por un grupo de académicos. Su estructura horizontal aumenta las instancias de fiscalización, lo cual presumiblemente evita un sesgo. Esto es diferente a lo que sucede en Adimark–y otras encuestadoras privadas–que se diseña e implementa con fines de lucro por un grupo de empresarios. Su estructura piramidal naturalmente reduce las instancias de fiscalización, y presumiblemente permiten sesgo. La segunda razón es que la CEP es reconocida como la encuestadora más seria del medio. En el ranking de encuestadoras de tresquintos es asignada un buen puntaje por (1) tener un buen diseño metodológico y (2) tener predicciones acertadas.

Si Adimark no tiene un sesgo pro-Alianza sus encuestas deberían mostrar resultados similares a los resultados de la CEP. Por el contrario, si Adimark sí tiene un sesgo pro-Alianza sus encuestas deberían mostrar resultados que favorecen significativamente más a la Alianza que los resultados de la CEP. Para probar esto, uso el índice de aprobación presidencial, probablemente el indicador más influyente de la encuesta (y por ende si hubiera una intención de sesgo, sería el índice que se buscaría intervenir). Y para aumentar lo robusto de la inferencia, comparo los resultados de esta pregunta entregada por Adimark con los resultados de la misma pregunta entregada por la CEP en dos periodos distintos, durante el gobierno de Bachelet, y luego durante el gobierno de Piñera.

Al mirar índices de aprobación presidencial desde 2006, los resultados de la encuestadora Adimark son similares a los resultados de la encuestadora CEP. Es decir, cuando sube la aprobación presidencial en una encuestadora, sube en la otra, y cuando baja la aprobación presidencial en una encuestadora, baja en la otra. Sin embargo, al mirar los índices de forma más detenida se aprecia que los resultados entre ambas encuestadoras se asimilaron más durante el gobierno de Bachelet que durante el gobierno de Piñera. Es decir, mientras que en el gobierno de Bachelet Adimark y CEP estimaron, en promedio, el mismo índice de aprobación presidencial. En cambio en el gobierno de Piñera Adimark estimó índices significativamente más altos que los de la CEP.

Si Adimark no tuviera un sesgo pro-Alianza, anticiparía que las encuestas del CEP (barras rojas) estarían normalmente distribuidas alrededor de las encuestas de Adimark (línea azul)–algunas arriba y otras abajo. Mientras que esto sucede en 2006-2010, no sucede en 2010-2012. En el segundo periodo, todas las barras rojas caen significativamente más abajo que la línea azul. Esto implica que el comportamiento de las encuestadoras es diferente en ambos gobiernos. Si durante 2006-2010 los resultados se habrían desviado, entonces no sería extraño que se desviarán durante en 2010-2012. Pero dado que la tendencia comienza en 2010, lo razonable es presumir que algo sucedió en 2010 que cambió el comportamiento de la encuestadora.

De lo anterior se infiere que Adimark tiene un sesgo pro-Alianza desde el cambio de gobierno en 2010. La pregunta que sigue, entonces, es de dónde proviene ese sesgo. La respuesta es limitada. Puede provenir de (1) una intervención intencional de quienes manejan la encuesta, o (2) de un evento fortuito–incluso para quienes manejan la encuesta–que se da en alguna etapa entre la recolección de datos y la publicación de la encuesta. Mientras que la intervención intencional se puede observar, el evento fortuito no. Por eso, solo se puede probar directamente lo primero. Si no hay evidencia de intervención intencional, lo residual es que la fuente del sesgo pro-Alianza debe ser por eventos fortuitos.

Presumiendo que la recolección de datos de Adimark es aleatoria, la primera parte que habría que observar es la lectura de datos. También conocido como el proceso de ponderación, es cuando los datos recopilados se traducen a una muestra representativa de la población. Si la encuestadora es metodológicamente responsable, pondera la muestra de sus encuestas de forma proporcional a la población. Por ejemplo, si el 100% de la población esta compuesta por 40% de personas de clase baja, el 100% de la muestra debe representar ese 40%. Si una muestra se desvía de la población, la muestra no es representativa de la población. Ergo, una forma de producir sesgos es intervenir el ponderador para representar una muestra no representativa de la población.

El cuadro de abajo muestra los resultados de aprobación presidencial del mes de Julio para Adimark y CEP. Dado solo la encuesta CEP reporta sus ponderadores, tuve que simular la combinación de ponderadores de Adimark. Para que la aprobación presidencial sea de 36%, Adimark debe sobre-estimar en 6% a la clase alta, sobre-estimar en 1% a la clase media y sub-estimar en 7% la clase baja. Esta distorsión va en la línea del argumento. Es decir, Adimark puede estar modificando su ponderador para distorsionar resultados. El problema es que la magnitud es baja. Si Adimark usará el ponderador de CEP, la aprobación presidencial bajaría solo 1 punto (de 36 a 35). Si CEP usará el ponderador de Adimark, la aprobación presidencial subiría solo 1 punto (de 27 a 28).

Aunque Adimark estuviera manipulando el ponderador, no sería lo que explica en su totalidad el sesgo pro-Alianza. No sería posible incluso si también manipulara el ponderador de edad, educación y otras variables que comúnmente se usan de control. Esta evidencia muestra que debe haber una explicación alternativa para la sobre-estimación de sus resultados. Esto cobra sentido cuando se observa la tendencia en el índice de desaprobación. Durante el gobierno de Piñera, Adimark también sobre-estimó todos los índices de desaprobación. Si se insistiera en probar que el sesgo es intencional hay que presumir que Adimark infla todo sus resultados con la intención de que solo el índice de aprobación tenga un impacto en la agenda. Plausible, pero improbable.

La fuente del sesgo pro-Alianza de Adimark es solo parcialmente atribuible a una ponderación irresponsable de los datos. (Sabemos que la clase socio-económica alta no es 11% de la población, y que la clase socio-económica baja no es 35% de la población). Lo más probable, entonces, es que el sesgo provenga de un evento fortuito en alguna etapa entre la recolección de datos y la publicación de la encuesta. Esto significa que la encuestadora contiene un sesgo de fábrica (lo que yo denomino el error-no-forzado). Por ejemplo, puede ser que la muestra este sesgada (e.g., se catalogue a encuestados D/E como ABC1), o que el método para hacer las entrevistas contengan algún patrón (e.g., hogares con teléfono fijo tienen preferencias significativamente distintas a hogares sin teléfono fijo).

La conclusión es que si bien Adimark sí tiene un sesgo pro-Alianza, no es completamente intencional. El sesgo pro-Alianza (por un margen de alrededor de 5-10% fuera del margen de error!) se debe a algo particular a la metodología de la encuestadora. Si bien tengo algunas ideas de lo que podría ser, es difícil saber sin conocer más detalles de la encuestadora. Lo más probable es que quienes manejan la encuesta lo saben y no han tomado medidas para reducir –mucho menos neutralizar–el error en sus estimaciones. Esto es grave, en el sentido que es probable que no solo los índices de aprobación presidencial contengan error, pero también otros índices que entrega la encuesta. La consecuencia es que las muchos piensen que el gobierno esta mejor evaluado de lo que en verdad está.

Para notas metodológicas sobre este artículo, pinchar aquí.

Notas Metodológicas sobre “El Sesgo pro-Alianza de la Adimark”

Las siguientes notas metodológicas son sobre el artículo “El Sesgo pro-Alianza de la Adimark”.
  1. ¿Tienes algo personal contra Adimark? No, no tengo nada personal contra Adimark. Solo llama la atención que al comparar los índices de aprobación presidencial de Agosto de 2012, Adimark se aleja significativamente de la CEP y la UDP. Es el outlier (el odd one out). En estos casos el cánon estadístico es (1) eliminar la observación de Adimark, o (2) indagar por qué es un outlier. Lo primero equivale a condenar sin dar un juicio justo. Yo hago lo segundo. Esto le da una oportunidad a Adimark de demostrar, con evidencia, que no tiene un sesgo, y que son CEP y UDP los outliers.
  2. ¿Pero desde el comienzo dudas de Adimark? Eso es irrelevante. Desde el comienzo del artículo sugiero que “Adimark es inocente hasta ser encontrado culpable”. En términos metodológicos esto significa que el artículo está estructurado de la misma forma que un paper académico, donde se acepta la hipótesis nula (existe un sesgo pro-Alianza de Adimark) por defecto si no se puede comprobar la hipótesis alternativa (sí existe un sesgo pro-Alianza de Adimark) con evidencia.
  3. ¿Por qué comparar a Adimark con la CEP y no con otra encuestadora? El artículo está, en gran medida, basado en el hecho que la encuestadora CEP representa un indicador fidedigno de la realidad, por lo cual cualquier desviación de Adimark representaría un sesgo. Además de los argumentos explícitos en el texto, es importante considerar que la CEP es un buen proxy porque (1) es de las pocas encuestadoras que liberan su base de datos (junto a la UDP), y (2) porque tiene encuestas multi-anuales estables desde desde 2006 (año en que comenzó a operar Adimark).
  4. ¿Por qué no comparar a Adimark con UDP o CERC? CERC y UDP son buenas encuestadoras, según el ranking de encuestadoras de tresquintos  (para ver, pinchar aquí). Pero por un lado, la UDP solo tiene 1 encuesta anual, lo que reduce la capacidad comparativa. Y por otro lado, la CERC aun no libera sus datos de forma pública, lo que podría generar duda en algunos lectores. En todo caso, la correlación entre las encuestas de CERC y CEP, desde 1990, es alta (R²=0.999), lo cual indica que ambas encuestadoras obtienen resultados significativamente similares, a pesar del escenario de sondeo. (Disclosure: el director de la encuestadora CERC me dio acceso a todas sus encuestas desde 1990, los cuales he revisado sin encontrar irregularidades).
  5. Dices que el sesgo pro-Alianza de Adimark se puede deber a un “sesgo de fábrica”. Sí, el sesgo de fábrica es inherente a la metodología de cada encuestadora. Es parte del error que no esta contemplado en el margen de error (o lo que yo denomino el error-no-forzado). Entre los típicos sesgos de fábrica: Sin respuesta (las características de aquellos quienes aceptan ser encuestados pueden ser marcadamente distintas a las de aquellos que se niegan a ser encuestados); Respuesta parcializada (las respuestas dadas por los encuestados no reflejan sus verdaderas creencias); Redacción de preguntas (la redacción de preguntas, el orden en las cuales estas son preguntadas y el patrón en el que las respuestas alternativas son ofrecidas, puede influir en los resultados); Errores provocados por los grupos que son objeto de estudio (encuestas telefónicas tienen un margen de error inherente puesto que no todos tienen teléfono fijo).
  6. Si tuvieras que sugerir el “sesgo de fábrica” de Adimark, ¿cuál sería y por qué? Diría que hay un problema importante en hacer encuestas por teléfono. En Chile no todos tienen líneas fijas, lo cual naturalmente implica que solo algunos pueden contestar. Aquí es importante identificar las características de quienes tienen teléfonos fijos (el universo de gente “encuestable”). En este caso son hogares sedentarios, típicamente de clase media o alta; no domicilios volátiles, típicamente de clase baja. Casualmente, Piñera tiene mayor aprobación en la clase alta y media-alta que en la clase media-baja y baja, lo cual significaría un sesgo a su favor. Las encuestas presenciales de CEP, CERC y UDP, en cambio, no tienen este sesgo.
  7. Suponiendo que la mayor parte del sesgo pro-Alianza es explicado por el “sesgo de fábrica”, entonces ¿por qué en el gobierno de Bachelet no se sobre-estimaron también los índices de aprobación presidencial? Si Adimark cambió su metodología en 2010, es simple explicar el sesgo (y es lo que se infiere del artículo). Si Adimark no cambió su metodología en 2010, es difícil explicar el sesgo. Ahora bien, debemos suponer que si efectivamente cambió su metodología tampoco lo sabríamos. Hasta el momento gran parte de lo que pasa en Adimark, queda en Adimark. Esto, finalmente, es lo que levanta sospechas. No poder acceder a cosas tan simple como sus ponderadores, y mucho menos a sus datos, es lo que causa que los escépticos sean aun más escépticos.

CasenGate

Publicado en La Tercera

Los gobiernos tienen un incentivo para no intervenir en encuestas de caracterización socioeconómica, pues si lo hacen no pueden asignar los recursos de forma eficiente. Por eso, por lo general, si es que existe algún tipo de intervención, es en la forma de leer los resultados de la encuesta, donde solo se distorsiona el mensaje. El gobierno de Piñera, específicamente el ministerio de Desarrollo Social, intervino en ambas. Intervino en la encuesta, e intervino la forma en que se comunicaron los resultados. Erróneamente incluyó en una de sus preguntas un bono extraordinario como ingreso regular, y erróneamente comparó los resultados de la encuesta de 2011 con la de 2009.

Estas dos cosas convirtieron la publicación de la encuesta Casen en un escándalo político de dimensión nacional, un verdadero CasenGate. Surgen dos preguntas, entonces, sobre los extraordinarios hechos que llevaron a la Casen a convertirse en un CasenGate. Primero ¿por qué el gobierno celebró los resultados de la encuesta, presumiblemente sabiendo que las inferencias estadísticas que estaban haciendo eran erróneas? Y segundo ¿por qué el gobierno no se retractó cuando se le acusó de irregularidades, presumiblemente pudiendo bajar el costo político de convertir a la Casen en un CasenGate? La respuesta a estas preguntas se esconde en la cadena de hechos que transcurrieron desde el 20 de Julio.

El día 20 de Julio se dieron a conocer los resultados de la encuesta Casen 2011. Los resultados mostraron que Piñera había logrado reducir la pobreza e indigencia. En solo dos años de gobierno, los ministros Felipe Kast (de Mideplan) y Joaquín Lavín (de Desarrollo Social) habían logrado sacar a 99.000 personas de la pobreza (de 15,1% a 14,4%) y a 148.000 personas de la indigencia (de 3,7% a 2,8%). Las implicancias sociales y políticas no se hicieron esperar. Primero, que un gobierno de centro-derecha sí puede reducir la pobreza, a pesar de lo que opina la centro-izquierda. Y segundo, que el gobierno de Piñera sí está consiguiendo resultados importantes, a pesar de su baja popularidad.

La reacción de la oposición no se hizo esperar. El tono del debate lo pusieron ONGs, como la Fundación para la Superación de la Pobreza, que cuestionaron la forma en que se mide pobreza, pero validaron los resultados de la encuesta. Jaime Quintana, el presidente del PPD, atacó la forma en que se normalmente se mide pobreza y manifestó la urgencia de tener estudios complementarios. Gabriel Silber, el jefe de la bancada de diputados de la DC, se enfocó en mostrar que la encuesta estaba obsoleta. Clarisa Hardy y Paula Quintana, titulares de Mideplan durante el gobierno de Michelle Bachelet, cuestionaron que aún no se actualizara la línea de pobreza.

En general las criticas respondieron a un ataque político premeditado, que el gobierno naturalmente esperaba. Ni lo detractores más críticos del gobierno sorprendieron. (Los economistas de la Fundación SOL solo pidieron seguir mejorando las condiciones sociales). La contra-respuesta del gobierno, probablemente preparada con anterioridad a la publicación de la encuesta, se entregó estratégicamente. Mientras que las criticas políticas las manejaron Andrés Chadwick y Pablo Longueira, las criticas técnicas y sociales las manejaron Felipe Larraín y Joaquin Lavín. La defensa fue fácil. Solo tuvieron que defender la encuesta (y la CEPAL) y entregar un plan para seguir reduciendo la pobreza.

El problema se desató el 14 de Agosto, en un seminario convocado por la CEP. Dante Contreras, Director del Departamento de Economía de la Universidad de Chile, levantó algunas preguntas sobre la encuesta. Dos días después Andrés Velasco extendió la critica. Aquí, el debate se tornó técnico. Ambos advirtieron que podría haber un sesgo al no entregar el margen de error y al dividir la encuesta en dos muestras diferentes. Mientras que no entregar el margen de error podría responder a una estrategia para esconder que no hubo una diferencia significativa en niveles de pobreza, las dos muestras podrían responder a una estrategia para incorporar un bono en el sueldo regular.

El 18 de Agosto un grupo de 30 economistas encabezados por Eduardo Engel firmaron una carta exigiendo que el gobierno revelará tanto el margen de error de la encuesta como el razonamiento tras la división de la encuesta en dos muestras. El 19 de Agosto, en su espacio semanal en El Mercurio, Carlos Peña escribió una artículo titulado “¿Miente el Presidente sobre la Casen?”, basada en las preguntas levantadas por Dante Contreras, Andrés Velasco y Eduardo Engel. Allí implícitamente cuestionó si el gobierno intencionalmente distorsionó los resultados de la encuesta Casen para mostrar una reducción en la pobreza, cuando en realidad no la hubo.

El mismo 19 de Agosto, probablemente ‘dateada’ por fuentes de El Mercurio sobre el artículo de Peña, la sub-secretaria Soledad Arellano, escribió una columna respondiendo algunas de las preguntas de Peña. Durante el resto de la semana cartas fueron y volvieron entre Peña, y Lavín y Arellano. El problema parecía decantar, cuando el 31 de Agosto CIPER publicó un reportaje sobe el tema. La nota incentivó una respuesta de los técnicos que estuvieron a cargo de la encuesta, Juan Carlos Feres de la CEPAL y Andrés Hernando del MDS. (Coincidentemente ambos renunciaron a sus respectivos cargos, y dejaron sus trabajos el 31 de Agosto).

Como parte del equipo que implementó la encuesta, Hernando fue fundamental para entender lo que pasó con la Casen. Los detalles que entregó sobre el proceso, y razones de su renuncia respondieron más preguntas sobre lo que pasó con la Casen de los que contestaron Lavín o Arellano. Hernando dio a conocer dos hechos centrales para entender el debate sobre la encuesta Casen. Primero, que el gobierno midió la pobreza en 2011 con una pregunta que impide compararla con la pregunta que midió la pobreza en 2009, y (2) el gobierno no mensualizó el bono, lo que significó que en algunos casos se consideró el bono extraordinario de 10.000 pesos como un ingreso mensual normal.

En retrospectiva, puedo intentar responder las dos preguntas planteadas más arriba. En cuanto a la primera pregunta (¿por qué el gobierno celebró los resultados de la encuesta, presumiblemente sabiendo que las inferencias estadísticas que estaban haciendo eran erróneas?), es difícil saber con exactitud cuál fue la motivación del gobierno para celebrar sabiendo que no habría que hacerlo. (Controlando por los dos hechos centrales que dio a conocer Hernando, la pobreza no varío con respecto a 2009). Cualquier técnico estadístico con nociones básicas de metodología sabría que lo que se hizo estuvo mal. Por lo que no es un tema de ingenuidad, es una tema de intencionalidad.

Mi intuición es que el gobierno celebró los resultados, sabiendo que estaban mal inferidos, porque necesitaba presentar un avance. En sus dos años de gobierno ha tenido pocas políticas públicas emblemáticamente exitosas, y una reducción en la pobreza podría llenar ese espacio. Mostrar que un presidente de centro-derecha puede reducir pobreza en solo dos años es algo que permanece en la retina de los votantes. Hasta ahora el gobierno se ha esforzado en insistir que no es importante que el presidente sea popular mientras pueda lograr resultados. Lamentablemente, la insistencia ha opacado el sentido común.

Lo que trae la segunda pregunta (¿por qué el gobierno no se retractó cuando se le acusó de irregularidades, presumiblemente pudiendo bajar el costo político de convertir a la Casen en un CasenGate?). Aquí también es difícil saber con exactitud por qué el gobierno no admitió que habían problemas con la lectura de la encuesta. Tuvo al menos tres oportunidades claras de rectificarse. Primero, cuando se publicó la encuesta; podría haber admitido cambios metodológicos. Segundo, en el seminario organizado por la CEP; podría haber zanjado el tema. Tercero, tras la carta de los 30 economistas; cuando ya estaba claro que el tema iba implotar.

La presión de presentar resultados no sólo aprieta al gobierno de Piñera, aprieta a cualquier gobierno de 4 años sin re-elección. Por eso, Piñera y sus ministros deberían usar su tiempo en los medios para incentivar su re-elección en vez de presentar resultados de encuestas sesgadas. Deberían mostrar que es difícil reducir la pobreza en un cuatrienio, y que un segundo gobierno de la Alianza podría ayudar a conseguir el cambio anhelado. No solo es probable que la gente prefiera un gobierno honesto, pero también que un gobierno honesto pueda combatir de mejor manera la pobreza. Al fin y al cabo, la evidencia muestra que la pobreza se combate de manera más eficiente con planes de largo plazo.

Indicador Único

Tras publicar el Ranking de Encuestas 2.0, me llegaron varias comentarios vía e-mail. Una de las preguntas más recurrentes fue respecto a la utilidad del ranking. En este artículo contesto esa pregunta. Explico que su principal uso será para crear un indicador único de intención de voto. Para esto, voy a combinar el error-no-forzado de cada encuestadora con las características particulares de sus respectivas encuestas.

En términos prácticos, la lógica es la siguiente. Todas las encuestadoras tratan de predecir el resultado de una elección por medio de encuestas. Una forma de interpretar estos resultados es individual y directamente. Sin embargo, porque existen varias encuestas podemos usarlas todas para extraer la información relevante que nos entrega cada una. Para hacer esto, se agregan los datos de todas las encuestas en un indicador único (en este caso de intención de voto).

Ahora bien, dado las características particulares de cada encuesta (diseño metodológico, tamaño de muestra y fecha de trabajo de campo), es metodológicamente incorrecto ponderar sus datos mediante una regresión local o una media aritmética. Al agregar las encuestas, sin considerar sus características particulares, se introduce error. Por eso, propongo ponderar sus diferencias de acuerdo al error que suelen introducir, de forma que:

PESO DE CADA ENCUESTA =  Tamaño de la Muestra + Encuestadora + Fecha de Trabajo de Campo

En esencia, esta fórmula sostiene que existen tres fuentes de error en cualquier encuesta. La primera fuente de error es el tamaño de la muestra. Esto es funcional al margen de error. Por ejemplo, solo por diseño metodológico una encuesta que entrevista a 800 personas va fallar en sus predicciones por 3,4%, mientras que una encuesta que entrevista a 1,500 personas va fallar en sus predicciones por 2,5%. Esto se calcula con la siguiente fórmula (con nivel de confianza de 95%):

98 * n ^ (-.5)

La segunda fuente de error es el diseño metodológico particular de cada encuestadora. Este es el error que no explica el margen de error, o lo que yo denomino el error-no-forzado. Por ejemplo, si una encuesta con margen de error de 3% estima que la diferencia entre el candidato favorito y el segundo lugar es de 11%, y en la elección la diferencia es de 14,5%, esa encuesta tiene un error-no forzado de 0,5% ([14,5-11]-3). Esto se calcula a partir del ranking de encuestas.

La tercera fuente de error es la fecha del trabajo de campo de cada encuesta. Mientras más lejos sea de la elección, aumenta la probabilidad que sus predicciones estén más lejos de la realidad. Por ejemplo, si la misma encuesta de arriba fue hecha en Octubre para una elección en Diciembre, puede ser que los 2 meses entremedio la encuesta y la elección expliquen el 0,5% de su error-no-forzado. Esto se calcula dándole una esperanza de vida a cada encuesta:

0.8 ^ Número de meses desde que la encuesta fue publicada

Indicador Único

A medida que una encuesta se publica, se agrega a la matriz de datos. Por ejemplo, si la encuesta es nueva se le asigna un peso de 1. Si su encuestadora tiene un error-no forzado de 2,5%, se calcula su peso en relación a la mejor encuesta (que tiene un error-no-forzado de 0,7%), en este caso 0,007/0,025 = 0,28. Y si su tamaño de muestra es 1,505, se calcula su peso a partir de lo que se estima sería un tamaño de muestra promedio, 0,0294/0,0253=1,16.

Luego, se multiplican el peso de cada fuente de error de esa encuesta (1*0,28*1,16=0,32) para dar con un peso para esa encuesta. Eso se normaliza (dividiendo el peso de esa encuesta con el promedio del peso de todas las encuestas) para dar con la ponderación final. Finalmente, se multiplica el parámetro estimado de esa encuesta con su ponderación final para calcular su estimación ponderada. Esto se hace con todas las encuestas, y luego se promedia.