sexta-feira, 9 de agosto de 2013

Filtrar o ruído das sondagens

Escrito conjuntamente com Pedro Magalhães.

Analistas políticos encontram muitas vezes dificuldades em lidar com a imensa variabilidade nas sondagens. A principal dificuldade é mesmo compreender o motivo de tal variabilidade. Se hoje observarmos uma sondagem com resultados radicalmente diferentes da maioria das anteriores, deveremos interpretar essa diferença como sendo o resultado de uma forte alteração da opinião pública ou, pelo contrário, olhar para esse resultado como um mero resultado estatístico de uma sondagem que, pela sua própria natureza é sempre incerta?
Intuitivamente a resposta é simples. Se presumirmos que a opinião pública é estável ao longo do tempo, então a melhor abordagem é, simplesmente, calcular uma média das várias sondagens (eventualmente, ponderada pelo tamanho da amostra de cada uma). Se, pelo contrário, admitirmos que a opinião pública é extremamente volátil ao longo do tempo, então o melhor será olhar para os resultados da última sondagem e praticamente esquecer as anteriores.
A dificuldade em avaliar o que está descrito no parágrafo anterior é óbvia. Como separar a variabilidade da opinião pública da variabilidade das sondagens quando a única forma de medir a opinião pública é recorrendo a sondagens? Haverá forma de interpretar de forma sistemática estatisticamente rigorosa as novas informações que nos chegam diariamente? Felizmente, a resposta é sim.
No Público de hoje apresentamos a ideia geral, mas aqui damos uma explicação mais detalhada. A técnica que vamos usar, o filtro de Kalman, nasceu em 1960 na engenharia e é actualmente usada em todos os domínios científicos. O filtro de Kalman original já foi generalizado em várias direcções. Nas ciências sociais, o filtro de Kalman é bastante usado em modelos de estimação do estado latente (state-space models) — lamentamos o jargão, mas não sabemos como evitá-lo.
A ideia principal destes modelos, aplicados ao nosso caso, é considerar que há dois tipos de variáveis. Um tipo de variáveis, a que chamamos variáveis latentes, que não observamos directamente — no nosso caso a opinião pública — e um tipo de variáveis que observamos e que são uma medida imperfeita das variáveis não observadas — no nosso caso, as sondagens.
O modelo a estimar reduz-se então a um sistema de duas equações. Uma equação — a que chamamos equação de transição — descreve a evolução do estado latente, ou seja da opinião pública. A outra descreve a relação entre o estado latente e a variável observada, ou seja entre a opinião pública e as sondagens.
No nosso modelo, vamos considerar que, se nada de especial acontecer, então a opinião pública não muda. Ou seja, a percentagem que apoia um dado partido hoje é igual à de ontem. Se houver algum choque externo, então a percentagem de apoiantes pode mudar. Matematicamente:

%Partidot = %Partidot-1 +  ut                              (1)

em que ut representa os choques externos ou inovações, que presumimos serem gaussianos com média zero e variância σu2. Para já presuma que sabemos o valor de σu2.
A segunda equação capta relação entre as sondagens e a realidade. Aqui vamos presumir que cada sondagem é uma estimativa não enviesada da realidade que, no entanto, está sujeita a um termo de erro:

%Sondagemt = %Partidot + εt                            (2)

em que εt representa o termo de erro, que, mais uma vez, presumimos ser gaussiano de média zero. Neste caso, em princípio, saberíamos exactamente a variância do termo de erro: uma sondagem feita no dia t com Nt entrevistados que atribuísse ao partido uma percentagem de votos πt teria variância de σ2ε,t = πt(1 – πt)/Nt.
Com excepção de σu2, todos estes dados estão disponíveis e já poderíamos processar de forma bastante eficiente a informação oferecida por cada nova sondagem. Mas, na verdade, podemos fazer um pouco melhor. Infelizmente, para explicar exactamente o que fazemos, teremos de recorrer a uma linguagem mais técnica.
Em primeiro lugar, podemos aproveitar o facto de podermos facilmente generalizar o modelo para analisar várias variáveis em simultâneo. Pelo que podemos considerar um vector com as intenções de voto de todos os partidos, bem como considerar simultaneamente as sondagens para os cinco partidos com representação parlamentar, podendo ainda considerar um sexto “partido” chamado OBN (Outros Brancos e Nulos).
Tudo se resume ao seguinte modelo a estimar por máxima verosimilhança:

Yt = Zt + νt,        νt ~ N(0,Σν,t)                              (3)
Zt = Zt-1 + ωt,   ωt ~ N(0,Σω)                                (4)

em que Yt é um vector com as sondagens para os seis partidos sob análise (PS, PSD, BE, CDS, CDU e OBN), Zt é um vector com o valor latente de cada um dos partidos, νt é o vector com os termos de erro associados às sondagens e ωt o vector com as inovações que afectam cada um dos partidos.
Note-se que as únicas variáveis observáveis são as sondagens (Yt). Todas as outras são estimadas. A matriz de variâncias e covariâncias associadas aos erros das sondagens é dada por Σν,t e, como o subscrito indica, varia de sondagem para sondagem. Na diagonal principal, temos as variâncias, cujo valor teórico será yi,t (1 – yi,t)/Nt, para i = PS, PSD, BE, CDS-PP, CDU e OBN. As covariâncias teóricas também são conhecidas: –yi,t yj,t /Nt.
Infelizmente, a variância do erro amostral será maior do que yi,t (1 – yi,t)/Nt. Este valor para a variância é um valor teórico mínimo que só seria possível se as sondagens fossem feitas com um rigor impossível de garantir, não sofrendo de nenhum dos problemas de que as sondagens tipicamente padecem (erros de cobertura da amostra, erros de medição, etc.). Assim, ao estimarmos o modelo consideraremos que a variância do termos de erro será igual a σ2ν,t = yi,t (1 – yi,t)/Nt + αi., em que αi será uma constante não negativa a estimar. Vale a pena referir que os vários αi’s estimados são estatisticamente bastante significativos, com excepção do associado à CDU. Tal indica que o erro não-amostral é muito importante e que poderá ainda haver margem para as empresas de sondagem melhorarem nos seus métodos de amostragem e de inquirição, mesmo tendo em conta as limitações de tempo e de recursos que este tipo de trabalho impõe.
O mesmo exercício foi feito para as covariâncias. No entanto, as constantes acrescentadas às 15 diferentes covariâncias teóricas deram quase todas estatisticamente não significativas, pelo que por uma questão de parcimónia, resolvemos excluí-las do modelo. Também não incluímos no modelo variáveis que permitissem considerar os chamados house effects, o que implica que todas as casas de sondagens são tratadas da mesma forma. É algo que poderemos mudar no futuro, mas para já consideramos ser a melhor opção, especialmente à luz de trabalhos anteriores. O pressuposto de que as variáveis latentes seguem um passeio aleatório também poderia ser relaxado para, por exemplo, um processo auto-regressivo mais geral, mas a verdade é que a literatura demonstra que os ganhos com tal modelização são mínimos.
A nossa modelização é diária. Isto quer dizer que sempre que sai uma nova sondagem, actualizamos as nossas previsões relativamente ao estado de cada um dos partidos. Consideramos que o dia da sondagem corresponde ao último dia de trabalho de campo da mesma. Naturalmente, em dias em que não se revelam novas sondagens, não há novas informações pelo que a estimativa não se altera. No entanto, o intervalo de confiança em torno da estimativa aumenta dado que com o decorrer do tempo aumenta a incerteza a ela associada. Desta forma, em cada momento do tempo apresentamos a melhor estimativa possível (bem como o seu intervalo de confiança) dada a informação disponível até ao momento.
Os gráficos acima resultam da estimação do modelo referido com base em todas as sondagens publicadas desde as últimas eleições legislativas.
A partir de Outubro, no âmbito do projecto POPSTAR (Public Opinion and Sentiment Tracking, Analysis, and Research, www.popstar.pt, uma parceria entre o Instituto de Ciências Sociais e o INESC-ID, da ULisboa, a Faculdade de Engenharia da Universidade do Porto e a Escola de Economia e Gestão da Universidade do Minho apoiada pela Fundação para a Ciência e Tecnologia, estes e outros indicadores estarão disponíveis diariamente para a consulta do público em geral.
Nunca é demais realçar que o que estamos a fazer mais não é do que um método tecnicamente sofisticado de agregação de sondagens. Tal como uma refeição não pode ser melhor do que os ingredientes que a compõem, as nossas previsões só podem ser exactas na exacta medida em que as sondagens nos dêem uma fotografia não enviesada da realidade. Contudo, esperamos contribuir para que, de cada vez que sai uma sondagem, possamos olhar para ela não como um ilusório retrato definitivo da opinião pública, mas sim como uma (importante) fonte de informação que ajuda a compor um retrato mais geral e mais completo da opinião pública num determinado momento.

Sem comentários:

Enviar um comentário

Não são permitidos comentários anónimos.