domingo, 4 de agosto de 2013

Amostras e populações, ou quão pequeno é o infinito

Há a ideia de que uma sondagem a uma população maior exige uma amostra maior. É, por exemplo, muito comum ouvir jornalistas dizer que as sondagens nos Estados Unidos não têm qualquer credibilidade dado que são feitas com base em 1000 entrevistas, tantas quantas uma sondagem que seja feita em Portugal. E, claro, rematam dizendo que a população americana é 30 vezes maior do que a portuguesa. Esta ideia está errada, como explico a seguir, evitando recorrer a grandes fórmulas matemático-estatísticas.
Suponham que num país com uma população de 10 milhões 50% são pelo partido de direita (PD) e 50% pelo partido da esquerda (PE). E suponham que num país com 300 milhões de habitantes se passa exactamente o mesmo.
Suponhamos que é feita uma sondagem em cada país entrevistando exactamente uma pessoa seleccionada aleatoriamente entre a população. Em qual dos países a sondagem tem menor margem de erro? A resposta é que a margem de erro é exactamente a mesma. Em cada país a probabilidade de o único entrevistado ser do PE ou do PD é de exactamente 50%. Suponhamos agora que a sondagem é feita a duas pessoas e, para facilitar as contas, admita-se que a primeira pessoa (em ambos os países) escolheu o PE. Como é que isso afecta a segunda pessoa entrevistada? No país mais pequeno, a probabilidade de escolher o PD aumentou de 50% para 50,000005% = 5.000.000/(10.000.000-1). No país maior, passou para 50,00000017% = 150.000.000/(300.000.000-1). Este aumento da probabilidade da segunda pessoa escolhida ser do PD quando a 1ª foi do PE é uma distorção introduzida que é inevitável numa população finita. Suponhamos agora o caso extremo em que, por um absoluto resultado do acaso, os primeiros 999 entrevistados escolhem o PE. Como é que isso vai afectar a probabilidade do milésimo? No país mais pequeno, a probabilidade do 1000º escolher o PD será exactamente de 50,004995% = 5.000.000/(10.000.000-999). No país maior será de 50,00017% = 150.000.000/(300.000.000-999).
Repare-se que, mesmo no caso extremo em que os primeiros 999 escolheram todos da mesma forma, para todos os efeitos práticos, a probabilidade do 1000º escolher um partido ou o outro é de 50% (o mesmo que se teria se a população fosse infinita). A conclusão é que, para todos os efeitos práticos, 10 milhões ou 300 milhões é suficientemente próximo do infinito, para que a mesma amostra tenha a mesma qualidade num ou noutro caso.
As fórmulas para calcular os erros amostrais estão disponíveis online e não vou maçar o leitor com elas. O que faço no gráfico é suficiente para ilustrar o meu ponto. Calculo para diferentes populações qual deve ser o tamanho da amostra para que o erro amostral seja sempre de 2,5%.
Para uma população de 100 mil pessoas (terceira coluna) são necessárias entre 1500 e 1550 entrevistas — 1513, para ser preciso. Para uma população de 7 mil milhões (última coluna) são necessárias um pouco mais de entrevistas mas, mesmo assim, abaixo das 1550 — 1536, para ser preciso. Ou seja, quer seja para a cidade de Coimbra, com 100 mil habitantes, quer seja para o mundo inteiro, com 7 mil milhões de habitantes, se se quiser o mesmo grau de precisão, o tamanho da amostra deve ser sensivelmente o mesmo.

7 comentários:

  1. A minha dúvida é se a nossa amostra tem critérios como repartição geográfica, idades, etc... isto não reduz a margem de erro? Isto podia justificar a aproximação de valores reais.

    Na verdade, a amostra não é aleatória. Não se pega em números do cartão cidadão e sorteia-se e depois vamos à procura. Existem sub-amostras.

    Eu não percebo muito disto, mas fiquei com esta dúvida. E se faz sentido, isto pode fazer com que a amostras de países maiores de mil habitantes podem ser menos assertivas? (porque o critério deverá ser menor na constituição de sub-amostras)

    ResponderEliminar
    Respostas
    1. "A minha dúvida é se a nossa amostra tem critérios como repartição geográfica, idades, etc... isto não reduz a margem de erro? Isto podia justificar a aproximação de valores reais."

      Se fosse feita uma verdadeira estratificação, isso seria verdade. Mas a margem de erro era reduzida só um pouco, não seria nada de extraordinário.

      "Na verdade, a amostra não é aleatória. Não se pega em números do cartão cidadão e sorteia-se e depois vamos à procura."

      Verdade, isto seria uma sondagem feita em condições ideais.

      "Eu não percebo muito disto, mas fiquei com esta dúvida. E se faz sentido, isto pode fazer com que a amostras de países maiores de mil habitantes podem ser menos assertivas?"

      Não é por aí. A estratificação tanto pode ser feita numa sondagem a uma câmara (por freguesia, por exemplo), como a um país (por distrito, por exemplo), como numa sondagem europeia (estratificação por país).

      Eliminar
    2. A última frase, não queria dizer mil habitantes, mas a comparação entre Portugal e EUA, por exemplo. Óbvio que a estratificação é feita nos EUA, mas uma sondagem de mil habitantes (ou o nr. em que a margem de erro seja exactamente igual em cada caso) nos EUA pode ser menos assertiva nessa estratificação do que a de Portugal, ou não?

      Estas dúvidas podem ser um bocado básicas, mas sigo também o Margens de Erro há muito tempo e sempre tive a mesma sensação contrária ao que é mediático. As sondagens acertam demasiado? Podemos achar que a margem de erro é maior do que a realidade estatística mostra? (nota: obviamente, não fiz nenhum cálculo, é apenas percepção)

      Eliminar
  2. "Óbvio que a estratificação é feita nos EUA, mas uma sondagem de mil habitantes (ou o nr. em que a margem de erro seja exactamente igual em cada caso) nos EUA pode ser menos assertiva nessa estratificação do que a de Portugal, ou não?"

    Não há motivos para isso.

    "Podemos achar que a margem de erro é maior do que a realidade estatística mostra?"

    Como verá num próximo 'post' que eu e o Pedro brevemente colocaremos no ar, é isso precisamente o que indicam as nossas contas. A 'verdadeira' margem de erro é maior do que aquilo que seria estatisticamente desejável. Mas, para já, não quero adiantar mais, sobre isso.

    ResponderEliminar
  3. Quando falo em ser menos assertiva é que se dividirmos a amostra por regiões e - não sei como se faz no EUA, é um "suponhamos" - no EUA por estados ou regiões mais vastas, isso possa influenciar.

    O que me parece um bocadinho mais claro, se a minha percepção não for muito traiçoeira, é que no EUA as sondagens têm desvios maiores que em Portugal. Dentro das margens de erro, provavelmente, mas acabam por ser menos assertivas. Estarei certo?

    Obrigado pelas respostas e fico curioso com esse artigo. ;)

    ResponderEliminar
    Respostas
    1. Suponhamos uma amostra de 1000 pessoas e que faz uma estratificação por 6 regiões: regiões autónomas, Alentejo, Algarve, Grande Lisboa, centro e norte interior e centro e norte litoral. Não dá para estratificar mais, com isto o Alentejo já teria menos de 50 entrevistas.
      Nos EUA faz algo semelhante: Northeast, Southeast, Midwest, Midwest, Northwest e Southwest.
      Cada sub-amostra terá sensivelmente a mesma dimensão quer em Portugal quer nos EUA. Para cada uma das sub-amostras, o número de pessoas entrevistadas é uma ínfima parte da população total dessa região.
      Logo, a margem de erro da sondagem nos EUA será praticamente igual à margem de erro da sondagem em Portugal.
      Não sei explicar melhor do que isto. Se não está convencido, o melhor é ir a algum site online com calculadoras de margens de erro e experimentar. Verá que tenho razão.
      Isto pode ser contra-intuitivo, como aliás muita coisa em estatística, mas é verdade.

      Eliminar
    2. Por exemplo, peguemos no Alentejo. O Alentejo tem 750.000 pessoas, pelo que da amostra de 1000, 75 seriam do Alentejo. Vejamos o que nos dizem essas 75.
      Volte a considerar o exercício da entrada principal. Metade é do PE e metade do PD. Se a 1ª entrevistada for do PE, a probabilidade da 2ª ser do PD é de 50,0000667%. Mesmo que a segunda seja do PE, a probabilidade de a 3ª ser do PD é de 50,0001333%. E por aí fora. Para todos os efeitos, a probabilidade de sair um ou outro é de praticamente 50%, tal como seria numa população infinita. Mesmo que 74 pessoas sejam do PE, a probabilidade de a 75º ser do PD será de 50,0049%. Ou seja, quase 50%. (Já agora, a probabilidade de saírem 74 do PE, neste caso, é de 0,0000000000000000000053%, pelo que mesmo estes 50,0049% são totalmente irrelevantes.)

      Eliminar

Não são permitidos comentários anónimos.