W ostatni czwartek pisałem o tym, że wyniki sondaży obarczone są dużą niepewnością pomiaru i nie można zbyt dosłownie traktować nagłych ,,skoków poparcia”. A tu w piątek w mediach ,,news”: poparcie dla jednej z dużych partii podskoczyło w ciągu miesiąca o 7 punktów procentowych (cytat z gazety z 27% na 34%). Ale 7% osób mogących głosować to ponad 1.5 mln osób, czy tak duża jest prawdopodobna? Zaraz zobaczymy.
Zebrałem dane o wynikach sondaży poparcia partii politycznych przeprowadzanych w ostatnim roku. Sprawdzałem wyniki czterech ośrodków badania opinii publicznej CBOS, Homo Homini, SMG KRC, TNS Polska. Chciałem zobaczyć na ile zgodne są wyniki różnych ośrodków.
Co wyszło? Kilka niespodzianek. Np. wygląda na to, że niektóre ośrodki dla niektórych partii mają ,,systematyczny błąd” w porównaniu ze średnią z wszystkich sondaży. Np. ciekawie wygląda porównanie CBOS z Homo Homini. Zresztą zobaczcie sami.
Poniżej dostępna interaktywna grafika przedstawia wyniki sondaży organizowanych w poprzednim roku przez cztery różne ośrodki badania opinii. Grafika pozwala zaznaczyć/odznaczyć, które ośrodki chcemy oglądać. Dodatkowo przedstawiony jest wygładzony trend liczony na wynikach wszystkich ośrodków badania opinii.
Bawiąc się chwilę tą grafiką, można zauważyć, że większość sondaży pomimo dużych różnic (czasem to różnice o 10%!!!) krąży wokół średniej. Duże odstępstwa od średniej są raczej krótkotrwałe. Co prawda takie ośrodki badania opinii gdzie wyniki dla określonych partii są systematycznie powyżej/poniżej średniej z pozostałych ośrodków.
[jeżeli powyżej nic się nie wyświetla, to należy otworzyć tę stronę]
Czy dobrze zgaduje, że każdy z czterech wykresów obrazuje poparcie dla innej partii politycznej – w kolejności PO, PiS, PSL i SLD?
@Grzegorz, tak, kolorami oznaczone są wyniki dla różnych ośrodków badania opinii. Kolejne panele są podpisane, wyniki na jednym panelu dotyczą tylko jednej partii.
Dzięki za wątpliwość, ciekawe doświadczenie dotyczące HCI.
@Grzegorz: tak. Chodzi tu raczej o porównanie zgodności wyników różnych ośrodków badawczych niż o porównanie „popularności” poszczególnych partii.
Jak w statystyce rozumie się takie określenia jak „duża/średnia/mała niepewność”? Czy należy to wiązać z jakimiś konkretnymi wartościami np. przedziału ufności lub czegoś w tym stylu?
Kiedy niepewność uzna się za dużą czy mała, to zależy od dziedziny. W inżynierii możemy mieć błąd pomiaru wyrażony w ułamkach procenta i wciąż to będzie za mało.
Ale w sondażach niczym dziwnym nie są różnice o 5 punktów procentowych pomiędzy różnymi ośrodkami badania opinii, nawet dla tego samego ośrodka z badania na badanie obserwuje się wahania o 5 punktów procentowych. I to w sytuacji gdy mierzone jest poparcie na poziomie 20-30%. Czysto uznaniowo można powiedzieć, że 5 punktów procentowych to w tej sytuacji dużo.
W wielu sytuacjach niepewność wyraża się szerokością 95% przedziału ufności dla badanej cechy. W sondażach badania opinii nawet jeżeli próba ma 1000 osób to około 50% osób deklaruje chęć głosowania, więc efektywny rozmiar próby do oceny proporcji to 500 osób. Dla takiej próby poparcie rzędu 25% (czyli 125 osób na 500) ma 95% przedział ufności rzędu 21%-29%. W przybliżeniu uśrednienie wyników z czterech ośrodków badania opinii zawęża przedział dwukrotnie.
Przy tym błąd losowy nie jest tu jedynym źródłem błędu. Obecnie w Polsce w wywiadach osobistych (ankieter idzie do respondenta) – PAPI lub CAPI – stopa zwrotu jest na poziomie między 30% a 40% (przy czym rozkłada się to jeszcze nierównomiernie ze względu na poziom urbanizacji – więcej na wsi, mniej w dużych miastach). Czyli z grubsza dwie na trzy osoby, które zostały wylosowane do próby odmawiają udziału w badaniu. Jak jest przy wywiadach telefonicznych (CATI) to nawet nie wiem, ale na pewno wyraźnie gorzej, a do tego dochodzi jeszcze większy błąd braku pokrycia operatu. W ogóle warto jeszcze zadać pytanie, jak poszczególne sondaże są realizowane (metoda realizacji wywiadu, metoda doboru próby), ale o to często niełatwo się dowiedzieć.
W ogóle pytanie o błąd pomiaru najlepiej byłoby zadać w kategoriach szacowanej wariancji (lub, żeby wrócić na skalę pomiaru, błędu standardowego) estymatora ale sądzę, że takie pytanie spotkałoby się z brakiem zrozumienia po stronie firm badawczych.
Jeszcze lepsze pytanie – jaki wpływ na wariancję estymatora ma zastosowanie wag poststratyfikacyjnych, które wszystkie te firmy z pewnością stosują (bo wcale niekoniecznie musi on być pozytywny – w sensie zmniejszania wariancji).
Swoją drogą, jeśli chcieć zadać sobie pytanie „a jakie to poparcie jest naprawdę”, to podejście oparte na uśrednianiu pomiarów różnych firm badawczych wydaje się całkiem niezłe. Na pewno lepsze (i bez porównania tańsze), niż robienie swojego własnego sondażu 🙂
Można by to jeszcze trochę dopracować – zrobić jakąś ważoną regresję nieparametryczną (wagi odzwierciedlałyby stopień zaufania do danego ośrodka), skalibrować wagi i „bandwidth” w odniesieniu do wyników wyborów i przez jakiś czas powinno nawet dawać sensowne rezultaty.
Zgodnie z informacjami ze strony tych ośrodków średnia ,,stopa zwrotu” wynosi około 50%, niestety nie ma bardziej szczegółowej informacji, które grupy chętniej a które rzadziej odpowiadają. Co do badania wpływu ważenia na wariancje to jestem raczej sceptyczny, ciężko mi uwierzyć, że błąd wynikający z braku odpowiedzi jest losowy, jakąś część to błąd systematyczny z którym trzeba żyć, ale który stawia szacowanie dokładności pod znakiem zapytania.
Ważenie wyników ośrodków oparte na liczebnościach prób ma sens, ale czym miałoby być to zaufanie do ośrodka to nie wiem (tzn zdaniem różnych osób takie poziomy zaufania byłyby różne).
W każdym razie planuję (jak tylko znajdę czas) rozbudować tę porównywarkę sondaży poparcia, najchętniej z użyciem biblioteki Shiny i zrobić z niej osoby aktualizowany projekt.
Być może na początku przyszłego roku już będzie gotowy.
Co do stopy zwrotu – to jeszcze zależy, czy się ją liczy po bożemu, czy kreatywnie. Przykład kreatywności: stosowanie „próby zapasowej”. Albo i dwóch. Robi się to tak: losuje dwa (lub trzy) razy większą próbę, po czym dobiera jednostki w dwójki (trójki) w ten sposób, by miały takie same znane charakterystyki (powiedzmy sobie szczerze, na etapie losowania za wiele tych znanych charakterystyk nie ma). Następnie „stopę zwrotu” liczymy jako liczbę takich par (czy trójek), w których udało nam się zrealizować wywiad w stosunku do całkowitej liczby par (trójek). W skrajnym przypadku można w ten sposób raportować dwukrotnie (trzykrotnie) wyższą „stopę zwrotu”, niż wynosiłaby policzona bez takich cudów – oczywiście w praktyce aż tak to nie wygląda. Z badań akademickich w ten sposób kreatywnie liczy stopę zwrotu np. Diagnoza Społeczna.
W Polsce w tej chwili – jeśli chodzi o wywiady osobiste – poziom 50% stopy zwrotu osiągają tylko badania akademickie (a i to dalece nie wszystkie), w których nie jest problemem wydłużenie okresu realizacji i ogólnie przykłada się do tego dużą wagę. Co prawda CBOS pyta o wybory jak się zdaje przy okazji omnibusa, do którego bardzo się przykłada, więc w jego przypadku to 50% może nie być takie dalekie od prawdy ale tak w ogólności, to wątpię, żeby sondaże poparcia politycznego osiągały takie wyniki. Inna sprawa, że przecież z tego powodu nie uznamy, że w ogóle z tym badaniami to trzeba sobie dać spokój 🙂
Co do ważenia i wariancji estymatorów. Abstrahując od problemu nielosowej (auto)selekcji do udziału w wywiadzie, z którym istotnie nie za bardzo jest co zrobić (od strony statystycznej), w analizie danych sondażowych powszechnie stosuje się wagi postratyfikacyjne, które od strony technicznej wyrównują rozkłady wybranych zmiennych w zrealizowanej próbie do znanych rozkładów populacyjnych (np. płci i wieku). Od strony statystycznej ma to z niezłym przybliżeniem konsekwencje analogiczne do losowania warstwowego (które nota bene i tak jest stosowane przy doborze próby). W związku z tym przy szacowaniu błędów standardowych warto by było zastosować teorię adekwatną do tego rodzaju losowania, a nie do losowania prostego. Przy tym – choć losowanie warstwowe i ważenie zwykle kojarzy się pozytywnie – wcale nie jest powiedziane, że nie spowoduje właśnie wzrostu, a nie spadku oszacowań błędów standardowych.
Co do wag w modelu predykcyjnym – mój pomysł byłby taki, żeby te wagi szacować jako element modelu. Oczywiście musiałoby się to wiązać z uproszczeniem samej postaci zależności, żeby się nie „przepasować”. Czyli np. zakładam, że zmianę poparcia dla partii w czasie modeluję prostą zależnością liniową, z tym że obserwacjom przypisuje wagi, które zależą od:
1) odległości w czasie od punktu, który rozpatruję,
2) tego, kto badanie robił.
Z 2) mam dodatkowych m-1 parametrów, gdzie m to liczba ośrodków badawczych, z 1) to zależy, jak złożony model „zanikania wpływu” się przyjmie, ale w najprostszym przypadku 1 dodatkowy parametr. Z prostej regresji liniowej 2 parametry.
Teraz mogę ustawić się w punkcie wyborów i optymalizować model w przestrzeni moich (m-1)+1+2 parametrów przy nałożonym ograniczeniu, że w tym punkcie wartość przewidywania ma być równa znanemu wynikowi wyborczemu danej partii (to ograniczenie można wprowadzić odpowiednio centrując zmienną opisującą czas i estymując regresję bez stałej – czyli jednak jeden parametr mniej). Z tak przeprowadzonej kalibracji biorę wagi dla ośrodków badawczych i siłę „zanikania wpływu” w czasie i używam ich do predykcji odnośnie okresu nie objętego kalibracją. To się nie musi udać ale też chyba nie jest z góry skazane na porażkę. Przy tym trzeba by jeszcze chwilę pomyśleć, przy pomocy czego taki rozszerzony model można względnie wygodnie wyestymować.
Z porównywarką w Shiny – bardzo fajny pomysł!
Podoba mi się to kreatywne liczenie stopy zwrotu. Jednak jesteśmy kreatywnym narodem.
Co do sondaży, myślę że wybór sposobu ważenia sąsiednich wyników powinien jakoś zależeć od danych, w każdym razie mam nadzieję do tego wrócić w styczniu jak zakończą się bieżące projekty i na poważnie się temu przyjrzeć.
Uwzględnienie wag wynikające z warstw bezpośrednio może być trudne, ale mając już policzone przedziały (np z http://wybory.smgkrc.pl/ pokazują przedziały) można oszacować jak takie przedziały się zachowują (kiedyś sprawdzałem, że przedziały SMGKRC były prawie takie same jak wynikające z prostego losowania tzn różnica wynosiła mniej niż 0.5%).
A jeszcze wracając do uśredniania w czasie. To myślę, że jest nawet ciekawe badawcze pytanie na ile zmienność pomiędzy kolejnymi badaniami da się zdekomponować na: zmianę globalnego trendu w poparciu dla partii + chwilowe zmiany poparcia wynikające z aktualnych afer/wydarzeń + szum losowy wynikający z próbowania.
Na potrzeby wyborów chciałoby się znać ten pierwszy składnik, czyli globalne stabilne poparcie, ale w najlepszym przypadku mierzy się chwilowy nastrój zakłócony przez lokalne wydarzenia.
Uśrednianie po czasie nawet dla jednego ośrodka może być korzystne.
Tu by się przydało narzędzie, jak Google udostępnia do przeglądania kursów giełdowych: cena + obroty + linki do wiadomości mających lub mogących mieć wpływ na kurs. Wszystko na osi czasu.