Jak pamiętamy, wyniki wyborów prezydenckich, szczególnie pierwszej tury, bardzo rozminęły się z wynikami sondaży. A jak wygląda zgodność sondaży i wyników wyborów do Sejmu?
Zobaczmy! Poniżej spojrzymy na sondaże i wyniki w czterech perspektywach, ostatniego miesiąca przed wyborami, 2 miesięcy, 6 miesięcy i 18 miesięcy.
Na poniższych wykresach literami przedstawiamy wyniki sondaży, przeprowadzonych przez z 9 różnych ośrodków badania opinii. Kropką przedstawiamy ostateczne wyniki wyborów do Sejmu. Trójkątem zaznaczymy medianę głosów zebranych podczas ostatniego Spotkania Entuzjastów R. W sumie w zabawie wzięło udział ponad 20 osób i choć rozbieżności pomiędzy różnymi osobami były duże, to mediana z wszystkich głosów bardzo dobrze trafia w wyniki wyborów.
Tym razem, ponieważ poparcie wielu partii oscylowało w przedziale 3-10, wyniki każdej z partii przedstawimy osobno, mając też różne skale dla różnych partii.
Patrząc na ostatni miesiąc przed wyborami poparcie dla większości partii się nie zmieniało. Wyjątkiem jest Partia Razem, która zaliczyła duży skok poparcia w ostatnim tygodniu. KORWIN, PSL i ZL ocierali się o progi wyborcze. Jak się skończyło – wiemy.
Patrząc na dwa miesiące przed wyborami wyraźniej widać jak bardzo poparcie dla Razem skoczyło na kilka dni przed wyborami. Do tego lekki zjazd poparcia PiSu a wzrost u Korwina.
W perspektywie 6 miesięcy przed wyborami interesujący jest duży spadek poparcia dla Kukiza. Mimo tego spadku poparcia wystarczyło by zostać trzecią siłą w Sejmie.
W perspektywie 18 miesięcy widać kryzys poparcia dla PO i PSL, który rozpoczął się na początku roku.
A jak to poparcie wygląda, gdy wszystkie partie wstawić na jeden wykres?
Po kliknięciu na dowolny wykres można uzyskać 2.5x powiększenie.
Interesujące! Jak została wyliczona ta linia? Czy to jest jakaś mediana, czy modeluje bias różnych sondażowni? Widziałem ostatnio paper który używał MCMC do aproksymacji właśnie tych efektów, i generatywny model wyników sondaży.
To wygładzony trend wyznaczony metodą Local Polynomial Regression. W R to funkcja loess wywoływana przez geom_smooth. Wszystkie sondaże wchodzą z tą samą wagą ponieważ nie mam informacji o wielkości próby.
Ciekawie prezentują się wyniki przewidywań z SERa, szczególnie dla Partii Razem. Wykres sugeruje, że bez dostępu do sondaży z 22. i 23. października byli w stanie dokładnie przewidzieć wzrost ich poparcia. Czy to dar proroczy?
Podobne opracowanie sondaży było już robione tuż przed ciszą wyborczą na http://niepewnesondaze.blogspot.nl/2015/10/trendy-9.html , jednak bez naniesionych wyników wyborów (z powodów oczywistych).
SER był w czwartek, dwa dni po telewizyjnej debacie, która była bardzo komentowana w mediach przychylnie dla Partii Razem. Może stąd te wyniki (a poszczególne głosy rozkładały się od 2% do 8%).
Opracowanie z niepewnesondaże jest ciekawe. Dla niektórych partii ma horyzont ponad 4 lat, interesująca perspektywa.
Może tylko warto by te wykresy trochę dopracować graficznie (lattice jest świetny, ale moim zdaniem ggplot bardziej estetyczny). Można by na bazie tego modelu zrobić serwis podobny do http://www.money.pl/gielda/indeksy_gpw/wig/.
Cześć Przemek,
dwie sugestie:
1. Techniczna: jedno-dwu zdaniowy abstract wg mnie istotnie by pomógł czytelności artykułów na tym blogu (por. artykuły Nielsen Norman Group)
2. Analiza: poprawność ekstrapolacji wyników wyborczych na wszystkie uprawnione głosy. Można by pewno zacząć od frekwencji w poszczególnych pre-definiowanych grupach, co by wmagało też informacji o tych grup w grupie wszystkich uprawionych do głosowania.
Zdrówka,
Mikołaj
Ok, zobaczymy jaki efekt będą miały streszczenia TL;DR
Ad 2, takie ważenie głosów już robią (większość robi) ośrodki badania opinii.
Ad. 2. Jakaś konkretna referencja dla wyborów prezydenckich lub parlamentarnych? Nie znalazłem. Może uściślę, co mnie konkretnie zaintersowało. Byłem ciekawy zjawiska tzw. „mobilizacji wyborców” – co to znaczy (stereotyp jest taki, że młodsze grupy wyborców), i kto właściwie na tym korzystał w konkretnych przypadkach (wybory parlamentarne 2007, wybory prezydenckie w 2015, czy niedawna druga tura wyborów regionalnych we Francji 2015). Naturalnie, ma to związek z w/w ekstrapolacją.
Mik
PS. Kolejna techniczna uwaga/sugestia: nie dostałem alerta e-mailem, pomimo, że podałem.
IHMO najlepiej opisana metodologie ma GfK Polonia i CHWAŁA im za to 🙂
LINK: http://www.gfk.com/pl/aktualnosci/press-release/zachowania-i-preferencje-wyborcze-polakow-w-pazdzierniku-2015/
Poniżej treść dla osób, które nie chcą klikać:
„Powyższy procentowy rozkład głosów uwzględnia także kategorię „inna partia”, na którą wskazało 0,1 proc. respondentów. Prezentowane wyniki preferencji wyborczych obliczono na podstawie połączonych dwóch kategorii respondentów, którzy zadeklarowali swój udział w wyborach – tych, którzy wskazali jakąś partię oraz tych, którzy jeszcze się wahają, na jakie ugrupowanie głosować (wynik imputowany**). ”
„Dodatkowe informacje o badaniu
Badanie zachowań i preferencji wyborczych jest prowadzone przez instytut GfK Polonia od 2005 roku na potrzeby partii politycznych, organizacji społecznych, administracji publicznej i rządowej.
* październikowa fala badania została przeprowadzona w dniach 1-6 października 2015 r. metodą wywiadów bezpośrednich w domach respondentów w ramach badania omnibus CAPI na podstawie reprezentatywnej imiennej próby pełnoletnich Polaków wylosowanej z bazy PESEL. Osoby celowe zostały wybrane w oparciu o dwustopniowy stratyfikowany schemat losowania z całkowitą liczbą realizowanych wywiadów n=1020.
** Rozkład głosów oddanych na partie dla osób niezdecydowanych, rejestrowany w pytaniu o preferowaną partię, został zaimputowany (odtworzony) za pomocą wielomianowego modelu regresji logistycznej, oszacowanego w oparciu o szczegółowe cechy społeczno-demograficzne badanego respondenta.
Przedziały ufności
Badanie preferencji wyborczych to estymacja przedziałowa, której wynikiem nie jest ocena punktowa, czyli konkretna wartość, ale pewien przedział, do którego z określonym prawdopodobieństwem (zwykle 95 proc.) należy szacowana wartość parametru (w tym przypadku głosowanie na konkretną partię). Podstawowym pojęciem estymacji przedziałowej jest przedział ufności. Prezentowane przedziały ufności zostały obliczone w oparciu o nieparametryczną metodę estymacji bootstrap uwzględniającą dwustopniowy schemat konstrukcji próby (w przypadku złożonych schematów losowania, a takie stosuje się w tym i podobnych badaniach typu face-to-face, klasyczne metody obliczania przedziałów ufności oparte na Centralnym Twierdzeniu Granicznym byłyby niepoprawne).
Ilość replikacji została ustalona na poziomie i=1000.”
@Maciej, dzięki za linki.
@Mikołaj, zobacz czy nie trafiło do folderu spam. Z jakiegoś powodu do mnie wszystkie komentarze z tego bloga trafiają do spamu, choć wciąż oznaczam te maile jako nie-spam.
@smarterpoland A dzis wpadlem na cos takiego http://www.tnsglobal.pl/monitor/
Ciekawe. Kiedyś wp miało coś podobnego, tylko mniej interaktywne.
Mogliby jeszcze zaznaczyć słupki błędu i poprawić obsługę opcji '1 rok’ '6 msc’ i byłoby naprawdę ciekawe narzędzie.
Np. wybrałem tam opcję 'Trudno powiedzieć’ i okazuje się, że w na przestrzeni tych 5 lat coraz mniej osób wybiera tę opcję.
A od ostatnich wyborów to frakcja tych odpowiedzi jest rekordowo niska trzeci raz z rzędu (to aż dziwnie wygląda na wykresie).
@Maciej: dziękuję bardzo.
@Przemek: nie, nie ma w spamie; wypróbuję inny adres (bo np. konflikt adresów z innym, kiedyś podanym; albo, gmail na czarnej liście). Jeszcze ad. tl;dr, to moja uwaga wynikała bardziej braku klarownego przekazu w niektórych z artykułów na tym blogu.