Czy Internet pozwala przewidzieć wyniki wyborów?


Dziś mamy gościnny wpis poświęcony analizie danych wyborczych a na wtorek mamy zaplanowany gościnny wpis poświęcony analizie danych finansowych.

Dzisiejszy wpis przygotował dr Albert Hupa z IRCenter i są do niego dołączone dane z sondaży wyborczych, z Google Trends, z wypowiedzi na mediach społecznościowych, oraz badania CAWI wśród internautów. Dane z różnych źródeł, można trochę się nimi pobawić by zobaczyć czy i jakie są zależności pomiędzy sondażami, dyskusjami w internecie a końcowym wynikiem wyborów.

dr Albert Hupa, prezes IRCenter

Czy Internet pozwala przewidzieć wyniki wyborów?
Nie. To będzie możliwe dopiero wtedy, kiedy wszyscy dorośli Polacy zaczną korzystać z internetu i będą tam interesować się polityką. Jednak Internet pozwala zrozumieć trendy w zainteresowaniach młodszych i/lub bardziej zaangażowanych wyborców. Na dłuższą metę nie chodzi o to, żeby po prostu przewidywać wyniki i mniej płacić za sondaże, tylko o to, żeby móc wpływać na rzeczywistość. IRCenter publikuje dane dla ostatnich Wyborów Parlamentarnych i kilka wniosków z ich analizy.

Polityka i internet to wdzięczny temat do analiz. Dla obserwatorów polityki to możliwość przewidywania wyników wyborów, a dla partii – kanał dotarcia do wyborców. Z tego drugiego była zresztą słynna ostatnia kampania Baracka Obamy – mówiono o niej, że korzystała z Big Data, które w rzeczywistości stanowiły bardzo precyzyjnie targetowaną reklamę do poszczególnych wyborców. W Polsce w trakcie ostatnich Wyborów Parlamentarnych największe partie również bardzo poważnie traktowały internet – i słuchając tego, co piszą wyborcy w mediach społecznościowych i prowadząc tam kampanię.

Żeby zrozumieć zależności pomiędzy internetem i preferencjami politycznymi warto zbadać możliwie jak najbardziej różnorodne zasoby danych. Agencja badawczo-analityczna IRCenter zebrała dla ostatnich Wyborów Parlamentarnych dane i udostępniła je do pobrania:

 • z publicznie dostępnych sondaży (zmienna „sondaz”)
 • trendów wyszukań słów kluczowych związanych z polityką (zmienna „google” – dane Google Trends)
 • dyskusji na ich temat w mediach społecznościowych (zmienna „sm” – Sentione)
 • samodzielnie realizowanego trackingu CAWI wśród internautów (cykliczne badanie kwestionariuszowe, pozostałe zmienne)

Jest już po wyborach i ten zbiór ma wartość przede wszystkim historyczną; może jednak pomóc osobom zainteresowanym analityką sondaży i danymi pochodzącymi z internetu. Dlatego udostępniamy go wszystkim zainteresowanym osobom i prezentujmy kilka wybranych wniosków z ich analizy.

Dane pobrać można z GitHuba

Wszystkie zmienne są uciąglone dla dni, tak aby móc porównywać ich zmienność dzień po dniu w trakcie kampanii. Dla danych z publicznie dostępnych sondaży dla każdego dnia przyjęliśmy, że dla każdego dnia wyniki poparcia dla partii to średnia z wyników zrealizowanych danego dnia. Jeśli w danym dniu nie było sondaży dane zostały standardowo uciąglone.

Google Motion Charts

Przeklejenie do R poniższych instrukcji otworzy interaktywną aplikację pozwalającą na eksploracje danych z sondaży.

library(googleVis)
dane <- read.table("https://raw.githubusercontent.com/pbiecek/SmarterPoland_blog/master/dane/Wybory2015/2r.txt",header=T,sep="\t",dec=",")
dane$data <- as.Date(dane$data, "%Y-%m-%d")
M1 <- gvisMotionChart(dane, idvar="objekt", timevar="data")
plot(M1)

Screen Shot 2015-12-10 at 20.16.55

Czy Google pozwala przewidzieć wyniki wyborów? Nie, ale pokazuje, czym interesują się wyborcy

Google wskazuje to, czym się akurat interesują wyborcy. W ostatnich wyborach szukanie informacji w Google było skorelowane z poparciem dla mniejszościowych ugrupowań - partii Razem i partii Korwina-Mikkego. Mniejszościowe partie zyskały na zainteresowaniu i poparciu głównie po debacie telewizyjnej na ostatnim odcinku kampanii. W trakcie całej kampanii internauci częściej szukali informacji o Ewie Kopacz niż o Beacie Szydło (a przecież to PIS wygrał wybory).

W polityce internet (a zwłaszcza Google) znacząco współgra z telewizją

Najbardziej kluczowym momentem w ostatnich wyborach była pierwsza debata telewizyjna. To w jej efekcie zmienił się układ zainteresowania i poparcia dla partii politycznych (internet tutaj to tylko tzw. drugi ekran). Aby zrozumieć wpływ telewizji konieczna byłaby dodatkowa analiza zasięgów spotów i treści publikowanych w serwisach informacyjnych.

Korelacje pomiędzy popularnością w sondażach i Google Trend Index

sondaze-google-kor1

Media społecznościowe sprzyjają młodym partiom mniejszościowym

W kontekście politycznym Internet w Polsce ciągle jest jeszcze zdominowany przez osoby gustujące w skrajnych opiniach (osoby dyskutujące o polityce robią to nie tylko w mainstreamowych serwisach społecznościowych, ale także na bardzo licznych i żywych forach). Im więcej internauci dyskutowali o Korwinie-Mikke, tym chętniej chcieli na niego głosować. Internet w ogóle nie współgrał z poparciem dla Platformy Obywatelskiej.

Korelacje pomiędzy popularnością w sondażach i liczbą dyskusji w mediach społecznościowych

sondaze-sm-kor1

To tylko kilka z obserwacji z analizy tego zbioru danych. Można ich wysnuć o wiele więcej. Przed analitykami stoi przede wszystkim pytanie - jak dostarczyć właściwe wnioski swoim pracodawcom. Obecnie wydaje się, że liderami w tym zakresie są analitycy z agencji reklamowych i osoby obsługujące ad-serwery. O Big-Data w polityce będzie można mówić wtedy, kiedy partie będą tworzyć strategie wizerunkowe i programowe w oparciu o analizę internetu. Tymczasem - być może warto od nowa usiąść z politologami do mapowania i analityki preferencji wyborczych?

4 thoughts on “Czy Internet pozwala przewidzieć wyniki wyborów?”

  1. To jest kolorystyczna skala dwubiegunowa. Im kolor bardziej czerwony, tym korelacja jest bliższa wartości 1; im kolor bardziej niebieski tym korelacja jest bliższa wartości -1; kolor biały oznacza wartości zbliżone do 0.

 1. Mam sześć pytania:
  1. czy zmienna 'sondaż' to jest średnia wartość sondaży opublikowanych danego dnia?
  2. czy w sytuacji, gdy dla danego dnia nie było wyników sondaży przeprowadzono imputację – podano wynik z ostatniego dnia dla którego były dostępne dane sondażowe?
  3. czy ta korelacja to jest korelacja liniowa Pearsona?
  4. czy zmienna 'google' w zbiorze jest mierzona na skali porządkowej?
  5. co oznacza '0′ dla zmiennej 'google'?
  6. Jaki wpływ na korelację ma czynnik czasu – w początkowym okresie zarówno wskaźnik Google Trends jak i liczba dyskusji w mediach społecznościowych dla wszystkich partii są niewielkie po czym nagle rosną tuż przed wyborami.

Pozostaw odpowiedź albert Hupa Anuluj pisanie odpowiedzi

Twój adres email nie zostanie opublikowany. Wymagane pola są oznaczone *