Czy Internet pozwala przewidzieć wyniki wyborów?


Dziś mamy gościnny wpis poświęcony analizie danych wyborczych a na wtorek mamy zaplanowany gościnny wpis poświęcony analizie danych finansowych.

Dzisiejszy wpis przygotował dr Albert Hupa z IRCenter i są do niego dołączone dane z sondaży wyborczych, z Google Trends, z wypowiedzi na mediach społecznościowych, oraz badania CAWI wśród internautów. Dane z różnych źródeł, można trochę się nimi pobawić by zobaczyć czy i jakie są zależności pomiędzy sondażami, dyskusjami w internecie a końcowym wynikiem wyborów.

dr Albert Hupa, prezes IRCenter

Czy Internet pozwala przewidzieć wyniki wyborów?
Nie. To będzie możliwe dopiero wtedy, kiedy wszyscy dorośli Polacy zaczną korzystać z internetu i będą tam interesować się polityką. Jednak Internet pozwala zrozumieć trendy w zainteresowaniach młodszych i/lub bardziej zaangażowanych wyborców. Na dłuższą metę nie chodzi o to, żeby po prostu przewidywać wyniki i mniej płacić za sondaże, tylko o to, żeby móc wpływać na rzeczywistość. IRCenter publikuje dane dla ostatnich Wyborów Parlamentarnych i kilka wniosków z ich analizy.

Polityka i internet to wdzięczny temat do analiz. Dla obserwatorów polityki to możliwość przewidywania wyników wyborów, a dla partii – kanał dotarcia do wyborców. Z tego drugiego była zresztą słynna ostatnia kampania Baracka Obamy – mówiono o niej, że korzystała z Big Data, które w rzeczywistości stanowiły bardzo precyzyjnie targetowaną reklamę do poszczególnych wyborców. W Polsce w trakcie ostatnich Wyborów Parlamentarnych największe partie również bardzo poważnie traktowały internet – i słuchając tego, co piszą wyborcy w mediach społecznościowych i prowadząc tam kampanię.

Żeby zrozumieć zależności pomiędzy internetem i preferencjami politycznymi warto zbadać możliwie jak najbardziej różnorodne zasoby danych. Agencja badawczo-analityczna IRCenter zebrała dla ostatnich Wyborów Parlamentarnych dane i udostępniła je do pobrania:

  • z publicznie dostępnych sondaży (zmienna „sondaz”)
  • trendów wyszukań słów kluczowych związanych z polityką (zmienna „google” – dane Google Trends)
  • dyskusji na ich temat w mediach społecznościowych (zmienna „sm” – Sentione)
  • samodzielnie realizowanego trackingu CAWI wśród internautów (cykliczne badanie kwestionariuszowe, pozostałe zmienne)

Jest już po wyborach i ten zbiór ma wartość przede wszystkim historyczną; może jednak pomóc osobom zainteresowanym analityką sondaży i danymi pochodzącymi z internetu. Dlatego udostępniamy go wszystkim zainteresowanym osobom i prezentujmy kilka wybranych wniosków z ich analizy.

Dane pobrać można z GitHuba

Wszystkie zmienne są uciąglone dla dni, tak aby móc porównywać ich zmienność dzień po dniu w trakcie kampanii. Dla danych z publicznie dostępnych sondaży dla każdego dnia przyjęliśmy, że dla każdego dnia wyniki poparcia dla partii to średnia z wyników zrealizowanych danego dnia. Jeśli w danym dniu nie było sondaży dane zostały standardowo uciąglone.

Google Motion Charts

Przeklejenie do R poniższych instrukcji otworzy interaktywną aplikację pozwalającą na eksploracje danych z sondaży.

library(googleVis)
dane <- read.table("https://raw.githubusercontent.com/pbiecek/SmarterPoland_blog/master/dane/Wybory2015/2r.txt",header=T,sep="\t",dec=",")
dane$data <- as.Date(dane$data, "%Y-%m-%d")
M1 <- gvisMotionChart(dane, idvar="objekt", timevar="data")
plot(M1)

Screen Shot 2015-12-10 at 20.16.55

Czy Google pozwala przewidzieć wyniki wyborów? Nie, ale pokazuje, czym interesują się wyborcy

Google wskazuje to, czym się akurat interesują wyborcy. W ostatnich wyborach szukanie informacji w Google było skorelowane z poparciem dla mniejszościowych ugrupowań - partii Razem i partii Korwina-Mikkego. Mniejszościowe partie zyskały na zainteresowaniu i poparciu głównie po debacie telewizyjnej na ostatnim odcinku kampanii. W trakcie całej kampanii internauci częściej szukali informacji o Ewie Kopacz niż o Beacie Szydło (a przecież to PIS wygrał wybory).

W polityce internet (a zwłaszcza Google) znacząco współgra z telewizją

Najbardziej kluczowym momentem w ostatnich wyborach była pierwsza debata telewizyjna. To w jej efekcie zmienił się układ zainteresowania i poparcia dla partii politycznych (internet tutaj to tylko tzw. drugi ekran). Aby zrozumieć wpływ telewizji konieczna byłaby dodatkowa analiza zasięgów spotów i treści publikowanych w serwisach informacyjnych.

Korelacje pomiędzy popularnością w sondażach i Google Trend Index

sondaze-google-kor1

Media społecznościowe sprzyjają młodym partiom mniejszościowym

W kontekście politycznym Internet w Polsce ciągle jest jeszcze zdominowany przez osoby gustujące w skrajnych opiniach (osoby dyskutujące o polityce robią to nie tylko w mainstreamowych serwisach społecznościowych, ale także na bardzo licznych i żywych forach). Im więcej internauci dyskutowali o Korwinie-Mikke, tym chętniej chcieli na niego głosować. Internet w ogóle nie współgrał z poparciem dla Platformy Obywatelskiej.

Korelacje pomiędzy popularnością w sondażach i liczbą dyskusji w mediach społecznościowych

sondaze-sm-kor1

To tylko kilka z obserwacji z analizy tego zbioru danych. Można ich wysnuć o wiele więcej. Przed analitykami stoi przede wszystkim pytanie - jak dostarczyć właściwe wnioski swoim pracodawcom. Obecnie wydaje się, że liderami w tym zakresie są analitycy z agencji reklamowych i osoby obsługujące ad-serwery. O Big-Data w polityce będzie można mówić wtedy, kiedy partie będą tworzyć strategie wizerunkowe i programowe w oparciu o analizę internetu. Tymczasem - być może warto od nowa usiąść z politologami do mapowania i analityki preferencji wyborczych?

4 thoughts on “Czy Internet pozwala przewidzieć wyniki wyborów?”

    1. To jest kolorystyczna skala dwubiegunowa. Im kolor bardziej czerwony, tym korelacja jest bliższa wartości 1; im kolor bardziej niebieski tym korelacja jest bliższa wartości -1; kolor biały oznacza wartości zbliżone do 0.

  1. Mam sześć pytania:
    1. czy zmienna 'sondaż’ to jest średnia wartość sondaży opublikowanych danego dnia?
    2. czy w sytuacji, gdy dla danego dnia nie było wyników sondaży przeprowadzono imputację – podano wynik z ostatniego dnia dla którego były dostępne dane sondażowe?
    3. czy ta korelacja to jest korelacja liniowa Pearsona?
    4. czy zmienna 'google’ w zbiorze jest mierzona na skali porządkowej?
    5. co oznacza '0′ dla zmiennej 'google’?
    6. Jaki wpływ na korelację ma czynnik czasu – w początkowym okresie zarówno wskaźnik Google Trends jak i liczba dyskusji w mediach społecznościowych dla wszystkich partii są niewielkie po czym nagle rosną tuż przed wyborami.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *