Zmiany w poparciu dla partii politycznych. Zrównanie dwóch największych partii?

We wrześniu poprzedniego roku, we wpisie Poparcie dla ,,wielkiej piątki” w ostatnich dwóch latach pokazywałem jak wygląda zmiana uśrednionego poparcia dla pięciu największych partii.

W obliczu zbliżających się eurowyborów, pytanie o poparcie dla partii politycznych to temat aktualny i ciekawy.

Od kilku miesięcy wolontariusz, Paweł Wiechucki, pracował nad agregatorem sondaży. Otwartym repozytorium wyników poparcia dla partii politycznych. Pierwsza wersja jest już gotowa. Zapraszamy na stronę http://smarterpoland.pl/sondaze aby dodawać wyniki nowych sondaży i pobierać dane o już wprowadzonych sondażach.

Na razie udało się zebrać w miarę kompletne dane dla TNS Polska i SMG KRC. Na ich bazie zbudowałem poniższą uśrednioną i wygładzoną ocenę poparcia partii politycznych. Jak widzimy mamy przełomowy punkt w którym dwie największe partie mają bardzo zbliżone poparcie. Ciekawe jak dalej potoczą się ich losy?

Każda kropka to wynik jednego sondażu. Krzywe to informacje o uśrednionym i wygładzonym trendzie.

Zapraszamy do uzupełniania danych o sondażach dla CBOS i Homo Homini, szczególnie z okresu ostatniego roku. Będzie można uzupełnić powyższe analizy o dane z pozostałych instytucji badania opinii.
http://smarterpoland.pl/sondaze.

Wydarzenia na Ukrainie a Twitter i Big Data

Było tak, że ComputerWorld zaprosił mnie do wygłoszenia prezentacji na konferencji Big Data & Business Analytics. Ustaliliśmy, że interesującym studium przypadku do zaprezentowania będą analizy danych z mediów społecznościowych dotyczących wypowiedzi na temat wydarzeń na Ukrainie.

Przez ponad dwa miesiące zbieraliśmy Twitty, wiadomości na Facebooku, artykuły na czytnikach RSS jakoś związane z Ukrainą lub Krymem. Surowych danych zebrało się ponad 300GB, ale po odfiltrowaniu tego co ciekawe i wyznaczeniu interesujących agregatów zeszliśmy do paczki danych o rozmiarze kilkudziesięciu MB.

Do analiz wykorzystałem R i kilka innych narzędzi, między innymi IBM Many Eyes. Na przykładzie tego i kolejnych wpisów chciałbym pokazać jakie przykładowe analizy na tej paczce danych wykonywaliśmy. Dziś na przykład pokażę co można zrobić z użyciem narzędzia Many Eyes.

Wymóg użycia Many Eyes jest taki, że analizowane dane są publiczne i nie mogą być większe niż 5 MB. Z korpusu twittów wybrałem więc 5MB angielskich, interesujących ćwierków i dodałem do Many Eyes. Ten zbiór danych można pobrać z tego adresu, można go też dalej wizualizować używając platformy ME.

Czytaj dalej Wydarzenia na Ukrainie a Twitter i Big Data

[Przegląd prasy] Młodzież a polityka – badanie CBOS

Jakiś czas temu pisałem, że największą zaletą fundacji jest to, że przyciągają one osoby o ciekawych pomysłach i pomagają w realizacji tych pomysłów. Mamy więc koleje potwierdzenie tej opinii. Jakiś czas temu zgłosiła się do nas pani Paula Cybowska z propozycją pomocy w prowadzeniu ,,przeglądu prasy” związanego ze zbieraniem i analizą danych. Dziś pierwsza notatka poświęcona ciekawym badaniom prowadzonym przez CBOS.

Według sondażu CBOS, przeprowadzonego w listopadzie i grudniu 2013 zainteresowanie młodzieży polityką, w porównaniu do ostatnich lat, maleje.

Paula Cybowska

Żródło: http://www.cbos.pl/PL/wydarzenia/34_konferencja/2_Mlodziez_2013-Zainteresowanie_polityka_i_poglady_polityczne.pdf

Czytaj dalej [Przegląd prasy] Młodzież a polityka – badanie CBOS

Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Kilka dni temu portal money.pl przytoczył wypowiedź premiera, której część podaję poniżej:

Premier nie ma wątpliwości, że reklama OFE powinna być zakazana w czasie, kiedy obywatele będą podejmowali decyzje o tym, czy pozostać w OFE, czy nie. >> Chcemy, żeby obywatel podejmował decyzje na podstawie informacji, a nie propagandy. Ale trwa jeszcze dyskusja. Niedawno też o tym długo dyskutowaliśmy, na ile pozwolić funduszom w przyszłości na rzetelną reklamę <<

Dostęp do rzetelnej informacji to hasło przewodnie także naszej działalności. Przyjrzyjmy się jak wyglądają materiały rządowe dotyczące OFE:

Pod koniec czerwca Ministerstwo Pracy i Polityki Społecznej przygotowało pokaźną paczkę wykresów na temat zmian w OFE. Poniżej przedstawione wykresy zostały opublikowane przez Ministerstwo na tej stronie, a następnie przedstawiane w różnych mediach, między innymi w serwisie Gazety Wyborczej.

Przykład pierwszy: poziome wykresy paskowe

Patrząc na wykres paskowy mamy tendencje do porównywania długości pasków/pudełek. Dlatego aby umożliwić poprawne porównania przedstawianych wartości, odpowiadające im pudełka powinny zaczynać się od zera.

Tymczasem, patrząc na długości pasków dla OFE i ZUS II na poniższym wykresie, stosunek długości odczytamy jako 100:168. Przedstawiane dane wskazują na stosunek 100:129. Lie-factor tego wykresu to około 1.3 („Lie Factor”to współczynnik zdefiniowany przez Edwarda Tuftego, mierzący jak bardzo wykres przekłamuje relacje obecne w danych).

Czytaj dalej Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Co z tymi sześciolatkami, czyli kto wie lepiej co jest dobre dla dzieci

Dziś w sejmie głosowanie nt. referendum. Z tej okazji w różnych mediach, różne osoby przekonują co jest lepsze dla rodziców, dzieci i gospodarki.

Przytaczane są przy okazji różne argumenty, z których argumentem za obniżeniem roku wejścia w system edukacyjny jest (oficjalnie) to, że w innych krajach dzieci zaczynają naukę wcześniej, (nieoficjalnie) problem z rynkiem pracy, który albo wcześniej zostanie zasilony nowymi pokoleniami albo szybciej wpadnie w problemy. Argumentem przeciw jest (domniemane) nieprzygotowanie niektórych placówek na przyjęcie sześciolatków i (domniemane) niedostosowanie programu do możliwości sześciolatków. Piszę domniemane, ponieważ nie wiadomo, rząd zlecił badanie stopnia przygotowania, ale nie chciał udostępnić danych (od trzech miesięcy staramy się te dane uzyskać i nic).

Opcja, by to rodzice decydowali kiedy ich dziecko powinno rozpocząć szkołę nie wchodzi w grę na dłuższą metę. Z jakiegoś powodu, w demokratycznym społeczeństwie panuje przekonanie, że większość i tak wybrałaby źle. Ciekawy paradoks naszej demokracji.

Mnie w tych wszystkich przepychankach brakuje argumentacji opartej o dane z podaniem źródeł tych danych. A danych, które mogą być pomocne jest wiele. Przyjrzyjmy się liczbom z najnowszego raportu ,,Education at a Glance 2013”. Tabla C1.1 pokazuje w jakim wieku 90% dzieci znajduje się w systemie edukacyjnym. Graficzna prezentacja tej tabeli jest następująca:

Jak widzimy, w większości krajów edukacja 90% dzieci rozpoczyna się wcześniej niż w Polsce. Ale czy to argument za tym, że to dobry ruch?

Nie tak dawno w tym wpisie oglądaliśmy wyniki badań umiejętności dorosłych PIAAC, z których wynika, że najgorzej w badaniu kompetencji dorosłych wypadają mieszkańcy Włoch i Hiszpanii, czyli krajów gdzie w system edukacyjny wchodzi się najwcześniej. Korea, Finlandia to przykłady krajów, gdzie w system edukacyjny wchodzi się późno, ale mimo to dorośli w badaniach kompetencji wypadają bardzo dobrze.

To oczywiście tylko cztery wybrane przykłady, bez zagłębiania się w specyfikę sytuacji gospodarczej i polityki edukacyjnej tych krajów. Nie jestem tutaj adwokatem stwierdzenia, że im wcześniej wychodzi się z systemu edukacji tym gorzej. Pokazuję jedynie, że sam fakt, że wiele krajów robi coś inaczej, to wcale nie znaczy, że robi to lepiej.

A mając dane z wielu krajów, zbierane pieczołowicie przez takie organizacje jak OECD, można by z tych danych zrobić użytek.

Poparcie dla ,,wielkiej piątki” w ostatnich dwóch latach

Zebrałem wyniki z około 160 sondaży poparcia partii przeprowadzonych w ostatnich dwóch latach (sondaży prowadzonych przez Homo Homini, TNS Polska, CBOS i SMG KRC).
Następnie uśredniłem wyniki z różnych źródeł i naniosłem wyniki dla pięciu największych partii na jeden wykres.

Wynik powyżej.
To co się rzuca w oczy to ujemna korelacja poparcia dla PIS i PO, która sugeruje to te dwie partie walczą o dużą część wspólną ich wspólnego elektoratu (nie jest to zaskoczeniem, ale ładnie to widać na wykresie).

Btw: wiem, że rozróżnienie ciemnoniebieskiej PO i jasnoniebieskiego PIS nie jest najłatwiejsze. Ale i loga tych partii i strony internetowe są krojone pod ,,profesjonalny” błękit. Trudno, muszą się podzielić kolorem niebieskim też na wykresie.

Disclaimer: Nie jestem entuzjastą żadnej z powyższych partii.

Wyniki poparcia mierzone przez różne źródła różnią się. W szczególności duże różnice dotyczą poparcia dla PO (TNS Polska i Homo Homini) czy PiS (CBOS i Homo Homini).
Więcej o szczegółowych wynikach sondaży można znaleźć w zakładce sondaże.

Kto w Sejmie … ciąg dalszy

Kilka tygodni temu pisałem o indeksie czytelności FOG (patrz: ,,Kto w Sejmie mówi w sposób prosty, a kto w złożony”). W komentarzach pod wpisem pojawiły się sugestie, by porównać złożoność języka używanego w Sejmie pomiędzy posłami różnych partii.

Zobaczmy co z tego wyjdzie.

Czytaj dalej Kto w Sejmie … ciąg dalszy

Naukowy ranking uczelni

Zbliża się sesja, okres wytężonej pracy dla nauczycieli akademickich [ech te wszystkie egzaminy], dziś więc coś na wesoło.

Kilka dni temu na stronach Polityki opublikowano ,,Naukowy ranking uczelni POLITYKI” [ranking i artykuł tutaj]. Pierwsze dwa zdania tego artykułu wyglądają bardzo zachęcająco.

Wśród rankingów polskich uczelni oceniających różne aspekty ich działalności brakowało rankingu porównującego wszystkie polskie uczelnie akademickie pod względem jakości uprawianej w nich nauki. Oto taka próba.

Jeżeli w tym miejscu czytając o ,,rankingu jakości uprawianej nauki” już spodziewasz się, że będą porównywane indeksy Hirscha dla uczelni, to wiedz że masz racje. Choć powinno Cię to zaniepokoić.

Co ciekawego można znaleźć w tym rankingu?

Jest przepaść pomiędzy pierwszymi dwoma uczelniami a resztą [odpowiednio: UW: 187, UJ: 153 trzecia PW: 115]. Czyli w przypadku UW liczyły się tyko publikacje o 187 cytowaniach i tych publikacji zebrało się 187 od końca drugiej wojny światowej. Dla pozostałych uczelni nie wiadomo ile tak poczytnych publikacji napisano, wiadomo że mniej poczytnych jest jeszcze mniej. Ta przepaść natychmiast rodzi naturalne pytanie: które prace wykonane w okresie ostatnich 55 lat przez tysiące naukowców na Uniwersytecie Warszawskim były tymi najczęściej cytowanymi? Czy te najbardziej poczytne publikacje pochodzą z jakiejś określonej dziedziny [może bio-info-tech a może medycyna], czy określonego okresu czasu [czy starsze uczelnie mają przewagę, czy też te poczytne publikacje to raczej ostatnie dekady], ilu uczonych z UW wyprodukowało te 187 prac.
To ciekawe pytania, odpowiedzi na nie pomogłyby zrozumieć jakie wyniki wyprodukowane przez naukowców afiliowanych w Polsce są dostrzegane na świecie.
Mam nadzieję, że naukowcy z UZ [to oni opracowali ten ranking i wykonali dużo pracy przy czyszczeniu i uzgadnianiu danych] w przyszłości odpowiedzą na to pytanie. Lub udostępnią zebrane dane, by każdy mógł sobie w nich pogrzebać.

Można na jego bazie tego rankingu zbudować nowy współczynnik dla naukowców.
Nazwijmy go roboczo CWSP [cyniczny współczynnik SmarterPoland], określający ile polskich uczelni akademickich ma niższy lub równy indeks H niż dany naukowiec.
A ponieważ jedna z polskich uczelni akademickich ma indeks H równy zero, każdy polski naukowiec będzie miał indeks CWSP przynajmniej równy 1.

Indeks H ma tą wspaniałą zaletę, że można go policzyć dla każdego zbioru publikacji.
Możemy więc policzyć i porównać indeks H dla kobiet vs. mężczyzn, albo wysokich vs. niskich, praworęcznych vs. leworęcznych, albo naukowców z okularami i tymi bez [czy nauka będzie szła, gdy na nosie noszę szkła?].

Disclaimer: Autor nosi okulary i pracuje na UW, pisząc o swoim pracodawcy może być więc stronniczy 😉

Wykres ministerstwa finansów z ,,lie-factor” przekraczającym 200%

Przygotowując się do ubiegło-piątkowej prezentacji w Toruniu, przeglądałem katalogi na dysku ze zgromadzonymi materiałami, i tymi opublikowanymi, i tymi nie opublikowanymi. Wśród materiałów odłożonych ,,na potem” znalazłem dosyć brzydki przykład manipulacji polami na wykresie.

Osiem miesięcy temu minister finansów podczas konferencji prasowej wykazywał, że program jednej z partii opozycyjnych to klasyczna piramida finansowa. Wypowiedź podparł charakterystycznymi wykresami w kształcie piramidy [źródło np tutaj].

Kotwiczenie komunikatu piramidy za pomocą wykresu z pewnością niektórzy uznają za bardzo kreatywny pomysł. Ok, to zrozumiem, choć pole to marna geometria na pokazywanie proporcji. Niektórzy [patrz tutaj] wątpią czy liczby przedstawione na wykresie są dobrze policzone. Ok, rozumiem, że można je różnie liczyć, a minister przedstawia te wyliczenia, które uważa za najodpowiedniejsze, jego prawo.

Ale nie rozumiem dlaczego liczby na wykresie nie odpowiadają obrazowi. Obecność małych kwadracików wyraźnie sugeruje, że pola [kwadraciki] powinny być proporcjonalne do prezentowanych liczb. Ale nie są.

Edwart Tufte zaproponował współczynnik ,,lie-factor” (współczynnik przekłamania?) określający ilukrotnie efekt przedstawiany przez dane różni się od efektu przedstawianego przez wykres [więcej tutaj].

Policzmy ile ten współczynnik wyniesie dla powyższego wykresu.

Efekt w danych jest taki, że dochody do kosztów to 8.1 / 62.6 = 0.1293 [ok 12.9%]

Efekt przedstawiony na wykresie to:
zielony trójkąt ma szerokość 70px, wysokość 61px, w sumie to około 2135 piskeli.
duży trójkąt (zielony plus czerwony) ma szerokość 298px, wysokość 262px, w sumie około 39038 piskeli.
czerwony trapez to 39038 – 2135 = 36903 pikseli.
Efekt na wykresie więc to 2135/36903 = 0.0578 [ok. 5.8%]

Wykres pokazuje więc dwukrotnie mniejszą proporcje niż wynikałoby to z danych.

Wykres przedstawiający poprawne proporcje zielonego do czerwonego wyglądałby tak jak prawa strona poniżej.


Agregator sondaży poparcia dla partii politycznych

Dziś będzie wpis jednocześnie o trzech bardzo ciekawych rzeczach.
Po pierwsze przedstawię prototyp aplikacji, pozwalającej na interaktywne przeglądanie i porównywanie wyników z sondaży poparcia dla partii politycznych.
Po drugie, opowiem jak budować interaktywne serwisy internetowe z logiką opisaną w R, z użyciem Shiny – rewolucyjnej [to nie jest nadużycie, to naprawdę jest rewolucja] implementacji paradygmatu ,,reactive programming” [tutaj opis].
Po trzecie, zobaczymy co ciekawego można znaleźć porównując wyniki różnych partii i różnych ośrodków badania opinii. Wyniki których ośrodków są ,,obciążone” i jak bardzo mylące jest sugerowanie się zmianami poparcia przedstawianymi w mediach.

Czytaj dalej Agregator sondaży poparcia dla partii politycznych