Frekwencja a wyniki – wybory samorządowe 2014

Dużo frajdy daje praca z zaangażowanymi studentami. Prowadzę w tym semestrze zajęcia z Technik Wizualizacji Danych na MINI PW i MIM UW. Na laboratoria przygotowuję różne zbiory danych a oni trzask / prask czyszczą dane, szukają sygnałów i prezentują sygnały graficznie.

Ostatnie zajęcia to temat rysowania map w ggplot2, a za worek treningowy posłużyły nam dane o wynikach (i w liczbie głosów i w liczbie mandatów i we frekwencji) wyborów do sejmików.

Po godzinie od pokazania danych powstały poniższe wykresy.

Każdy z nich na swój sposób pokazuje, że w województwach o wyższej frekwencji wygrywa PIS a niższej PO (wyjątkiem jest świętokrzyskie, najwyższa frekwencja a wygrywa PSL).

Dane i kody użyte do wykonania wykresów można pobrać z githuba.

es

wybory

aaa

[Dane] The Data and Story Library

Danych jest coraz więcej. Niestety liczba śmieciowych zbiorów przyrasta szybciej niż liczba tych ciekawych, więc nie zawsze jest łatwo znaleźć coś fajnego, np. gdy przygotowuje się nowy kurs.

Tym bardziej ucieszyło mnie to znalezisko:
Na stronach Carnegie Mellon znajduje się repozytorium otagowanych zbiorów danych http://lib.stat.cmu.edu/DASL/. Zbiory podzielone są na metody lub tematy, które ilustrują.

I tak na przykład tutaj jest zbiór siedmiu zbiorów danych ilustrujących co to te rozkłady.

Raz na 10 lat?

Pan Wojciech Szacki na swoim blogu zaapelował ,,niech socjologowie zajmą się wreszcie na serio różnicami w sondażach partyjnych”. Rozgoryczenie łatwo rozumieć. Nie dość, że PKW daje plamę, to jeszcze różne sondaże poparcia pokazują zupełnie różne wyniki. Jedne miażdżącą przewagę PO, drugie zwycięstwo PIS, a po sieci krążą mapki ze zwycięstwem PSL (w innych wyścigach, ale zawsze).

Jednak czy te różnice są rzeczywiście tak niewiarygodne, że należy zwołać komisję śledczą, kontrolę NIK lub śledztwo na wykopie? Zobaczmy.

Poniżej wykres (ze strony wyborcza.pl) przestawiający wyniki sondaży CBOS z ostatniego półtora roku (wreszcie sondaże są prezentowane w szerszej perspektywie niż jednego – dwóch miesięcy. Pisaliśmy o tym problemie w Esejach).


Screen Shot 2014-11-19 at 20.44.20

Czytaj dalej Raz na 10 lat?

Idą święta, czas na ,,Eseje…”


Dla dziecka, które interesuje się ciekawymi tematami?

Dla przyjaciela, na prezent?

Dla szefa w pracy?

Dla samego siebie?

Kolorowe wydanie ,,Esejów o sztuce prezentowania danych”, estetycznie wydane na kredowym papierze, to może być świetny pomysł na prezent!

Ciekawostki historyczne, przykłady złych i dobrych wykresów, tematy związane z percepcją liczba, kolorami czy obrazem. Wiele przykładów z polskich źródeł. To wszystko bogato ilustrowane na 200 stronach w popularno-naukowej formule.

Książkę można kupić w księgarniach na Uniwersytecie i Politechnice Warszawskiej oraz przez internet. Szczegółowe informacje gdzie i jak kupić tę książkę są na tej stronie.

Wydatki na badania i rozwój w Polsce

Wczoraj eurostat opublikował notkę nt. wydatków na badania i rozwój. Cała notatka tutaj.

Tabela z drugiej strony przedstawia wydatki w roku 2003 i 2013 i w milionach euro i jako % PKB.

Poniższy rysunek pokazuje nakłady na badania i rozwój w Polsce vs. inne kraje EU28 i nie tylko jako procent PKB w roku 2013. Do liderów daleko, oj daleko.

W ramach UE28 awansowaliśmy z 21 (w 2004) miejsca na 20 (w 2013). Głównie za sprawą dużego spadku Chowacji.

RD

SER w listopadzie i grudniu oraz materiały z SERa październikowego

Dzisiaj ma trzy bardzo interesujące informacje dotyczące SERów (czyli Spotkań Entuzjastów R i Analizy Danych).

Za dwa tygodnie, 27 listopada (czwartek) odbędzie się kolejne Spotkanie Entuzjastów R.
Tym razem gościć będziemy na wydziale MINI PW (blisko centrum, dobry dojazd metrem i nie tylko).

W planach mamy dwie ciekawe prelekcje.

Zaczynamy o 18:00 referatem Bogumiła Kamińskiego (SGH) nt. „Integracja języka R z zewnętrznymi narzędziami analitycznymi na przykładzie pakietu localsolver”.
LocalSolver to silnik optymalizacyjny, dlaczego i jak go integrować o tym na referacie.

Drugi referat rozpocznie się o 19:00 i poprowadzi go Piotr Przybyła (IPI PAN) a jego tytuł to „Rozpoznawanie własności mówcy na podstawie treści wypowiedzi na przykładzie posłów na Sejm”.
Czyli gratka dla osób interesujących się przetwarzaniem języka naturalnego.

UWAGA: Biorąc do serca uwagi z poprzedniego SERa dot. usprawnienia networkingu, prosimy o rejestracje na to spotkanie poprzez formularz google (poniżej lub pod tym linkiem lub przez tę stronę meetup). Dla (niektórych) współpracujących przewidujemy nagrody.

Niecałe 10 dni później, 8 grudnia (poniedziałek) mamy kolejny, siódmy SER. Dlaczego tak szybko po listopadowym? Otóż był to jedyny termin, który pasował naszemu specjalnemu gościowi z R Foundation, twórcy wielu pakietów do analizy danych przestrzennych w R, prof Rogerowi Bivand.

Tak więc zaczynamy o 18:00 referatem Rogera Bivanda (R Foundation / NHH) „Co można zrobić z danymi przestrzennymi w programie R”.

Kolejny referat też jest wyjątkowy. Uczestnicy październikowego SERa mogli zobaczyć robota z klocków LEGO sterowanego z programu R. I właśnie o tym będzie druga prezentacja w grudniu.

Godzina 19:00 Bartosz Meglicki (IPI PAN), „Machine Learning wcielony – programowanie robotów LEGO z ev3dev.R”.
To trzeba zobaczyć na żywo, żaden filmik nie pozwoli na zobaczenie jak wygląda dwustronna komunikacja robot – R.
Zwykłem mówić, że R nie potrafi jedynie zrobić cappuccino, już niedługo i ta bariera zostanie przekroczona.

Czytaj dalej SER w listopadzie i grudniu oraz materiały z SERa październikowego

Ranking samorządów a wybory

Idą wybory samorządowe i jest to z pewnością dobry czas na podsumowania kadencji obecnie urzędujących burmistrzów.
Nie jest to proste dla większości z nas, czyli dla osób, które nie śledzą dzień w dzień tego co się dzieje w gminie. Właściwie skąd wiadomo czy samorząd wykorzystał potencjał na rozwój czy nie?
Owszem, pewnie w listopadzie zakończył się remont jakiejś ulicy, położono chodnik, otworzono drugą nitkę metra (na razie do zwiedzania). Tyle, że jest to pudrowanie całego okresu urzędowania. A jaki on był? Co jest pod tym pudrem?

Czytaj dalej Ranking samorządów a wybory

W 11 podróży dookoła świata

Najciekawszym medialnie zbiorem danych tego tego tygodnia, może okazać się zestawienie wyjazdów samochodowych posłów VII kadencji opublikowanych na stronie.
(a może nie, po południu napiszę o innym, jeszcze ciekawszym zbiorze danych).

Siódmy załącznik zestawienia to przejazdy samochodowe. Z innych plików wynika, że podane kwoty dotyczą rozliczenia przejazdów samochodami i nie zawierają diet. Maksymalny ryczałt za 1km to około 83gr, można więc oszacować liczbę zadeklarowanych kilometrów. Niektórzy objechaliby świat dwukrotnie.

wyjazdy

Diagnoza Społeczna 2013 a co jest dla nas ważniejsze w życiu?

Diagnoza Społeczna to bardzo ciekawy zbiór danych, przykład dużego badania panelowego prowadzanego od roku 2000 (do dziś 7 edycji). Cały zbiór danych można pobrać ze strony diagnoza.com, ale niestety tylko w postaci plików SPSSowych sav.

Skonwertowałem zbiór danych z edycjami 2000-2013 do formatu R i umieściłem na GitHubie (tutaj: https://github.com/pbiecek/Diagnoza).

Osoby korzystające z R mogą z tego zbioru korzystać zainstalowawszy pakiet Diagnoza z Githuba, czyli wpisując poniższe trzy linijki.

library(devtools)
install_github("pbiecek/Diagnoza")
library(Diagnoza)

Skoro już go zainstalowaliśmy to zróbmy coś z tymi danymi.

W badaniu z roku 2013 znalazło się ciekawe pytanie 'Co jest według Pana ważniejsze w życiu?’ (fp29) z możliwymi odpowiedziami:

  • przyjemności, dostatek, brak stresu,
  • osiąganie ważnych celów mimo trudności, bólu i wyrzeczeń

Czy ciekawi Was jak odpowiedzi na to pytanie różni się w zależności od płci i wieku?
Mnie interesowało, więc szast prast i mamy wykres.

Wykres zgodny ze stereotypami, choć różnice w procentach nie są dramatyczne. Uogólnianie, że młodzi mężczyźni, to a starsze kobiety tamto, to zbytnie uproszczenie, ale pewien trend jest widoczny.

Ale najpiękniejsze jest to, że do policzenia ważonych średnich (w Diagnozie dane są ważone) i narysowania tego wykresu wystarczą cztery linijki.

library(dplyr)
library(scales)
 
agregat <- 
  osoby[,c("fp29", "PLEC", "WAGA_2013_OSOBY", "WIEK6_2013")] %>% 
  group_by(fp29, PLEC, WIEK6_2013) %>%
  summarise(waga = sum(WAGA_2013_OSOBY, na.rm=TRUE)) %>%
  na.omit()
 
ggplot(agregat, aes(x=WIEK6_2013, y=waga, fill=fp29)) + 
  geom_bar(stat="identity", position="fill") + facet_wrap(~PLEC) +
  theme(legend.position="top") + 
  scale_fill_manual(name="Co jest według Pana ważniejsze w życiu?", 
        values=c("gold3", "blue3")) +
  scale_y_continuous(labels = percent) +
  ylab("Procent osób") + xlab("Wiek")

Udanej zabawy z tym zbiorem danych.
Zbiór danych z ankietami osobowymi to 75 tys wierszy i 3000 kolumn (cech). Dla gospodarstw domowych wymiary to 23800 x 2161.