Data visualisation challange at useR 2014 conference

Familiar with R and DataVis? Take a try in PISA data visualisation contest for useR2014 participants.
There are two contest tracks. In each you can win 700$.

More information about the contest can be found here: http://www.oecd.org/pisa/pisaproducts/datavisualizationcontest.htm.

The prizes are funded by The Organisation for Economic Co-operation and Development (OECD) and tracks are related to data from The Programme for International Student Assessment (PISA).

Note that the deadline is Sunday 29 june 2014 Pacific Daylight Time.

Below you can find an simple example how to read PISA data and plot some basic graphs.

Let’s see in which countries pupils have high average reading + math score and in which countries pupils are on average better in math than reading.

library(ggplot2)
# read students data from PISA 2012
# directly from URL
con <- url("http://beta.icm.edu.pl/PISAcontest/data/student2012.rda")
load(con)
# calculate weighted mean from math / reading scores
# W_FSTUWT stands for final weights
mathScores <- unclass(by(student2012[,c("PV1MATH", "W_FSTUWT")], 
                 student2012$CNT,
                 function(x) weighted.mean(x[,1], x[,2])) )
readScores <- unclass(by(student2012[,c("PV1READ", "W_FSTUWT")], 
                 student2012$CNT,
                 function(x) weighted.mean(x[,1], x[,2])) )
# create a data.frame with scores and country names
# remove names with ( in name)
readMathScores <- data.frame(Country=names(readScores), readScores, mathScores)
readMathScores <- readMathScores[-grep(readMathScores$Country, pattern="(", fixed=TRUE),]
 
ggplot(readMathScores, aes(x=mathScores + readScores, y = mathScores - readScores, label = Country)) + 
  geom_text() +
  theme_bw()

Let’s add country sizes to the plot.

sizeScores <- unclass(by(student2012[,"W_FSTUWT"], 
                         student2012$CNT,
                         sum) )
# create a data.frame with scores, sizes and country names
# remove names with ( in name)
readMathScores <- data.frame(Country=names(readScores), readScores, mathScores, sizeScores)
readMathScores <- readMathScores[-grep(readMathScores$Country, pattern="(", fixed=TRUE),]
 
ggplot(readMathScores, aes(x=mathScores + readScores, y = mathScores - readScores, label = Country, size = sqrt(sizeScores))) + 
  geom_text() +
  theme_bw() + theme(legend.position="none")

I am very eager to see winning submissions.

[Przegląd prasy] Polacy popierają głosowanie przez Internet

 

Wyniki badania przeprowadzonego przez CBOS wskazują, że łącznie 76% badanych popiera wprowadzenie możliwości głosowania w wyborach za pośrednictwem Internetu.

 

Więcej informacji na Portalu Samorządowym oraz Interaktywnie.com

 

44% badanych jest zdania, że głosować w ten sposób powinien móc każdy wyborca, natomiast 32% uważa, że możliwość taką powinny mieć jedynie osoby, dla których dotarcie do lokalu wyborczego stanowi trudność.

Największy odsetek zwolenników głosowania drogą internetową przez wszystkich wyborców zauważamy w grupie ludzi młodych. Ponad połowa osób w wieku między 18 a 34 rokiem życia popiera takie rozwiązanie.

 
 źr:interaktywnie.com

Badanych poproszono również o wskazanie, w jaki sposób sami zagłosowaliby najchętniej – najczęściej wskazywaną odpowiedzią okazało się głosowanie w lokalu wyborczym, tę opcję wskazało 68% pytanych osób. Wśród nich znalazły się również osoby niepełnosprawne oraz starsze, podkreślające jednocześnie konieczność lepszego przystosowania lokali wyborczych.

Za pośrednictwem Internetu najchętniej zagłosowałaby ponad ¼ badanych (27%).

Z badania wynika również, że część pytanych osób oczekuje, że państwo będzie także aktywnym informatorem w kwestiach organizacyjnych związanych z wyborami. 33%  badanych chciałoby otrzymywać informacje, dotyczące terminu wyborów oraz ułatwień dla wyborców, pocztą lub mailem.

źr:interaktywnie.com

(Jak zapewne większość z Was zauważyła, w wykres wkradł się chochlik, 
zdecydowaliśmy jednak o jego publikacji ponieważ niesie on ze sobą interesujące, według nas, informacje.
Prosimy zatem by w jego interpretacji sugerować się wartościami a nie długością słupków.)

Badanie przeprowadzono metodą wywiadów bezpośrednich (face-to-face) wspomaganych komputerowo (CAPI) w dniach 6-12 marca 2014 r. na liczącej 1098 osób reprezentatywnej próbie losowej dorosłych mieszkańców Polski.

Raport „Ułatwienia w głosowaniu – wiedza, opinie i oczekiwania”, powstał w ramach projektu badawczego Biura Rzecznika Praw Obywatelskich oraz CBOS.  Pełen raport będzie dostępny na stronie CBOS.

PC

Robisz to źle: narracja z użyciem wykresu

W piątkowym numerze ,,Ekonomia & rynek” znalazłem poniższy wykres ilustrujący podtytuł ,,Taki wzrost prognozowali najwięksi optymiści. Większy jest już tylko w Rumunii”.

Wykres pokazuje najwyższy wzrost PKB w Polsce, podtytuł mówi, że w Rumunii jest wyższy.
Dziwnie też wygląda legenda wykresu, oznajmiająca, że 2 zaznaczone jest na żółto a na wykresie są trzy kraje zaznaczone na zielono ale ze wzrostem 2.

Może to tylko błąd na wykresie, a może tylko błąd w tytule. Interesujące pytanie to: który z tych dwóch sprzecznych komunikatów zapamiętamy?

Praktyki w ICM UW

Jak co roku Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego oferuje studentom możliwość odbycia interesujących praktyk zawodowych w trakcie wakacji letnich. Praktyki mogą obejmować 10 tygodni (praktyki płatne) lub 6 tygodni (praktyki bezpłatne) i dotyczą prac nad konkretnymi projektami programistycznymi, badawczo-rozwojowymi i naukowymi. Więcej informacji znaleźć można tutaj.

Szczególnie zachęcam do zgłaszania się do realizacji dwóch zgłoszonych przeze mnie tematów. Jeden dotyczy implementacji współdzielonego repozytorium modeli R i wymaga dobrej znajomości R.
Drugi dotyczy budowy sterowanego kamerą interface dla modelowania statystycznego i wymaga biegłej znajomości jednego z języków: c++, java, python, R.

W obu przypadkach będzie dużo kodowania, ale interesującego wraz z możliwością poćwiczenia wybranych aspektów analizy danych.

Chętni do realizacji tych tematów powinni w formularzu zgłoszeniowym wybrać projekt numer 5. W imieniu kolegów z ICM zachęcam też do zgłaszania się do innych interesujących projektów.

[Przegląd prasy] Politykom ufamy najmniej

Instytut GFK w 25 krajach przeprowadził badanie dotyczące zaufania do konkretnych grup zawodowych. Aż w 15 z nich (w tym w Polsce) grupę wzbudzającą największe zaufanie stanowią strażacy.

Najmniejszym zaufaniem, w każdym z badanych krajów, cieszą się politycy.

Więcej informacji tutaj.

 

Na świecie zaufanie wzbudzają przede wszystkim grupy zawodowe związane z medycyną oraz ratownictwem: 90% badanych respondentów zadeklarowało zaufanie do strażaków,  na drugim miejscu znalazły się pielęgniarki oraz lekarze (po 89%). W czołówce uplasowali się również farmaceuci (87%) oraz ratownicy medyczni (84%)

Wysokim poziomem zaufania na świecie cieszą się również nauczyciele (88%).

W Polsce, tak samo jak na świecie, pierwsze miejsce wśród grup zawodowych cieszących się zaufaniem zajmują strażacy. Na zaufanie do tej grupy społecznej wskazało aż 94% badanych.

Również w Polsce, analogicznie do wyników światowych, wysokie pozycje zajmują zawody związane ze służbą zdrowa. Pielęgniarkom ufa 93%, ratownikom medycznym 88%, a farmaceutom 87% respondentów. Nieco niżej niż w światowym rankingu znaleźli się lekarze, w Polsce zaufaniem darzy ich 80% badanych.

Wysokiem poziomem zaufania cieszą również nauczyciele (83%).

Zarówno na świecie, jak i w Polsce do zawodów obdarzonych najmniejszym zaufaniem należą: burmistrzowie (45% w Polsce, 53% na świecie), agenci ubezpieczeniowi (39% i 48%), specjaliści ds. reklamy (35% i 56%) oraz politycy (16% i 31%).

W ramach badania GfK analizowany jest poziom zaufania do ponad 30 grup zawodowych. W analizie uwzględniono jedynie te profesje, które występują we wszystkich 25 badanych krajach.

PC

 

Czwarty SER już 22 maja [Spotkanie Entuzjastów R]. Z tej okazji konkurs!

Czwarte Spotkanie Entuzjastów R już 22 maja! Dodajcie tę datę do kalendarza!
Tym razem spotykamy się w budynku Instytutu Badań Edukacyjnych (ul. Górczewska 8).

Planowane referaty to:

17:15-17:45 – Piotr Dittwald, MISDoMP/MIMUW
'Systematyczne przetwarzanie informacji o rearanżacjach genomowych w R’
18:15-18:45 – Filip Grotkowski, MIMUW
'Zastosowania R do analizy działania robotów w inteligentnych hurtowniach’

Coś o bioinformatyce, coś o zastosowaniach w przemyśle, zapowiada się ciekawie.

Czwarte spotkanie to ostatnie spotkanie przed wakacjami. Kolejny SER odbędzie się dopiero w październiku.

Przygotowując serie powakacyjnych SERów szukamy ciekawych prelegentów, którzy mogliby powiedzieć coś ciekawego o R lub analizie danych.

Z tego powodu mamy dla Was konkurs.
W poniższym formularzu rejestracyjnym można nominować prelegenta na kolejne spotkania. Skontaktujemy się z nim i przy odrobinie szczęścia będzie jednym z prelegentów.
Wśród osób, które nominują jakiegoś prelegenta rozlosowane będą dwa bardzo fajne kubki.

Czytaj dalej Czwarty SER już 22 maja [Spotkanie Entuzjastów R]. Z tej okazji konkurs!

Wykresy z matury z WOS

Lektura zadań z tegorocznej matury z wiedzy o społeczeństwie wprawiła mnie w spore zakłopotanie.
Nie spodziewałem się, że najtrudniejszymi dla mnie pytaniami okażą się te, które wymagają odczytywania danych z wykresów.

Przyjrzyjmy się dwóm zadaniom z matury.

Zgadywać można, że na wykresie przedstawiono średnią z odpowiedzi respondentów, respondenci mogli odpowiadać w skali 0-10 o której mowa pod wykresem. Ta skala nie wygląda na skale przedziałową, więc już to jest niepoprawne, ale to na tyle częsty błąd, że można wybaczyć.

Czy punktem neutralnym na tej skali jest 0? Raczej nie. Wartości nie są w skali ilorazowej, wartość 5 nie oznacza że badania zgadzają się dwa razy mniej niż gdyby odpowiadali 10.

W arkuszu z przykładowymi odpowiedziami z serwisu edulandia czytamy przykładową odpowiedź:
Większość respondentów zgadza się ze stwierdzeniem, że nasz kraj powinien być rządzony zgodnie z wolą społeczeństwa, natomiast niecała połowa respondentów uważa, że kraj rządzony jest zgodnie z wolą społeczeństwa.

Taka odpowiedź sugeruje, że na wykresie przedstawiono frakcje osób zgadzających się z danym twierdzeniem. Ale jeżeli tak jest to skąd ta skala 0 (nie zgadzam się) – 10 (zgadzam się)?
Nawet gdyby pierwszą część potraktować jako zagadkę logiczną (aby średnia była równa 8 to ponad połowa głosów musi być powyżej 5 a mniej niż połowa poniżej 5), to druga część nie gra. Hipotetyczny rozkład głosów mógłby być: 6, 6, 6 (trzy głosy zgadzające się) 0.4 (jeden głos bardzo się niezgadzający), średnia wynosi 4.6 a mimo to trzy czwarte z ankietowanych zgadzało się.

To jednak nie jest prawidłowa odpowiedź! Zgodnie z odpowiedzią z CKE w modelu prawidłowej odpowiedzi jest zapis
,,Postulowany wpływ społeczeństwa na rządy jest znacznie większy niż ocena realnego wpływu. W pierwszym przypadku średnia ocen z badania respondentów (w skali 0–10) wynosi 8, w drugim – 4,6 ”.
Ale i ta odpowiedź budzi wątpliwości. Od jakiej różnicy średnich uzasadnione jest użycie zwrotu 'znacznie większy’? I właściwie co to zadanie ocenia? Czy umiejętność odgadywania, że na wykresie przedstawiona jest średnia? Gdzie w modelowej odpowiedzi jest to ,,wykorzystanie danych liczbowych”?

Wartości w skali Likerta można pokazać lepiej niż na trzech wykresach paskowych, ale przymknijmy na to oko, to też popularny błąd.

Zgodnie z serwisem edulandia odpowiedź A jest poprawna a C niepoprawna.

Ale w matematyce wzrost o 34% to coś innego niż wzrost o 34 punkty procentowe.
Więc co do zadania A, odsetek wzrósł z 7% do 41% czyli o 586% lub o 37 punkty procentowe.

Więc zgodnie z komentarze CKE odpowiedź A jest niepoprawna a odpowiedź C poprawna.

Zadanie jak widać bada umiejętność odróżniania punktów procentowych od procentów.

Ale moje pytanie brzmi: po co jest ten wykres? Gdyby usunąć wykres a zostawić te sześć liczb nic by się nie zmieniło. A przecież miało być ,,na podstawie wykresu…”

Zmiany w poparciu dla partii politycznych. Zrównanie dwóch największych partii?

We wrześniu poprzedniego roku, we wpisie Poparcie dla ,,wielkiej piątki” w ostatnich dwóch latach pokazywałem jak wygląda zmiana uśrednionego poparcia dla pięciu największych partii.

W obliczu zbliżających się eurowyborów, pytanie o poparcie dla partii politycznych to temat aktualny i ciekawy.

Od kilku miesięcy wolontariusz, Paweł Wiechucki, pracował nad agregatorem sondaży. Otwartym repozytorium wyników poparcia dla partii politycznych. Pierwsza wersja jest już gotowa. Zapraszamy na stronę http://smarterpoland.pl/sondaze aby dodawać wyniki nowych sondaży i pobierać dane o już wprowadzonych sondażach.

Na razie udało się zebrać w miarę kompletne dane dla TNS Polska i SMG KRC. Na ich bazie zbudowałem poniższą uśrednioną i wygładzoną ocenę poparcia partii politycznych. Jak widzimy mamy przełomowy punkt w którym dwie największe partie mają bardzo zbliżone poparcie. Ciekawe jak dalej potoczą się ich losy?

Każda kropka to wynik jednego sondażu. Krzywe to informacje o uśrednionym i wygładzonym trendzie.

Zapraszamy do uzupełniania danych o sondażach dla CBOS i Homo Homini, szczególnie z okresu ostatniego roku. Będzie można uzupełnić powyższe analizy o dane z pozostałych instytucji badania opinii.
http://smarterpoland.pl/sondaze.

Wydarzenia na Ukrainie a Twitter i Big Data

Było tak, że ComputerWorld zaprosił mnie do wygłoszenia prezentacji na konferencji Big Data & Business Analytics. Ustaliliśmy, że interesującym studium przypadku do zaprezentowania będą analizy danych z mediów społecznościowych dotyczących wypowiedzi na temat wydarzeń na Ukrainie.

Przez ponad dwa miesiące zbieraliśmy Twitty, wiadomości na Facebooku, artykuły na czytnikach RSS jakoś związane z Ukrainą lub Krymem. Surowych danych zebrało się ponad 300GB, ale po odfiltrowaniu tego co ciekawe i wyznaczeniu interesujących agregatów zeszliśmy do paczki danych o rozmiarze kilkudziesięciu MB.

Do analiz wykorzystałem R i kilka innych narzędzi, między innymi IBM Many Eyes. Na przykładzie tego i kolejnych wpisów chciałbym pokazać jakie przykładowe analizy na tej paczce danych wykonywaliśmy. Dziś na przykład pokażę co można zrobić z użyciem narzędzia Many Eyes.

Wymóg użycia Many Eyes jest taki, że analizowane dane są publiczne i nie mogą być większe niż 5 MB. Z korpusu twittów wybrałem więc 5MB angielskich, interesujących ćwierków i dodałem do Many Eyes. Ten zbiór danych można pobrać z tego adresu, można go też dalej wizualizować używając platformy ME.

Czytaj dalej Wydarzenia na Ukrainie a Twitter i Big Data