PISA 2015 – how to read/process/plot the data with R

Yesterday OECD has published results and data from PISA 2015 study (Programme for International Student Assessment). It’s a very cool study – over 500 000 pupils (15-years old) are examined every 3 years. Raw data is publicly available and one can easily access detailed information about pupil’s academic performance and detailed data from surveys for studetns, parents and school officials (~2 000 variables). Lots of stories to be found.

You can download the dataset in the SPSS format from this webpage. Then use the foreign package to read sav files and intsvy package to calculate aggregates/averages/tables/regression models (for 2015 data you shall use the GitHub version of the package).

Below you will find a short example, how to read the data, calculate weighted averages for genders/countries and plot these results with ggplot2. Here you will find other use cases for the intsvy package.

pisa2015

Zgłoszenia na ,,Konkurs na najgorszy wykres roku 2016”

Kontynuując tradycję konkursów na najgorszy wykres roku (tutaj edycja 2015, tutaj 2014, tutaj 2013 czy a tutaj 2012) ogłaszam nabór zgłoszeń na Konkurs na najgorszy wykres roku 2016.

Zgłaszać można dowolny wykres, który był prezentowany w 2016 roku, czy to na portalach internetowych, czy mediach społecznościowych czy konferencjach branżowych.

W tym konkursie, ,,najgorszy” oznacza najbardziej nieczytelny, zniekształcający dane lub wypaczający prezentowaną historię.

Już kilka grafik mam, są naprawdę niezłe, ale im więcej kandydatów tym ciekawsi zwycięzcy. Propozycje wykresów czy infografik proszę przesyłać mailowo lub dodawać w komentarzach poniżej.

Czas na przesyłanie zgłoszeń: do 20 grudnia. Konkurs na najgorszą grafikę jest zaplanowany na ostatni tydzień roku.

Prace domowe

Dawno już nie prowadziłem przedmiotu, przy którym tyle przyjemności sprawiało mi sprawdzanie prac domowych!

Na przedmiocie ,,Techniki prezentacji danych”, studenci jako prace domowe przygotowują grafiki związane z danymi, które znaleźli w gazetach z ostatniego tygodnia. Niektóre z tych prac są świetne. Poniżej dwie wykonane ostatnio przez Ewę Baranowską i Martę Jóźwik.

Tabela z Bloombergnews Polska

twd2

zamienia się w wykres przedstawiający rekordowe hiperinflacje (dwie z nich dotyczą Polski). Wykres trzeba oglądać w pełnej rozdzielczości (kliknij by otworzyć w pełnej rozdzielczości).

twd

Drugi wykres wyrósł z Pulsu Biznesu.

img_20161118_244049659

Trochę gg-magii i

twd3

Odkrywać! Ujawniać! Objaśniać!

eseje
W listopadzie mamy wiele akcji wydawniczych. Kilka dni temu pisałem o tym, że do księgarni trafiają Muffinki – bogato ilustrowane opowiadania statystyczne dla dzieci.
A w tę sobotę do księgarni wrócił ,,Zbiór esejów o sztuce prezentowania danych Odkrywać! Ujawniać! Objaśniać!” Akurat dostaliśmy z drukarni kolejny metr sześcienny książek. W sam raz na święta.

Cała książka jest dostępna w formacie html tutaj. Wersję papierową można kupić w tych księgarniach.

A co znajduje się w kolejnych rozdziałach?

Perełki z historii – Zobaczcie jak wyglądała słynna Róża Nightingale, wykres który uratował tysiące ludzkich istnień. Co tak naprawdę w Człowieku witruwiańskim zakodował Da Vinci? Jakimi wykresami Otton Neurath chciał edukować społeczeństwo.

Percepcja obrazu – Czym różni się plamka ślepa od żółtej oraz dlaczego przy słabym świetle trudno trafić w dziurkę od klucza. Dlaczego na łodziach podwodnych jest czerwone oświetlenie. Co łączy dentystę i dietetyka?

Percepcja kolorów – Dlaczego nie widzimy w podczerwieni ani ultrafiolecie, choć niektóre owady i węże potrafią. Co można odczytać z wykresu chromatyczności i jak pomóc kolegom z deuteranomalią.

Percepcja danych – Jak wygląda Rachunek od państwa 2012? Dlaczego tak trudno czytać wyniki sondaży? Dlaczego tak trudno radzić sobie z niepewnością?

okladka-724x1024

Od kuchni – Dlaczego wykres mozaikowy jest świetny choć rzadko stosowany? Co widać w twarzach Chernoffa? Dlaczego dobre garnki to nie wszystko?

Info-pomyłka – Jaki nie dać się zwieść słupkom, kątom, i dziwnym osiom.

Droga – Jak bawić się prezentacją danych. I to nie tylko na komputerze.

Gramatyka – Do ilu można liczyć w języku plemienia Pirahã? Jak składać wykresy w pakiecie ggplot2? Czym charakteryzuje się polski rozkład normalny?

Miłej lektury!

Techniki wizualizacji danych a rok pracy Sejmu


Jakiś czas temu pisałem o zależności pomiędzy wartością wizualizacji danych a zawartej w nich historii. No dobrze, więc skąd brać ciekawe historie do wizualizacji?

Tych jest pełno dookoła. Przykładowo pomysł na pierwszy projekt z przedmiotu Techniki Wizualizacji Danych podrzucił nam zespół analityków z MamPrawoWiedziec.pl. Mija właśnie pierwszy rok pracy Sejmu. Zobaczmy o czym i jak mówiono, jak głosowano itp.

Pierwszy wykres pokazuje jak często posłowie klubu A wtrącają się w wypowiedzi posłów klubu B. Czasem by krytykować, czasem by wyrazić poparcie.

Poniższy wykres jest interaktywny. Aby uruchomić jego interaktywną wersję trzeba otworzyć tę stronę. Ale ostrzegam, ta interaktywność wciąga.

screen-shot-2016-11-16-at-10-29-20

Drugi wykres jest mniej interaktywny, ale wyładowany treścią po brzegi. Dla pięciu największych klubów pokazuje jak często posłowie wypowiadają się oraz jak często głosują niezgodnie z linią klubu. Skrajne wartości dodatkowo mają zaznaczone nazwisko posła. Poziome linie pokazują jaka jest średnia dyscyplina w klubie. Linia partii w tym przypadku oznacza głos oddany przez większość partii.

Oba powyższe wykresy wykonał zespół Ewa Baranowska, Marta Jóźwik, Magdalena Mazurek. Te akurat najbardziej przypadły mi do gustu z uwagi na estetykę i ilość przedstawionej treści. Pomimo, że póki co głównie omawiamy ggplot2, projekty różnych zespołów eksplorują różne pomysły i techniki. I jak widać efekty są świetne.

Dostęp do danych sejmowych jest prosty dzięki pakietowi sejmRP, który rok temu opracował Piotr Smuda. Jest to API do treści publikowanych na stronach Sejmu (pełne dane dla 7 i 8 kadencji). Pakiet ma kompletną dokumentację i przykłady.

Nic tylko wczytywać i wizualizować.

ps: Dziękuję Annie Ścisłowskiej i Annie Konczewskiej z MamPrawoWiedziec.pl za pomoc merytoryczną.

Wybory w USA

Wyniki wyborów w USA są dalekie od sondaży poprzedzających wybory. Dalekie nawet od exit-polls. Z pewnością analiza przyczyn tych różnic będzie ciekawa (choć analizy po fakcie trudno weryfikować).

Ale poniżej nie będę odnosił się do wyników, ale do sposobu w jaki są prezentowane w serwisach informacyjnych za oceanem.
Trzeba bowiem przyznać, że znaleźć można wiele swietnie przygotowanych wizualizacji ujmujących różne aspekty wyników głosowania. Poniżej kilka przykładów.

New York Times przygotował świetną mapę pokazującą jak zmieniły się wyniki poszczególnych hrabstw pomiędzy tymi a poprzednimi wyborami. Widać przesunięcie sympatii na wybrzeżach w stronę demokratów i olbrzymie przesunięcie sympatii w centralnych stanach.

screen-shot-2016-11-09-at-21-10-18

Wiele świetnych podejść do wizualizacji wyników wyborów i sondaży jest przedstawionych na tej stronie New York Timesa (niektóre podejścia są bardzo pomysłowe).

screen-shot-2016-11-09-at-21-14-45

Poniższa mapa była używana na serwisie fivethirtyeight do zaprezentowania wyników wyborów. Każdy sześciokąt to jeden głos elektorów, jest nawiązanie do geograficznego położenia każdego stanu a jednocześnie informacja jak głosowano.

screen-shot-2016-11-09-at-21-19-41

Google przygotowało interaktywną mapę prezentującą różne problemy związane z głosowaniem.

screen-shot-2016-11-09-at-21-17-14

Ciekawe przykłady wizualizacji wyników sondaży są na stronie The Huffington Post. (a tutaj wyniki wyborów prezydenckich).

screen-shot-2016-11-09-at-21-11-47

Po co oglądać wykresy?

Graficy często upiększają wykresy po to by ładniej wyglądały.
W większości przypadków jest to jednak próżny trud (o ile nie chodzi o Data Art), bo o wartości wykresu świadczy głównie to, czy pokazuje on ciekawą historię. Bez ciekawej historii trudno coś wykrzesać.

Poniżej wybrałem cztery prace domowe studentów z kursu Techniki Wizualizacji Danych z ostatnich dwóch tygodni. Mnie te historie się spodobały (prace domowe polegają na wizualizacji w ggplot2 danych umieszczonych ostatnio w gazetach/portalach informacyjnych).

Kto strzelił więcej goli, Messi czy Ronaldo?
Poniższy wykres pokazuje, że obaj panowie idą łeb w łeb. (Autor: Piotr Smuda)

Skąd się lata w Polsce?
Poniższy wykres pokazuje liczbę pasażerów wylatujących z różnych lotnisk. (Autorka: Ewa Baranowska)

Jaka jest stawka akcyzy przy sprowadzaniu 6-litrowego Dodge Ramchargera?
Poniższy wykres pokazuje stawki akcyzy w zależności od wielkości silnika i roku produkcji. (Autorka: Marta Jóźwik)

Ile i jakie tablety się sprzedaje na świecie?
Poniższy wykres pokazuje sprzedaż i zmianę sprzedaży w zależności od producenta. (Autorka: ponownie Ewa Baranowska)

ggmail + forecast = how many emails I will get tomorrow?


During the eRum 2016, Adam Zagdański gave a very good tutorial about time series modeling. Among other things I’ve learned that the forecast package (created by Rob Hyndman) got cool new plots based on the ggplot2 package.

Let’s use it to play with mailbox statistics for my gmail account!

1. Get the data

Follow this link to download the data from your gmail account as a single mbox file.
It may be large (15GB in my case), but for further steps it’s enough to keep only headers. grep + cat will do the job.

Czytaj dalej ggmail + forecast = how many emails I will get tomorrow?

Z dziennika nauczyciela akademickiego – Techniki Wizualizacji Danych

Prowadzę w tym semestrze Techniki Wizualizacji Danych na MiNI PW. Omawiamy najróżniejsze narzędzia do tworzenia grafiki statycznej i interaktywnej. Począwszy od ggplot2 przez google vis, D3 po Adobe Illustrator.
Ale w wizualizacji danych to nie narzędzie jest najważniejsze, ale komunikatywność historii, którą się graficznie przedstawia.

Jak ją ćwiczyć?

Akurat tutaj duże nadzieje pokładam w pracach domowych. W ramach ćwiczeń, co tydzień, studenci wyszukują w gazetach czy portalach informacyjnych dane lub wykresy, a następnie przygotowują wizualizacje danych z użyciem narzędzi, które akurat w danym tygodniu omawiamy.

Poniżej pokażę dwie bardzo ciekawe prace domowe z pierwszego tygodnia zajęć (ggplot2).

Pani Ewa Baranowska znalazła w Rzeczpospolitej poniższą tabelę dotyczącą liczby spraw prowadzonych przez prokuratorów w różnych krajach.

I z odrobiną magii w ggplot2 powstał poniższy wykres. Nieporównywalnie czytelniejszy niż ww. tabela. Wyraźnie widać różnice pomiędzy wschodem a zachodem Europy.

Drugą pracę, która przypadła mi do gustu, wykonał pan Maksymilian Mazur. Dane dotyczące walki pomiędzy Danem Hendersonem a Michaelem Bispingiem (tutaj link) przedstawił je za pomocą poniższego wykresu.

Wyraźnie widać różnice pomiędzy 2 i 5 rundą. Nie było jej widać w oryginalnej grafice.

eRum i SER

Pierwsza Europejska konferencja użytkowników R (2016) już za nami.

Konferencja była fantastycznie zorganizowana (kudos to Maciej Beręsewicz i cały komitet organizacyjny). Było bardzo dużo ciekawych prezentacji i bardzo bardzo dużo ciekawych ludzi. Bardzo różnorodne środowisko, zarówno biznes jak i akademia, weterani (przyjechał nawet Rob Hyndman z Australii) jak i studenci.
Atmosfera jak z najlepszych edycji useR’ów.

Prezentacje są dostępne na GitHubie. Jest ich naprawdę dużo (i pewnie będą spływać kolejne).
Aby zorientować się od czego zacząć, można zapoznać się z książką abstraktów.

Trochę zdjęć i wrażeń z konferencji można odczytać z twittera.

Z wydarzeń europejskich wracamy do Warszawy.
W przyszłym tygodniu w Warszawie mamy kolejną edycję SERów.
Tym razem w ramach RLadies warsztaty z R.
W sumie 7 grup, cztery wprowadzające do R i trzy poświęcone wizualizacji.
Warsztaty wprowadzające poprowadzą: Agnieszka Tomczyk, Marcin Kosiński, Olga Mierzwa-Sulima, Natalia Potocka.
Warsztaty z ggplot2 poprowadzą: Katarzyna Sobiczewska, Marta Sommer, Przemysław Biecek.

W mojej grupie warsztatowej planuję wykorzystać dane o popularności odcinków seriali telewizyjnych zebranych z portalu IMDB. Ale jeżeli macie pomysł na inne ciekawe dane to dajcie znać.

A już za miesiąc w ramach SERów planujemy spotkanie tematyczne ‘Bio+R‘. Szczególnie zapraszamy osoby zainteresowane biostatystyką i bioinformatyką. Będą przedstawiciele różnych firm, będą ludzie z uczelni, będzie można dowiedzieć się co ciekawego i gdzie można robić z danymi genetycznymi.