Polityka jednego dziecka a interaktywne wykresy w R.

We wtorek pisałem o tym jak problemy demograficzne Polski wyglądają na tle innych państw. Dziś też nawiążę do demografii, ale myśl przewodnia dotyczy aspektów technicznych.

Na podstawie danych o rocznej liczbie narodzin na 1000 mieszkańców i o średnim wieku urodzenia pierwszego dziecka pokażę jak w R wykonać grafikę SVG, która jest interaktywna. Tzn po umieszczeniu na stronie pozwala na pewną interakcję.

Czytaj dalej Polityka jednego dziecka a interaktywne wykresy w R.

New York Times: Osoby z dziećmi śpią o kilkanaście minut dziennie mniej niż bezdzietne. Czyżby?

The New York Times jest zazwyczaj chwalony za wizualizacje oparte o dane. Jedną z takich prezentacji przedstawię poniżej. Zacznę od zachwytu by po kilku paragrafach znaleźć dziurę w całym. Brzmi interesująco?

Tydzień temu, podczas konferencji useR, Hadley Wickham pokazał kilka interesujących, jego zdaniem wzorcowych, wizualizacji. Jedna z nich bardzo wpadła mi w oko. Link do niej poniżej. Ta interaktywna wizualizacja pokazuje jak różne grupy ludzi spędzają czas. Ile i kiedy śpią, jedzą, pracują, bawią się, oglądają telewizję itp.

Można porównywać różne grupy osób pod kątem ile czasu przeznaczają na prace domowe (średnio kobiety 2x więcej niż mężczyźni), w jakich godzinach zazwyczaj pracują,  czasu przeznaczają na edukację (np. warto zobaczyć w podziale na grupy wiekowe). Bardzo interaktywna, zachęca czytelnika do zabawy w szukanie interesujących zależności. Na pierwszy rzut oka bardzo ładnie przygotowana infografika.

zachęcam do poklikania!

Na chwilę odłóżmy na bok tę infografikę. Jakiś czas temu słuchałem wywiadu z polską dziennikarką, która zapytana o zespół do opracowania infografiki powiedziała, że w pierwszej kolejności zatrudniłaby grafika. Statystyk by się przydał w drugiej kolejności, ale z pewnością nie będzie na niego środków. Opinia ta jest zgodna niestety z opinią większości osób, że infografika powinna być ładna, przykuwająca uwagę a niekoniecznie prezentująca dane. Estetyka przed poprawnością.

Do czego to prowadzi? Mamy ładne, cukierkowe grafiki, które zniekształcają obraz rzeczywistości lub w bardziej optymistycznym przypadku nic o rzeczywistości niewiele mówią.

A jak to stwierdzenie ma się do prezentowanej infografiki? Zobaczmy czy można z niej odczytać czy ilość i godziny snu różnią się w zależności od tego czy ma się dziecko, dwójkę lub więcej dzieci, czy też nie ma się dzieci. Osoby które przeżyły narodziny dziecka prawdopodobnie są przekonane, że przy małym dziecku ilość snu poważnie spada. A co na to nasza infografika?

Dowiedzieć możemy się z niej, że średnio osoby bezdzietne śpią o 10 minut dłużej niż osoby z jednym dzieckiem i o 14 minut niż osoby z dwójką dzieci.

Czyżby?

Jaki jest problem z tą analizą? Nie uwzględnia ona zróżnicowania porównywanych grup pod względem innych cech. Np. wieku. Otóż osoby młodsze średnio śpią dłużej (co zresztą wyraźnie widać na tej wizualizacji). Średnio osoby bez dzieci są młodsze niż osoby z dziećmi (dzieci się ,,nabywa” z wiekiem). A więc porównując osoby bezdzietne z osobami z dziećmi obserwujemy równocześnie różnice w długości snu wynikającą z różnic w średnim wieku obu grup. Aby dowiedzieć się czy i o ile posiadanie dziecka skraca czas na sen należałoby w analizie uwzględnić i wyeliminować wiek i inne ,,zakłócające” cechy badanych. Można to zrobić używając np modeli liniowych. Problem w tym, że sam grafik tego nie zrobi, do tego potrzebny ktoś z choć podstawowym przygotowaniem analitycznym. Szkoda też że nie rozdzielono osób dzietnych na osoby z najmłodszym dzieckiem do 4 lat  i osoby ze starszymi dziećmi. Myślę, że małe dziecko versus duże dziecko bardziej różnicuje tryb życia niż jedno versus dwa i więcej.

Pointa? Apelując do polskich gazet. Może zamiast zatrudniać tylko grafika warto wygospodarować choć 20% etatu dla statystyka? Może prezentacja będzie mniej piękna ale jest szansa, że będzie przedstawiała właściwie efekt obserwowany w danych. A przecież o to chodzi, by się czegoś dowiedzieć, a nie o to by nacieszyć się estetyką wykresu.

BTW: New York Times i Guardian mają świetne zespoły przygotowujące wizualizacje danych. Pracują one w szalenie krótkim czasie, łatwo więc później szukać dziury w całym. Nie zmienia to jednak faktu, że zespoły obu gazet wykonują masę świetnej pracy. Warto zobaczyć jak ciekawe wizualizacje sa prezentowane na łamach obu gazet, czy raczej ich portali internetowych.

 

Badanie PISA a interaktywna grafika

 

Poniżej przedstawię podsumowanie kilku zmiennych opisujących 15-latków z 74 różnych krajów. Przedstawione poniżej dane zebrano w ramach badania PISA w roku 2009. Są to bardzo ciekawe dane i będziemy do nich jeszcze niejednokrotnie wracać. W tym wpisie jednak zamiast skupiać się na danych lub historii, którą te dane opisują, moim celem będzie przedstawienia interesującego narzędzia do tworzenia interaktywnych wykresów, czyli portalu tableausoftware. Do bardziej szczegółowego omówienia danych z badania PISA wrócimy w przyszłości.

PISA to skrót nazwy Programu Międzynarodowej Oceny Umiejętności Uczniów (Programme for International Student Assessment). Jego celem jest uzyskanie porównywalnych danych o umiejętnościach uczniów z różnych krajów, którzy ukończyli 15 rok życia. PISA bada umiejętności i wiedzę ważną z perspektywy wyzwań, przed jakimi 15-latkowie staną w swym dorosłym życiu (więcej informacji o PISA). Z tej strony można pobrać bazę danych z surowymi danymi oraz skrypty pozwalające na wczytanie tych danych do programów SAS i SPSS (w sumie ponad 1GB danych). Format danych jest dosyć nieprzyjemny do wczytania z poziomu R. Przygotowuję odpowiedni skrypt i pewnie niedługo napiszę o tym jak wczytać całe dane prosto i wygodnie do R. Na razie niewielki wycinek z tych danych, 20 zmiennych, można pobrać w formacie binarnym Rdata z tej strony. Ponieważ moim zdaniem edukacja młodych ludzi jest bardzo, bardzo, bardzo ważna, dlatego też ten zbiór danych stanowi bardzo interesujący kąsek do dalszej analizy i mam nadzieję będziemy wiele razy do niego wracać. Jutro opiszę trochę dokładniej jak były konstruowane zmienne w wycinku danych, który tutaj pokazuję.

Dzisiaj jednak chciałbym napisać nie o danych ale o narzędziu tableausoftware. Podczas ,,10 lunchów” poznałem Daniela O., który podesłał mi namiary na to narzędzie do przygotowywania i udostępniania wizualizacji danych. W tym narzędziu można np. opracować zbiór interaktywnych wykresów a następnie prosto upublicznić te wykresy w postaci strony www. Idealne narzędzie dla dziennikarzy pracujących z danymi (btw: nic nie mam z tego, że tak słodzę. Trial jest za darmo do używania). Pobawiwszy się nim na prostych tabelkach tylko czekałem na okazję by jakieś interesujące dane przedstawić za jego pomocą. I okazja się nadarzyła.

Poniższy rysunek jest linkiem do strony z czterema interaktywnymi wykresami i filtrem w postaci pola wielokrotnego wyboru (checkbox). W jutrzejszym wpisie dokładniej opiszę jak liczone były zmienne, które są tu prezentowane, na razie chodzi mi wyłącznie o pokazanie narzędzia. To tylko drobny pokaz możliwości wspomnianego narzędzia. Interaktywność pozwala na przefiltrowanie punktów lub sprawdzenie jak wybrane państwa przedstawione na jednym wykresie są położone na innych wykresach. Mam też nadzieję, że nawet taka podstawowa interakcja ułatwi zrozumienie i przyciągnie uwagę do tych danych.

Czy tak jest? Czy kusiło Was pobawić się tymi wykresami? Czy mieliście czas by sprawdzić jak wypada Polska na tle innych państw jeżeli listę tych innych Państw ograniczymy np tylko do Europy? Chętnie usłyszę Wasze opinie i wrażenia. Czy warto umieszczać taką interaktywną grafikę, czy lepiej pozostać przy statycznych wykresach (bo RSS czyta się offline, bo nie ma czasu na klikanie)? A może temat wciągnął Was na tyle, że pobraliście komplet wykresów i dane i stworzyliście własną kombinację ciekawych wykresów (można to zrobić, link do pobrania środowiska na dole wizualizacji)?