Alternatywny ranking państw pod kątem liczby zdobytych medali.

Dziennik The New York Times opracował interesującą infografikę przedstawiającą liczbę zdobytych medali przez różne państwa na olimpiadzie w Londynie.

Wizualizacja o tyle ciekawa, że ranking państw można różnie ustawiać, w zależności od różnic w traktowaniu medali złotych i brązowych. Zamiast więc pokazywać obok siebie kilka różnych rankingów pokazano graf opisujący częściowy porządek pomiędzy państwami.

Wizualizację można zobaczyć pod tym linkiem. Ciekaw opcją jest ,,adjust for population”. Jakby jednak tych wyników nie korygować pozycja naszego kraju nie będzie najwyższa. Jako kraj lepiej wypadamy w olimpiadach matematycznych i informatycznych.

New York Times: Osoby z dziećmi śpią o kilkanaście minut dziennie mniej niż bezdzietne. Czyżby?

The New York Times jest zazwyczaj chwalony za wizualizacje oparte o dane. Jedną z takich prezentacji przedstawię poniżej. Zacznę od zachwytu by po kilku paragrafach znaleźć dziurę w całym. Brzmi interesująco?

Tydzień temu, podczas konferencji useR, Hadley Wickham pokazał kilka interesujących, jego zdaniem wzorcowych, wizualizacji. Jedna z nich bardzo wpadła mi w oko. Link do niej poniżej. Ta interaktywna wizualizacja pokazuje jak różne grupy ludzi spędzają czas. Ile i kiedy śpią, jedzą, pracują, bawią się, oglądają telewizję itp.

Można porównywać różne grupy osób pod kątem ile czasu przeznaczają na prace domowe (średnio kobiety 2x więcej niż mężczyźni), w jakich godzinach zazwyczaj pracują,  czasu przeznaczają na edukację (np. warto zobaczyć w podziale na grupy wiekowe). Bardzo interaktywna, zachęca czytelnika do zabawy w szukanie interesujących zależności. Na pierwszy rzut oka bardzo ładnie przygotowana infografika.

zachęcam do poklikania!

Na chwilę odłóżmy na bok tę infografikę. Jakiś czas temu słuchałem wywiadu z polską dziennikarką, która zapytana o zespół do opracowania infografiki powiedziała, że w pierwszej kolejności zatrudniłaby grafika. Statystyk by się przydał w drugiej kolejności, ale z pewnością nie będzie na niego środków. Opinia ta jest zgodna niestety z opinią większości osób, że infografika powinna być ładna, przykuwająca uwagę a niekoniecznie prezentująca dane. Estetyka przed poprawnością.

Do czego to prowadzi? Mamy ładne, cukierkowe grafiki, które zniekształcają obraz rzeczywistości lub w bardziej optymistycznym przypadku nic o rzeczywistości niewiele mówią.

A jak to stwierdzenie ma się do prezentowanej infografiki? Zobaczmy czy można z niej odczytać czy ilość i godziny snu różnią się w zależności od tego czy ma się dziecko, dwójkę lub więcej dzieci, czy też nie ma się dzieci. Osoby które przeżyły narodziny dziecka prawdopodobnie są przekonane, że przy małym dziecku ilość snu poważnie spada. A co na to nasza infografika?

Dowiedzieć możemy się z niej, że średnio osoby bezdzietne śpią o 10 minut dłużej niż osoby z jednym dzieckiem i o 14 minut niż osoby z dwójką dzieci.

Czyżby?

Jaki jest problem z tą analizą? Nie uwzględnia ona zróżnicowania porównywanych grup pod względem innych cech. Np. wieku. Otóż osoby młodsze średnio śpią dłużej (co zresztą wyraźnie widać na tej wizualizacji). Średnio osoby bez dzieci są młodsze niż osoby z dziećmi (dzieci się ,,nabywa” z wiekiem). A więc porównując osoby bezdzietne z osobami z dziećmi obserwujemy równocześnie różnice w długości snu wynikającą z różnic w średnim wieku obu grup. Aby dowiedzieć się czy i o ile posiadanie dziecka skraca czas na sen należałoby w analizie uwzględnić i wyeliminować wiek i inne ,,zakłócające” cechy badanych. Można to zrobić używając np modeli liniowych. Problem w tym, że sam grafik tego nie zrobi, do tego potrzebny ktoś z choć podstawowym przygotowaniem analitycznym. Szkoda też że nie rozdzielono osób dzietnych na osoby z najmłodszym dzieckiem do 4 lat  i osoby ze starszymi dziećmi. Myślę, że małe dziecko versus duże dziecko bardziej różnicuje tryb życia niż jedno versus dwa i więcej.

Pointa? Apelując do polskich gazet. Może zamiast zatrudniać tylko grafika warto wygospodarować choć 20% etatu dla statystyka? Może prezentacja będzie mniej piękna ale jest szansa, że będzie przedstawiała właściwie efekt obserwowany w danych. A przecież o to chodzi, by się czegoś dowiedzieć, a nie o to by nacieszyć się estetyką wykresu.

BTW: New York Times i Guardian mają świetne zespoły przygotowujące wizualizacje danych. Pracują one w szalenie krótkim czasie, łatwo więc później szukać dziury w całym. Nie zmienia to jednak faktu, że zespoły obu gazet wykonują masę świetnej pracy. Warto zobaczyć jak ciekawe wizualizacje sa prezentowane na łamach obu gazet, czy raczej ich portali internetowych.

 

The New York Times, data journalism, R i wynagrodzenia

Na blogu firmy RevolutionAnalytics znalazłem ciekawy wpis o tym jak edytor z NYT użył pakietu maptools dla R aby przedstawić graficznie mapę 99% centyla dochodów w poszczególnych rejonach stanów zjednoczonych. Innymi słowy mapę mówiącą ile trzeba zarabiać by być w lokalnej grupie 1% najbogatszych (co kraj to problem).

Wspomniany edytor prowadzi bloga (link tutaj) i na tym blogu opisał jak poniższa infografika powstawała.