Formuła 1 i useR

Jakiś czas temu pisałem, o konkursie na najciekawszą wizualizację danych o Formule 1 i hiszpańskiej lidze piłki nożnej. Konkurs organizowany podczas konferencji useR 2013 więc i wizualizacja powinna powstać w programie R.
Ponieważ Formułą 1 czasem się interesuję, pomyślałem że byłoby miło przygotować taką wizualizację, ale jak zwykle brakowało czasu.
Któregoś wieczora czas się jednak znalazł i powstały poniższe wykresy. Wszystkie dotyczą danych o formule 1, sezonów 2010-2012, są wykonane w czystym R. Kod źródłowy można pobrać z tej strony. Swoją drogą ten wieczór wystarczył by poniżej przedstawiana wizualizacja trafiła do finału konkursu useR. Tę i wizualizacje pozostałych finalistów można znaleźć na stronie konferencji.

Kompletna wizualizacja w formacie pdf dostępna jest pod tym linkiem. Poniższe grafiki to wycinki ciekawszych elementów, czasem być może w nienajlepszej rozdzielczości. Wersja pdf wygląda moim zdaniem lepiej.

Jak zmieniała się klasyfikacja kierowców?

Poniższy wykres przedstawia jak zmieniała się liczba punktów uzbieranych przez każdego z kierowców podczas kolejnych wyścigów. Wszystkie sezony wygrał Sebastian Vettel. Ale, jak widać, w sezonie 2011 był on zupełnie poza zasięgiem. Za to w pozostałych sezonach walka z Fernando Alonso była gorąca. [kliknij na obrazek by zobaczyć większą wersję]

Czytaj dalej Formuła 1 i useR

Jak porównać dwie grupy, useR 2013, Propensity Scores a badania obserwacyjne

Jutro zaczyna się useR!2013, czyli coroczna międzynarodowa konferencja użytkowników R [przyjeżdżam na nią od sześciu lat i nie znalazłem jeszcze innej tak wciągającej konferencji]. Tym razem w Albacete w Hiszpanii.

Dziś miejsce mają tutoriale. Zakończyłem właśnie jeden poświęcony Propensity Scores [analizie z uwzględnieniem efektu predyspozycji / skłonności / prawdopodobieństwa nominacji ?] i poniżej mam zamiar o nim napisać. Pytanie na które będziemy chcieli odpowiedzieć, to jak porównać dwie [potencjalnie niejednorodne] grupy.

Ale najpierw wkleję logo tegorocznej konferencji [czyż nie jest rewelacyjne?].

Czytaj dalej Jak porównać dwie grupy, useR 2013, Propensity Scores a badania obserwacyjne

New York Times: Osoby z dziećmi śpią o kilkanaście minut dziennie mniej niż bezdzietne. Czyżby?

The New York Times jest zazwyczaj chwalony za wizualizacje oparte o dane. Jedną z takich prezentacji przedstawię poniżej. Zacznę od zachwytu by po kilku paragrafach znaleźć dziurę w całym. Brzmi interesująco?

Tydzień temu, podczas konferencji useR, Hadley Wickham pokazał kilka interesujących, jego zdaniem wzorcowych, wizualizacji. Jedna z nich bardzo wpadła mi w oko. Link do niej poniżej. Ta interaktywna wizualizacja pokazuje jak różne grupy ludzi spędzają czas. Ile i kiedy śpią, jedzą, pracują, bawią się, oglądają telewizję itp.

Można porównywać różne grupy osób pod kątem ile czasu przeznaczają na prace domowe (średnio kobiety 2x więcej niż mężczyźni), w jakich godzinach zazwyczaj pracują,  czasu przeznaczają na edukację (np. warto zobaczyć w podziale na grupy wiekowe). Bardzo interaktywna, zachęca czytelnika do zabawy w szukanie interesujących zależności. Na pierwszy rzut oka bardzo ładnie przygotowana infografika.

zachęcam do poklikania!

Na chwilę odłóżmy na bok tę infografikę. Jakiś czas temu słuchałem wywiadu z polską dziennikarką, która zapytana o zespół do opracowania infografiki powiedziała, że w pierwszej kolejności zatrudniłaby grafika. Statystyk by się przydał w drugiej kolejności, ale z pewnością nie będzie na niego środków. Opinia ta jest zgodna niestety z opinią większości osób, że infografika powinna być ładna, przykuwająca uwagę a niekoniecznie prezentująca dane. Estetyka przed poprawnością.

Do czego to prowadzi? Mamy ładne, cukierkowe grafiki, które zniekształcają obraz rzeczywistości lub w bardziej optymistycznym przypadku nic o rzeczywistości niewiele mówią.

A jak to stwierdzenie ma się do prezentowanej infografiki? Zobaczmy czy można z niej odczytać czy ilość i godziny snu różnią się w zależności od tego czy ma się dziecko, dwójkę lub więcej dzieci, czy też nie ma się dzieci. Osoby które przeżyły narodziny dziecka prawdopodobnie są przekonane, że przy małym dziecku ilość snu poważnie spada. A co na to nasza infografika?

Dowiedzieć możemy się z niej, że średnio osoby bezdzietne śpią o 10 minut dłużej niż osoby z jednym dzieckiem i o 14 minut niż osoby z dwójką dzieci.

Czyżby?

Jaki jest problem z tą analizą? Nie uwzględnia ona zróżnicowania porównywanych grup pod względem innych cech. Np. wieku. Otóż osoby młodsze średnio śpią dłużej (co zresztą wyraźnie widać na tej wizualizacji). Średnio osoby bez dzieci są młodsze niż osoby z dziećmi (dzieci się ,,nabywa” z wiekiem). A więc porównując osoby bezdzietne z osobami z dziećmi obserwujemy równocześnie różnice w długości snu wynikającą z różnic w średnim wieku obu grup. Aby dowiedzieć się czy i o ile posiadanie dziecka skraca czas na sen należałoby w analizie uwzględnić i wyeliminować wiek i inne ,,zakłócające” cechy badanych. Można to zrobić używając np modeli liniowych. Problem w tym, że sam grafik tego nie zrobi, do tego potrzebny ktoś z choć podstawowym przygotowaniem analitycznym. Szkoda też że nie rozdzielono osób dzietnych na osoby z najmłodszym dzieckiem do 4 lat  i osoby ze starszymi dziećmi. Myślę, że małe dziecko versus duże dziecko bardziej różnicuje tryb życia niż jedno versus dwa i więcej.

Pointa? Apelując do polskich gazet. Może zamiast zatrudniać tylko grafika warto wygospodarować choć 20% etatu dla statystyka? Może prezentacja będzie mniej piękna ale jest szansa, że będzie przedstawiała właściwie efekt obserwowany w danych. A przecież o to chodzi, by się czegoś dowiedzieć, a nie o to by nacieszyć się estetyką wykresu.

BTW: New York Times i Guardian mają świetne zespoły przygotowujące wizualizacje danych. Pracują one w szalenie krótkim czasie, łatwo więc później szukać dziury w całym. Nie zmienia to jednak faktu, że zespoły obu gazet wykonują masę świetnej pracy. Warto zobaczyć jak ciekawe wizualizacje sa prezentowane na łamach obu gazet, czy raczej ich portali internetowych.

 

Animacje są złe, czyli czym jest ,,change blindness”

Większość osób słyszała o ślepocie barw (ang. color blindness). Problem dotyka kilku procent populacji, najczęściej mężczyzn. Osoby chore mają problem z rozpoznawaniem barw. Z tego też powodu dobre reguły doboru kolorów odradzają używania skali rozpinającej się od czerwieni do zieleni. To zalecenie namiętnie ignorują osoby pracujące z mikromacierzami, które z uporem wartym lepszej sprawy przedstawiają zmiany ekspresji genów na skali zielony – czarny – czerwony.

Do niedawna nie słyszałem jednak o ang. change blindness, czyli nieumiejętności zauważenia zmiany, np. gdy ta zachodzi powoli. Okazuje się, że jest wiele przykładów pokazujących, że w pewnej sytuacji spora część populacji nie zauważa się zmiany, nawet jeżeli jest ona duża.

Kilka przykładów:

  • Ten filmik obrazuje sytuację, gdy badana osoba nie zauważa, że zmienia się jej rozmówca! Trudno w to uwierzyć? Ponoć dotyczy to 50% badanych. Warto zobaczyć filmik.
  • Ten filmik pokazuje płynne przejście pomiędzy dwoma obrazkami różniącymi się znaczącym elementem, a jednak spora część osób nie jest w stanie tej zmiany zauważyć jeżeli zachodzi ona wystarczająco wolno.
  •  Ten filmik pokazuje jak w zależności w który element wykresu patrzymy zmienia się nasza percepcja zmiany kolorów.
Wniosek? Animacja jest często atrakcyjna graficznie, ale wiążą się z nią problemy percepcji. Projektując animację gdy wiemy co ulegnie zmianie możemy mieć problemy w zrozumieniu czy tę zmianę zauważy ktoś, kto nie wie na który element zwracać uwagę. Wniosek jest taki, że w infografikach należy ją stosować z wyjątkową ostrożnością.

Statystyka śledcza, powtarzalne badania, Sweave, knitr czyli useR 2012

Gdyby zadać pytanie ,,Czy wyniki analiz statystycznych prezentowane w raportach lub artykułach naukowych powinny być powtarzalne?” większość osób odpowiedziałaby tak. Powinno być jasne jakie są dane źródłowe i jak były przetwarzane zanim uzyskano podany wynik.

Na pytanie ,,Czy wyniki analiz statystycznych prezentowane w raportach lub pracach naukowych można odtworzyć?” odpowiadać powinny tylko osoby przygotowujące raporty lub próbujące odtworzyć wyniki innych. I tutaj z odpowiedziami może być różnie. W skutek wstępnych transformacji, usuwania przypadków ,,odstających”, różnych wariantów normalizacji, zawodnej pamięci bywa tak, że po roku autor nie jest w stanie odtworzyć własnych analiz, a co dopiero inna osoba. Efekt ten jest szczególnie silny gdy używa się narzędzie typu ,,wyklikaj analizę i zapomnij”.

Problem zawodnej pamięci jest mniej poważny niż problemy w analizie. Każdy jest omylny, dostęp do dokładnego opisu jak analizy zostały przeprowadzone pozwala na szybkie znalezienie i naprawienie ewentualnych błędów.

Statystyka śledcza

Statystyka śledcza to robocza nazwa dziedziny w której celem jest zbadanie czy analizę danych można odtworzyć oraz czy analiza została przeprowadzona poprawnie. Dziś na useR Kevin Coombes pokazywał przykłady błędów statystycznych znalezionych w poważnych czasopismach medycznych (takich poważnych błędów jak np pomylenie indeksu identyfikatora nazwy genu o +1 czy pomylenie etykietek zdrowy/chory!). Jak się okazuje wyśledzenie niektórych błędów w artykule kosztuje ponad 1500 godzin pracy statystyka! 1500 godzin to prawie rok pracy na pełnym etacie! A byłoby łatwiej gdyby nie trzeba było przeprowadzać odwrotnej inżynierii pracy statystyka, ale gdyby ta praca była udokumentowana. Bardzo ciekawy przypadek jednego ze znalezionych przez Kevina błędu znaleźć można w pracy http://bioinformatics.mdanderson.org/Supplements/ReproRsch-Chemo/SR0.pdf, materiały dodatkowe pozwalające na całkowite odtworzenie tego znaleziska znajdują się tutaj http://bioinformatics.mdanderson.org/Supplements/ReproRsch-Chemo/.

Powtarzalne badania

Na szczęście są narzędzia pozwalające na zapisanie całej analizy w postaci powtarzalnego skryptu (np. R) oraz zintegrowanie takiego skryptu z narzędziem pozwalającym na wygenerowanie prezentacji, raportu z komentarzami, publikacji, książki, podręcznika w formacie pdf, html, doc i innych. Taka integracja pozwala na dokładne sprawdzenie jaki zestaw analiz był użyty by wygenerować określony wykres / wynik / tabelę.

Do takiej integracji służą między innymi pakiety Sweave i knitr dla programu R.

Statystyk Frank Harell jest jednym z misjonarzy powtarzalnych badań, poprowadził na useR interesujące warsztaty dotyczące obu pakietów.  Obszerne materiały prezentowane podczas warsztatów i wiele ciekawych odnośników do samouczków znaleźć można na tej stronie: http://biostat.mc.vanderbilt.edu/wiki/Main/SweaveLatex.

 

Ilu statystyków spotkać można w akademii medycznej, czyli gorące wrażenia z pierwszego dnia konferencji useR 2012

 

Konferencje użytkowników R z serii useR obywają się w interesujących ośrodkach i skupiają osoby o podobnych zainteresowaniach (do moich ;-)). Tegoroczna odbywa się w Vanderbilt School of Medicine, a więc w uproszczeniu na uniwersytecie medycznym. Na uniwersytecie medycznym konferencja użytkowników programu R?

Tegoroczny program jest bardzo ciekawy i pewnie na dniach napiszę więcej o wybranych referatach. Na początek chciałbym podzielić się dwom wrażeniami z pierwszego dnia.

Zacznę od zagadki. Jeżeli na tutejszym uniwersytecie medycznym pracuje 2164 pracowników naukowych, ilu z nich pracuje jako biostatystycy (a więc wsparcie analityczne dla pozostałych badaczy)?

Odpowiedź to 62 biostatystyków (nie licząc pracowników technicznych, informatyków itp). Czyli około 3% kadry naukowej to biostatystycy! Nie muszę dodawać, że 62 osoby to spora społeczność, intensywnie rozwiająca wiele ciekawych metod analizy i wizualizacji danych włącznie z pakietami w R.

Co można zrobić by polskie akademie medyczne zaczeły wychowywać sobie takie grupy biostatystyków? Na wypadek gdyby ktoś pytał, tak one potrzebują tych statystyków aby prowadzić badania! Dla porównania dodam, że Warszawski Uniwersytet Medyczny liczy ponad 1500 pracowników, nie udało mi się ustalić ilu zatrudnia statystyków ale z rozmów z pracującymi tam lekarzami mam wrażenie znacznie znacznie mniej.

Druga obserwacja to olbrzymie zainteresowanie wizualizacją. Podczas referatów i w kuluarach znaczna część dyskusji dotyczy technik wizualizacji, słabych i silnych stron różnych narzędzi i pakietów graficznych. W porównaniu do poprzednich lat zmiana zainteresowaniach jest widoczna.