Koniec roku to idealny czas na podsumowania i zestawienia. W tym roku wiele się działo, pandemia, wybory prezydenckie, zakup respiratorów od handlarza bronią… Idealne tematy do prezentacji danych z użyciem wykresów. Obok świetnych wykresów (,,flattening the curve” przejdzie do historii) w przestrzeni publicznej pojawiły się też rozwiązania urągające poczuciu smaku lub rozsądkowi.
Który z wykresów był najgorszym z najgorszych? Wybierzmy go w IX plebiscycie na najgorszy wykres roku. Finalistów i zwycięzców z poprzednich można znaleźć na stronach: edycja 2019, edycja 2018, edycja 2017, edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012.
W ciągu roku otrzymałem wiele zgłoszeń i za wszystkie bardzo dziękuję. Wybrałem z nich 10 pozycji, które budzą koszmary u co bardziej wrażliwych adeptów wizualizacji danych. Oto moje subiektywne ,,top 10”. Pomóżcie mi wybrać wykres – ikonę najgorszej wizualizacji roku 2020.
1. Wykresy, których nie było
Pierwszy finalista to prezentacja danych, która nie jest typowym wykresem. W ogóle nie jest wykresem. Ale dodaję ją jako reprezentanta wszystkich zaprzepaszczonych szans na czytelną komunikację o tym jak wygląda pandemia koronawirusa w Polsce. Oto ona:
Być może nie wiecie, bo łatwo było to przegapić, że istnieje oficjalna rządowa strona https://www.gov.pl/web/koronawirus/ prezentująca dane o stanie pandemii. Dzisiaj na tej stronie są nawet całe dwa kartogramy. Ale przez długi czasu, na tej stronie widniały nieczytelne tabelki z pojedynczymi liczbami. Zupełnie nic nie mówiące o rozwoju pandemii.
Offtopic: brawa dla Michała Rogalskiego za zbieranie danych i prezentacje ich w czytelny sposób. Naprawdę dobrze prezentowane są dane o covid na stronach Polityka.pl i kilku innych serwisach, ale o tym napiszę w osobnym blogu.
2. TVP po raz pierwszy (bezrobocie)
Poniższy wykres przesłano mi w tym roku przynajmniej 10 razy, więc telewizja publiczna wchodzi do tegorocznego zestawienia z hukiem.
Jak doskonale widać na tym wykresie stopa bezrobocia rośnie.
To znaczy maleje.
To znaczy wygląda jakby malała, ale rośnie.
To znaczy rośnie, ale zaprezentowano ją tak by wyglądała jakby malała.
Swoją drogą w marcu 2019 było też 6% bezrobocia, w lipcu-wrześniu 2019 bezrobocie było rekordowo niskie. Większość specjalistycznych portali prezentuje dane o bezrobociu czytelnie jako szereg wartości z równym interwałem (miesiąc albo rok), szkoda że w TVP wybrano z niego trzy liczby i pokazano je w zły sposób.
3. TVP po raz drugi (wybory)
W tym roku mieliśmy dwie i pół tury wyborów prezydenckich (te które się nie odbyły liczę jak 0.5, taki statystyczny żart).
Oczywiście nie ma wątpliwości kto będzie liderem sondaży prezentowanych w TVP1, ale jak będzie wyglądała reszta stawki?
Słupek 1% dla Marka Jakubiaka jest niewiele niższy niż 4% dla Roberta Biedronia. Podobnie 4% dla Władysława Kosiniaka-Kamysza jest całkiem duże w porównaniu do 7% Krzysztofa Bosaka.
Zawsze powtarzam studentom wizualizacji danych, że patrząc na słupki intuicyjnie patrzymy na proporcje ich długości, więc najlepiej zaczepić je w zerze aby proporcje słupków oddawały proporcje prezentowanych wartości. W przypadku powyższych słupków zero jest na wysokości nosa kandydatów.
4. TVP po raz trzeci (UE)
Nie wiem co bardziej mnie boli w poniższym wykresie zaprezentowanym w TVP1.
Źle zadane pytanie w ankiecie (ale właściwie o co w nim chodzi), używanie skali kolorów czerwony/zielony (zielony odpowiada odpowiedzi, że mogą być różnie traktowane), nieszczęśliwie umieszczona legenda, czy prezentacja danych za pomocą wykresu kołowego w 3D.
Wydawałoby się, że XX wiek się skończył, a z nim skończyła się moda na trójwymiarowe wykresy kołowe prezentujące dwie liczby.
5. TVP po raz czwarty (zdrowie)
Poniższy wykres ma pokazywać, że wydatki na zdrowie rosną.
Choć gdy spojrzymy na oś OX to się okaże, że te wydatki będą rosły w przyszłości, ostatnie 6 słupków dotyczy kolejnych lat 2020-2025.
Oczywiście źle dobrano punkt zaczepienia słupków, więc ten magiczny wzrost z 5% PKB do 6% PKB wygląda jak prawie dwukrotne zwiększenie wydatków.
Offtopic: Czy 2 mld pln dofinansowania dla TVP przełoży się na sensowniejszą prezentację danych? Nie trzeba być statystykiem by przewidzieć jaka jest odpowiedź na to pytanie. Z dużymi liczbami łatwo się pogubić, więc dla porównania 2 mld to cztery razy więcej niż planowany roczny budżet programu Inicjatywa Doskonałości Uczelnia Badawcza (IDUB), czyli specjalnego celowego dofinansowania 20 najlepszych polskich uczelni. Tak, cztery razy więcej niż łączne dodatkowe dofinansowanie tych 20 uczelni (dla 10 uczelni to 10% extra subwencji, dla pozostałych 10 to 2% ekstra).
Wracamy do wykresów.
6. Floryda, czyli inni też nie umieją w słupki
Z portalu AnalitykPlakal na FB dostałem takie zgłoszenie, pokazujące, że nie tylko TVP nie umie w słupki. O co chodzi? Może o to, że 19 czerwca Floryda była w dołku?
7. Artykuły trzeba umieć czytać
Złe wykresy to nie tylko trzeci wymiar, źle narysowane słupki, czy nieczytelne wykresy kołowe. Najgorsze są te wykresy, które wyglądają sensownie ale zniekształcają prezentowane dane.
Na stronach premier.gov.pl znajdziecie taką grafikę.
Interesuje mnie modelowanie pandemii covid, więc gdy pierwszy raz zobaczyłem tę grafikę pomyślałem sobie – super, komuś udało się zmierzyć ryzyko zakażenia w różnych miejscach. Bardzo cenna informacja. Wygląda na to, że ryzyko zakażenia jest największe w restauracjach, centrach fitness, kawiarniach i hotelach. Coś takiego sugeruje tytuł wykresu.
Pierwsza wątpliwość naszła mnie gdy zobaczyłem oś OX. Ryzyko mierzone w liczbach od 1 do 10 000? Dziwna jednostka jak na ryzyko. Ale jest źródło, więc zobaczmy o co chodzi.
Odszukałem ten artykuł. Wykres z prezentacji premiera idealnie pasuje do Fig 2 D z tej publikacji (patrz powyżej). Tyle, że wykres w artykule nie pokazuje ryzyka ale liczbę dodatkowych zakażeń po otwarciu danego rodzaju miejsc. Czymś zupełnie innym jest ryzyko zakażenia w szkole, a liczba dodatkowych zakażeń jeżeli szkoły będą otwarte (np salonów samochodowych jest mniej niż szkół przez co przełożenie na liczbę zakażeń będzie inne). Co więcej, prezentowane w artykule liczby dotyczą wyników symulacji (stąd te kropeczki na wykresie w artykule, których zabrakło na prezentacji na stronach premier.gov.pl) a nie zmierzonych wartości. Co więcej, symulacje dotyczyły regionu 'Chicago metro area’ i nierozsądnie jest uogólniać te wnioski na cały kraj. Tym bardziej, że w cytowanym artykule pokazywane są dane dla różnych miast w USA i wyniki też są różne dla poszczególnych miast. No cóż, zgadzają się jedynie kolory pudełek, choć akurat te nic w tym przykładzie nie znaczą.
8. Spadający wiek biologiczny
Poniższy wykres pochodzi z prezentacji podsumowującej wyniki badań edukacyjnych TIMSS (Międzynarodowe Badanie Wyników Nauczania Matematyki i Nauk Przyrodniczych), które zostały opublikowane w tym roku. Spadek wyników uczniów nie przebił się w mediach przez strajki, więc łatwo było przeoczyć publikacje tych bardzo ważnych statystyk. Poniżej wklejam jeden wykres z oficjalnej prezentacji ministerstwa.
Można z niego odczytać, że średni wiek biologiczny spadł w skali jednego rocznika spadł o 33%. To zdanie pięknie ilustruje skutki gwałtu prowadzonego na edukacji od lat. Oczywiście średni wiek nie spadł o 1/3 tyko o 1/3 roku. Oczywiście zmiana wynika z tego, że mamy w TIMSS 19 grupę 2/3 dzieci, które zaczęły edukacje jako 7. latki i 1/3 które zaczęły jako 6-latki. Oczywiście aby zaprezentować dwie średnie nie trzeba robić wykresu liniowego z nieczytelną skalą OY.
Ale najbardziej boli to, że ten wykres jest masakryczną deformacją bardzo ciekawego wykresu 3.2 z raportu opracowanego przez IBE (cały raport jest ciekawy i wart przeczytania).
Rysunek z raportu IBE pokazuje jak różne grupy wiekowe przystąpiły do badania TIMSS w 2015 i 2019. Rysunek z raportu ministerstwa redukuje tę historię do dwóch źle zaprezentowanych liczb. Powinien kiedyś trafić do podręczników jako przykład jak nie wolno krzywdzić danych.
9. Uważaj na przezroczystość
Na koniec coś lżejszego. Poniższy wykres pochodzi z raportu PAN Zrozumieć Covid-19. Raport jest ciekawy i pełen interesujących informacji.
Jedną z nich jest zależność ryzyka śmierci od wieku i płci. W założeniu to ryzyko mógł pokazać wykres 16 (poniższy). Trudno jednak z niego odczytać jakie jest ryzyko w poszczególnych grupach wiekowych. Już Jacques Bertin w swojej genialnej Sémiologie Graphique pisał, że różne charakterystyki wykresu, w różny sposób nadają się do prezentacji danych. Poziom przezroczystości nada się do zaznaczenia porządku, ale nie nadaje się do pokazywania wartości w skali ilościowej.
10. To ja już wolę słupki
I jeszcze jedna wariacja na temat prezentacji danych. Zgłoszenie pochodzi z portalu AnalitykPlakal. Nie wiem co miał na myśli projektant tego wykresu. Ładniej będzie jeżeli zamiast proporcjonalnych słupków pokażemy nieproporcjonalne głowy liderów partii?
Weź udział w plebiscycie!
Który wykres(y) zasługuje na miano najgorszego wykresu roku 2020?
Zagłosuj! Niech wygra najgorszy!
Można wskazać więcej niż jednego kandydata.

To już koniec listy do głosowania. Zgłoszeń otrzymałem znacznie więcej, bardzo za nie dziękuję. Poniżej wrzucam jeszcze kilka obrazków, ale już bez komentarza (miniaturki można powiększyć).
Nie wklejam zgłoszeń koronawirusowych. Poświęcę im osobny wpis na blog.
Idzie nowy rok. Chciałbym nam wszystkim życzyć, aby w 2021 pojawiło się coraz więcej wizualizacji w czytelny sposób prezentujących nawet bardzo złożone dane.
Najgorszy wykres roku jest tu
https://www.nbp.pl/polityka_pieniezna/dokumenty/raport_o_inflacji/fan_inf_2020_11_pl.png?v=2
Eksperci(!) Narodowego Banku Polskiego prognozują inflację na poziomie 3%, a każda gospodyni domowa wie lepiej.