Fighting Against Fake Data and Visualizations

Pięć dni temu rozpoczęliśmy konkurs na Najgorszy wykres roku 2017. Do chwili obecnej w głosowaniu oddano 804 głosy co świadczy o rosnącej popularności i zasięgu tego konkursu.
Poniżej napiszę kto wygrał, dlaczego to ważne i jak nie zostać laureatem w kolejnej edycji.

Najgorsze wykresy 2018

Najwięcej głosów (429 głosów, 53% głosujących) zdobył poniższy wykres z portalu oko.press. Zbyt dużo kategorii, pionowe słupki spowodowały, że trudno z niego odczytać jakiekolwiek liczby.

Drugie miejsce (328 głosów, 41%) zajął mój faworyt z serwisu Bankier. Dziwaczna oś OX (na początku prezentująca dane co 10 lat a później co 1 rok), zaskakujące górki i dołki, brak odniesień do demografii (liczba zawartych małżeństw pewnie jakoś zależy od struktury demograficznej w danym roku), złożyły się na ten zapadający w pamięć wykres.

Na trzecie miejsce wystarczyło 151 głosów (19% głosujących), a zdobył je wykres kołowy z portalu wroclaw.pl.

Dlaczego szukanie dziury w całym jest takie ważne?

Każdy ze zgłoszonych wykresów, nawet te zwycięskie, można bronić używając rozmaitych argumentów. Najczęstsze to:

* Co z tego, że wykres jest nieczytelny, skoro pokazane są liczby.
[W takim razie po co pokazywać wykres? Lepsza byłaby tabela.]
* Wykres nie jest zły, bo gdyby pokazać dane poprawnie to nie byłoby widać żadnych różnic.
[A może nie ma istotnych różnic? Po co wprowadzać w błąd co do wielkości różnic?]
* Może i wykres pokazuje coś innego niż sugeruje tytuł, ale przecież jakieś informacje jednak pokazuje.
[A nie lepiej pokazać jednak informacje zgodne z tytułem?]
* Wykres to tylko poglądowa ilustracja, słowny opis w artykule jest poprawny.
[Nie lepsze byłoby jakieś ładne poglądowe zdjęcie z imageshack? Po co mydlić czytelnikowi oczy sugerując, że wykres pokazuje jakieś dane?]

Argumenty obrony mógłbym zrozumieć, gdyby dotyczyły grafik znalezionych na portalu z głupotkami. Ale na portalach informacyjnych (czy pretendujących do tego tytułu) nie ma miejsca na takie błędy.

I nie jest to opinia wyłącznie statystyka, ale też opinia poważnych dziennikarzy, np. takich jak Alberto Cairo.
Poniżej umieszczam nagranie z ubiegłorocznego odczytu Alberto Cairo nt. Visual Trumpery: Fighting Against Fake Data and Visualizations — From the Left and From the Right.
Bardzo polecam, świetne wystąpienie, wiele ciekawych argumentów i przykładów.

Jak żyć?

Tytuł tego wpisu zapożyczyłem z ww. prezentacji Alberto Cairo. Celem konkursu nie jest naśmiewanie się z konkretnych portali czy autorów konkretnych grafik, ale zasygnalizowanie problemu jakim jest nieumiejętna/wprowadzająca w błąd prezentacja danych w popularnych mediach.

Problem nie jest znany od wczoraj. Jest wiele źródeł pokazujących jakich błędów należy unikać lub przedstawiających wizualizacje danych bogate w treść.

* W języku polskim najłatwiej mi polecić własną książkę ,,Zbiór esejów o sztuce prezentowania danych”. Jest to zbiór 8 krótkich esejów nt. różnych aspektów graficznej prezentacji danych. Dostępny w formie papierowej z wieloma kolorowymi ilustracjami jak i bezpłatnie dostępny w postaci elektronicznej na tej stronie.
* W języku angielskim klasyką gatunku są książki Edwarda Tuftego. Lista książek i wiele interesujących materiałów można znaleźć na jego stronie https://www.edwardtufte.com/tufte/
* Wspomniany wyżej Alberto Cairo jest autorem dwóch książek o wizualizacji danych oraz kursu online na ten temat. Więcej informacji na jego stronie internetowej http://albertocairo.com/
* Jest bardzo wiele świetnych blogów o wizualizacji danych. Ja najbardziej lubię śledzić Flowing Data (prowadzony przez Nathana Yau, autora kilku książek), Information is Beautiful (prowadzony przez Davida McCandlessa, autora Information is Beautiful i Knowledge is Beautiful) oraz Junk Charts (prowadzony przez Kaisera Fung, również autora kilku książek).

Materiałów zwiększających umiejętności krytycznego i wizualnego myślenia o danych jest znacznie więcej. Pracujemy właśnie nad świetną pozycją o roboczej nazwie ,,Wykresy unplugged”. Więcej informacji o tej pozycji już wkrótce.

Udanego 2018!

2 thoughts on “Fighting Against Fake Data and Visualizations”

  1. Wykres z oko.press ( https://oko.press/bylo-najwazniejsze-2016-wedlug-polakow-sdm-500/ ) ma teraz przycisk „powiększ wykres”, którego nie widać na obrazku tu zamieszczonym. Domniemuję, że pojawił się już po nominacji.

    Po powiększeniu można już na nim porównywać proporcje, a po najechaniu kursorem na słupek widać czego dotyczy i wartość procentową której odpowiada. W tej formie da się już z niego coś odczytać i wyciągnąć wnioski. No i najważniejsze: dane nie są w żaden sposób zniekształcane. Także – spora poprawa.

    1. Ha, ciekawe.
      Screenshot robiłem jakiś czas temu, więc być może biblioteka javascript wykorzystywana do tego wykresu dostała w międzyczasie nowe funkcjonalności a być może autorzy artykułu uaktywnili jakieś opcje już po nominacji.
      Świetnie, że wykres da się powiększyć. Przynajmniej można teraz odczytać z niego dane i spróbować zrobić go lepiej.

Odpowiedz na „smarterpolandAnuluj pisanie odpowiedzi

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *