Plebiscyt na najgorszy wykres roku 2021

Sylwester już tuż tuż, czas więc na kolejną edycję plebiscytu na najgorszy wykres roku 2021! To już dziesiąty plebiscyt. W tym roku otrzymałem rekordową liczbę prawie 60 zgłoszeń. Bardzo za wszystkie dziękuję! Niektóre pozycje pojawiały się kilkukrotnie i muszę przyznać, że są to bardzo smakowite kąski. Z tej listy wybrałem 10 wyjątkowych wykresów. Który z nich zostanie wybrany jako najgorszy z najgorszych? Czy przebije zwycięzcę z poprzedniego roku? Przypomnijmy, że wykres TVP o tytule ,,Bezrobocie” z poprzedniej edycji zebrał 983 głosów. Cóż, zobaczymy wyniki naszego plebiscytu już za kilka dni.

Jak zwykle, finalistów i zwycięzców z poprzednich lat można znaleźć na stronach: edycja 2020, edycja 2019, edycja 2018, edycja 2017, edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012.

Macie już popcorn? Oto kandydatury na 2021.

1. TVP czy zdrowie?

Rok temu zwyciężył wykres z TVP, więc tegoroczny plebiscyt otwiera grafika z TVP 1 ,,Wydatki na ochronę zdrowia jako % PKB”. Co z tym wykresem jest nie tak? Słupki rozpoczynające się od wartości 4% mają wizualnie powiększyć wzrost wydatków na zdrowie ponieważ rozciągają oś Y. Przyznacie, to 7% wygląda majestatycznie na tle bladych 4.5%-5%. Pierwsze 7 słupków pokazuje 7 lat i ma sprawiać wrażenie, że nic się nie zmieniało, a wręcz był lekki spadek, ostatnie 5 słupków pokazuje 12 lat z tak dobranymi dziurami by sugerować dynamiczny wzrost. Co się stało z latami 2017-2019 i 2024-2026? Czy to nie jest wybiórcza prezentacja danych? Połowa z ostatnich słupków pokazuje prognozy, a nie poniesione wydatki, a jak wiadomo obiecuje się łatwo. Czy ten wzrost wydatków wynika ze starzejącego się społeczeństwa, nagłych wydatków związanych z pandemią, czy jest świadomą inwestycją? Tego się z wykresu nie dowiemy.

2. Polski ład na wykresie

Z poprzedniego wykresu warto zapamiętać dwie liczby, 6% w 2023 i 7% w 2027. Te liczby wracają na innym wykresie przedstawionym przez KPRM w ramach opisu programu Polski Ład. Na poniższym wykresie jest też sporo miliardów złotówek.

Ale jak te kwoty mają się do długości słupków na wykresie, tego nie potrafiłem ustalić. Cóż, po takiej prezentacji danych, nawet taki optymista jak ja, zaczął wątpić w podstawy finansowe tego ładu.

3. Jak (nie) zachęcać do szczepień

Skoro już jesteśmy w temacie wizualizacji danych o obszarze zdrowia, to niewątpliwie najważniejszym tematem w tym roku jest temat szczepień. Wiadomo, że szczepionki są bezpieczne i korzystne, ale na skutek różnych działań, wciąż wiele osób boi się zaszczepić. Całe szczęście, że MZ klarownie komunikuje dane podkreślające korzyści. Np. takie jak poniższy wykres.
Ale właściwie co pokazuje ten wykres? Że w grupie gdzie więcej osób się zaszczepiło jest więcej zakażeń? I dlaczego tych zakażeń jest tak dużo (ponieważ oś OY na lewym i prawym wykresie jest inna). I dlaczego ten jasny słupek po lewej stronie pokazuje grupę 21-30 a po prawej 18-30? I czy chodzi o zakażenia objawowe (młodsze osoby częściej są bezobjawowe)? I czy chodzi o zakażenia po zaszczepieniu czy też większość z tych zakażeń objawowych jest w grupie osób niezaszczepionych?
Lepszy byłby wykres ilustrujący jak bardzo szczepienia chronią osoby zaszczepione.

4. Będzie rosło

W wolnym czasie odkładam czapkę nauczyciela akademickiego, zakładam pelerynę i w szkołach podstawowych opowiadam o tym jak wyznaczać trendy w danych (ostatnio z olbrzymią pomocą MI2Education). Dzieciaki w 2-3 klasie szkoły podstawowej bez trudu ogarniają, że linia trendu powinna być możliwie blisko wszystkich danych przedstawionych na wykresie.

A jednak autor poniższego wykresu proponuje inny sposób wyznaczania trendu. Weź najniższy możliwy punkt po lewej i połącz z najwyższym możliwym punktem po prawej. Jeżeli wciąż nie wygląda dobrze, to zmień oś o OX i dzięki temu zawsze będzie rosło.

Zabieg o tyle niepotrzebny, że dane pokazują spory, dwu-trzykrotny wzrost liczby szczepień. Nie trzeba było tego wykresu przekreślać czerwoną kreską.

5. Dżender

Zostawmy już szczepienia i tematy zdrowotne a przyjrzyjmy się broszurze podsumowującej IX edycję programu Lider Narodowego Centrum Badań i Rozwoju. Wykres 2 z tej broszury znajdziemy poniżej. Tytuł sugeruje, że chodzi o liczbę laureatów i laureatek w kolejnych edycjach.
Z pewnością każdemu w oczy rzuca się jak niewiele kobiet zdobywa granty w tych konkursach. Ewidentnie sukcesy literek są mniej widoczne, skoro 21 grantów dla kobiet w edycji Lider IX wygląda na 2 razy mniejszą wartość niż 19 grantów dla mężczyzn w edycji Lider V. Jeżeli się przyjrzeć bliżej to okazuje się, że słupki bardzo swobodnie podchodzą do liczb, które miały odwzorowywać.

6. Twarze polityków

Skoro jesteśmy przy temacie wykresów słupkowych, to przyjrzyjmy się tej specyficznej odmianie, czyli wykresom poparcia politycznego, w których wielkość poparcia dla partii przedstawiana jest wielkością głowy lidera tej partii. W poprzednim roku podobny wykres zdobył drugie miejsce. Jak będzie w tym roku?
Poniżej niezawodny ibris dla Onet.
Dla miłośników algebry mała zagadka. Skoro poparcie Polski 2050 na wym wykresie to połowa poparcia KO, to czy wysokość zdjęcia Szymona Hołowni ma się do wysokości zdjęcia Donalda Tuska jak 1:2 czy 1:sqrt(2) czy 1:2^0.(3).

7. Koło fortuny

Nasz plebiscyt nie mógłby się odbyć, gdyby wśród kandydatów nie było choć jednego wykresu kołowego. Poniżej smakowity donut-chart z portalu Rzeczpospolitej. Wspaniały dobór kolorów pomaga zauważyć, że mniej niż połowa (49%) pytanych uważa, że zwężanie ulic w Warszawie to dobry pomysł.

Być może pierwsze wrażenie byłoby inne, gdyby obie wspierające odpowiedzi zaznaczyć podobnym kolorem (byłoby 17% + 49%) a jedyną odpowiedź przeciwną oznaczyć kontrastującym kolorem. Surprise, surprise, ponad 4 razy więcej osób uważa, że warto zwęzić ulice niż że to dyskryminacja kierowców. Ten wykres tej proporcji nie uchwycił najlepiej.

8. Znajdź zależność

Zostawmy na boku politykę. Poniższy wykres pokazuje jak zmieniłyby się raty kredytu gdyby zmieniła się stopa referencyjna NBP (a wiemy, że się zmieniła i pewnie będzie się dalej zmieniać). Symulacja dla pięciu możliwych scenariuszy wartości stopy, wyliczone oprocentowanie banku przy założonej marży i wyliczona kwota raty. Ale jak się do tych pokazanych liczb mają przedstawione słupki?
Ostatni słupek jest 5 razy większy niż pierwszy, ale jak to się ma do przedstawionych liczb?

9. Innowacyjne zastosowanie słupków

Rozwiązanie zagadki z punktu 8: wysokość słupka odpowiada numerowi scenariusza, nie jest proporcjonalna do prezentowanych liczb. Ale to nie jest najbardziej innowacyjne zastosowanie słupków przy prezentacji danych.
Poniżej jest podsumowanie rankingu uczelni według Perspektyw w kategorii ranking absolwentów. Czy długość słupka odpowiada jakiejkolwiek z mierzonych statystyk? Nie, długość słupka jest proporcjonalna do długości nazwy uczelni. Całe szczęście, że grafik ją pokazał inaczej trudno byłoby się domyślić, że AGH ma najdłuższą nazwę wśród uczelni z top-10 rankingu.

10. Majonez

Na szczęście 2021 to nie tylko polityka, rosnące ceny czy covid. Więc na koniec rankingu mam specjalny wykres o majonezach przygotowany i zgłoszony przez Wojciecha G. (link do zgłoszenia). Historia powstania tego wykresu jest dosyć złożona i można się z nią zapoznać pod powyższym linkiem. To co mnie w nim urzekło to oś OY. Liczba punktów to suma ocen przez dwie osoby trzech kategorii, każda w skali 1-5. Jak nie docenić takiego ujęcia wspomnianej skali?

Wyróżnienia

W tym roku zgłoszeń było bardzo wiele. Bardzo dziękuję wszystkim osobom przesyłającym zgłoszenia czy to mailem, czy przez facebooka, twittera, linkedin czy zaczepiając mnie na korytarzu. Nie było łatwo wybrać finałową dziesiątkę. Poniżej pięć kolejnych wykresów, którym bardzo mało zabrakło, by się znaleźć na liście Top10. Sami widzicie ile było perełek.


Odkrywać! Ujawniać! Objaśniać!

W powyższych wykresach coś, przypadkiem lub celowo, nie zagrało. Przez co końcowy efekt nie przekazuje historii żyjącej w danych. Ale na szczęście rośnie liczba przykładów dobrych wykresów, które w czytelny sposób prezentują często złożone historie. Gdyby, ktoś chciał o nich poczytać, to linkuję dwie pozycje które miałem przyjemność współtworzyć. Obie dostępne bezpłatnie w postacie elektronicznej online, ale obie też można kupić w postaci papierowej w dobrych księgarniach.

Wykresy Unplugged – Zbiór ćwiczeń w rysowanie wykresów bez użycia prądu, ale za to z dużym zaangażowaniem wyobraźni. Odkrywać! Ujawniać! Objaśniać! – Zbiór esejów o sztuce prezentowania danych.


Głosowanie!!!


Który wykres zasługuje na tytuł ,,Najgorszy wykres roku 2021''? (wskaż jeden lub więcej)

View Results

Loading ... Loading ...

Zgłoszenia do plebiscytu ,,Najgorszy wykres roku 2021”

Zbliża się dziesiąta edycja konkursu na najgorszy wykres roku. Zawsze przy okazji wyboru wykresów do finałowej paczki zastanawiałem się co w danym roku oznacza ,,najgorszy”. Były takie czasy, gdy wystarczyło zacząć słupki w złym miejscu lub pokazać wykres kołowy w 3D, i już trafiało się w ogień krytyki. Ale czym jest ,,najgorszy” wykres w czasach totalnej wojny na dezinformacje?
W tym roku będziemy to plebiscyt tylko dla osób o silnych nerwach.

Zgłoszenia!
Jeżeli spotkaliście w tym roku, w prasie drukowanej, w internecie lub w telewizji wykresy, które urągały dobremu smakowi, inteligencji, poczuciu estetyki, przyzwoitości, prawdzie – prześlijcie mi je proszę jako zgłoszenia na plebiscyt na najgorszy wykres roku 2021. Szczególnie cenne są wykresy, które uderzają obuchem i dobierają wszelką nadzieję, których się nie da odzobaczyć.

Do 27 grudnia można przesyłać zgłoszenia wykresów (z podaniem źródła) na adres email: przemyslaw.biecek na serwerze gmail.com lub przez LinkedIn https://www.linkedin.com/in/pbiecek/.

Nagrody!
Wśród osób zgłaszających ciekawe wykresy rozlosuję pięć egzemplarzy papierowych naszej nowej komikso-książki dotyczącej wprowadzenia do odpowiedzialnego uczenia maszynowego. Wersja niedostępna jeszcze w sprzedaży, ale można ją wylosować w tym konkursie. Online można ją zobaczyć tutaj: https://betaandbit.github.io/RML/.

Niech wygra najgorszy!

Zgłoszenia do plebiscytu ,,Najgorszy wykresu roku 2020”

2020 – to był rok.
Pierwsza fala Covid-19; wybory, które się nie odbyły; wybory, które się odbyły; olimpiada, która się nie odbyła; strajki; druga fala Covid-19; nowy skład rządu; strajki; wyniki timss, to tylko wybrane z wielu wydarzeń ubiegłych ponad 11 miesięcy.
Wykresów w mediach mieliśmy co nie miara. Niektóre były dobre (np. moim zdaniem świetne covidowe zestawienia są na ourworldindata), inne były słabsze, jeszcze inne piekły w oczy bardziej niż płyn dezynfekujący.

Jak co roku kolekcjonuję te najgorsze z najgorszych. Przyszpilam do tego bloga i później straszę nimi młodych adeptów sztuki analizy danych.

Jeżeli spotkaliście w tym roku, w prasie drukowanej, w internecie lub w telewizji wykresy, które urągały dobremu smakowi, inteligencji, poczuciu estetyki, przyzwoitości, prawdzie – prześlijcie mi je proszę jako zgłoszenia na plebiscyt na najgorszy wykres roku 2020.
Zgłoszenia można przesyłać na adres email: przemyslaw.biecek na serwerze gmail.com lub przez Facebook do końca dnia 27 grudnia 2020.
Wzorem poprzednich lat, z nowych zgłoszeń, oraz z tych które otrzymywałem przez cały rok, zrobię plebiscyt na najgorszy wykres 2020.

Czym jest najgorszy wykres? Wystarczy spojrzeć na finalistów edycji z roku 2019.

Plebiscyt na najgorszy wykres roku 2019

Jeszcze tylko cztery dni do końca roku! To idealny czas na podsumowania i zestawienia. Jeden z tematów, który mnie najbardziej interesuje to wizualizacja danych w przestrzeni publicznej. A trzeba przyznać, że w tym roku dużo się działo w Polsce i na świecie, wiele wydarzeń aż proszących się o zaprezentowanie za pomocą wykresów.

W ostatnich dniach pojawiło się kilka zestawień najlepszych projektów dotyczących wizualizacji danych, jak np. lista zebrana przez FlowingData czy Information is Beautiful czy lista zebranych najlepszych wizualizacji z The Economist. To świetne pomysłowe, przemyślane i dopracowane w każdym szczególe wizualizacje.

Po drugiej stronie barykady stoją wykresy-koszmarki. Wykresy, które w skutek celowego działania, lub braku umiejętności projektanta, wykrzywiają dane i zniekształcają prezentowaną treść. To te wykresy są gwiazdami plebiscytu ,,Najgorszy wykres roku”, który organizuję już po raz ósmy (edycja 2018, edycja 2017, edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012).

Poniżej lista 12 wykresów wybranych z tych, które otrzymałem od Was w ciągu roku, lub które znalazłem gdzieś w otchłani internetu. Tworzenie epickich wizualizacji danych jest trudne, ale omijanie podstawowych błędów powinno być proste. Pomóżcie wybrać najgorszy z wykresów tego roku. Ja wyniki plebiscytu wykorzystuję między innymi na zajęciach o wizualizacji danych by ostrzegać studentów.

A przed tą dwunastką ostrzegać warto.

1. Prokuratura w liczbach

Pierwszy kandydat pochodzi z Twittera Arkadiusza Myrchy, który umieścił takie to zdjęcie z dokumentu Nowa prokuratura w świetle danych statystycznych. Do samego dokumentu nie udało mi się dotrzeć, był jednak krytykowany też tutaj.

Co jest nie tak w tym wykresie? Prokuratura Krajowa została ponownie utworzona (w miejsce Prokuratury Generalnej) w roku 2016. Nic więc dziwnego, że nie wpływały do niej wcześniej sprawy karne. Przecież nie istniała.

2. Diabelski wzrost składek

Po drugiej stronie politycznej barykady jest poniższy wykres opublikowany przez Platformę Obywatelską na Twitterze. Ten wykres zaprezentowany w lipcu miał pokazać znaczny wzrost wysokości składek ZUS dla przedsiębiorców.

Słupki nie zaczynają się w zerze. Z czasem słupki rosną w każdym wymiarze i dodatkowo zmieniają kolor. Dodatkowa strzałka sugeruje okrutnie wysoki wzrost składek ZUS. Gdy przeliczyć zaprezentowane liczby, okaże się, że wzrost składki w latach 2015-2019 to 20,5%. W tym czasie średnie wynagrodzenie wzrosło o prawie 27%.

.

3. Wykresy kołowe są złe

Na zajęciach z Technik Wizualizacji Danych często przywołuję słowa Edwarda Tuftego, że wykresy kołowe są złe. A od wykresu kołowego gorsze jest tylko wiele wykresów kołowych. Głównym problemem z wykresami kołowymi jest to, że są stosowane często bez żadnej refleksji, co do tego co jest pokazywane. Kółka są ładne, ale powinny być stosowane wyłącznie by pokazywać udział części w całości. Do tego zostały stworzone. Niestety, używane są do pokazywania dowolnych zestawień liczb. Tak jest np w raporcie GDDKIA dotyczącym przejść dla zwierząt.

Ceny metra bieżącego rury o różnych przekrojach przedstawiono jako fragment wycinka koła. Wykres kołowy aby miał sens musi przedstawiać część całości. A do czego sumują się te ceny? (Bonusowe punkty w moim zestawieniu za wykres kołowy w 3D).

4. Wykresy kopertowe są gorsze

Zazwyczaj narzekam na wykresy kołowe, ponieważ są często stosowanej niezgodnie z ich przeznaczeniem. Gorszą rzeczą od wykresów kołowych są wykresy kołowe przycięte do kwadratu. Nie często jednak można znaleźć taki wykres jak poniżej (dziękuję Gazeta Prawna) z wykresem kołowym przyciętym do koperty. Trzeba przyznać że to 12% wygląda na niepokojąco duży obszar w porównaniu z 29%.

Problem z wykresem: pola obszarów na wykresie nie są proporcjonalne do przedstawianych liczb. Rozumiem skojarzenia grafika, ale da się zrobić estetyczną wizualizację nie łamiącą proporcji.

5. Hiperprecyzyjnie o alkoholu

Wykres z TVN przedstawiający jak zwiększyła się wartość sprzedanego alkoholu pomiędzy latami 2014 a 2017. Gdyby podzielić dwie zaprezentowane liczby, okazałoby się, że ta wartość wzrosła o 5%.

Pokazanie 11 cyfr utrudnia szybkie porównanie tych dwóch liczb, a słupki oczywiście nie zaczynają się w zerze.
Zaciemnianie przez uszczegóławianie.

6. Wykres kłosowy

Ciekawymi wariantami wykresów słupkowych są wykresy, które zamiast nudnych słupków stosują fajne grafiki, np kłosy jak w raporcie apostel.pl. I tutaj jednak, trzeba zaczynać kłosy od zera, inaczej wykres prezentuje zaburzone proporcje.

Np. na poniższym wykresie pierwsze 103 jest od kolejnego 99 większe o 4% (i jednoczesnie o 4 punkty procentowe). Ale optycznie wygląda na ponad dwukrotną różnicę.

7. Pamiętaj o opisach

Na portalu forsal.pl w dziale Gospodarka, znajduje się taki ciekawy wykres. Prezentuje on prawdopodobnie spadek oczekiwań inflacyjnych, choć z samego wykresu trudno odgadnąć co oznaczają odcinki różnych kolorów. W oryginalnym artykule, po kliknięciu na wykres można przejść na inną stronę, gdzie kolory linii są już oznaczone (od lewej USA, Europa i Japonia, a szara linia to cel inflacyjny).

W wersji zaprezentowanej na stronie, bez opisów, wykres jest niezrozumiały.

8. Ale te pensje urosły

Skąd się bierze ta awersja do zaczynania wykresów słupkowych w zerze? Poniżej przykład z podsumowania badania losów absolwentów. Pensja absolwentów wzrosła o 6.6% a z poniższego wykresu można odnieść wrażenie, że wzrosła ponad dwukrotnie.

9. Takie cuda, to tylko w podręcznikach do historii

Kolejny przykład pochodzi z podręcznika do historii Historia. Po Prostu. Mamy ciekawy wykres pokazujący bezrobocie i zatrudnienie. Ale coś się złego dzieje z osiami na tym wykresie. Skala dla zatrudnienia ma inną jednostkę niż skala dla bezrobocia (w roku 1933 liczba 780 tys. bezrobotnych ma słupek niewiele krótszy niż 1730 tys. pracujących), skoki słupków są oderwane od skoków liczb (pomiędzy 1934 a 1936 zatrudnienie rosło o 70 tys, ale po słupkach tego nie widać), i skala też jest podejrzana (620 tys. bezrobotnych w 1936 ma krótszy słupek niż 240 tys. bezrobotnych w 1930).

I co mają zrobić wzrokowcy, którzy zapamiętają z wykresu trendy, ale nie wykują na pamięć liczb?

10. Czego się nie robi by być konsekwentnym

Ministerstwo Edukacji Narodowej w marcu na Twitterze umieściło taki to piękny wykres. Wymowa jest dosyć oczywista, będzie coraz więcej pieniędzy na podwyżki dla nauczycieli. Co rok więcej, a już pod koniec to tak dużo, że się ledwie mieści na wykresie.

Tylko, że ostatni słupek to suma lat 2017-2020 (równie dobrze mogłaby być suma 2014-2020). Gdy się od tego 6,3 mld odejmie liczby przedstawione w poprzednich latach to się okaże, że w roku 2020 na podwyżkę przeznaczone będzie 1,4 mld, a więc ponad dwa razy mniej niż w 2019. Liczby niby są, ale gdyby pokazano ten spadek to trend już nie byłby taki konsekwentny.

11. Większa 1/3

Poniższy wykres przedstawia wyniki ankiety z maja, gdzie zbierano odpowiedzi na pytanie ,,Czy PO chciałaby ograniczyć programy socjalne wprowadzone przez PiS”. Pomijam już kwestię sformułowania pytania, moją uwagę zwrócił nagłówek interpretujący wykres.

Na to pytanie 12% odpowiedziało zdecydowanie tak, a 25% odpowiedziało raczej tak (w sumie 37%). Te 37% wystarczyło by w nagłówku napisać ,,większość Polaków”. Jak widać Ci co nie mają zdania nie są prawdziwymi Polakami.

Wyniki tego badania trafiły do mediów w jeszcze bardziej okrojonej postaci.

12. Słupki, wszędzie słupki

Ostatnia pozycja nie pochodzi z polskiej prasy, ale muszę się podzielić tym znaleziskiem. W listopadzie trafiłem na dwie konferencje z przetwarzania języka naturalnego metodami AI/ML. Większość prezentacji pokazywała wyniki ilościowe dla różnych wytrenowanych modeli uczenia maszynowego. Zazwyczaj z użyciem słupków. Różnice są zazwyczaj małe, więc 3/4 prezentacji miała te słupki poucinane w losowych miejscach. Poniżej zdjęcie slajdu z pierwszego zaproszonego prelegenta.

Wojna o słupki zaczynające się od 0 nie jest przegrana! Naście lat temu pamiętam jak wyniki map ciepła w publikacjach bioinformatycznych były w mapie kolorów zielony – czerwony (a więc tragicznej dla osób z upośledzonym widzeniem barw). Zaledwie po kilkunastu latach widać zmianę trendu, bioinformatycy są coraz bardziej uświadomieni i coraz więcej map ciepła jest w kolorystyce niebieski – różowy!

Z wykresami słupkowymi też tak będzie! To moje noworoczne życzenie na najbliższą dekadę 😉

Zagłosuj!

Który wykres(y) zasługuje na miano najgorszego wykresu roku 2019?

Który wykres zasługuje na tytuł ,,Zniekształcenie roku 2019''?

View Results

Loading ... Loading ...

Dziękuję za wszystkie przesłane przez Was wykresy (a było ich sporo, i wokół afery z wynagrodzeniami w NBP, i wokół strajku nauczycieli i wokół wyborów). Do plebiscytu wybrałem tylko 12, ale za każde zgłoszenie bardzo dziękuję.
Osoba, która zgłosiła zwycięski wykres otrzyma dwie książki o wizualizacji Wykresy Unplugged i Odkrywać, Ujawniać, Objaśniać.

Zgłoszenia do tegorocznej edycji plebiscytu ,,Najgorszy wykresu roku”


Tak, tak, tak!
Zbliża się koniec roku, a z nim ósma (!!!) edycja plebiscytu na najgorszy wykres roku.

Jeżeli znaleźliście w papierowych lub elektronicznych mediach wykresy zniekształcające dane, powodujące, że prosta informacja staje się nieczytelna lub wprowadzająca w błąd zgłoście ją do plebiscytu!
Zgłoszenia można przesyłać na adres email: przemyslaw.biecek na serwerze gmail.com lub przez Facebook do końca dnia 28 grudnia.

W tym roku dodatkowo mam przygotowaną nagrodę (!!!) dla osoby, która prześle jako pierwsza wskazanie na wykres, który w plebiscycie wygra.
Są to dwie książki o wizualizacji Wykresy Unplugged i Odkrywać, Ujawniać, Objaśniać/

Zeszłoroczną edycję wygrał wykres z początku tego wpisu.

Jakie inne wykresy trafiły do plebiscytu w poprzednich latach?

Rozstrzygnięto konkurs na komiks o matematyce, informatyce i analizie danych!

Miesiąc temu pisałem o konkursie na najlepszy komiks o matematyce, informatyce i analizie danych. W ubiegłym tygodniu rozstrzygnęliśmy pierwszą edycję!
Nie było to proste. Z ponad 25 zgłoszeń trzeba było wybrać najlepsze w dwóch kategoriach: kategorii szkoły średnie i w kategorii otwartej (w której nagrody funduje nasza fundacja). Komisja w składzie: Kamila Łyczek (Delta), Barbara Roszkowska-Lech (MiNI PW), Tomasz Biernacki (znawca komiksu) i niżej podpisany Przemysław Biecek obradowała zaciekle. Głosy były zróżnicowane, ale koniec końców wybraliśmy bardzo ciekawe prace.

Czy jesteście ciekawi jakie prace nagrodzono?

W kategorii otwartej I nagrodę otrzymał komiks Inwersja Małgorzaty Łazęckiej.

Wyróżniliśmy też dwie świetne prace.

Przystające autobusy Piotra Nieżurawskiego.

Oraz Wpływ społeczności na rozwój PYTHONA Marty Czanockiej-Cieciury.

Więcej o konkursie oraz o wynikach w kategorii dla szkół średnich można przeczytać na tej stronie.
Wszystkie prace nadesłane na konkurs będzie można zobaczyć na specjalnej wystawie komiksów w dniu 12 września 2019 r. w Gmachu Wydziału Matematyki i Nauk Informacyjnych Politechniki Warszawskiej w czasie V Dnia Popularyzacji Matematyki. W tym dniu, w czasie uroczystej gali nastąpi wręczenie nagród wyróżnionym.

Możecie już się przygotowywać do kolejnej edycji!

Który z nich zostanie najgorszym wykresem 2018?

Zbliża się Sylwester, czas więc wybrać najgorszy wykres roku 2018! Plebiscyt przeprowadzamy co roku od 2012 (edycja 2017,edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012). Z roku na rok dostaję coraz ciekawsze zgłoszenia. Z tegorocznych zgłoszeń (oj, było ich bardzo dużo!) wybrałem 11 niezwykłych propozycji. Dziękuję wszystkim za podsyłanie nominacji.

Zasada plebiscytu jest prosta. Do końca roku można wskazywać swoje typy na najgorszy wykres, głosując za pomocą ankiety umieszczonej na końcu tego wpisu. W jednym dniu można głosować tylko raz. Jednocześnie można wskazać do 5 kandydatów. Po nowym roku zobaczymy, który wykres otrzymał najwięcej głosów. To on otrzyma tytuł „Zniekształcenie roku 2018”. Aby ułatwić głosowanie, każdy kandydat ma skrótową wpadającą w ucho nazwę.

Który wykres okaże się najgorszym wykresem 2018 roku? Wybierzcie sami.

1. Odra w Polsce

Poniższy wykres pochodzi z artykułu TVN24 Mniej szczepień, odra atakuje. Cytując fragment z tego artykułu ,,Jeszcze w 2010 roku zachorowań na odrę było w Polsce kilkanaście, w 2012 roku ponad 70, w zeszłym roku już 133 (http://www.tvn24.pl)”

Niby wszystko ok, wiadomo też, że warto się szczepić, wiec artykuł zgodny ze zdrowym rozsądkiem. Ale gdy przedstawić dane z ostatnich 14 lat prezentowane przez Rządowe Centrum Bezpieczeństwa to słupki powinny wyglądać tak.

Na czerwono zaznaczono dane przedstawione na wykresie TVN24. Problem z wykresem polega na wyborze danych psujących do historii, a nie zaprezentowanie kompletu danych.
Artykuł jest z 2017* roku, więc autor nie wiedział, że w 2017 całkowita liczba zachorowań będzie niższa. Ale dane z 2008, 2009 i 2015 już były dostępne, tyle że nie pasowały do trendu (*wykres trafił do mnie dopiero w tym roku, więc trafił do tegorocznego głosowania).
Problem z wykresem: wybiórcze prezentowanie danych.

2. Coraz lepiej

Poniższy wykres pochodzi z serwisu Budżet Wrocławia 2018. Cytując fragment wprowadzenia ,,Bez skomplikowanych tabel i wykresów prezentujemy wydatki miasta ”. Bardzo słuszny pomysł. Ale wykonanie? To akurat pierwszy wykres z tej strony www:

Lie factor 1.5.
(co to jest Lie-factor? tutaj definicja w języku angielskim a tu opis po polsku).
Paski na wykresie sugerują wzrost o 66% (stosunek 1:1.66) a w rzeczywistości patrząc na liczby wyniósł on 7.5% (stosunek 1:1.075). Pomijam fakt, że wzrost na 2017 był inny niż rok później, czego na wykresie nie widać. Pomijam fakt, że dochody są mniejsze od wydatków, co już się tak w oczy nie rzuca.
Problem z wykresem: paski, które nie są proporcjonalne do prezentowanych liczb. Sugerują większy wzrost dochodów niż w rzeczywistości.

3. Ratunku

Poniższy wykres pochodzi z raportu Pielęgniarki Cyfrowe. Można z niego odczytać, że najniższe zarobki są niższe niż najwyższe. Ale jakie to są kwoty odczytać trudno. Czy ten efekt pseudo 3D był potrzebny?

Problem z wykresem: pseudo-3D utrudnia odczytanie wartości, które odpowiadają prezentowanym słupkom.

Bonus to drugi wykres z tego raportu. Autor prawdopodobnie pomylił znaki nierówności w legendzie. Gdy się wczytać w opis tego wykresu to okazuje się, że ten 1% to jedna pielęgniarka z 400. Trudno odgadnąć też skąd ten szary kwadrat. Za los pielęgniarek trzymam kciuki, ale powinny znaleźć kogoś wymiaru Florence Nightingale do przygotowania wykresów do raportu.

4. Skala

Na Twitterze użytkownika pisorgpl w sierpniu można było znaleźć wykres pokazujący wzrost dochodów z VAT.

Brak osi OY sugerował, że coś może być z nią nie tak. Problem z zaczepianiem słupków w 0 zauważyła między innymi gazeta.pl i opisała w tym artykule.

Wykres pokazujący problem z portalu gazeta.pl

Proporcja najwyższego i najniższego słupka na wykresie to 239px/52px czyli ~4.6. Proporcje liczb to 167/99.
Lie factor ~2.75.

Problem z wykresem: słupki, które nie są zaczepione w 0.

5. Kto wyleczy ten wykres?

Jeżeli jesteśmy już w tematach Twittera, to na Twitterze NFZ można było znaleźć taką grafikę.

Na wykresie przedstawiono planowane wydatki. Wzrost wydatków o 7.7% przedstawiono za pomocą pięciokrotnie wyższego słupka.
Lie factor 4.

Problem z wykresem: słupki, które nie są zaczepione w 0.

6. Pochyl się nad absencją

Na stronie Rynku Pracy znaleźć można taki wykres.

Nie zawsze problem z słupkami polega na tym, że nie zaczynają się w 0. Czasem po prostu trudno odczytać gdzie się kończą. Konia z rzędem, kto odczyta czy absencja w usługach jest wyższa niż w produkcji.

Problem z wykresem: (zbędna) perspektywa i obroty utrudniają odczytanie wartości z wykresu.

7. Polska A, B, C, D, E, F i G

Na portalu Do Rzeczy opublikowano taki sondaż (który trafił do mnie przez Twittera).
Bardzo kreatywne podejście do przedstawiania wyników sondażu.

Problem z wykresem: prezentacja danych utrudnia odczytanie wartości z wykresu.

8. 20%

Było coś z mediów rządowych, to teraz coś od opozycji. Również dostałem namiary na ten wykres przez Twittera, więc przesyłam razem z całym twitem.
To 20% dla PO wygląda bardzo dumnie w zestawieniu z sąsiadującym 37%. Stosunek liczb 20/37 ~ 54/100, stosunek wysokości słupków 370px/458px ~ 81/100.
Lie factor ~1.5.

Kwiatków jest więcej. 17% dla ,nie wiem’ wygląda jak 7% dla partii Kukiza. Za to 6% dla Nowoczesnej jest bardzo daleko od tych 7% dla Kukiza.
Problem z wykresem: słupki nieproporcjonalne do prezentowanych wartości.

9. Od morza po góry

Często narzekam na wykresy z perspektywą, a to że utrudniają odczytanie wartości, a to że perspektywa to zbędny ozdobnik.
Ale tak pochylonego wykresu to jeszcze nie widziałem.

Problem z wykresem: zbędne pochylenie wykresu utrudnia odczytywanie danych z wykresu. Legenda po prawej stronie jest całkowicie zbędna.

10. Wykres zagadka

Ponownie wykres z Twittera. Obok słupków znajduje się informacja o 6% PKB na zdrowie w 2024 r. Ale wykres sugeruje, że w 2024 to już będzie prawie 8% (o ile na osi są %, przydałby się jakiś opis).

Problem z wykresem: opis nie pasuje do wykresu.

11. Kolorowo

Zejdźmy już może z polityki. Coś lżejszego na koniec. Wykres z profilu mojego pracodawcy – statystyki rekrutacji na UW. Zdobył moje serce podwójną legendą dla kolorów (Białystok i ekonomia dzielą się czerwonym, Radom i sinologia żółtym itp) i wykresem kołowym który nie przedstawia udziałów (studiów stacjonarnych na UW jest więcej niż te 6 wymienione w plasterkach kółka, poza tym z udziałami bardziej już kojarzy się liczba miejsc na kandydata niż kandydatów na miejsce). To nie jest tak, że dowolne kilka liczb można rzucić na wykres kołowy!


Problem z wykresem: szerokość białego wycinka koła sugeruje, że coś jest około 1/6 całości. Ale ta intuicja nie ma związku z prezentowanymi wartościami.


Ja swoich dwóch faworytów już mam. Zwycięski wykres trafi do Eseju Info-pomyłka. Jeżeli uda mi się zidentyfikować autora wykresu, to wyślę mu też jeden egzemplarz Esejów na pamiątkę. Ogłoszenie wyników plebiscytu po nowym roku.

Dziękuję wszystkim osobom, które przesłały mi swoje propozycje, nawet jeżeli nie znalazły się w powyższym zestawieniu. Ale sami widzicie, że konkurencja jest duża.

To kto powinien wygrać?

Który wykres zasługuje na tytuł ,,Zniekształcenie roku 2018''?

View Results

Loading ... Loading ...

Zgłoszenia do tegorocznej edycji plebiscytu ,,Najgorszy wykresu roku”

Zbliża się koniec roku, a z nim siódma (!!!) edycja plebiscytu na najgorszy wykres roku (wykres, który jest wart tysiąca łez?).
Jeżeli widzieliście w papierowych lub elektronicznych mediach wykresy zniekształcające dane, powodujące, że prosta informacja staje się nieczytelna lub wprowadzająca w błąd zgłoście ją do konkursu!
Wykres/wizualizacja powinna być opublikowana w 2018 roku.
Zgłoszenia można przesyłać w komentarzach lub na adres email: przemyslawbiecek na serwerze gmail.com.

Mam już kilka ciekawych zgłoszeń, ale czekam na więcej.


Jakie wykresy stawały w szranki w poprzednich latach? (ubiegłoroczny zwycięzca po prawej)

Data Science Masters

Jeszcze przez 11 dni można zgłaszać prace magisterskie w konkursie Data Science Masters – konkursie na najlepszą pracę z obszaru Analizy Danych i Uczenia Maszyn.

Mamy już 24 zgłoszenia!
Gdzie wykuwano zgłoszone w konkursie prace?

Screen Shot 2018-01-09 at 19.10.16

Miałem okazję przejrzeć kilka ze zgłoszonych prac. Są bardzo ciekawe i bardzo zróżnicowane. Od zastosowań głębokich sieci neuronowych, przez analizę matematyczną właściwości testów statystycznych po modele ekonometryczne.

Czekamy na kolejne zgłoszenia!
Formularz na stronie https://www.datasciencemasters.edu.pl/.

Konkurs jest organizowany przez wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej oraz firmę Nethone z grupy DaftCode.

Fighting Against Fake Data and Visualizations

Pięć dni temu rozpoczęliśmy konkurs na Najgorszy wykres roku 2017. Do chwili obecnej w głosowaniu oddano 804 głosy co świadczy o rosnącej popularności i zasięgu tego konkursu.
Poniżej napiszę kto wygrał, dlaczego to ważne i jak nie zostać laureatem w kolejnej edycji.

Najgorsze wykresy 2018

Najwięcej głosów (429 głosów, 53% głosujących) zdobył poniższy wykres z portalu oko.press. Zbyt dużo kategorii, pionowe słupki spowodowały, że trudno z niego odczytać jakiekolwiek liczby.

Drugie miejsce (328 głosów, 41%) zajął mój faworyt z serwisu Bankier. Dziwaczna oś OX (na początku prezentująca dane co 10 lat a później co 1 rok), zaskakujące górki i dołki, brak odniesień do demografii (liczba zawartych małżeństw pewnie jakoś zależy od struktury demograficznej w danym roku), złożyły się na ten zapadający w pamięć wykres.

Na trzecie miejsce wystarczyło 151 głosów (19% głosujących), a zdobył je wykres kołowy z portalu wroclaw.pl.

Dlaczego szukanie dziury w całym jest takie ważne?

Każdy ze zgłoszonych wykresów, nawet te zwycięskie, można bronić używając rozmaitych argumentów. Najczęstsze to:

* Co z tego, że wykres jest nieczytelny, skoro pokazane są liczby.
[W takim razie po co pokazywać wykres? Lepsza byłaby tabela.]
* Wykres nie jest zły, bo gdyby pokazać dane poprawnie to nie byłoby widać żadnych różnic.
[A może nie ma istotnych różnic? Po co wprowadzać w błąd co do wielkości różnic?]
* Może i wykres pokazuje coś innego niż sugeruje tytuł, ale przecież jakieś informacje jednak pokazuje.
[A nie lepiej pokazać jednak informacje zgodne z tytułem?]
* Wykres to tylko poglądowa ilustracja, słowny opis w artykule jest poprawny.
[Nie lepsze byłoby jakieś ładne poglądowe zdjęcie z imageshack? Po co mydlić czytelnikowi oczy sugerując, że wykres pokazuje jakieś dane?]

Argumenty obrony mógłbym zrozumieć, gdyby dotyczyły grafik znalezionych na portalu z głupotkami. Ale na portalach informacyjnych (czy pretendujących do tego tytułu) nie ma miejsca na takie błędy.

I nie jest to opinia wyłącznie statystyka, ale też opinia poważnych dziennikarzy, np. takich jak Alberto Cairo.
Poniżej umieszczam nagranie z ubiegłorocznego odczytu Alberto Cairo nt. Visual Trumpery: Fighting Against Fake Data and Visualizations — From the Left and From the Right.
Bardzo polecam, świetne wystąpienie, wiele ciekawych argumentów i przykładów.

Jak żyć?

Tytuł tego wpisu zapożyczyłem z ww. prezentacji Alberto Cairo. Celem konkursu nie jest naśmiewanie się z konkretnych portali czy autorów konkretnych grafik, ale zasygnalizowanie problemu jakim jest nieumiejętna/wprowadzająca w błąd prezentacja danych w popularnych mediach.

Problem nie jest znany od wczoraj. Jest wiele źródeł pokazujących jakich błędów należy unikać lub przedstawiających wizualizacje danych bogate w treść.

* W języku polskim najłatwiej mi polecić własną książkę ,,Zbiór esejów o sztuce prezentowania danych”. Jest to zbiór 8 krótkich esejów nt. różnych aspektów graficznej prezentacji danych. Dostępny w formie papierowej z wieloma kolorowymi ilustracjami jak i bezpłatnie dostępny w postaci elektronicznej na tej stronie.
* W języku angielskim klasyką gatunku są książki Edwarda Tuftego. Lista książek i wiele interesujących materiałów można znaleźć na jego stronie https://www.edwardtufte.com/tufte/
* Wspomniany wyżej Alberto Cairo jest autorem dwóch książek o wizualizacji danych oraz kursu online na ten temat. Więcej informacji na jego stronie internetowej http://albertocairo.com/
* Jest bardzo wiele świetnych blogów o wizualizacji danych. Ja najbardziej lubię śledzić Flowing Data (prowadzony przez Nathana Yau, autora kilku książek), Information is Beautiful (prowadzony przez Davida McCandlessa, autora Information is Beautiful i Knowledge is Beautiful) oraz Junk Charts (prowadzony przez Kaisera Fung, również autora kilku książek).

Materiałów zwiększających umiejętności krytycznego i wizualnego myślenia o danych jest znacznie więcej. Pracujemy właśnie nad świetną pozycją o roboczej nazwie ,,Wykresy unplugged”. Więcej informacji o tej pozycji już wkrótce.

Udanego 2018!