Wykresy od kuchni

Książka jest w formacie A4, ale nie mogłem się powstrzymać od wydrukowania okładki w formacie B0

Zgodnie z obietnicą, pod choinkę Mikołaj przyniósł Wykresy od kuchni – krótkie wprowadzenie do statystycznej wizualizacji danych.

Wersja elektroniczna jest dostępna pod adresem: https://betaandbit.github.io/Wykresy/

Kody i dane potrzebne do odtworzenia wykresów z tej ksiązki znajdują się pod adresem: https://github.com/BetaAndBit/Wykresy

Książka ma ,,zaledwie” 72 strony, ale pracowałem nad nią od 2016 roku.
Pomysł był prosty: skoro na wspaniałych kuchennych przykładach można mówić o fizyce czy chemii, to dlaczego by nie opowiedzieć o statystyce?
Brzmi prosto?
Te 6 lat to 4 piwoty całej koncepcji.
W między czasie napisałem 3 inne krótkie książki (The Hitchhiker’s Guide to Responsible Machine Learning, Gra w Chaos, W pogoni za nieskończonością – Szeregi) oraz jedną monografię (Explanatory Model Analysis).
Ale temat statystki w kuchni chodził za mną non stop.

Książkę miałem zakontraktowaną na rok 2020, pandemia przesunęła terminy na końcówkę 2021 roku. Więc gdy miesiąc temu, w listopadzie, stwierdziłem, że dotychczasowe opisy się nie kleją i trzeba całość przepisać, pomimo już narysowanych ilustracji, ustalonych terminów z drukarnią i generalnie wyczerpanej cierpliwości współpracowników i rodziny, cóż, dość powiedzieć, że ta decyzja nie zyskała wsparcia otoczenia.

Ale się udało.

Beta i Bit są zgodni, że póki co jest to książka, która pisałem najdłużej, ale widać tak musiało być.
Wykresy od kuchni – sześć krótkich wykładów o wizualizacji danych. Wykładów które kiedyś prowadziłem na Technikach Wizualizacji Danych na Uniwersytecie Warszawskim i Politechnice Warszawskiej. Ale tutaj napisałem je z myślą o uczniach szkoły średniej, głównie z kierunków mat-fiz, którzy są spragnieni przygód malowanych danymi.

Drukarnia prześle pierwszą partię wydruków na początku lutego. Pierwszy egzemplarz będzie można wylicytować na WOŚP, pozostałe będą rozdawane bezpłatnie licealistom uczestniczącym w zajęciach prowadzonych na wydziale MiNI PW.

Gorąco dziękuję Łukaszowi Maciejewskiemu (który zaraził mnie pomysłem do połączenia komiksu i statystyki), Kamila Łyczek (brainstorming pomysłów na łączenie matematyki z kuchnią), Łukasz Rajkowski (za bliską nieskończoności liczbę uwag, komentarzy, pomysłów i sugestii), Ikert Bengoetxea Arruti i Anna Szalwa za fantastyczne ilustracje, Anna Kozak, Mikołaj Spytek i Hubert Ruczyński (cenne komentarze osób prowadzących Techniki Wizualizacji w tym roku) Agata Balak (wsparcie przy kontaktach z drukarnię) i całe MI2DataLab (wsparcie przy projekcie Beta Bit), Barbara Roszkowska Lech (namówienie mnie na udział w projekcie Komiksowa Matematyka).

Wykresy od kuchni — w sam raz pod choinkę

W tym roku, zamiast plebiscytu na najgorszy wykres roku, mamy dla Was małą niespodziankę. Na końcówkę roku przygotowujemy krótką (70-stronicową), bogato ilustrowaną pozycję o wizualizacji danych — Wykresy od kuchni.

Książeczka składa się z sześciu rozdziałów, które odpowiadają wykładom z Technik Wizualizacji Danych, które przez kilka lat prowadziłem na Uniwersytecie Warszawskim i Politechnice Warszawskiej. Jest to też nowsza, odświeżona opowieść o statystycznej wizualizacji danych, o której kiedyś pisałem w książce ,,Odkrywać! Ujawniać! Objaśniać! Zbiór esejów o sztuce przedstawiania danych” (dostępna online http://biecek.pl/Eseje).

Więcej szczegółów już wkrótce, więc stay tuned!

Dni Matematyki na PWr – 22-23 kwietnia 2022

Ogromnie miło nam poinformować, że w tym roku (podobnie jak w poprzednich) mamy zaszczyt być patronem honorowym konferencji Dni Matematyki, organizowanej przez Samorząd Studencki Wydziału Matematyki PW.

Gorąco zapraszamy! Na wydarzenie można zarejestrować się przez wydarzenie na FB: https://www.facebook.com/events/493498632429034.

Kilku szczęśliwych uczestników tej konferencji otrzyma komikso-książkę ,,The Hitchhiker’s Guide to Responsible Machine Learning”, którą w tym roku opublikowała fundacja SmarterPoland.pl.
W wersji online tutaj: https://betaandbit.github.io/RML/.

Plebiscyt na najgorszy wykres roku 2021

Sylwester już tuż tuż, czas więc na kolejną edycję plebiscytu na najgorszy wykres roku 2021! To już dziesiąty plebiscyt. W tym roku otrzymałem rekordową liczbę prawie 60 zgłoszeń. Bardzo za wszystkie dziękuję! Niektóre pozycje pojawiały się kilkukrotnie i muszę przyznać, że są to bardzo smakowite kąski. Z tej listy wybrałem 10 wyjątkowych wykresów. Który z nich zostanie wybrany jako najgorszy z najgorszych? Czy przebije zwycięzcę z poprzedniego roku? Przypomnijmy, że wykres TVP o tytule ,,Bezrobocie” z poprzedniej edycji zebrał 983 głosów. Cóż, zobaczymy wyniki naszego plebiscytu już za kilka dni.

Jak zwykle, finalistów i zwycięzców z poprzednich lat można znaleźć na stronach: edycja 2020, edycja 2019, edycja 2018, edycja 2017, edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012.

Macie już popcorn? Oto kandydatury na 2021.

1. TVP czy zdrowie?

Rok temu zwyciężył wykres z TVP, więc tegoroczny plebiscyt otwiera grafika z TVP 1 ,,Wydatki na ochronę zdrowia jako % PKB”. Co z tym wykresem jest nie tak? Słupki rozpoczynające się od wartości 4% mają wizualnie powiększyć wzrost wydatków na zdrowie ponieważ rozciągają oś Y. Przyznacie, to 7% wygląda majestatycznie na tle bladych 4.5%-5%. Pierwsze 7 słupków pokazuje 7 lat i ma sprawiać wrażenie, że nic się nie zmieniało, a wręcz był lekki spadek, ostatnie 5 słupków pokazuje 12 lat z tak dobranymi dziurami by sugerować dynamiczny wzrost. Co się stało z latami 2017-2019 i 2024-2026? Czy to nie jest wybiórcza prezentacja danych? Połowa z ostatnich słupków pokazuje prognozy, a nie poniesione wydatki, a jak wiadomo obiecuje się łatwo. Czy ten wzrost wydatków wynika ze starzejącego się społeczeństwa, nagłych wydatków związanych z pandemią, czy jest świadomą inwestycją? Tego się z wykresu nie dowiemy.

2. Polski ład na wykresie

Z poprzedniego wykresu warto zapamiętać dwie liczby, 6% w 2023 i 7% w 2027. Te liczby wracają na innym wykresie przedstawionym przez KPRM w ramach opisu programu Polski Ład. Na poniższym wykresie jest też sporo miliardów złotówek.

Ale jak te kwoty mają się do długości słupków na wykresie, tego nie potrafiłem ustalić. Cóż, po takiej prezentacji danych, nawet taki optymista jak ja, zaczął wątpić w podstawy finansowe tego ładu.

3. Jak (nie) zachęcać do szczepień

Skoro już jesteśmy w temacie wizualizacji danych o obszarze zdrowia, to niewątpliwie najważniejszym tematem w tym roku jest temat szczepień. Wiadomo, że szczepionki są bezpieczne i korzystne, ale na skutek różnych działań, wciąż wiele osób boi się zaszczepić. Całe szczęście, że MZ klarownie komunikuje dane podkreślające korzyści. Np. takie jak poniższy wykres.
Ale właściwie co pokazuje ten wykres? Że w grupie gdzie więcej osób się zaszczepiło jest więcej zakażeń? I dlaczego tych zakażeń jest tak dużo (ponieważ oś OY na lewym i prawym wykresie jest inna). I dlaczego ten jasny słupek po lewej stronie pokazuje grupę 21-30 a po prawej 18-30? I czy chodzi o zakażenia objawowe (młodsze osoby częściej są bezobjawowe)? I czy chodzi o zakażenia po zaszczepieniu czy też większość z tych zakażeń objawowych jest w grupie osób niezaszczepionych?
Lepszy byłby wykres ilustrujący jak bardzo szczepienia chronią osoby zaszczepione.

4. Będzie rosło

W wolnym czasie odkładam czapkę nauczyciela akademickiego, zakładam pelerynę i w szkołach podstawowych opowiadam o tym jak wyznaczać trendy w danych (ostatnio z olbrzymią pomocą MI2Education). Dzieciaki w 2-3 klasie szkoły podstawowej bez trudu ogarniają, że linia trendu powinna być możliwie blisko wszystkich danych przedstawionych na wykresie.

A jednak autor poniższego wykresu proponuje inny sposób wyznaczania trendu. Weź najniższy możliwy punkt po lewej i połącz z najwyższym możliwym punktem po prawej. Jeżeli wciąż nie wygląda dobrze, to zmień oś o OX i dzięki temu zawsze będzie rosło.

Zabieg o tyle niepotrzebny, że dane pokazują spory, dwu-trzykrotny wzrost liczby szczepień. Nie trzeba było tego wykresu przekreślać czerwoną kreską.

5. Dżender

Zostawmy już szczepienia i tematy zdrowotne a przyjrzyjmy się broszurze podsumowującej IX edycję programu Lider Narodowego Centrum Badań i Rozwoju. Wykres 2 z tej broszury znajdziemy poniżej. Tytuł sugeruje, że chodzi o liczbę laureatów i laureatek w kolejnych edycjach.
Z pewnością każdemu w oczy rzuca się jak niewiele kobiet zdobywa granty w tych konkursach. Ewidentnie sukcesy literek są mniej widoczne, skoro 21 grantów dla kobiet w edycji Lider IX wygląda na 2 razy mniejszą wartość niż 19 grantów dla mężczyzn w edycji Lider V. Jeżeli się przyjrzeć bliżej to okazuje się, że słupki bardzo swobodnie podchodzą do liczb, które miały odwzorowywać.

6. Twarze polityków

Skoro jesteśmy przy temacie wykresów słupkowych, to przyjrzyjmy się tej specyficznej odmianie, czyli wykresom poparcia politycznego, w których wielkość poparcia dla partii przedstawiana jest wielkością głowy lidera tej partii. W poprzednim roku podobny wykres zdobył drugie miejsce. Jak będzie w tym roku?
Poniżej niezawodny ibris dla Onet.
Dla miłośników algebry mała zagadka. Skoro poparcie Polski 2050 na wym wykresie to połowa poparcia KO, to czy wysokość zdjęcia Szymona Hołowni ma się do wysokości zdjęcia Donalda Tuska jak 1:2 czy 1:sqrt(2) czy 1:2^0.(3).

7. Koło fortuny

Nasz plebiscyt nie mógłby się odbyć, gdyby wśród kandydatów nie było choć jednego wykresu kołowego. Poniżej smakowity donut-chart z portalu Rzeczpospolitej. Wspaniały dobór kolorów pomaga zauważyć, że mniej niż połowa (49%) pytanych uważa, że zwężanie ulic w Warszawie to dobry pomysł.

Być może pierwsze wrażenie byłoby inne, gdyby obie wspierające odpowiedzi zaznaczyć podobnym kolorem (byłoby 17% + 49%) a jedyną odpowiedź przeciwną oznaczyć kontrastującym kolorem. Surprise, surprise, ponad 4 razy więcej osób uważa, że warto zwęzić ulice niż że to dyskryminacja kierowców. Ten wykres tej proporcji nie uchwycił najlepiej.

8. Znajdź zależność

Zostawmy na boku politykę. Poniższy wykres pokazuje jak zmieniłyby się raty kredytu gdyby zmieniła się stopa referencyjna NBP (a wiemy, że się zmieniła i pewnie będzie się dalej zmieniać). Symulacja dla pięciu możliwych scenariuszy wartości stopy, wyliczone oprocentowanie banku przy założonej marży i wyliczona kwota raty. Ale jak się do tych pokazanych liczb mają przedstawione słupki?
Ostatni słupek jest 5 razy większy niż pierwszy, ale jak to się ma do przedstawionych liczb?

9. Innowacyjne zastosowanie słupków

Rozwiązanie zagadki z punktu 8: wysokość słupka odpowiada numerowi scenariusza, nie jest proporcjonalna do prezentowanych liczb. Ale to nie jest najbardziej innowacyjne zastosowanie słupków przy prezentacji danych.
Poniżej jest podsumowanie rankingu uczelni według Perspektyw w kategorii ranking absolwentów. Czy długość słupka odpowiada jakiejkolwiek z mierzonych statystyk? Nie, długość słupka jest proporcjonalna do długości nazwy uczelni. Całe szczęście, że grafik ją pokazał inaczej trudno byłoby się domyślić, że AGH ma najdłuższą nazwę wśród uczelni z top-10 rankingu.

10. Majonez

Na szczęście 2021 to nie tylko polityka, rosnące ceny czy covid. Więc na koniec rankingu mam specjalny wykres o majonezach przygotowany i zgłoszony przez Wojciecha G. (link do zgłoszenia). Historia powstania tego wykresu jest dosyć złożona i można się z nią zapoznać pod powyższym linkiem. To co mnie w nim urzekło to oś OY. Liczba punktów to suma ocen przez dwie osoby trzech kategorii, każda w skali 1-5. Jak nie docenić takiego ujęcia wspomnianej skali?

Wyróżnienia

W tym roku zgłoszeń było bardzo wiele. Bardzo dziękuję wszystkim osobom przesyłającym zgłoszenia czy to mailem, czy przez facebooka, twittera, linkedin czy zaczepiając mnie na korytarzu. Nie było łatwo wybrać finałową dziesiątkę. Poniżej pięć kolejnych wykresów, którym bardzo mało zabrakło, by się znaleźć na liście Top10. Sami widzicie ile było perełek.


Odkrywać! Ujawniać! Objaśniać!

W powyższych wykresach coś, przypadkiem lub celowo, nie zagrało. Przez co końcowy efekt nie przekazuje historii żyjącej w danych. Ale na szczęście rośnie liczba przykładów dobrych wykresów, które w czytelny sposób prezentują często złożone historie. Gdyby, ktoś chciał o nich poczytać, to linkuję dwie pozycje które miałem przyjemność współtworzyć. Obie dostępne bezpłatnie w postacie elektronicznej online, ale obie też można kupić w postaci papierowej w dobrych księgarniach.

Wykresy Unplugged – Zbiór ćwiczeń w rysowanie wykresów bez użycia prądu, ale za to z dużym zaangażowaniem wyobraźni. Odkrywać! Ujawniać! Objaśniać! – Zbiór esejów o sztuce prezentowania danych.


Głosowanie!!!


Który wykres zasługuje na tytuł ,,Najgorszy wykres roku 2021''? (wskaż jeden lub więcej)

View Results

Loading ... Loading ...

Zgłoszenia do plebiscytu ,,Najgorszy wykres roku 2021”

Zbliża się dziesiąta edycja konkursu na najgorszy wykres roku. Zawsze przy okazji wyboru wykresów do finałowej paczki zastanawiałem się co w danym roku oznacza ,,najgorszy”. Były takie czasy, gdy wystarczyło zacząć słupki w złym miejscu lub pokazać wykres kołowy w 3D, i już trafiało się w ogień krytyki. Ale czym jest ,,najgorszy” wykres w czasach totalnej wojny na dezinformacje?
W tym roku będziemy to plebiscyt tylko dla osób o silnych nerwach.

Zgłoszenia!
Jeżeli spotkaliście w tym roku, w prasie drukowanej, w internecie lub w telewizji wykresy, które urągały dobremu smakowi, inteligencji, poczuciu estetyki, przyzwoitości, prawdzie – prześlijcie mi je proszę jako zgłoszenia na plebiscyt na najgorszy wykres roku 2021. Szczególnie cenne są wykresy, które uderzają obuchem i dobierają wszelką nadzieję, których się nie da odzobaczyć.

Do 27 grudnia można przesyłać zgłoszenia wykresów (z podaniem źródła) na adres email: przemyslaw.biecek na serwerze gmail.com lub przez LinkedIn https://www.linkedin.com/in/pbiecek/.

Nagrody!
Wśród osób zgłaszających ciekawe wykresy rozlosuję pięć egzemplarzy papierowych naszej nowej komikso-książki dotyczącej wprowadzenia do odpowiedzialnego uczenia maszynowego. Wersja niedostępna jeszcze w sprzedaży, ale można ją wylosować w tym konkursie. Online można ją zobaczyć tutaj: https://betaandbit.github.io/RML/.

Niech wygra najgorszy!

Plebiscyt na najgorszy wykres roku 2020

Koniec roku to idealny czas na podsumowania i zestawienia. W tym roku wiele się działo, pandemia, wybory prezydenckie, zakup respiratorów od handlarza bronią… Idealne tematy do prezentacji danych z użyciem wykresów. Obok świetnych wykresów (,,flattening the curve” przejdzie do historii) w przestrzeni publicznej pojawiły się też rozwiązania urągające poczuciu smaku lub rozsądkowi.

Który z wykresów był najgorszym z najgorszych? Wybierzmy go w IX plebiscycie na najgorszy wykres roku. Finalistów i zwycięzców z poprzednich można znaleźć na stronach: edycja 2019, edycja 2018, edycja 2017, edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012.

W ciągu roku otrzymałem wiele zgłoszeń i za wszystkie bardzo dziękuję. Wybrałem z nich 10 pozycji, które budzą koszmary u co bardziej wrażliwych adeptów wizualizacji danych. Oto moje subiektywne ,,top 10”. Pomóżcie mi wybrać wykres – ikonę najgorszej wizualizacji roku 2020.

1. Wykresy, których nie było

Pierwszy finalista to prezentacja danych, która nie jest typowym wykresem. W ogóle nie jest wykresem. Ale dodaję ją jako reprezentanta wszystkich zaprzepaszczonych szans na czytelną komunikację o tym jak wygląda pandemia koronawirusa w Polsce. Oto ona:

Być może nie wiecie, bo łatwo było to przegapić, że istnieje oficjalna rządowa strona https://www.gov.pl/web/koronawirus/ prezentująca dane o stanie pandemii. Dzisiaj na tej stronie są nawet całe dwa kartogramy. Ale przez długi czasu, na tej stronie widniały nieczytelne tabelki z pojedynczymi liczbami. Zupełnie nic nie mówiące o rozwoju pandemii.
Offtopic: brawa dla Michała Rogalskiego za zbieranie danych i prezentacje ich w czytelny sposób. Naprawdę dobrze prezentowane są dane o covid na stronach Polityka.pl i kilku innych serwisach, ale o tym napiszę w osobnym blogu.

2. TVP po raz pierwszy (bezrobocie)

Poniższy wykres przesłano mi w tym roku przynajmniej 10 razy, więc telewizja publiczna wchodzi do tegorocznego zestawienia z hukiem.
Jak doskonale widać na tym wykresie stopa bezrobocia rośnie.
To znaczy maleje.
To znaczy wygląda jakby malała, ale rośnie.
To znaczy rośnie, ale zaprezentowano ją tak by wyglądała jakby malała.

Swoją drogą w marcu 2019 było też 6% bezrobocia, w lipcu-wrześniu 2019 bezrobocie było rekordowo niskie. Większość specjalistycznych portali prezentuje dane o bezrobociu czytelnie jako szereg wartości z równym interwałem (miesiąc albo rok), szkoda że w TVP wybrano z niego trzy liczby i pokazano je w zły sposób.

3. TVP po raz drugi (wybory)

W tym roku mieliśmy dwie i pół tury wyborów prezydenckich (te które się nie odbyły liczę jak 0.5, taki statystyczny żart).
Oczywiście nie ma wątpliwości kto będzie liderem sondaży prezentowanych w TVP1, ale jak będzie wyglądała reszta stawki?

Słupek 1% dla Marka Jakubiaka jest niewiele niższy niż 4% dla Roberta Biedronia. Podobnie 4% dla Władysława Kosiniaka-Kamysza jest całkiem duże w porównaniu do 7% Krzysztofa Bosaka.
Zawsze powtarzam studentom wizualizacji danych, że patrząc na słupki intuicyjnie patrzymy na proporcje ich długości, więc najlepiej zaczepić je w zerze aby proporcje słupków oddawały proporcje prezentowanych wartości. W przypadku powyższych słupków zero jest na wysokości nosa kandydatów.

4. TVP po raz trzeci (UE)

Nie wiem co bardziej mnie boli w poniższym wykresie zaprezentowanym w TVP1.
Źle zadane pytanie w ankiecie (ale właściwie o co w nim chodzi), używanie skali kolorów czerwony/zielony (zielony odpowiada odpowiedzi, że mogą być różnie traktowane), nieszczęśliwie umieszczona legenda, czy prezentacja danych za pomocą wykresu kołowego w 3D.
Wydawałoby się, że XX wiek się skończył, a z nim skończyła się moda na trójwymiarowe wykresy kołowe prezentujące dwie liczby.

5. TVP po raz czwarty (zdrowie)

Poniższy wykres ma pokazywać, że wydatki na zdrowie rosną.
Choć gdy spojrzymy na oś OX to się okaże, że te wydatki będą rosły w przyszłości, ostatnie 6 słupków dotyczy kolejnych lat 2020-2025.
Oczywiście źle dobrano punkt zaczepienia słupków, więc ten magiczny wzrost z 5% PKB do 6% PKB wygląda jak prawie dwukrotne zwiększenie wydatków.


Offtopic: Czy 2 mld pln dofinansowania dla TVP przełoży się na sensowniejszą prezentację danych? Nie trzeba być statystykiem by przewidzieć jaka jest odpowiedź na to pytanie. Z dużymi liczbami łatwo się pogubić, więc dla porównania 2 mld to cztery razy więcej niż planowany roczny budżet programu Inicjatywa Doskonałości Uczelnia Badawcza (IDUB), czyli specjalnego celowego dofinansowania 20 najlepszych polskich uczelni. Tak, cztery razy więcej niż łączne dodatkowe dofinansowanie tych 20 uczelni (dla 10 uczelni to 10% extra subwencji, dla pozostałych 10 to 2% ekstra).
Wracamy do wykresów.

6. Floryda, czyli inni też nie umieją w słupki

Z portalu AnalitykPlakal na FB dostałem takie zgłoszenie, pokazujące, że nie tylko TVP nie umie w słupki. O co chodzi? Może o to, że 19 czerwca Floryda była w dołku?

7. Artykuły trzeba umieć czytać

Złe wykresy to nie tylko trzeci wymiar, źle narysowane słupki, czy nieczytelne wykresy kołowe. Najgorsze są te wykresy, które wyglądają sensownie ale zniekształcają prezentowane dane.
Na stronach premier.gov.pl znajdziecie taką grafikę.

Interesuje mnie modelowanie pandemii covid, więc gdy pierwszy raz zobaczyłem tę grafikę pomyślałem sobie – super, komuś udało się zmierzyć ryzyko zakażenia w różnych miejscach. Bardzo cenna informacja. Wygląda na to, że ryzyko zakażenia jest największe w restauracjach, centrach fitness, kawiarniach i hotelach. Coś takiego sugeruje tytuł wykresu.

Pierwsza wątpliwość naszła mnie gdy zobaczyłem oś OX. Ryzyko mierzone w liczbach od 1 do 10 000? Dziwna jednostka jak na ryzyko. Ale jest źródło, więc zobaczmy o co chodzi.

Odszukałem ten artykuł. Wykres z prezentacji premiera idealnie pasuje do Fig 2 D z tej publikacji (patrz powyżej). Tyle, że wykres w artykule nie pokazuje ryzyka ale liczbę dodatkowych zakażeń po otwarciu danego rodzaju miejsc. Czymś zupełnie innym jest ryzyko zakażenia w szkole, a liczba dodatkowych zakażeń jeżeli szkoły będą otwarte (np salonów samochodowych jest mniej niż szkół przez co przełożenie na liczbę zakażeń będzie inne). Co więcej, prezentowane w artykule liczby dotyczą wyników symulacji (stąd te kropeczki na wykresie w artykule, których zabrakło na prezentacji na stronach premier.gov.pl) a nie zmierzonych wartości. Co więcej, symulacje dotyczyły regionu 'Chicago metro area’ i nierozsądnie jest uogólniać te wnioski na cały kraj. Tym bardziej, że w cytowanym artykule pokazywane są dane dla różnych miast w USA i wyniki też są różne dla poszczególnych miast. No cóż, zgadzają się jedynie kolory pudełek, choć akurat te nic w tym przykładzie nie znaczą.

8. Spadający wiek biologiczny

Poniższy wykres pochodzi z prezentacji podsumowującej wyniki badań edukacyjnych TIMSS (Międzynarodowe Badanie Wyników Nauczania Matematyki i Nauk Przyrodniczych), które zostały opublikowane w tym roku. Spadek wyników uczniów nie przebił się w mediach przez strajki, więc łatwo było przeoczyć publikacje tych bardzo ważnych statystyk. Poniżej wklejam jeden wykres z oficjalnej prezentacji ministerstwa.

Można z niego odczytać, że średni wiek biologiczny spadł w skali jednego rocznika spadł o 33%. To zdanie pięknie ilustruje skutki gwałtu prowadzonego na edukacji od lat. Oczywiście średni wiek nie spadł o 1/3 tyko o 1/3 roku. Oczywiście zmiana wynika z tego, że mamy w TIMSS 19 grupę 2/3 dzieci, które zaczęły edukacje jako 7. latki i 1/3 które zaczęły jako 6-latki. Oczywiście aby zaprezentować dwie średnie nie trzeba robić wykresu liniowego z nieczytelną skalą OY.

Ale najbardziej boli to, że ten wykres jest masakryczną deformacją bardzo ciekawego wykresu 3.2 z raportu opracowanego przez IBE (cały raport jest ciekawy i wart przeczytania).

Rysunek z raportu IBE pokazuje jak różne grupy wiekowe przystąpiły do badania TIMSS w 2015 i 2019. Rysunek z raportu ministerstwa redukuje tę historię do dwóch źle zaprezentowanych liczb. Powinien kiedyś trafić do podręczników jako przykład jak nie wolno krzywdzić danych.

9. Uważaj na przezroczystość

Na koniec coś lżejszego. Poniższy wykres pochodzi z raportu PAN Zrozumieć Covid-19. Raport jest ciekawy i pełen interesujących informacji.
Jedną z nich jest zależność ryzyka śmierci od wieku i płci. W założeniu to ryzyko mógł pokazać wykres 16 (poniższy). Trudno jednak z niego odczytać jakie jest ryzyko w poszczególnych grupach wiekowych. Już Jacques Bertin w swojej genialnej Sémiologie Graphique pisał, że różne charakterystyki wykresu, w różny sposób nadają się do prezentacji danych. Poziom przezroczystości nada się do zaznaczenia porządku, ale nie nadaje się do pokazywania wartości w skali ilościowej.

10. To ja już wolę słupki

I jeszcze jedna wariacja na temat prezentacji danych. Zgłoszenie pochodzi z portalu AnalitykPlakal. Nie wiem co miał na myśli projektant tego wykresu. Ładniej będzie jeżeli zamiast proporcjonalnych słupków pokażemy nieproporcjonalne głowy liderów partii?


Weź udział w plebiscycie!

Który wykres(y) zasługuje na miano najgorszego wykresu roku 2020?
Zagłosuj! Niech wygra najgorszy!

Można wskazać więcej niż jednego kandydata.

Który wykres zasługuje na tytuł ,,Najgorszy wykres roku 2020''? (wskaż jednego lub więcej)

View Results

Loading ... Loading ...


To już koniec listy do głosowania. Zgłoszeń otrzymałem znacznie więcej, bardzo za nie dziękuję. Poniżej wrzucam jeszcze kilka obrazków, ale już bez komentarza (miniaturki można powiększyć).
Nie wklejam zgłoszeń koronawirusowych. Poświęcę im osobny wpis na blog.

Idzie nowy rok. Chciałbym nam wszystkim życzyć, aby w 2021 pojawiło się coraz więcej wizualizacji w czytelny sposób prezentujących nawet bardzo złożone dane.

Zgłoszenia do plebiscytu ,,Najgorszy wykresu roku 2020”

2020 – to był rok.
Pierwsza fala Covid-19; wybory, które się nie odbyły; wybory, które się odbyły; olimpiada, która się nie odbyła; strajki; druga fala Covid-19; nowy skład rządu; strajki; wyniki timss, to tylko wybrane z wielu wydarzeń ubiegłych ponad 11 miesięcy.
Wykresów w mediach mieliśmy co nie miara. Niektóre były dobre (np. moim zdaniem świetne covidowe zestawienia są na ourworldindata), inne były słabsze, jeszcze inne piekły w oczy bardziej niż płyn dezynfekujący.

Jak co roku kolekcjonuję te najgorsze z najgorszych. Przyszpilam do tego bloga i później straszę nimi młodych adeptów sztuki analizy danych.

Jeżeli spotkaliście w tym roku, w prasie drukowanej, w internecie lub w telewizji wykresy, które urągały dobremu smakowi, inteligencji, poczuciu estetyki, przyzwoitości, prawdzie – prześlijcie mi je proszę jako zgłoszenia na plebiscyt na najgorszy wykres roku 2020.
Zgłoszenia można przesyłać na adres email: przemyslaw.biecek na serwerze gmail.com lub przez Facebook do końca dnia 27 grudnia 2020.
Wzorem poprzednich lat, z nowych zgłoszeń, oraz z tych które otrzymywałem przez cały rok, zrobię plebiscyt na najgorszy wykres 2020.

Czym jest najgorszy wykres? Wystarczy spojrzeć na finalistów edycji z roku 2019.

Na wojnie z koronawirusem najlepszą bronią jest informacja

To był dla mnie szalony rok, stąd brak aktywności na blogu fundacji SmarterPoland w ostatnich miesiącach. Jednak dzisiejszy artykuł na zdrowie.gazeta.pl sprowokował mnie do zabrania głosu nt. skandalicznej (nie)dostępności danych o rozwoju pandemii CoviD. O tym poniżej, ale jeżeli interesuje Cię tytułowy obrazek to więcej informacji o nim znajdziesz na końcu.

Ale po kolei.

Od kilku miesięcy współpracuję z zespołem MOCOS.pl, międzynarodową grupą badaczy zasilaną nieskończoną energią lidera – prof. Tylla Krugera z Politechniki Wrocławskiej. Jakiś czas temu zespół MOCOS przedstawił zbiór 10 rekomendacji w celu powstrzymania dalszego rozwoju epidemii. Poza punktami takimi jak testuj, ograniczaj kontakty, itp, znalazła się na tej liście rekomendacja szczególnie mi bliska, czyli ”Strategia cyfrowego zbierania i publicznego udostępniania danych”. Tytuł tego posta pochodzi właśnie z wspomnianej rekomendacji.

Dlaczego dostępność dobrej jakości danych jest taka ważna?

Brak dobrej jakości danych paraliżuje prace niezliczonej ilości podmiotów. Począwszy od modelarzy, którzy miesiącami opracowują modele predykcyjne dla możliwych scenariuszy pandemii, przez właścicieli małych biznesów, którzy nie wiedząc jak wygląda sytuacja nie mogą efektywnie planować swojej pracy, po szeregowych obywateli, którzy po prostu chcą wiedzieć co się dzieje. Bardzo chcą wiedzieć, więc jeżeli nie będzie oficjalnych rzetelnych danych to tworzy się przestrzeń dla fakenewsów.
Podstawowym wymogiem jest pomiary były porównywalne. W gwarze statystycznej mówi się o unikaniu porównywania jabłek do pomarańczy.
Tymczasem w przypadku danych covidowych raportowanych w Polsce zmieniają się sposoby liczenia podstawowych statystyk, takich jak liczba testów, liczba zakażonych (patrz np. tutaj). Przez to raportowane 10 zdiagnozowanych chorych liczonych we wrześniu liczonych jest w inny sposób niż 10 chorych w listopadzie. Podobnie z wykonanymi testami (chodzi o sposób w jaki wliczane są testy wykonane prywatne). Jeżeli w danych nie mamy informacji jak były liczone poszczególne współczynniki w kolejnych dniach, to dane są słabej jakości.

Równie ważna co jakość danych jest ich dostępność. Z niepojętego dla mnie powodu Ministerstwo Zdrowia jako główny kanał komunikacji o liczbie zakażeń wybrało Twittera. Aby robić jakiekolwiek powtarzalne analizy dane muszą być dostępne! Twitter to nie jest format przechowywania danych ani nawet nie jest dobre medium do udostępniania danych. Przed wakacjami dr. hab. Anna Ochab-Marcinek napisała parser przetwarzający twity Ministerstwa w bardziej dostępny format umieszczony na GitHubie. Ale albo sposób raportowania się zmienił, albo API Twittera się zmieniło i ten sposób pozyskiwania danych przestał działać.
Obecnie chyba wszyscy polscy modelarze korzystają z bazy danych ręcznie uzupełnianej przez Michała Rogalskiego (w wolnym czasie). Baza jest dostępna jako google spreadsheet. Cieszy mnie proaktywna postawa osób gotowych poświęcić dużo własnego czasu aby coś pożytecznego zrobić, ale spodziewałbym się, że w XXI wieku średniej wielkości państwo jest w stanie wystawić w kilka miesięcy oficjalne API z dostępem do kluczowych danych.

Pomijając już sam format danych. Całkowicie niezrozumiały jest dla mnie fakt, że Ministerstwo Zdrowia przestało publikować informacje o wieku, płci i chorobach towarzyszących zmarłych osób. Zasłaniając się tym, że zgonów jest tak dużo, że nie zmieściłyby się w twitach na Twitterze (tak jakby nie można było tych danych umieścić na stronach www MZ).

Równie ważna co jakość i dostępność danych jest też odpowiednia prezentacja danych. Od początku pandemii zbieram z różnych mediów sposoby prezentowania danych covidowych. Nigdy wcześniej nie widziałem takiego zainteresowania w mediach wykresami i statystykami. Niestety często przy okazji dobrych chęci wychodzi też na jaw kompletny brak umiejętności analizy i prezentacji danych w sposób czytelny. Dotyczy to zarówno gazet jak i oficjalnych rządowych komunikatów (widać nie jest czytelny, skoro wspomniane zdrowie.gazeta poświęciło cały artykuł na próbę zrozumienia jak czytać prezentowane statystyk śmiertelności).
Przykładowo, w danych jest ewidentny efekt dnia tygodnia wynikający z tego, że przez weekend wykonywanych jest mniej testów. Zanim zacznie się liczyć i pokazywać jakikolwiek trend, absolutnie podstawowym krokiem przetwarzania wstępnego jest uwzględnienie tego efektu. Niewiele jest jednak gazet, które to robią (jedyna, którą znam, pokazuje skumulowaną liczbę przypadków z ostatnich 7 dni, co jest jakąś formą radzenia sobie z tym problemem).

Gdybyśmy mieli dobrej jakości danych, moglibyśmy przygotowywać najróżniejsze raporty i statystyki (tutaj jest kilka statystyk opracowanych w grupie MOCOS).

Bez dobrych danych jesteśmy (społeczeństwo, modelarze, lekarze i też pewnie rząd) ślepi.

Wspomniane rekomendacje grupy MOCOS są dostępne tutaj: https://mocos.pl/pl/recommendations.html.

Korzystając z danych udostępnionych grupie MOCOS z okresu maj – wrzesień przygotowaliśmy kalkulator opisujący ryzyka zgonu lub hospitalizacji. Kalkulator ten jest dostępny na stronie https://crs19.pl/. Dane są dosyć stare, więc trudno powiedzieć na ile te relacje utrzymają się w listopadzie. Ten kalkulator to jedna z wielu rzeczy, które można by zrobić gdyby mieć dobrej jakości dane.

Plebiscyt na najgorszy wykres roku 2019

Jeszcze tylko cztery dni do końca roku! To idealny czas na podsumowania i zestawienia. Jeden z tematów, który mnie najbardziej interesuje to wizualizacja danych w przestrzeni publicznej. A trzeba przyznać, że w tym roku dużo się działo w Polsce i na świecie, wiele wydarzeń aż proszących się o zaprezentowanie za pomocą wykresów.

W ostatnich dniach pojawiło się kilka zestawień najlepszych projektów dotyczących wizualizacji danych, jak np. lista zebrana przez FlowingData czy Information is Beautiful czy lista zebranych najlepszych wizualizacji z The Economist. To świetne pomysłowe, przemyślane i dopracowane w każdym szczególe wizualizacje.

Po drugiej stronie barykady stoją wykresy-koszmarki. Wykresy, które w skutek celowego działania, lub braku umiejętności projektanta, wykrzywiają dane i zniekształcają prezentowaną treść. To te wykresy są gwiazdami plebiscytu ,,Najgorszy wykres roku”, który organizuję już po raz ósmy (edycja 2018, edycja 2017, edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012).

Poniżej lista 12 wykresów wybranych z tych, które otrzymałem od Was w ciągu roku, lub które znalazłem gdzieś w otchłani internetu. Tworzenie epickich wizualizacji danych jest trudne, ale omijanie podstawowych błędów powinno być proste. Pomóżcie wybrać najgorszy z wykresów tego roku. Ja wyniki plebiscytu wykorzystuję między innymi na zajęciach o wizualizacji danych by ostrzegać studentów.

A przed tą dwunastką ostrzegać warto.

1. Prokuratura w liczbach

Pierwszy kandydat pochodzi z Twittera Arkadiusza Myrchy, który umieścił takie to zdjęcie z dokumentu Nowa prokuratura w świetle danych statystycznych. Do samego dokumentu nie udało mi się dotrzeć, był jednak krytykowany też tutaj.

Co jest nie tak w tym wykresie? Prokuratura Krajowa została ponownie utworzona (w miejsce Prokuratury Generalnej) w roku 2016. Nic więc dziwnego, że nie wpływały do niej wcześniej sprawy karne. Przecież nie istniała.

2. Diabelski wzrost składek

Po drugiej stronie politycznej barykady jest poniższy wykres opublikowany przez Platformę Obywatelską na Twitterze. Ten wykres zaprezentowany w lipcu miał pokazać znaczny wzrost wysokości składek ZUS dla przedsiębiorców.

Słupki nie zaczynają się w zerze. Z czasem słupki rosną w każdym wymiarze i dodatkowo zmieniają kolor. Dodatkowa strzałka sugeruje okrutnie wysoki wzrost składek ZUS. Gdy przeliczyć zaprezentowane liczby, okaże się, że wzrost składki w latach 2015-2019 to 20,5%. W tym czasie średnie wynagrodzenie wzrosło o prawie 27%.

.

3. Wykresy kołowe są złe

Na zajęciach z Technik Wizualizacji Danych często przywołuję słowa Edwarda Tuftego, że wykresy kołowe są złe. A od wykresu kołowego gorsze jest tylko wiele wykresów kołowych. Głównym problemem z wykresami kołowymi jest to, że są stosowane często bez żadnej refleksji, co do tego co jest pokazywane. Kółka są ładne, ale powinny być stosowane wyłącznie by pokazywać udział części w całości. Do tego zostały stworzone. Niestety, używane są do pokazywania dowolnych zestawień liczb. Tak jest np w raporcie GDDKIA dotyczącym przejść dla zwierząt.

Ceny metra bieżącego rury o różnych przekrojach przedstawiono jako fragment wycinka koła. Wykres kołowy aby miał sens musi przedstawiać część całości. A do czego sumują się te ceny? (Bonusowe punkty w moim zestawieniu za wykres kołowy w 3D).

4. Wykresy kopertowe są gorsze

Zazwyczaj narzekam na wykresy kołowe, ponieważ są często stosowanej niezgodnie z ich przeznaczeniem. Gorszą rzeczą od wykresów kołowych są wykresy kołowe przycięte do kwadratu. Nie często jednak można znaleźć taki wykres jak poniżej (dziękuję Gazeta Prawna) z wykresem kołowym przyciętym do koperty. Trzeba przyznać że to 12% wygląda na niepokojąco duży obszar w porównaniu z 29%.

Problem z wykresem: pola obszarów na wykresie nie są proporcjonalne do przedstawianych liczb. Rozumiem skojarzenia grafika, ale da się zrobić estetyczną wizualizację nie łamiącą proporcji.

5. Hiperprecyzyjnie o alkoholu

Wykres z TVN przedstawiający jak zwiększyła się wartość sprzedanego alkoholu pomiędzy latami 2014 a 2017. Gdyby podzielić dwie zaprezentowane liczby, okazałoby się, że ta wartość wzrosła o 5%.

Pokazanie 11 cyfr utrudnia szybkie porównanie tych dwóch liczb, a słupki oczywiście nie zaczynają się w zerze.
Zaciemnianie przez uszczegóławianie.

6. Wykres kłosowy

Ciekawymi wariantami wykresów słupkowych są wykresy, które zamiast nudnych słupków stosują fajne grafiki, np kłosy jak w raporcie apostel.pl. I tutaj jednak, trzeba zaczynać kłosy od zera, inaczej wykres prezentuje zaburzone proporcje.

Np. na poniższym wykresie pierwsze 103 jest od kolejnego 99 większe o 4% (i jednoczesnie o 4 punkty procentowe). Ale optycznie wygląda na ponad dwukrotną różnicę.

7. Pamiętaj o opisach

Na portalu forsal.pl w dziale Gospodarka, znajduje się taki ciekawy wykres. Prezentuje on prawdopodobnie spadek oczekiwań inflacyjnych, choć z samego wykresu trudno odgadnąć co oznaczają odcinki różnych kolorów. W oryginalnym artykule, po kliknięciu na wykres można przejść na inną stronę, gdzie kolory linii są już oznaczone (od lewej USA, Europa i Japonia, a szara linia to cel inflacyjny).

W wersji zaprezentowanej na stronie, bez opisów, wykres jest niezrozumiały.

8. Ale te pensje urosły

Skąd się bierze ta awersja do zaczynania wykresów słupkowych w zerze? Poniżej przykład z podsumowania badania losów absolwentów. Pensja absolwentów wzrosła o 6.6% a z poniższego wykresu można odnieść wrażenie, że wzrosła ponad dwukrotnie.

9. Takie cuda, to tylko w podręcznikach do historii

Kolejny przykład pochodzi z podręcznika do historii Historia. Po Prostu. Mamy ciekawy wykres pokazujący bezrobocie i zatrudnienie. Ale coś się złego dzieje z osiami na tym wykresie. Skala dla zatrudnienia ma inną jednostkę niż skala dla bezrobocia (w roku 1933 liczba 780 tys. bezrobotnych ma słupek niewiele krótszy niż 1730 tys. pracujących), skoki słupków są oderwane od skoków liczb (pomiędzy 1934 a 1936 zatrudnienie rosło o 70 tys, ale po słupkach tego nie widać), i skala też jest podejrzana (620 tys. bezrobotnych w 1936 ma krótszy słupek niż 240 tys. bezrobotnych w 1930).

I co mają zrobić wzrokowcy, którzy zapamiętają z wykresu trendy, ale nie wykują na pamięć liczb?

10. Czego się nie robi by być konsekwentnym

Ministerstwo Edukacji Narodowej w marcu na Twitterze umieściło taki to piękny wykres. Wymowa jest dosyć oczywista, będzie coraz więcej pieniędzy na podwyżki dla nauczycieli. Co rok więcej, a już pod koniec to tak dużo, że się ledwie mieści na wykresie.

Tylko, że ostatni słupek to suma lat 2017-2020 (równie dobrze mogłaby być suma 2014-2020). Gdy się od tego 6,3 mld odejmie liczby przedstawione w poprzednich latach to się okaże, że w roku 2020 na podwyżkę przeznaczone będzie 1,4 mld, a więc ponad dwa razy mniej niż w 2019. Liczby niby są, ale gdyby pokazano ten spadek to trend już nie byłby taki konsekwentny.

11. Większa 1/3

Poniższy wykres przedstawia wyniki ankiety z maja, gdzie zbierano odpowiedzi na pytanie ,,Czy PO chciałaby ograniczyć programy socjalne wprowadzone przez PiS”. Pomijam już kwestię sformułowania pytania, moją uwagę zwrócił nagłówek interpretujący wykres.

Na to pytanie 12% odpowiedziało zdecydowanie tak, a 25% odpowiedziało raczej tak (w sumie 37%). Te 37% wystarczyło by w nagłówku napisać ,,większość Polaków”. Jak widać Ci co nie mają zdania nie są prawdziwymi Polakami.

Wyniki tego badania trafiły do mediów w jeszcze bardziej okrojonej postaci.

12. Słupki, wszędzie słupki

Ostatnia pozycja nie pochodzi z polskiej prasy, ale muszę się podzielić tym znaleziskiem. W listopadzie trafiłem na dwie konferencje z przetwarzania języka naturalnego metodami AI/ML. Większość prezentacji pokazywała wyniki ilościowe dla różnych wytrenowanych modeli uczenia maszynowego. Zazwyczaj z użyciem słupków. Różnice są zazwyczaj małe, więc 3/4 prezentacji miała te słupki poucinane w losowych miejscach. Poniżej zdjęcie slajdu z pierwszego zaproszonego prelegenta.

Wojna o słupki zaczynające się od 0 nie jest przegrana! Naście lat temu pamiętam jak wyniki map ciepła w publikacjach bioinformatycznych były w mapie kolorów zielony – czerwony (a więc tragicznej dla osób z upośledzonym widzeniem barw). Zaledwie po kilkunastu latach widać zmianę trendu, bioinformatycy są coraz bardziej uświadomieni i coraz więcej map ciepła jest w kolorystyce niebieski – różowy!

Z wykresami słupkowymi też tak będzie! To moje noworoczne życzenie na najbliższą dekadę 😉

Zagłosuj!

Który wykres(y) zasługuje na miano najgorszego wykresu roku 2019?

Który wykres zasługuje na tytuł ,,Zniekształcenie roku 2019''?

View Results

Loading ... Loading ...

Dziękuję za wszystkie przesłane przez Was wykresy (a było ich sporo, i wokół afery z wynagrodzeniami w NBP, i wokół strajku nauczycieli i wokół wyborów). Do plebiscytu wybrałem tylko 12, ale za każde zgłoszenie bardzo dziękuję.
Osoba, która zgłosiła zwycięski wykres otrzyma dwie książki o wizualizacji Wykresy Unplugged i Odkrywać, Ujawniać, Objaśniać.

Zgłoszenia do tegorocznej edycji plebiscytu ,,Najgorszy wykresu roku”


Tak, tak, tak!
Zbliża się koniec roku, a z nim ósma (!!!) edycja plebiscytu na najgorszy wykres roku.

Jeżeli znaleźliście w papierowych lub elektronicznych mediach wykresy zniekształcające dane, powodujące, że prosta informacja staje się nieczytelna lub wprowadzająca w błąd zgłoście ją do plebiscytu!
Zgłoszenia można przesyłać na adres email: przemyslaw.biecek na serwerze gmail.com lub przez Facebook do końca dnia 28 grudnia.

W tym roku dodatkowo mam przygotowaną nagrodę (!!!) dla osoby, która prześle jako pierwsza wskazanie na wykres, który w plebiscycie wygra.
Są to dwie książki o wizualizacji Wykresy Unplugged i Odkrywać, Ujawniać, Objaśniać/

Zeszłoroczną edycję wygrał wykres z początku tego wpisu.

Jakie inne wykresy trafiły do plebiscytu w poprzednich latach?