Który z nich zostanie najgorszym wykresem 2018?

Zbliża się Sylwester, czas więc wybrać najgorszy wykres roku 2018! Plebiscyt przeprowadzamy co roku od 2012 (edycja 2017,edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012). Z roku na rok dostaję coraz ciekawsze zgłoszenia. Z tegorocznych zgłoszeń (oj, było ich bardzo dużo!) wybrałem 11 niezwykłych propozycji. Dziękuję wszystkim za podsyłanie nominacji.

Zasada plebiscytu jest prosta. Do końca roku można wskazywać swoje typy na najgorszy wykres, głosując za pomocą ankiety umieszczonej na końcu tego wpisu. W jednym dniu można głosować tylko raz. Jednocześnie można wskazać do 5 kandydatów. Po nowym roku zobaczymy, który wykres otrzymał najwięcej głosów. To on otrzyma tytuł „Zniekształcenie roku 2018”. Aby ułatwić głosowanie, każdy kandydat ma skrótową wpadającą w ucho nazwę.

Który wykres okaże się najgorszym wykresem 2018 roku? Wybierzcie sami.

1. Odra w Polsce

Poniższy wykres pochodzi z artykułu TVN24 Mniej szczepień, odra atakuje. Cytując fragment z tego artykułu ,,Jeszcze w 2010 roku zachorowań na odrę było w Polsce kilkanaście, w 2012 roku ponad 70, w zeszłym roku już 133 (http://www.tvn24.pl)”

Niby wszystko ok, wiadomo też, że warto się szczepić, wiec artykuł zgodny ze zdrowym rozsądkiem. Ale gdy przedstawić dane z ostatnich 14 lat prezentowane przez Rządowe Centrum Bezpieczeństwa to słupki powinny wyglądać tak.

Na czerwono zaznaczono dane przedstawione na wykresie TVN24. Problem z wykresem polega na wyborze danych psujących do historii, a nie zaprezentowanie kompletu danych.
Artykuł jest z 2017* roku, więc autor nie wiedział, że w 2017 całkowita liczba zachorowań będzie niższa. Ale dane z 2008, 2009 i 2015 już były dostępne, tyle że nie pasowały do trendu (*wykres trafił do mnie dopiero w tym roku, więc trafił do tegorocznego głosowania).
Problem z wykresem: wybiórcze prezentowanie danych.

2. Coraz lepiej

Poniższy wykres pochodzi z serwisu Budżet Wrocławia 2018. Cytując fragment wprowadzenia ,,Bez skomplikowanych tabel i wykresów prezentujemy wydatki miasta ”. Bardzo słuszny pomysł. Ale wykonanie? To akurat pierwszy wykres z tej strony www:

Lie factor 1.5.
(co to jest Lie-factor? tutaj definicja w języku angielskim a tu opis po polsku).
Paski na wykresie sugerują wzrost o 66% (stosunek 1:1.66) a w rzeczywistości patrząc na liczby wyniósł on 7.5% (stosunek 1:1.075). Pomijam fakt, że wzrost na 2017 był inny niż rok później, czego na wykresie nie widać. Pomijam fakt, że dochody są mniejsze od wydatków, co już się tak w oczy nie rzuca.
Problem z wykresem: paski, które nie są proporcjonalne do prezentowanych liczb. Sugerują większy wzrost dochodów niż w rzeczywistości.

3. Ratunku

Poniższy wykres pochodzi z raportu Pielęgniarki Cyfrowe. Można z niego odczytać, że najniższe zarobki są niższe niż najwyższe. Ale jakie to są kwoty odczytać trudno. Czy ten efekt pseudo 3D był potrzebny?

Problem z wykresem: pseudo-3D utrudnia odczytanie wartości, które odpowiadają prezentowanym słupkom.

Bonus to drugi wykres z tego raportu. Autor prawdopodobnie pomylił znaki nierówności w legendzie. Gdy się wczytać w opis tego wykresu to okazuje się, że ten 1% to jedna pielęgniarka z 400. Trudno odgadnąć też skąd ten szary kwadrat. Za los pielęgniarek trzymam kciuki, ale powinny znaleźć kogoś wymiaru Florence Nightingale do przygotowania wykresów do raportu.

4. Skala

Na Twitterze użytkownika pisorgpl w sierpniu można było znaleźć wykres pokazujący wzrost dochodów z VAT.

Brak osi OY sugerował, że coś może być z nią nie tak. Problem z zaczepianiem słupków w 0 zauważyła między innymi gazeta.pl i opisała w tym artykule.

Wykres pokazujący problem z portalu gazeta.pl

Proporcja najwyższego i najniższego słupka na wykresie to 239px/52px czyli ~4.6. Proporcje liczb to 167/99.
Lie factor ~2.75.

Problem z wykresem: słupki, które nie są zaczepione w 0.

5. Kto wyleczy ten wykres?

Jeżeli jesteśmy już w tematach Twittera, to na Twitterze NFZ można było znaleźć taką grafikę.

Na wykresie przedstawiono planowane wydatki. Wzrost wydatków o 7.7% przedstawiono za pomocą pięciokrotnie wyższego słupka.
Lie factor 4.

Problem z wykresem: słupki, które nie są zaczepione w 0.

6. Pochyl się nad absencją

Na stronie Rynku Pracy znaleźć można taki wykres.

Nie zawsze problem z słupkami polega na tym, że nie zaczynają się w 0. Czasem po prostu trudno odczytać gdzie się kończą. Konia z rzędem, kto odczyta czy absencja w usługach jest wyższa niż w produkcji.

Problem z wykresem: (zbędna) perspektywa i obroty utrudniają odczytanie wartości z wykresu.

7. Polska A, B, C, D, E, F i G

Na portalu Do Rzeczy opublikowano taki sondaż (który trafił do mnie przez Twittera).
Bardzo kreatywne podejście do przedstawiania wyników sondażu.

Problem z wykresem: prezentacja danych utrudnia odczytanie wartości z wykresu.

8. 20%

Było coś z mediów rządowych, to teraz coś od opozycji. Również dostałem namiary na ten wykres przez Twittera, więc przesyłam razem z całym twitem.
To 20% dla PO wygląda bardzo dumnie w zestawieniu z sąsiadującym 37%. Stosunek liczb 20/37 ~ 54/100, stosunek wysokości słupków 370px/458px ~ 81/100.
Lie factor ~1.5.

Kwiatków jest więcej. 17% dla ,nie wiem’ wygląda jak 7% dla partii Kukiza. Za to 6% dla Nowoczesnej jest bardzo daleko od tych 7% dla Kukiza.
Problem z wykresem: słupki nieproporcjonalne do prezentowanych wartości.

9. Od morza po góry

Często narzekam na wykresy z perspektywą, a to że utrudniają odczytanie wartości, a to że perspektywa to zbędny ozdobnik.
Ale tak pochylonego wykresu to jeszcze nie widziałem.

Problem z wykresem: zbędne pochylenie wykresu utrudnia odczytywanie danych z wykresu. Legenda po prawej stronie jest całkowicie zbędna.

10. Wykres zagadka

Ponownie wykres z Twittera. Obok słupków znajduje się informacja o 6% PKB na zdrowie w 2024 r. Ale wykres sugeruje, że w 2024 to już będzie prawie 8% (o ile na osi są %, przydałby się jakiś opis).

Problem z wykresem: opis nie pasuje do wykresu.

11. Kolorowo

Zejdźmy już może z polityki. Coś lżejszego na koniec. Wykres z profilu mojego pracodawcy – statystyki rekrutacji na UW. Zdobył moje serce podwójną legendą dla kolorów (Białystok i ekonomia dzielą się czerwonym, Radom i sinologia żółtym itp) i wykresem kołowym który nie przedstawia udziałów (studiów stacjonarnych na UW jest więcej niż te 6 wymienione w plasterkach kółka, poza tym z udziałami bardziej już kojarzy się liczba miejsc na kandydata niż kandydatów na miejsce). To nie jest tak, że dowolne kilka liczb można rzucić na wykres kołowy!


Problem z wykresem: szerokość białego wycinka koła sugeruje, że coś jest około 1/6 całości. Ale ta intuicja nie ma związku z prezentowanymi wartościami.


Ja swoich dwóch faworytów już mam. Zwycięski wykres trafi do Eseju Info-pomyłka. Jeżeli uda mi się zidentyfikować autora wykresu, to wyślę mu też jeden egzemplarz Esejów na pamiątkę. Ogłoszenie wyników plebiscytu po nowym roku.

Dziękuję wszystkim osobom, które przesłały mi swoje propozycje, nawet jeżeli nie znalazły się w powyższym zestawieniu. Ale sami widzicie, że konkurencja jest duża.

To kto powinien wygrać?

Który wykres zasługuje na tytuł ,,Zniekształcenie roku 2018''?

View Results

Loading ... Loading ...

Data, movies and ggplot2

Yet another boring barplot?
No!
I’ve asked my students from MiNI WUT to visualize some data about their favorite movies or series.
Results are pretty awesome.
Believe me or not, but charts in these posters are created with ggplot2 (most of them)!

Star Wars

Fan of StaR WaRs? Find out which color is the most popular for lightsabers!
Yes, these lightsabers are created with ggplot2.
Would you guess which characters are overweighed?
Find the R code and the data on the GitHub.

Harry Pixel

Take fames from Harry Potter movies, use k-means to extract dominant colors for each frame, calculate derivative for color changes and here you are.
The R code and the poster are here.
(steep derivatives in color space is a nice proxy for dynamic scenes).

Social Network for Super Heroes

Have you ever wondered how the distribution of super powers looks like among Avengers?
Check put this poster or dive in the data.

Pardon my French, but…

Scrap transcripts from over 100k movies, find out how many curse words you may find in these movies, plot these statistics.
Here are sources and the poster.
(Bonus Question 1: how curse words are related to Obama/Trump presidency?
Bonus Question 2: is the number of hard curse words increasing or not?)

Rick and Morty

Interested in the demography of characters from Rick and Morty?
Here is the R code and the poster.
(Tricky question: what is happening with season 3?)

Twin Peaks

Transcripts from Twin Peaks are full of references to coffee and donuts.
Except the episode in which the Laura’s murdered is revealed (ups, spoiler alert).
Check out this by yourself with these scripts.

The Lion King

Which Disney’s movie is the most popular?
It wasn’t hard to guess.

Box Office

5D scatterplots?
Here you have.

Next time I will ask my students to visualize data about R packages…
Or maybe you have some other ideas?

Zgłoszenia do tegorocznej edycji plebiscytu ,,Najgorszy wykresu roku”

Zbliża się koniec roku, a z nim siódma (!!!) edycja plebiscytu na najgorszy wykres roku (wykres, który jest wart tysiąca łez?).
Jeżeli widzieliście w papierowych lub elektronicznych mediach wykresy zniekształcające dane, powodujące, że prosta informacja staje się nieczytelna lub wprowadzająca w błąd zgłoście ją do konkursu!
Wykres/wizualizacja powinna być opublikowana w 2018 roku.
Zgłoszenia można przesyłać w komentarzach lub na adres email: przemyslawbiecek na serwerze gmail.com.

Mam już kilka ciekawych zgłoszeń, ale czekam na więcej.


Jakie wykresy stawały w szranki w poprzednich latach? (ubiegłoroczny zwycięzca po prawej)

Wykresy Unplugged – pomysł na prezent pod choinkę

Wizualizacja danych to jedna z tych przyjemnych i pożytecznych czynności, która pozwala nam lepiej zrozumieć otaczający nas świat.

Ale nikt nie rodzi się z umiejętnością odczytywania czy tworzenia wykresów. Tę umiejętność trzeba w sobie wyćwiczyć.

Można oczywiście czytać o wizualizacji (np. w Esejach o wizualizacji danych) lub oglądać wykresy (np. na FlowingData), ale jeszcze lepiej byłoby poznawać wykresy w sposób czynny – tworząc je.

Nowa pozycja o wizualizacji danych

Wykresy Unplugged to książka (28 stron A4, pełny kolor) omawiająca osiem najpopularniejszych typów wykresów. Czterech poświęconych wizualizacji rozkładu (wykres kołowy, łodyga – liście, histogram, pudełko-wąsy) oraz czterech poświęconych relacjom (zmiany, kropkowy, kartogram, mozaika).

Każdy wykres ma swoją rozkładówkę. Na lewej stronie opisywane są ciekawostki, sposób budowy oraz przykład dla danego wykresu, a po prawej stronie są przykładowe dane oraz miejsce na narysowanie własnego wykresu.

Tak! Narysowanie!

W tej książce są ćwiczenia do wykonania z użyciem ołówka (i czasem kredek, ewentualnie kolorowych długopisów).

Do wykresów przygotowane są również ćwiczenia i pytania, pozwalające nam na weryfikacje co łatwiej wyciągnąć z tabelki z liczbami a co z wykresu.

Obok wykresów, w tej książce znajdują się przykładowe rozwiązania i dodatkowe rozkładówki omawiające wybrane zagadnienia teoretyczne (dobór kształtów, kolorów historia wizualizacji).

Zazwyczaj zajęcia z wizualizacji danych oparte są o jakieś programy graficzne, tak by szybko można było coś wyklikać. Ale obecne komputerowe narzędzia są bardzo ograniczające. Dużo energii wchodzi w opanowanie narzędzia zamiast w myślenie o danych. Stąd zrodził się pomysł na zbudowanie książki, uzupełnionej o ćwiczenia, które będzie można wykonać bez komputera. Oto i ona – Wykresy Unplugged.

Jak ją zdobyć?

Książkę można kupić bezpośrednio na stronie Wydawnictw Uniwersytetu Warszawskiego, wkrótce dostępna będzie też w Empiku, Merlinie i sklepiku w Centrum Nauki Kopernik.

Książka kierowana jest dla osób ciekawych świata od 10 do 110 lat.

Książka powstała dzięki współpracy z Ewą Baranowską (entuzjastka D3 i grafiki interaktywnej), Piotrem Sobczykiem (autor między innymi Szychta w danych) oraz studiem graficznym storyvisio.

Seria Beta i Bit

Wykresy Unplugged to część serii Beta i Bit – projektu popularyzującego matematykę, informatykę i wnioskowanie oparte o dane. Na wniosek wydziału MiNI PW, za prace nad tym projektem, otrzymałem Medal Komisji Edukacji Narodowej (!!!).
To się nawet dobrze złożyło, ponieważ z końcem roku do sklepów trafiają dwie pozycje z tej serii, Wykresy Unplugged i W pogoni za nieskończonością.
O tej drugiej napiszę na dniach.

Z pamiętnika nauczyciela akademickiego: O pracach domowych

Najbardziej lubię prace domowe, które mogę czytać z zapartym tchem.
Jak to?
Ekscytować się pracami domowymi ponad 50 studentów robiących to samo zadanie?

Zobaczcie sami!

Na zajęciach z Technik Wizualizacji Danych (zajęcia na bazie Esejów o sztuce prezentowania danych) opowiadam studentom jakie wykresy są dobre a jakie złe.
Ale przecież studenci matematyki i informatyki nie biorą niczego na wiarę!
W ramach piątej pracy domowej sprawdzali czy faktycznie wygląd wykresu ma znaczenie.
Poniżej wyniki z kilku przykładowych prac domowych.
Prace polegały na przeprowadzeniu ankiety na temat związany z wykresami.
Zachęcam do zrobienia najpierw ankiety a później przeczytania o wynikach z ankiety.

Torty czy słupki?

Ankieta
Wyniki

Co oni robią na kolosie?

Ankieta
Wyniki

Albo słupki albo tytuł

Ankieta
Wyniki

Tego Nie Zobaczysz

Ankieta
Wyniki

Libre Office nie jest bez wad

Ankieta
Wyniki

Loteria

Ankieta
Wyniki

A może drzewo?

Ankieta
Wyniki

Nawet dziecko to zobaczy

Wyniki

Co jest w pudełku?

Wyniki

Świetne, prawda?