Zbliża się nasz konkurs na najgorszy wykres tego roku. Kandydaci z poprzednich lat dowodzą, że nie jest prosto zdobyć ten tytuł (edycja 2015, edycja 2014, edycja 2013, edycja 2012).
Zasada konkursu jest prosta. Raz dziennie, do końca roku, można wskazać swoje typy za pomocą ankiety umieszczonej na końcu tego wpisu. Po nowym roku zobaczymy, który wykres otrzymał najwięcej głosów. To on otrzyma tytuł ,,Zniekształcenie roku 2016”, a więc grafikę najbardziej zniekształcającą prezentowane dane. Aby ułatwić głosowanie, każdy kandydat ma skrótową nazwę ,,wpadającą w ucho” nazwę.
Tym razem nominowanych grafik było kilkadziesiąt. Część otrzymałem na maila, część trafiła do mnie przez tag @smarterpoland na Facebooku lub Twitterze. Aby uprościć głosowanie, wybrałem 13 grafik w czterech grupach: ,,Ach te słupki”, ,,Co tam panie w polityce”, ,,Pole minowe” i ,,Niefortunne koło”.
Niech zwycięży najlepszy!
(1) Zaskakujące słupki
Wykres z raportu ,,Ukraińcy na polskim rynku pracy – nowy raport” z portalu biznes.onet. Wykres bardzo nietypowy. Pod wykresem jest ostrzeżenie, że procenty nie sumują się do 100% (sumują się do około 105%), ale jak się okazuje jest to najmniejszy problem.
Znacznie poważniejszym jest to, że słupek 19,3% jest dłuższy niż 23,6%. Słupek 4,8% jest tylko trzy razy krótszy niż słupek 37,6%.
(2) Wysokie emerytury
Ten wykres pochodzi z artykułu ,,Nowe emerytury. Skąd się biorą, kto zyska, a kto straci”, też z działu biznes ale tym razem z Wyborczej. Patrząc na te słupki można odnieść wrażenie, że najwięcej osób otrzymuje emeryturę w przedziale ponad 3500zł (najwyższy słupek). Niestety piękne plany na emeryturę szybko rozwiewa obserwacja, że ten najwyższy słupek to niecałe 15%, a jest najwyższy ponieważ obejmuje największy zakres kwot emerytury.
Okazuje się, że przedziały na osi poziomej są bardzo nierówne. Pierwsze pięć słupków odpowiada przedziałom o szerokości 100zł, środkowe słupki odpowiadają przedziałom o szerokości 200zł, a przedostatni słupek odpowiada przedziałowi emerytur o szerokości 500zł.
Emeryturę w przedziale 600-1000 zł otrzymuje 11.3% osób, ale po podzieleniu na cztery części, wydawać by się mogło, że tak niskie emerytury są rzadkie.
(3) Policja karze
Powyższy wykres pochodzi z artykułu Policja zbyt surowa dla pieszych.. Tabela pod wykresem streszcza cały artykuł. Co prawda ta statystyka całkowicie ignoruje liczbę wszystkich pieszych i wszystkich kierowców, ale nie statystyka jest tu na widelcu, ale wizualizacja.
Zgodnie z liczbami, piesi dostali 7x mniej mandatów niż kierowcy. Ale gdy przeliczyć liczbę mandatów na jeden wypadek lub kolizję to okazuje się, że piesi mają 9x więcej mandatów na wypadek niż kierowcy.
Wykres ignoruje tę część ,,gdy przeliczyć’’ i pokazuje dwie liczby 11 i 100. Oś pionowa ma opis ,,Mandaty, pouczenia …’’, przez co sugeruje, że to piesi dostali więcej mandatów, choć sumarycznie dostali ich 7x mniej.
Efekt w danych 7x mniej mandatów, efekt na wykresie 10x więcej mandatów, lie-factor ~ 70.
(po co na tym wykresie strzałka na poziomej osi?)
(4) SmoK: Smog w Krakowie
Wykres z serwisu Alert smogowy. Stężenie w Krakowie przekroczyło 10x dawkę uznaną przez WHO za bezpieczną, ale czy ta grafika wiernie oddaje proporcje 10:1?
Wysokość balona dla Krakowa to 460px, wysokość balona dla wartości uznanej przez WHO za bezpieczną to 80px, stosunek prezentowanych pól to 1:33 a nie 1:10 co wynika z danych. Mamy więc lie-factor: ~3.
(5) 21 segmentów 21 kolorów
Wykres z raportu Wartość zamówień realizowanych przez ONZ.
Lewy wykres pokazuje segmenty zakupionych dóbr, jednak przy wycinkach koła nie ma nazw segmentów, te by się nie zmieściły. Zamiast nazw podane są procenty, które odpowiadają wielkościom wycinków koła (trzeba je podać bo z wykresu nie da się ich odczytać). Ale te procenty nie tak łatwo zmapować na segmenty. Nazwy segmentów są w czymś ,,na kształt tabeli’’ (na oryginalnym wykresie legenda była poniżej, ale przesunąłem na prawo by ją było lepiej widać). Tylko gorszym, bo z tabeli łatwo odczytać, który segment stanowi ile procent, a z tego rebusu już nie jest tak prosto.
Aby się przekonać czy prosto czy nie, polecam odnalezienie nazwy segmentu odpowiadającemu ciemnoniebieskiemu wycinkowi koła 2.2%.
Jak bardzo problematyczne jest przedstawianie danych na jednym wykresie za pomocą dwóch różnych technik, pokazuje też poniższy wykres z tego raportu.
(6) Polska W i Polska NW
Ten wykres pochodzi z raportu Kto marnuje najwięcej jedzenia? Wcale nie sklepy i restauracje.
O ile poprzedni wykres próbował przedstawić zbyt wiele liczb, to ten, w barokowym stylu przedstawia stosunek jedynie dwóch liczb 1:2. W podlinkowanym artykule wykres jest interaktywny i za pomocą umieszczonej poniżej legendy i za pomocą tooltipów można odczytać, że spośród ankietowanych osób 2x więcej osób powiedziało, że nie wyrzuca jedzenia do kosza niż przyznało, że wyrzuca jedzenie do kosza. (czy też zgodnie z narracją artykułu, aż 1/3 wyrzuca)
Co więcej, ten wykres (?) nie przedstawia precyzyjnie stosunku 1:2. Ta wartość jest odwzorowana przez wysokości zamalowanych obszarów, ale ponieważ Polska nie ma granic w kształcie prostokąta, to stosunek wysokości nie odpowiada wiernie stosunkowi pól.
Zestawiając ten wykres z setkami kartogramów pokazujących Polskę A vs. Polskę B można dodatkowo odnieść wrażenie, że to mieszkańcy północy wyrzucają jedzenie a mieszkańcy południa nie.
(7) Poparcie dla prezydenta
Ten wykres pochodzi z Kanału Twittera Kancelarii Prezydenta.
Procent Polaków pozytywnie oceniających prezydenturę Andrzeja Dudy zaprezentowano słupkami. Ale:
1. słupki nie są zaczepione w 0 przez co zniekształcają proporcje. Porównujemy skrajne słupki. Stosunek długości słupków: 1:3.7, stosunek poparcia w procentach 1:1.21. Lie-factor: ~2.8.
2. Słupki nie oddają nawet różnic pomiędzy prezentowanymi liczbami. Trzypunkowa odległość pomiędzy 42% a 45% jest z 5x mniejsza niż 4 punktowa odległość pomiędzy 47% a 51%.
3. Różna jasność słupków może wpływać na odbieraną wielkość prezentowanych liczb.
(8) Słupki dla szkół wyższych
Ten przykład pochodzi z twita Michała Szczerby, ale jego opis znalazłem na blogu Szychta w danych.
Autor grafiki przedstawiając stosunek liczb 10,71mld:16,02mld (czyli jakieś 2:3) posłużył się przykładem książek w proporcjach 4:12 książek (czyli 2:6), co dawałoby lie-factor ~ 2.
Piotr ze ,,Szychty…” był bardziej wyrozumiały i wyliczył lie-factor na 1,2.
(9) Niech się kręci
Przykład z zagranicy, ale robiący wrażenie. Znalazłem na blogu Junk charts, ale oryginalne źródło to Exclusive: New Conviction Data Tells Us How the UK Sells Drugs.
To gratka dla tych, co narzekają, że trójwymiarowe wykresy kołowe przekłamują dane. A co by było, gdyby ten sam wykres tortowy narysować 6 razy pod różnymi kątami?
(10) Zika
Wykres z bloga WBdata. Sam blog jest ciekawy, ale na tej grafice pokazany jest bardzo ciekawy błąd.
Na wykresie przedstawiono liczbę Twitów #Zikavirus w różnych miejscach na Ziemi.
Ale przedstawiając powierzchnię Ziemi, zastosowano odwzorowanie walcowe równoodległościowe, które zachowuje odległości, zamiast odwzorowania walcowego równopowierzchniowego (zachowującego powierzchnie). Gdybyśmy wyznaczali odległości pomiędzy miastami to takie odwzorowanie byłoby ok. Ale jeżeli chcemy porównywać koncentracje twitów to potrzebujemy odwzorowania zachowującego powierzchnię. W tym konkretnym przypadku obszary w pobliżu równika są niedoreprezentowane, a obszary bliżej biegunów mają nieproporcjonalnie powiększone pole.
(11) Ach te sondaże
Ten wykres pochodzi z artykułu W sondażach znów zamieszanie.
Ma pokazywać różnice w oszacowaniach poparcia różniące się o nawet kilkanaście punktów.
Ale regułą jest, że jeżeli chcemy za pomocą słupków pokazać różnice, to należy słupki umieścić obok siebie i zaczepić je w tym samym punkcie. A na tym wykresie słupki są oddalone, ponakładane na siebie, przez co są zaczepione w rożnych punktach.
Mnie na pierwszy rzut oka rzuciło się przede wszystkim, że suma poparcia dla partii jest różna w różnych sondażach.
A gdyby umieścić dla każdej partii osobno słupki obok siebie można by natychmiast zauważyć prawie dwukrotny rozdźwięk w sondażach dla Nowoczesnej (MB a TNS) i różnicę o 44% (12 punktów procentowych) dla PiS (TNS a CBOS).
(12) Elastyczne sondaże
A gdy już jesteśmy w temacie sondaży. Na powyższym, słupki zostały porozciągane, czy to przez dodanie na dole legendy w kolorze słupka (można było juz zastosować barwy partii), dodanie wyniku procentowego nad słupkiem, czy w przypadku Nowoczesnej wyciągnięcie słupka 20% aż po 25%.
Pod wykresem są też jakieś liczby, pewnie miejsce w rankingu. Ale jeżeli tak, to odpowiedź ,,Nie wiem” powinna być z numerem 5.
(13) Elastyczne osie
Wykres z artykułu Rodzi się więcej dzieci. Efekt 500 plus?
Na przedstawionym wykresie liniowym, to co najłatwiej porównać to trendy w liczbie urodzonych dzieci. Trendy, czyli nachylenie odcinków.
Aby takie porównania miały sens, to rozstawienie lat na osi poziomej musi odwzorowywać przedstawione liczby. A na tym wykresie, czasem mamy odległości odpowiadające 3 latom, czasem 7 latom a czasem 1 rokowi.
Przykładowo wzrost pomiędzy wartością 351.1 (7 wartość od prawej) a 413.3 (6 wartość od prawej) wygląda na znacznie większy, niż spadki w kolejnych 5 wartościach. Ale pierwsza różnica dotyczy okresu 7 lat (2003-2010) a kolejne okresów 1 roku. Gdy to uwzględnić okazuje się, że średnie tempo wzrostu równa się średniemu spadkowi.
Głosować można na więcej niż jeden wykres ale nie więcej niż 10.
Głosujemy do końca roku 2016.
(niestety wykresy w poniższym plug-in zasługują na osobne miejsce w naszym konkursie)

Analityk płakał jak projektował. Wykres numer 9 zgłosiłbym na jakiś konkurs artystyczny za pomysłowość 🙂
Mnie w numerze 10 urzekła również legenda wskazują że kolor fioletowy(?) oznacza „countries” 🙂
Wykres z poparciem dla prezydenta służy celom propagandowym, a nie informacyjnym, więc nie jest przykładem partactwa tylko świadomej manipulacji. Właściwie należałoby pochwalić warsztat autora, że przedstawił dane w najbardziej korzystny dla pracodawcy (Kancelarii Prezydenta) sposób. Moim zdaniem ten wykres nie powinien konkurować w tej samej kategorii co reszta.
(2) i (3) też wydają się zmanipulowane celowo dla podparcia tezy, dla której nie dało się znaleźć poparcia przy uczciwej analizie.
Częściowo się zgadzam. Szczególnie (3 – mandaty) wyraźnie służy poparciu tezy, z tym że nie jest ona zupełnie – jak piszesz – nieuzasadniona, ale najwyżej dyskusyjna. Biorąc pod uwagę ilość spowodowanych przez nich wypadków, piesi są karani surowiej niż kierowcy – to nie jest kłamstwo. Szkoda, że nie jest to wyjaśnione w samym wykresie, ale na obronę autorów tuż nad nim znajduje się zdanie: „Dysproporcje te widać najlepiej, gdy zostaną przedstawione za pomocą grafiki: (http://www.tvn24.pl)”.
Rozszerzania przedziałów zarobkowych wraz ze wzrostem emerytury też można bronić. Gdybym zarabiał 600 zł miesięcznie, to każde dodatkowe 100 zł miałoby dla mnie większą wartość niż 200 zł dla kogoś kto zarabia 2,5 tys. A z przedziałami najwyższych zarobków często są problemy na grafikach.
Do tego dochodzi kwestia tego, że od mediów – być może naiwnie – oczekujemy rzetelnego informowania, a wobec Twittera Kancelarii Prezydenta już nie możemy mieć takich oczekiwań.
@J.Kowalski
Jeżeli chodzi o odczuwaną wartość 100zł przy zarobkach 600zł miesięcznie vs. 200zł przy zarobkach 2,5zł miesięcznie to może są to porównywalne wartości, a może nie, nie ma jak sprawdzić. Ale nawet gdyby były, to moim zdanie nie broniłoby to wykresu. Można zrobić wykres by pokazać typową emeryturę (np. medianę lub modę), z tego wykresu nie można odczytać ani jednego ani drugiego. Można zrobić wykres pokazujący rozkład emerytur za pomocą decyli (10% najniższych, 10% najwyższych itp), ten wykres decyli nie pokazuje. Być może dane są zbierane tylko w takich przedziałach, ale nawet w tym przypadku lepiej by było postawić te słupki na sobie i pokazać gdzie jest skumulowane 10%, 20%, … 90%.
Ja nie podejrzewam autorów żadnego z tych wykresów o złe intencje, ale o ile byłoby lepiej, gdyby te ciekawie dane pokazywać w czytelny sposób.
Jasne. Przyjmuję Twoje uwagi. Nie chciałem bronić tych wykresów, tylko pokazać, że istnieje różnica między nimi a jakimiś słupkami, które polityk sobie wkleił na Twittera (7), bo wiadomo że wkleił takie, które pokazują go w dobrym świetle. Grafika z poparciem ma sprawiać wrażenie, że „rośnie” i że „coraz bardziej” i osiąga ten cel. Wszystkie jej „obiektywne wady”, które wymieniłeś, są z punktu widzenia autora zaletami.
Piarowy obrazek z mediów społecznościowych po prostu należy do innej kategorii niż materiały prasowe. To trochę jakby spot reklamowy konkurował w kategorii na najlepszy (w tym przypadku najgorszy) dokument.
Racja, za rok zrobimy dwa osobne konkursy, na pomyłkę i na podkolorowanie.
Dobra, dobra… A Wam się wyniki sondy sumują do 226 procent, koledzy 😛
Bo to nie procent głosów, tylko procent głosujących. A że można zagłosować na max. 10 kandydatów, to mogłyby się teoretycznie sumować maksymalnie do 1000%.
Czyli uczestnik głosował na razie średnio na 2,36 wykresu. Też ciekawa statystyka. Mnie by pasowała, bo głosowałem na 2, a zastanawiałem się też nad trzecim 😉
Bardzo czytelny wykres słupkowy. 🙂
https://oko.press/bylo-najwazniejsze-2016-wedlug-polakow-sdm-500/
Świetny. Dopisuję do kandydatur na konkurs w 2017.
„Ale pierwsza różnica dotyczy okresu 7 lat (2013-2010)” – chyba raczej 2003-2010
Dziękuję, poprawiłem.
Na dziś pierwsza trójka to:
(1) Zaskakujące słupki (38%, 214 Votes)
(7) Poparcie dla prezydenta (34%, 190 Votes)
(2) Wysokie emerytury (30%, 169 Votes)
Mój kandydat na 2017:
artykuł: http://biznes.onet.pl/wiadomosci/kraj/portret-zamoznego-polaka-raport-deutsche-bank/yll0h6
a w nim: https://ocdn.eu/pulscms-transforms/1/V14ktkqTURBXy84Zjc1YzgzNjZjOTJjNjA1NzUxZmZjOGQwNzVjMDBlNy5qcGVnk5UCzQMUAMLDlQIAzQL4wsOVB9kyL3B1bHNjbXMvTURBXy8xZDc0Y2I0MTcwNTk1MDQzNjYyOWNhYmQ2MDZmNTBmNi5wbmcHwgA
Co w nim fajnego:
– tajemnicze kolory: czemu trzy koła są szare?
– piękne i różnorodne przedziały: 0-200, 200-500, 500-1000, 1000-2000, 2000-3000, 3000+
– wielkość kół: ciężko powiedzieć, nie jest proporcjonalna do pola ani promienia
Świetny jest
Co do wykresu Zika (10), to zachowana jest odległość od równika, a nie między miastami. Jest to dosyć irytujące odwzorowanie rozszerzające bieguny i obszary blisko północy. Sam wykres nie jest taki zły jak pozostałe, chociaż chyba za wiele nie wnosi. Wniosek: tweetują o wirusie Zika te regiony, które tweetują (czyli Europa i Stany).
Przepraszam za komentarz z opóźnieniem, ale tu chyba nie trzeba się spieszyć 😉