Wykresy kołowe są passé

Jestem jedną z tych osób, które uważają, wykresy kołowe to najgorszy możliwy sposób prezentacji danych.

Jakiś czas temu Maciej B. przesłał mi link do raportu, który zachwiał tym przekonaniem.

Raport o wdzięcznym tytule ,,Analytics: The real-world use of big data” opracowany przez IBM Institute for Business Value zawiera wykresy kwadratowe. Oto jeden z nich:

Jaki morał wyciągnąłem z tego raportu?
Big Data przełamie jeszcze niejedną barierę.

Robisz to źle: narracja z użyciem wykresu

W piątkowym numerze ,,Ekonomia & rynek” znalazłem poniższy wykres ilustrujący podtytuł ,,Taki wzrost prognozowali najwięksi optymiści. Większy jest już tylko w Rumunii”.

Wykres pokazuje najwyższy wzrost PKB w Polsce, podtytuł mówi, że w Rumunii jest wyższy.
Dziwnie też wygląda legenda wykresu, oznajmiająca, że 2 zaznaczone jest na żółto a na wykresie są trzy kraje zaznaczone na zielono ale ze wzrostem 2.

Może to tylko błąd na wykresie, a może tylko błąd w tytule. Interesujące pytanie to: który z tych dwóch sprzecznych komunikatów zapamiętamy?

Wykresy z matury z WOS

Lektura zadań z tegorocznej matury z wiedzy o społeczeństwie wprawiła mnie w spore zakłopotanie.
Nie spodziewałem się, że najtrudniejszymi dla mnie pytaniami okażą się te, które wymagają odczytywania danych z wykresów.

Przyjrzyjmy się dwóm zadaniom z matury.

Zgadywać można, że na wykresie przedstawiono średnią z odpowiedzi respondentów, respondenci mogli odpowiadać w skali 0-10 o której mowa pod wykresem. Ta skala nie wygląda na skale przedziałową, więc już to jest niepoprawne, ale to na tyle częsty błąd, że można wybaczyć.

Czy punktem neutralnym na tej skali jest 0? Raczej nie. Wartości nie są w skali ilorazowej, wartość 5 nie oznacza że badania zgadzają się dwa razy mniej niż gdyby odpowiadali 10.

W arkuszu z przykładowymi odpowiedziami z serwisu edulandia czytamy przykładową odpowiedź:
Większość respondentów zgadza się ze stwierdzeniem, że nasz kraj powinien być rządzony zgodnie z wolą społeczeństwa, natomiast niecała połowa respondentów uważa, że kraj rządzony jest zgodnie z wolą społeczeństwa.

Taka odpowiedź sugeruje, że na wykresie przedstawiono frakcje osób zgadzających się z danym twierdzeniem. Ale jeżeli tak jest to skąd ta skala 0 (nie zgadzam się) – 10 (zgadzam się)?
Nawet gdyby pierwszą część potraktować jako zagadkę logiczną (aby średnia była równa 8 to ponad połowa głosów musi być powyżej 5 a mniej niż połowa poniżej 5), to druga część nie gra. Hipotetyczny rozkład głosów mógłby być: 6, 6, 6 (trzy głosy zgadzające się) 0.4 (jeden głos bardzo się niezgadzający), średnia wynosi 4.6 a mimo to trzy czwarte z ankietowanych zgadzało się.

To jednak nie jest prawidłowa odpowiedź! Zgodnie z odpowiedzią z CKE w modelu prawidłowej odpowiedzi jest zapis
,,Postulowany wpływ społeczeństwa na rządy jest znacznie większy niż ocena realnego wpływu. W pierwszym przypadku średnia ocen z badania respondentów (w skali 0–10) wynosi 8, w drugim – 4,6 ”.
Ale i ta odpowiedź budzi wątpliwości. Od jakiej różnicy średnich uzasadnione jest użycie zwrotu ‚znacznie większy’? I właściwie co to zadanie ocenia? Czy umiejętność odgadywania, że na wykresie przedstawiona jest średnia? Gdzie w modelowej odpowiedzi jest to ,,wykorzystanie danych liczbowych”?

Wartości w skali Likerta można pokazać lepiej niż na trzech wykresach paskowych, ale przymknijmy na to oko, to też popularny błąd.

Zgodnie z serwisem edulandia odpowiedź A jest poprawna a C niepoprawna.

Ale w matematyce wzrost o 34% to coś innego niż wzrost o 34 punkty procentowe.
Więc co do zadania A, odsetek wzrósł z 7% do 41% czyli o 586% lub o 37 punkty procentowe.

Więc zgodnie z komentarze CKE odpowiedź A jest niepoprawna a odpowiedź C poprawna.

Zadanie jak widać bada umiejętność odróżniania punktów procentowych od procentów.

Ale moje pytanie brzmi: po co jest ten wykres? Gdyby usunąć wykres a zostawić te sześć liczb nic by się nie zmieniło. A przecież miało być ,,na podstawie wykresu…”

Rocket science, ale czy Rocket visualisation?

Tryb narzekania: on

W serwisie technologie.gazeta.pl znalazłem taką oto infografikę:

Liczby, które ona przedstawia, to wysokość finansowania Budżetu Europejskiej Agencji Kosmicznej. Mamy więc tę bardzo bogatą informację przedstawioną za pomocą rakiet. Ale co z tych rakiet odpowiada wielkości udziału danego państwa w budżecie?

  • pozycja na osi poziomej? Nie (nie wiem czy pozycja na tej osi ma znaczenie),
  • pozycja na osi pionowej? Nie (im wyżej tym średnio więcej w budżecie, ale jest sporo wyjątków),
  • wysokość rakiety? Nie,
  • pole rakiety? Tak!

Pole nie jest złe. Szkoda tylko, że pozostałe charakterystyki wykresu (pozycja, kolejność) nic nie wnoszą.
Wykres wygląda na bardzo bogaty w treść, a w sumie pokazuje jedynie udział krajów (i UE) w budżecie ESA.
[Mógłby znacznie więcej, wystarczyło dodać dane o budżetach tych krajów a znalazłoby się zastosowanie i dla pozycji wzdłuż osi pionowej i poziomej]

Tryb narzekania: off

Konkurs na najgorszą prezentację danych w roku 2013

Rok temu przeprowadziliśmy konkurs na najgorszą prezentację danych roku 2012. Kandydatów było ośmiu a wybór był trudny. Przewagą kilku głosów wygrał bardzo dziwny wykres paskowy. O konkursie i wynikach przeczytać można tutaj ,,Konkurs na najgorszą prezentacje danych z roku 2013”.

Czas powtórzyć ten konkurs na zbiorze wykresów z roku 2013. Do wyboru jest osiem wykresów przedstawionych poniżej. Dla każdego kandydata dodałem krótki opis i odnośnik do dłuższego opisu. Na dole strony znajduje się sonda do której gorąco zapraszam. Można oddać jeden głos, ale można w nim wskazać kilka odpowiedzi. Podobnie jak w ubiegłym roku, autor zwycięskiego wykresu (o ile uda się go zidentyfikować) otrzyma książkę o wizualizacji danych i tytuł twórcy najgorszej wizualizacji 2013.

W tegorocznym zestawieniu ponad połowa wykresów została opracowana przez ministerstwa. Paradoksalnie, odczytuję to jako pozytywny sygnał. Dobrze, że rządzący chcą w czytelny sposób i w oparciu o liczby komunikować co się dzieje. Z czasem mam nadzieję, że będą to robić coraz lepiej (bo teraz robią to źle).

Kandydat nr 1. Piramida finansowa (Ministerstwo Finansów)

Piramida przedstawiająca propozycje finansowe PiS, ale wykonana przez Ministerstwo Finansów kierowane przez PO. Pomijając sposób wyznaczania liczb, problem z tym wykresem polega na tym, że proporcje na nim przedstawione nie odpowiadają proporcjom prezentowanym liczb (plus punkt w konkursie za sugestywny dobór kształtu i kolorów). Wykres szerzej opisany w tym wpisie.

Kandydat nr 2. Ile można zarobić w ZUS (Ministerstwo Pracy)

Oczywiście w ZUS zarabiają tylko pracownicy ZUS, oczekiwanie na waloryzacje składek to nie zarabianie. Więc za poczucie humoru widoczne w tytule, tej grafice, opracowanej przez Ministerstwo Pracy, należą się dodatkowe punkty.
A techniczny problem z tym wykresem polega na nieodpowiednich proporcjach długości słupków do przedstawianych liczb. Temat szerzej opisany w tym wpisie.

Kandydat nr 3. Wydatki na badania i rozwój (Ministerstwo Nauki)

Jak pokazać duże wzrosty? Zsumować dane z kilku lat. Poniższy wpis pokazuje, że prognozowane wydatki na badania i rozwój w latach 2013-2016 będą wyższe niż te w roku 2012. Szkoda tylko, że po podzieleniu prognoz przez liczbę lat okazuje się, że lepiej to już było.
Szerzej opisany w tym wpisie.

Kandydat nr 4. Najbardziej aktywni (Ministerstwo Nauki)

Ten wykres pokazuje dwa współczynniki. Względem ,,liczba zgłoszonych wniosków” jesteśmy na pozycji 15 na 27 państw, względem ,,współczynnik sukcesu” na pozycji 21 na 27 państw. Nie przeszkadza to autorowi w oznaczeniu nas jako ,,najbardziej aktywnych”. Ciekawe jak autor nazwie kraje z końca listy, ,,średnio/bardzo aktywne”? Szerzej opisany w tym wpisie.

Kandydat nr 5. Mamy więcej, ale o ile więcej? (Kancelaria Prezesa Rady Ministrów)

Ponownie problem z wykresami paskowymi na skali bez zera. Dobierając różne zakresy wartości na osiach uniemożliwiono porównanie w jakich obszarach zyskamy więcej a w jakich mniej.
Szerzej opisany w tym wpisie.

Kandydat nr 6. Ile zyskamy w OFE (Gazeta.pl)

Prawy wykres ma inną skalę niż środkowy. Na prawym jedna kratka to 10% a na środkowym 5%. W tej perspektywnie 15% zysk z OFE wygląda jak 6,9% zysk z ZUS.
Temat szerzej opisany w tym wpisie.

Kandydat nr 7. Wykresy paskowe, ciąg dalszy (IIBR)

Jak czytać poniższe wykresy paskowe? Dlaczego one wszystkie mają tą samą szerokość? Dlatego, że zmienia się wysokość pudełek. Gdyby jeszcze trochę bardziej ścisnąć te pudełka to zupełnie nic nie dałoby się odczytać z tego wykresu.

Kandydat nr 8. Robisz to źle, reklama (Ergo Hestia)

I coś z branży reklamowej, imho jedna z gorszych reklam opartych o liczby jaką widziałem. Pomijam już to, że wykresy paskowe są w pseudo-trzech wymiarach, że oś pozioma jest niewłaściwa i że brakuje zera.
Tutaj jest problem z pomysłem. Zamiast pokazywać, że klienci się najmniej skarżą lepiej by było pokazać, że są najbardziej zadowoleni[dlaczego skreślone? patrz dyskusja poniżej] Zamiast pokazywać słupki o długości związanej z ze wskaźnikiem skarg lepiej zaproponować kreatywny sposób przedstawienia w pozytywnym świetle małej liczby skarg (komunikat dłuższy pasek = lepiej jest łatwiejszy i działa szybciej niż odczytanie że w tym przypadku jest odwrotnie). Nawet słupki odpowiadające 100-wskaźnik skarg wyglądałyby lepiej, ale z pewnością da się to przedstawić lepiej niż słupkami.

Które z tych grafik zasługują na miano najgorszej prezentacji danych 2013?

Wybierz najgorszą wizualizację danych w roku 2013

View Results

Loading ... Loading ...

Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Kilka dni temu portal money.pl przytoczył wypowiedź premiera, której część podaję poniżej:

Premier nie ma wątpliwości, że reklama OFE powinna być zakazana w czasie, kiedy obywatele będą podejmowali decyzje o tym, czy pozostać w OFE, czy nie. >> Chcemy, żeby obywatel podejmował decyzje na podstawie informacji, a nie propagandy. Ale trwa jeszcze dyskusja. Niedawno też o tym długo dyskutowaliśmy, na ile pozwolić funduszom w przyszłości na rzetelną reklamę <<

Dostęp do rzetelnej informacji to hasło przewodnie także naszej działalności. Przyjrzyjmy się jak wyglądają materiały rządowe dotyczące OFE:

Pod koniec czerwca Ministerstwo Pracy i Polityki Społecznej przygotowało pokaźną paczkę wykresów na temat zmian w OFE. Poniżej przedstawione wykresy zostały opublikowane przez Ministerstwo na tej stronie, a następnie przedstawiane w różnych mediach, między innymi w serwisie Gazety Wyborczej.

Przykład pierwszy: poziome wykresy paskowe

Patrząc na wykres paskowy mamy tendencje do porównywania długości pasków/pudełek. Dlatego aby umożliwić poprawne porównania przedstawianych wartości, odpowiadające im pudełka powinny zaczynać się od zera.

Tymczasem, patrząc na długości pasków dla OFE i ZUS II na poniższym wykresie, stosunek długości odczytamy jako 100:168. Przedstawiane dane wskazują na stosunek 100:129. Lie-factor tego wykresu to około 1.3 („Lie Factor”to współczynnik zdefiniowany przez Edwarda Tuftego, mierzący jak bardzo wykres przekłamuje relacje obecne w danych).

Czytaj dalej Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Jak (nie)pokazywać bilansu urodzin, zgonów i migracji

Co jakiś czas dostaję od czytelników interesujące sugestie dotyczące raportów / wizualizacji / tematów. Bardzo mnie one cieszą. Mam nadzieję, że kiedyś blog fundacji będzie prowadzony przez więcej osób, a to podsyłanie materiałów jest krokiem w tym kierunku.

Dziś będzie o wykresie z raportu ,,Huszlew Strategia Rozwiązywania Problemów Społecznych”, na który uwagę zwróciła mi Natalia J.

Czytaj dalej Jak (nie)pokazywać bilansu urodzin, zgonów i migracji

Piątek w Toruniu, czyli o alternatywnym splicingu, o wizualizacji danych i o tym co można zrobić dla fundacji

Jutro [piątek 26 kwiecień] będę prowadził dwa referaty w Toruniu. Może tematyka któregoś z nich zainteresuje czytelników tego bloga, w takim wypadku zapraszam.

Drugi z referatów dotyczyć będzie dobrych i złych praktyk związanych z prezentacją danych. Przy okazji przedstawię wybrane zrealizowane i aktualnie realizowane projekty fundacji. Po wykładzie planowany jest panel/luźna rozmowa o tym jak otwierać dane [w tym publiczne], jak otwierać analizy danych [w tym publicznych], o tym co ciekawego można zrobić [w tym razem z fundacją].

Podczas wykładu będzie można między innymi dowiedzieć się:

  • czego użył Hans Rosling by pokazać sytuację gospodarczą na świecie podczas najkrótszego TED talka,
  • co oznacza ,,narracja z użyciem wykresów” i o co chodzi w haśle ,,dobre wizualizacje danych przedstawiają historie”,
  • dlaczego ministerstwo finansów na słynnych ,,wykresach piramidalnych” pomyliło się o prawie 100 procent w przedstawianiu proporcji,
  • jak chcemy badać zjawisko segregacji klasowej w edukacji na poziomie szkoły podstawowej i średniej,
  • jaki mam pomysł na zachęcenie gimnazjalistów do analizowania danych w programie R,
  • będzie też można zdobyć kubek fundacji.

Więc serdecznie zapraszam o godz. 16.30 do Auli Wydziału Matematyki i Informatyki UMK ul. Chopina 12/18 Toruń.
Aktualna wersja prezentacji, którą planuję pokazać dostępna jest tutaj [może ulec zmianie].

Pierwszy z referatów będzie bardziej techniczny. Dotyczyć będzie zagadnienia identyfikacji alternatywnego splicingu genów z użyciem macierzy tilingowych, oraz dyskusji nt. jak w tym problemie sprawdzają się narzędzia analizy wariancji i algorytmy testowania zbioru hipotez. Seminarium zacznie się o 10:15 w sali SS3 na ul. Chopina 12/18 Toruń.

Nauka w Polsce 2013, czyli słów kilka o nowym raporcie ministerstwa

W poprzednim tygodniu ukazał się raport ,,Nauka w Polsce 2013” [znajdziesz go tutaj]. Jest on prawdopodobnie opracowany przez ministerstwo [,,prawdopodobnie” ponieważ w raporcie brakuje informacji kto jest autorem]. Jest w nim wiele wykresów, z których część można by było zrobić lepiej. I o tym co można zrobić lepiej będzie dzisiejszy wpis.

,,Nowoczesna” forma

Raport ma bardzo ,,nowoczesną” formę, składa się głównie z wykresów. Brak w nim komentarzy czy wniosków dotyczących prezentowanych wyników, jedynie gdzieniegdzie można znaleźć objaśnienia jak pewne współczynniki były liczone.
Przez co w pierwszej chwili można odnieść wrażenie, że to jedynie slajdy z prezentacji/streszczenia [sprawdzałem nawet w słowniku języka polskiego czy taki zbiór wykresów można nazywać raportem].

Do większości wykresów brakuje informacji o źródle danych, które są przedstawiane. Utrudnia to weryfikację prezentowanych liczb. Niestety do standardów raportów OECD jest jeszcze daleko, tam przy poważnych raportach do każdego wykresu dodane są odnośniki do źródeł danych.

Sytuacja z tym raportem jest kuriozalna. Mamy zbiór wykresów, w części nie najlepiej przygotowanych, nie ma odnośników do danych źródłowych, nie ma tabel z liczbami, na postawie których te wykresy powstały. Brakuje też wniosków czy podsumowania, które można by zweryfikować.
Rodzi to wręcz obawy, że z tego raportu każdy odczyta sobie wnioski jakie będą mu pasować, a nieuporządkowana formuła raportu nie pozwoli na ich weryfikację.

Wiele interesujących tematów

W raporcie poruszanych jest wiele tematów. Można zobaczyć wykresy traktujące o finansowaniu nauki w Polsce (chciałem napisać przeczytać, ale akurat przeczytać się nie da).
Począwszy od wysokości nakładów na naukę, informacji co w jakiej wysokości jest finansowane, jest o tym, ile jest uczeni i pracowników naukowych w różnych województwach (choć nie jest jasne jak liczeni są ci, co pracują w rożnych województwach), ile jest jednostek badawczych, jakiego typu i jak bardzo aktywnych. I wiele innych informacji.

Zachęcam do przejrzenia tego raportu.
Aktualna wersja ma podtytuł ,Edycja 1′, może kolejne edycje będą miały już liczby i wnioski dzięki czemu będzie to ciekawe źródło informacji.

Co można by w raporcie poprawić?

Zaczniemy od retorycznego pytania: czy jeżeli w raporcie nie ma spisanych wniosków i nie ma podanych źródeł to trudno się czegoś przyczepić?
Wybierzmy kilka rodzynków. Powiedzmy, że w ramach działalności typu ,,watchdog”.
Dwie pierwsze to oczywiste grube błędy, kolejne to sugestie.

Czytaj dalej Nauka w Polsce 2013, czyli słów kilka o nowym raporcie ministerstwa