Konkurs na najgorszą prezentację danych w roku 2013

Rok temu przeprowadziliśmy konkurs na najgorszą prezentację danych roku 2012. Kandydatów było ośmiu a wybór był trudny. Przewagą kilku głosów wygrał bardzo dziwny wykres paskowy. O konkursie i wynikach przeczytać można tutaj ,,Konkurs na najgorszą prezentacje danych z roku 2013”.

Czas powtórzyć ten konkurs na zbiorze wykresów z roku 2013. Do wyboru jest osiem wykresów przedstawionych poniżej. Dla każdego kandydata dodałem krótki opis i odnośnik do dłuższego opisu. Na dole strony znajduje się sonda do której gorąco zapraszam. Można oddać jeden głos, ale można w nim wskazać kilka odpowiedzi. Podobnie jak w ubiegłym roku, autor zwycięskiego wykresu (o ile uda się go zidentyfikować) otrzyma książkę o wizualizacji danych i tytuł twórcy najgorszej wizualizacji 2013.

W tegorocznym zestawieniu ponad połowa wykresów została opracowana przez ministerstwa. Paradoksalnie, odczytuję to jako pozytywny sygnał. Dobrze, że rządzący chcą w czytelny sposób i w oparciu o liczby komunikować co się dzieje. Z czasem mam nadzieję, że będą to robić coraz lepiej (bo teraz robią to źle).

Kandydat nr 1. Piramida finansowa (Ministerstwo Finansów)

Piramida przedstawiająca propozycje finansowe PiS, ale wykonana przez Ministerstwo Finansów kierowane przez PO. Pomijając sposób wyznaczania liczb, problem z tym wykresem polega na tym, że proporcje na nim przedstawione nie odpowiadają proporcjom prezentowanym liczb (plus punkt w konkursie za sugestywny dobór kształtu i kolorów). Wykres szerzej opisany w tym wpisie.

Kandydat nr 2. Ile można zarobić w ZUS (Ministerstwo Pracy)

Oczywiście w ZUS zarabiają tylko pracownicy ZUS, oczekiwanie na waloryzacje składek to nie zarabianie. Więc za poczucie humoru widoczne w tytule, tej grafice, opracowanej przez Ministerstwo Pracy, należą się dodatkowe punkty.
A techniczny problem z tym wykresem polega na nieodpowiednich proporcjach długości słupków do przedstawianych liczb. Temat szerzej opisany w tym wpisie.

Kandydat nr 3. Wydatki na badania i rozwój (Ministerstwo Nauki)

Jak pokazać duże wzrosty? Zsumować dane z kilku lat. Poniższy wpis pokazuje, że prognozowane wydatki na badania i rozwój w latach 2013-2016 będą wyższe niż te w roku 2012. Szkoda tylko, że po podzieleniu prognoz przez liczbę lat okazuje się, że lepiej to już było.
Szerzej opisany w tym wpisie.

Kandydat nr 4. Najbardziej aktywni (Ministerstwo Nauki)

Ten wykres pokazuje dwa współczynniki. Względem ,,liczba zgłoszonych wniosków” jesteśmy na pozycji 15 na 27 państw, względem ,,współczynnik sukcesu” na pozycji 21 na 27 państw. Nie przeszkadza to autorowi w oznaczeniu nas jako ,,najbardziej aktywnych”. Ciekawe jak autor nazwie kraje z końca listy, ,,średnio/bardzo aktywne”? Szerzej opisany w tym wpisie.

Kandydat nr 5. Mamy więcej, ale o ile więcej? (Kancelaria Prezesa Rady Ministrów)

Ponownie problem z wykresami paskowymi na skali bez zera. Dobierając różne zakresy wartości na osiach uniemożliwiono porównanie w jakich obszarach zyskamy więcej a w jakich mniej.
Szerzej opisany w tym wpisie.

Kandydat nr 6. Ile zyskamy w OFE (Gazeta.pl)

Prawy wykres ma inną skalę niż środkowy. Na prawym jedna kratka to 10% a na środkowym 5%. W tej perspektywnie 15% zysk z OFE wygląda jak 6,9% zysk z ZUS.
Temat szerzej opisany w tym wpisie.

Kandydat nr 7. Wykresy paskowe, ciąg dalszy (IIBR)

Jak czytać poniższe wykresy paskowe? Dlaczego one wszystkie mają tą samą szerokość? Dlatego, że zmienia się wysokość pudełek. Gdyby jeszcze trochę bardziej ścisnąć te pudełka to zupełnie nic nie dałoby się odczytać z tego wykresu.

Kandydat nr 8. Robisz to źle, reklama (Ergo Hestia)

I coś z branży reklamowej, imho jedna z gorszych reklam opartych o liczby jaką widziałem. Pomijam już to, że wykresy paskowe są w pseudo-trzech wymiarach, że oś pozioma jest niewłaściwa i że brakuje zera.
Tutaj jest problem z pomysłem. Zamiast pokazywać, że klienci się najmniej skarżą lepiej by było pokazać, że są najbardziej zadowoleni[dlaczego skreślone? patrz dyskusja poniżej] Zamiast pokazywać słupki o długości związanej z ze wskaźnikiem skarg lepiej zaproponować kreatywny sposób przedstawienia w pozytywnym świetle małej liczby skarg (komunikat dłuższy pasek = lepiej jest łatwiejszy i działa szybciej niż odczytanie że w tym przypadku jest odwrotnie). Nawet słupki odpowiadające 100-wskaźnik skarg wyglądałyby lepiej, ale z pewnością da się to przedstawić lepiej niż słupkami.

Które z tych grafik zasługują na miano najgorszej prezentacji danych 2013?

Wybierz najgorszą wizualizację danych w roku 2013

View Results

Loading ... Loading ...

Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Kilka dni temu portal money.pl przytoczył wypowiedź premiera, której część podaję poniżej:

Premier nie ma wątpliwości, że reklama OFE powinna być zakazana w czasie, kiedy obywatele będą podejmowali decyzje o tym, czy pozostać w OFE, czy nie. >> Chcemy, żeby obywatel podejmował decyzje na podstawie informacji, a nie propagandy. Ale trwa jeszcze dyskusja. Niedawno też o tym długo dyskutowaliśmy, na ile pozwolić funduszom w przyszłości na rzetelną reklamę <<

Dostęp do rzetelnej informacji to hasło przewodnie także naszej działalności. Przyjrzyjmy się jak wyglądają materiały rządowe dotyczące OFE:

Pod koniec czerwca Ministerstwo Pracy i Polityki Społecznej przygotowało pokaźną paczkę wykresów na temat zmian w OFE. Poniżej przedstawione wykresy zostały opublikowane przez Ministerstwo na tej stronie, a następnie przedstawiane w różnych mediach, między innymi w serwisie Gazety Wyborczej.

Przykład pierwszy: poziome wykresy paskowe

Patrząc na wykres paskowy mamy tendencje do porównywania długości pasków/pudełek. Dlatego aby umożliwić poprawne porównania przedstawianych wartości, odpowiadające im pudełka powinny zaczynać się od zera.

Tymczasem, patrząc na długości pasków dla OFE i ZUS II na poniższym wykresie, stosunek długości odczytamy jako 100:168. Przedstawiane dane wskazują na stosunek 100:129. Lie-factor tego wykresu to około 1.3 („Lie Factor”to współczynnik zdefiniowany przez Edwarda Tuftego, mierzący jak bardzo wykres przekłamuje relacje obecne w danych).

Czytaj dalej Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Jak (nie)pokazywać bilansu urodzin, zgonów i migracji

Co jakiś czas dostaję od czytelników interesujące sugestie dotyczące raportów / wizualizacji / tematów. Bardzo mnie one cieszą. Mam nadzieję, że kiedyś blog fundacji będzie prowadzony przez więcej osób, a to podsyłanie materiałów jest krokiem w tym kierunku.

Dziś będzie o wykresie z raportu ,,Huszlew Strategia Rozwiązywania Problemów Społecznych”, na który uwagę zwróciła mi Natalia J.

Czytaj dalej Jak (nie)pokazywać bilansu urodzin, zgonów i migracji

Piątek w Toruniu, czyli o alternatywnym splicingu, o wizualizacji danych i o tym co można zrobić dla fundacji

Jutro [piątek 26 kwiecień] będę prowadził dwa referaty w Toruniu. Może tematyka któregoś z nich zainteresuje czytelników tego bloga, w takim wypadku zapraszam.

Drugi z referatów dotyczyć będzie dobrych i złych praktyk związanych z prezentacją danych. Przy okazji przedstawię wybrane zrealizowane i aktualnie realizowane projekty fundacji. Po wykładzie planowany jest panel/luźna rozmowa o tym jak otwierać dane [w tym publiczne], jak otwierać analizy danych [w tym publicznych], o tym co ciekawego można zrobić [w tym razem z fundacją].

Podczas wykładu będzie można między innymi dowiedzieć się:

  • czego użył Hans Rosling by pokazać sytuację gospodarczą na świecie podczas najkrótszego TED talka,
  • co oznacza ,,narracja z użyciem wykresów” i o co chodzi w haśle ,,dobre wizualizacje danych przedstawiają historie”,
  • dlaczego ministerstwo finansów na słynnych ,,wykresach piramidalnych” pomyliło się o prawie 100 procent w przedstawianiu proporcji,
  • jak chcemy badać zjawisko segregacji klasowej w edukacji na poziomie szkoły podstawowej i średniej,
  • jaki mam pomysł na zachęcenie gimnazjalistów do analizowania danych w programie R,
  • będzie też można zdobyć kubek fundacji.

Więc serdecznie zapraszam o godz. 16.30 do Auli Wydziału Matematyki i Informatyki UMK ul. Chopina 12/18 Toruń.
Aktualna wersja prezentacji, którą planuję pokazać dostępna jest tutaj [może ulec zmianie].

Pierwszy z referatów będzie bardziej techniczny. Dotyczyć będzie zagadnienia identyfikacji alternatywnego splicingu genów z użyciem macierzy tilingowych, oraz dyskusji nt. jak w tym problemie sprawdzają się narzędzia analizy wariancji i algorytmy testowania zbioru hipotez. Seminarium zacznie się o 10:15 w sali SS3 na ul. Chopina 12/18 Toruń.

Nauka w Polsce 2013, czyli słów kilka o nowym raporcie ministerstwa

W poprzednim tygodniu ukazał się raport ,,Nauka w Polsce 2013” [znajdziesz go tutaj]. Jest on prawdopodobnie opracowany przez ministerstwo [,,prawdopodobnie” ponieważ w raporcie brakuje informacji kto jest autorem]. Jest w nim wiele wykresów, z których część można by było zrobić lepiej. I o tym co można zrobić lepiej będzie dzisiejszy wpis.

,,Nowoczesna” forma

Raport ma bardzo ,,nowoczesną” formę, składa się głównie z wykresów. Brak w nim komentarzy czy wniosków dotyczących prezentowanych wyników, jedynie gdzieniegdzie można znaleźć objaśnienia jak pewne współczynniki były liczone.
Przez co w pierwszej chwili można odnieść wrażenie, że to jedynie slajdy z prezentacji/streszczenia [sprawdzałem nawet w słowniku języka polskiego czy taki zbiór wykresów można nazywać raportem].

Do większości wykresów brakuje informacji o źródle danych, które są przedstawiane. Utrudnia to weryfikację prezentowanych liczb. Niestety do standardów raportów OECD jest jeszcze daleko, tam przy poważnych raportach do każdego wykresu dodane są odnośniki do źródeł danych.

Sytuacja z tym raportem jest kuriozalna. Mamy zbiór wykresów, w części nie najlepiej przygotowanych, nie ma odnośników do danych źródłowych, nie ma tabel z liczbami, na postawie których te wykresy powstały. Brakuje też wniosków czy podsumowania, które można by zweryfikować.
Rodzi to wręcz obawy, że z tego raportu każdy odczyta sobie wnioski jakie będą mu pasować, a nieuporządkowana formuła raportu nie pozwoli na ich weryfikację.

Wiele interesujących tematów

W raporcie poruszanych jest wiele tematów. Można zobaczyć wykresy traktujące o finansowaniu nauki w Polsce (chciałem napisać przeczytać, ale akurat przeczytać się nie da).
Począwszy od wysokości nakładów na naukę, informacji co w jakiej wysokości jest finansowane, jest o tym, ile jest uczeni i pracowników naukowych w różnych województwach (choć nie jest jasne jak liczeni są ci, co pracują w rożnych województwach), ile jest jednostek badawczych, jakiego typu i jak bardzo aktywnych. I wiele innych informacji.

Zachęcam do przejrzenia tego raportu.
Aktualna wersja ma podtytuł ,Edycja 1′, może kolejne edycje będą miały już liczby i wnioski dzięki czemu będzie to ciekawe źródło informacji.

Co można by w raporcie poprawić?

Zaczniemy od retorycznego pytania: czy jeżeli w raporcie nie ma spisanych wniosków i nie ma podanych źródeł to trudno się czegoś przyczepić?
Wybierzmy kilka rodzynków. Powiedzmy, że w ramach działalności typu ,,watchdog”.
Dwie pierwsze to oczywiste grube błędy, kolejne to sugestie.

Czytaj dalej Nauka w Polsce 2013, czyli słów kilka o nowym raporcie ministerstwa

Mamy więcej, ale o ile więcej? Czyli mały konkurs

W tym tygodniu będzie kilka wykresów z prasy, nazbierało się kilka nieudanych grafik i czas je pokazać. Zaczniemy od tematu świeżego, na który uwagę zwrócił w poprzednim tygodniu Michał D. Wygląda na to, że w budżecie UE na lata 2014-2020 dla Polski znajdzie się więcej Euro niż w poprzednim budżecie. Zobaczmy o ile więcej.

Zróbmy w tym celu mały konkurs. Poniżej znajdują się wykresy z Gazety Wyborczej, które zostały przygotowane przez Kancelarię Prezesa Rady Ministrów (tak sugeruje stopka).

Widząc te trzy wykresy spróbujcie odpowiedzieć na dwa pytania (nie przeliczając nic, bazując na wykresach):
– o ile (+- w procentach) budżet wzrośnie (porównując wartości nominalne, zostawmy inflację w spokoju)?
– na którym z tych wykresów przedstawiony jest największy a na którym najmniejszy wzrost?

Czytaj dalej Mamy więcej, ale o ile więcej? Czyli mały konkurs

,,Dzieci sieci” a konstruktywna krytyka

Prowadzę roczne seminarium licencjackie na którym zachęcam studentów do konstruktywnej krytyki referatów kolegów. Nie jest proste taką krytykę dawać i nie jest prosto taką krytykę odbierać. Poćwiczę dziś na przykładzie raportu ,,Dzieci Sieci”.

Do tego wyboru skłoniło mnie przeczytanie wpisu na blogu Emanuela Kulczyckiego ,,Dzieci sieci i krytyka na blogach naukowych”, w którym pisze on o licznej krytyce tego raportu (którego jest współautorem) ale jest zadowolony, że raport jest szeroko dyskutowany.

Ale jak wyglądają te dyskusje? Niestety zdarzają się też takie jak anonimowy komentarz pod ww. wpisem
,,WSTYD publikować TO w sieci promując ten tekst stopniami dr. Wiele osób znajdzie potwierdzenie w słowach nauka zeszła na psy…”
Zdarzają się też inne, dziwne. Np. we wpisie ,,Dzieci sieci ciąg dalszy” znalazłem przedruk komentarza do wpisu ,,rodzice w realu dzieci w sieci”
,,Do statystyk nie należy się po prostu przywiązywać, to znaczy nie należy ich traktować jako wskaźnik reprezentatywności badania.”
Jest to cytat z odpowiedzi koordynatora badania na krytykę. Sam koordynator o raporcie pisze na swoim blogu we wpisie o wile mówiącym tytule ,,Naukowiec jako PRowiec amator”.

Spróbujmy podejść do tematu na poważnie. Reszta wpisu to próba udzielenia konstruktywnej krytyki dotyczącej trzech wybranych aspektów z tego raportu. Może się przydadzą w opracowaniu zapowiadanej wersji 2.0. Może przydadzą się też innym.

Niereprezentatywna próba

W pierwszym rozdziale autorzy badają, czy ,,dzieci sieci” w wieku w przedziale 9-13 lat potrafią rozwiązać zadanie
,,Posługując się internetem jako źródłem informacji, wskaż, kto jest reżyserem i scenarzystą filmu Shrek”.

Okazuje się, że 19 z 30 badanych dzieci potrafi to zadanie poprawnie wykonać.
I tu trafiamy na pierwszy problem, o którym piszą sami autorzy — niereprezentatywna próba.
W różnych komentarzach pojawiała się dyskusja czy próba jest mała czy bardzo mała i czy można używać narzędzi do analizy ilościowej. Ale zabrakło komentarzy dotyczących konsekwencji badania tak małej próby.

A jakie są konsekwencje? Gdybyśmy chcieli odpowiedzieć na pytanie ,,Jaki procent ,,dzieci sieci” potrafi wykonać zadanie wyszukania reżysera Shreka”, to na bazie obserwacji ,,19 pozytywnych na 30 badanych” z 95% pewnością możemy stwierdzić, że ten procent jest w przedziale od 44% do 79% (taki jest przedział ufności dla próby prostej).
Czyli, może mniej niż połowa a może prawie 4/5.
To, jak szeroki jest ten przedział, jasno pokazuje, że dla tak małej próby niewiele można wywnioskować.
A ten przedział wyznaczono przy założeniu próby prostej, odpowiednio wylosowanej. Jeżeli badacze nie wylosowali próby odpowiednio, to błąd pomiaru może być znacznie większy.

Zaskakująco wygląda liczba przebadanych dzieci (30) w porównaniu do liczby autorów badania. Zespół badawczy składał się z 9 badaczy wspomaganych przez 3 konsultantów. Wydaje się więc, że wspólnymi siłami badacze mogli trafić do większej liczby dzieci.

Na przyszłość: należy dołożyć wysiłków by próba była liczniejsza i reprezentatywna.

Dobry wykres jest wart 1000 słów, ale zły…

W całym 177 stronicowym raporcie znaleźć można jeden wykres. Akurat przedstawia on wyniki z zadania o Shreku. W naturalny sposób zwrócił moją uwagę, ponieważ wizualizacja danych bardzo mnie interesuje.

Wykres przedstawia (?) zależność pomiędzy prawidłową odpowiedzią a wiekiem respondenta.
Dużą zagadką dla mnie było, jak odczytać ten wykres.
Jeżeli lubicie zagadki to spróbujcie sami odcyfrować poniższy wykres.

Dane, które ten wykres przedstawia to (najprawdopodobniej, nie jest to wprost napisane) wiek i informacja czy uczeń wykonał poprawnie zadanie dla 30 badanych.

Najprawdopodobniej (to też nie jest wprost napisane) poprawność rozwiązania badania jest kodowana jako 0-1: czy odpowiedział poprawnie czy nie. Z opisu wynika, że prawidłową odpowiedź wskazało 19 osób.

Czy już wiecie jak czytać ten wykres?

Poniżej jest mój domysł, choć jest mało prawdopodobny, trudno mi znaleźć inny.
Wydaje mi się, że na osi OX są kolejne osoby ,,posortowane” po wieku. Pasek morskiego koloru pokazuje wiek danego respondenta. Pasek pomarańczowy jest na wysokości morskiego, jeżeli respondent odpowiedział źle i jest o jedno ,,oczko” wyżej jeżeli odpowiedział dobrze.
Na rysunku jest 19 pozycji w których pomarańczowy jest wyżej niż morski i 11 pozycji w których te paski się przecinają, więc chyba się zgadza.

Pominę komentarze dotyczące skali OY czy braku skali dla paska pomarańczowego, bo tego wykresu nie da się raczej uratować. Nieistotne charakterystyki (numer badanego) zamazują obraz, istotne (odpowiedź na pytanie) nie są przedstawiane w sposób czytelny.

Na przyszłość: Można zrobić histogramy ,,back-to-back” wieku osobno dla osób, które odpowiedziały dobrze i osobno dla takich co odpowiedziały źle, albo tabelkę z liczbami.

Dwie formy tego samego badania powinny być spójne

Do 177 stronicowego raportu dołączono streszczenie w postaci ,,przykuwającego uwagę” mashup’u.
W tym streszczeniu są takie stwierdzenia: ,,Wszystkie treści na stronie głównej Onet.pl ,,dzieci sieci” traktują jako prawdziwe”, ,,Poproszone o wskazanie odnośników do informacji, które mogłyby być nieprawdziwe, zmyślone lub zafałszowane, nie tylko były wstanie wykonać zadania ale często go nie rozumiały”.

Można z tych komentarzy przypuszczać, że wszystkie z 30 przebadanych dzieci mają wskazany problem.

Tymczasem w raporcie (strona 27) jest napisane
,,Zadanie sprawiło naszym rozmówcom trudności. Spośród 30 respondentów, 9 – głównie tych najmłodszych –
miało problemy ze zrozumieniem zadania i nie było w stanie go wykonać lub stwierdziło, że na stronie nie ma takich informacji … Tylko 7 dzieci wskazało konkretne artykuły, uzasadniając (nie zawsze trafnie), co budzi ich wątpliwości”

Czyli większość z przebadanych dzieci (21) jakieś treści wskazało jako budzące wątpliwości 7 z nich wskazało konkretne artykuły.

Na przyszłość: W streszczeniu najlepiej cytować wypowiedzi z pełnego raportu, łatwiej będzie zachować spójność.

Wyniki konkursu na najgorszą wizualizację danych 2012 i pierwszy kandydat do edycji 2013

Czas zakończyć konkurs na najgorszą wizualizację z roku 2012. Wyniki ankiety internetowej poniżej. Najwięcej głosów zebrał wykres z raportu ,,email marketing”. Przedstawicielowi firmy GetResponse (która opracowała ten raport) wysyłam jako nagrodę dyplom i książkę Edwarda Tuftego ,,The Visual Display of Quantitative Information”.

Moimi faworytami były wykresy z raportów opracowanych przez ministerstwa lub GUS, od tych instytucji chciałoby się oczekiwać więcej niż od zwykłych firm. No nic, w tym roku nie wygrały, zobaczymy co będzie za rok.

W każdym razie wszystkim nominowanym gratuluję a głosującym bardzo dziękuję.

Mam nadzieję, że w roku 2013 uda nam się znaleźć równie ciekawe grafiki.
Jedną taką już dostałem od Piotra S. Grafika pochodzi z wersji papierowej gazety, ale w wersji elektronicznej dostępna jest tu.
Problemy z osiami?
Nie należy porównywać długości słupków dla zysków ZUS i OFE, ponieważ prawy wykres ma 2,5 razy węższą oś poziomą (przez co częsty 14% zysk wygląda słabo w porównaniu do 12% z ZUS).
Z jakiegoś powodu uznano, że nie warto wyrównać słupków w wierszach i tak po lewej stronie mamy trzynaście słupków (lata 2000-2012) a po prawej na tej samej przestrzeni dwanaście słupków (lata 2000-2011).