Esej 5: Info-pomyłka

Przed chwilą udostępniliśmy esej o tytule ,,Info-pomyłka” pod adresem www.biecek.pl/Eseje/indexPomylka.html. Piąty z serii ,,Wakacje z wizualizacją”.

W tym eseju znaleźć można wiele przykładów błędów w prezentacji danych. Tak celowych manipulacji jak i nieumyślnych potknięć. Wszystkie prezentowane w tym eseju przykłady są z polskiego podwórka, więc lektura powinna być interesująca.

We wtorek zorganizowaliśmy konkurs pośrednio związany z tym esejem. W konkursie należało zaproponować artykuł w którym wykorzystywane są dane. Tym razem otrzymaliśmy 49 zgłoszeń. Co ciekawe każde inne i większość z bardzo różnych tematów (sporo artykułów – ciekawostek, trochę artykułów o polityce, ekonomii i sporcie). Żaden artykuł nie powtórzył się, co dla mnie jest zaskoczeniem (patrz paradoks urodzin, jaka jest szansa, że dwóch studentów z 25 osobowej grupy ma urodziny tego samego dnia?). Ale pozytywnym zaskoczeniem, ponieważ jest więcej materiału do opracowania.

W konkursie wygrał numerek 31, czyli osoba o mailu krzysztof.**********@gmail.com. Gratulujemy! Skontaktujemy się mailowo. Za trzy tygodnie kolejny, ostatni już konkurs.

Ten esej to część zbioru ,,Odkrywać! Ujawniać! Objaśniać!” wydanego przez Fundację, dostępnego już w sprzedaży. O tym jak go kupić można przeczytać na stronie http://biecek.pl/Eseje/ indexZakup.html. Co trzy tygodnie na stronie http://biecek.pl/Eseje/ będziemy publikować kolejny rozdział w postaci elektronicznej, bezpłatnie, na otwartej licencji CC BY&SA.

Dane statystyczne w mediach, konkurs

Czy wykresy służą do manipulowania danymi?
Zazwyczaj (niektórzy powiedzieliby ,,statystycznie”) nie, choć patrząc na niektóre wykresy, nieporadnie prezentujące proste dane, można mieć wątpliwości.

Dobrych wykresów jest coraz więcej, zarówno dlatego, że narzędzia nie pozwalają już popełniać podstawowych błędów, jak i też dlatego, że rośnie świadomość autorów wykresów. Ale wciąż znaleźć można zabawne lub przerażające info-pomyłki i to o nich jest szósty Esej ,,Info-Pomylka”, który odkryjemy za dwa dni.

Czas więc na konkurs.

Wykresy w polskiej prasie pojawiają się coraz częściej, między innymi dlatego, że rośnie dostępność danych, które można pokazać.
Ale nie wszystkie dane okazują się wystarczająco ciekawe by znaleźć się w gazetach lub portalach informacyjnych.
Dzisiejszy konkurs dotyczy właśnie danych liczbowych, które przebijają się do mediów drukowanych lub elektronicznych.

Aby wziąć udział w konkursie, należy znaleźć artykuł z polskojęzycznego portalu informacyjnego, który prezentuje jakieś liczby.
Czy to rankingi, czy wyniki konkursów sportowych, czy poparcie polityczne, czy informacje o demografii czy przestępczości, czy ekonomii, bez znaczenia.

Reguły:
1. W losowaniu biorą udział wszystkie odpowiedzi, nie ma poprawnych i niepoprawnych!.
2. Jedna osoba może wziąć udział tylko raz w tej zabawie.
3. Liczą się tylko głosy oddane dziś i jutro (30 września, 1 października).
4. Spośród odpowiedzi wylosuję jedną osobę, która otrzyma papierowe wydanie Esejów.

Po co?
Pracuję teraz nad zestawem wskazówek dotyczących czytania danych z artykułów prezentowanych w mediach. Okazuje się, że nie zawsze to jest proste, warto pewne rzeczy wyjaśnić.
Ale o jakich zastosowaniach danych w mediach warto opowiedzieć? Tutaj właśnie liczę na Wasze zgłoszenia konkursowe, mam nadzieję z nich odczytać z jakim typem artykułów zazwyczaj kojarzone są dane liczbowe.

Powodzenia w losowaniu. Książka czeka.

[Jeżeli powyższy formularz się nie wyświetla, proszę wysłać odpowiedź przez tę stronę]

Wykresy kołowe są passé

Jestem jedną z tych osób, które uważają, wykresy kołowe to najgorszy możliwy sposób prezentacji danych.

Jakiś czas temu Maciej B. przesłał mi link do raportu, który zachwiał tym przekonaniem.

Raport o wdzięcznym tytule ,,Analytics: The real-world use of big data” opracowany przez IBM Institute for Business Value zawiera wykresy kwadratowe. Oto jeden z nich:

Jaki morał wyciągnąłem z tego raportu?
Big Data przełamie jeszcze niejedną barierę.

Robisz to źle: narracja z użyciem wykresu

W piątkowym numerze ,,Ekonomia & rynek” znalazłem poniższy wykres ilustrujący podtytuł ,,Taki wzrost prognozowali najwięksi optymiści. Większy jest już tylko w Rumunii”.

Wykres pokazuje najwyższy wzrost PKB w Polsce, podtytuł mówi, że w Rumunii jest wyższy.
Dziwnie też wygląda legenda wykresu, oznajmiająca, że 2 zaznaczone jest na żółto a na wykresie są trzy kraje zaznaczone na zielono ale ze wzrostem 2.

Może to tylko błąd na wykresie, a może tylko błąd w tytule. Interesujące pytanie to: który z tych dwóch sprzecznych komunikatów zapamiętamy?

Wykresy z matury z WOS

Lektura zadań z tegorocznej matury z wiedzy o społeczeństwie wprawiła mnie w spore zakłopotanie.
Nie spodziewałem się, że najtrudniejszymi dla mnie pytaniami okażą się te, które wymagają odczytywania danych z wykresów.

Przyjrzyjmy się dwóm zadaniom z matury.

Zgadywać można, że na wykresie przedstawiono średnią z odpowiedzi respondentów, respondenci mogli odpowiadać w skali 0-10 o której mowa pod wykresem. Ta skala nie wygląda na skale przedziałową, więc już to jest niepoprawne, ale to na tyle częsty błąd, że można wybaczyć.

Czy punktem neutralnym na tej skali jest 0? Raczej nie. Wartości nie są w skali ilorazowej, wartość 5 nie oznacza że badania zgadzają się dwa razy mniej niż gdyby odpowiadali 10.

W arkuszu z przykładowymi odpowiedziami z serwisu edulandia czytamy przykładową odpowiedź:
Większość respondentów zgadza się ze stwierdzeniem, że nasz kraj powinien być rządzony zgodnie z wolą społeczeństwa, natomiast niecała połowa respondentów uważa, że kraj rządzony jest zgodnie z wolą społeczeństwa.

Taka odpowiedź sugeruje, że na wykresie przedstawiono frakcje osób zgadzających się z danym twierdzeniem. Ale jeżeli tak jest to skąd ta skala 0 (nie zgadzam się) – 10 (zgadzam się)?
Nawet gdyby pierwszą część potraktować jako zagadkę logiczną (aby średnia była równa 8 to ponad połowa głosów musi być powyżej 5 a mniej niż połowa poniżej 5), to druga część nie gra. Hipotetyczny rozkład głosów mógłby być: 6, 6, 6 (trzy głosy zgadzające się) 0.4 (jeden głos bardzo się niezgadzający), średnia wynosi 4.6 a mimo to trzy czwarte z ankietowanych zgadzało się.

To jednak nie jest prawidłowa odpowiedź! Zgodnie z odpowiedzią z CKE w modelu prawidłowej odpowiedzi jest zapis
,,Postulowany wpływ społeczeństwa na rządy jest znacznie większy niż ocena realnego wpływu. W pierwszym przypadku średnia ocen z badania respondentów (w skali 0–10) wynosi 8, w drugim – 4,6 ”.
Ale i ta odpowiedź budzi wątpliwości. Od jakiej różnicy średnich uzasadnione jest użycie zwrotu ‚znacznie większy’? I właściwie co to zadanie ocenia? Czy umiejętność odgadywania, że na wykresie przedstawiona jest średnia? Gdzie w modelowej odpowiedzi jest to ,,wykorzystanie danych liczbowych”?

Wartości w skali Likerta można pokazać lepiej niż na trzech wykresach paskowych, ale przymknijmy na to oko, to też popularny błąd.

Zgodnie z serwisem edulandia odpowiedź A jest poprawna a C niepoprawna.

Ale w matematyce wzrost o 34% to coś innego niż wzrost o 34 punkty procentowe.
Więc co do zadania A, odsetek wzrósł z 7% do 41% czyli o 586% lub o 37 punkty procentowe.

Więc zgodnie z komentarze CKE odpowiedź A jest niepoprawna a odpowiedź C poprawna.

Zadanie jak widać bada umiejętność odróżniania punktów procentowych od procentów.

Ale moje pytanie brzmi: po co jest ten wykres? Gdyby usunąć wykres a zostawić te sześć liczb nic by się nie zmieniło. A przecież miało być ,,na podstawie wykresu…”

Rocket science, ale czy Rocket visualisation?

Tryb narzekania: on

W serwisie technologie.gazeta.pl znalazłem taką oto infografikę:

Liczby, które ona przedstawia, to wysokość finansowania Budżetu Europejskiej Agencji Kosmicznej. Mamy więc tę bardzo bogatą informację przedstawioną za pomocą rakiet. Ale co z tych rakiet odpowiada wielkości udziału danego państwa w budżecie?

  • pozycja na osi poziomej? Nie (nie wiem czy pozycja na tej osi ma znaczenie),
  • pozycja na osi pionowej? Nie (im wyżej tym średnio więcej w budżecie, ale jest sporo wyjątków),
  • wysokość rakiety? Nie,
  • pole rakiety? Tak!

Pole nie jest złe. Szkoda tylko, że pozostałe charakterystyki wykresu (pozycja, kolejność) nic nie wnoszą.
Wykres wygląda na bardzo bogaty w treść, a w sumie pokazuje jedynie udział krajów (i UE) w budżecie ESA.
[Mógłby znacznie więcej, wystarczyło dodać dane o budżetach tych krajów a znalazłoby się zastosowanie i dla pozycji wzdłuż osi pionowej i poziomej]

Tryb narzekania: off

Konkurs na najgorszą prezentację danych w roku 2013

Rok temu przeprowadziliśmy konkurs na najgorszą prezentację danych roku 2012. Kandydatów było ośmiu a wybór był trudny. Przewagą kilku głosów wygrał bardzo dziwny wykres paskowy. O konkursie i wynikach przeczytać można tutaj ,,Konkurs na najgorszą prezentacje danych z roku 2013”.

Czas powtórzyć ten konkurs na zbiorze wykresów z roku 2013. Do wyboru jest osiem wykresów przedstawionych poniżej. Dla każdego kandydata dodałem krótki opis i odnośnik do dłuższego opisu. Na dole strony znajduje się sonda do której gorąco zapraszam. Można oddać jeden głos, ale można w nim wskazać kilka odpowiedzi. Podobnie jak w ubiegłym roku, autor zwycięskiego wykresu (o ile uda się go zidentyfikować) otrzyma książkę o wizualizacji danych i tytuł twórcy najgorszej wizualizacji 2013.

W tegorocznym zestawieniu ponad połowa wykresów została opracowana przez ministerstwa. Paradoksalnie, odczytuję to jako pozytywny sygnał. Dobrze, że rządzący chcą w czytelny sposób i w oparciu o liczby komunikować co się dzieje. Z czasem mam nadzieję, że będą to robić coraz lepiej (bo teraz robią to źle).

Kandydat nr 1. Piramida finansowa (Ministerstwo Finansów)

Piramida przedstawiająca propozycje finansowe PiS, ale wykonana przez Ministerstwo Finansów kierowane przez PO. Pomijając sposób wyznaczania liczb, problem z tym wykresem polega na tym, że proporcje na nim przedstawione nie odpowiadają proporcjom prezentowanym liczb (plus punkt w konkursie za sugestywny dobór kształtu i kolorów). Wykres szerzej opisany w tym wpisie.

Kandydat nr 2. Ile można zarobić w ZUS (Ministerstwo Pracy)

Oczywiście w ZUS zarabiają tylko pracownicy ZUS, oczekiwanie na waloryzacje składek to nie zarabianie. Więc za poczucie humoru widoczne w tytule, tej grafice, opracowanej przez Ministerstwo Pracy, należą się dodatkowe punkty.
A techniczny problem z tym wykresem polega na nieodpowiednich proporcjach długości słupków do przedstawianych liczb. Temat szerzej opisany w tym wpisie.

Kandydat nr 3. Wydatki na badania i rozwój (Ministerstwo Nauki)

Jak pokazać duże wzrosty? Zsumować dane z kilku lat. Poniższy wpis pokazuje, że prognozowane wydatki na badania i rozwój w latach 2013-2016 będą wyższe niż te w roku 2012. Szkoda tylko, że po podzieleniu prognoz przez liczbę lat okazuje się, że lepiej to już było.
Szerzej opisany w tym wpisie.

Kandydat nr 4. Najbardziej aktywni (Ministerstwo Nauki)

Ten wykres pokazuje dwa współczynniki. Względem ,,liczba zgłoszonych wniosków” jesteśmy na pozycji 15 na 27 państw, względem ,,współczynnik sukcesu” na pozycji 21 na 27 państw. Nie przeszkadza to autorowi w oznaczeniu nas jako ,,najbardziej aktywnych”. Ciekawe jak autor nazwie kraje z końca listy, ,,średnio/bardzo aktywne”? Szerzej opisany w tym wpisie.

Kandydat nr 5. Mamy więcej, ale o ile więcej? (Kancelaria Prezesa Rady Ministrów)

Ponownie problem z wykresami paskowymi na skali bez zera. Dobierając różne zakresy wartości na osiach uniemożliwiono porównanie w jakich obszarach zyskamy więcej a w jakich mniej.
Szerzej opisany w tym wpisie.

Kandydat nr 6. Ile zyskamy w OFE (Gazeta.pl)

Prawy wykres ma inną skalę niż środkowy. Na prawym jedna kratka to 10% a na środkowym 5%. W tej perspektywnie 15% zysk z OFE wygląda jak 6,9% zysk z ZUS.
Temat szerzej opisany w tym wpisie.

Kandydat nr 7. Wykresy paskowe, ciąg dalszy (IIBR)

Jak czytać poniższe wykresy paskowe? Dlaczego one wszystkie mają tą samą szerokość? Dlatego, że zmienia się wysokość pudełek. Gdyby jeszcze trochę bardziej ścisnąć te pudełka to zupełnie nic nie dałoby się odczytać z tego wykresu.

Kandydat nr 8. Robisz to źle, reklama (Ergo Hestia)

I coś z branży reklamowej, imho jedna z gorszych reklam opartych o liczby jaką widziałem. Pomijam już to, że wykresy paskowe są w pseudo-trzech wymiarach, że oś pozioma jest niewłaściwa i że brakuje zera.
Tutaj jest problem z pomysłem. Zamiast pokazywać, że klienci się najmniej skarżą lepiej by było pokazać, że są najbardziej zadowoleni[dlaczego skreślone? patrz dyskusja poniżej] Zamiast pokazywać słupki o długości związanej z ze wskaźnikiem skarg lepiej zaproponować kreatywny sposób przedstawienia w pozytywnym świetle małej liczby skarg (komunikat dłuższy pasek = lepiej jest łatwiejszy i działa szybciej niż odczytanie że w tym przypadku jest odwrotnie). Nawet słupki odpowiadające 100-wskaźnik skarg wyglądałyby lepiej, ale z pewnością da się to przedstawić lepiej niż słupkami.

Które z tych grafik zasługują na miano najgorszej prezentacji danych 2013?

Wybierz najgorszą wizualizację danych w roku 2013

View Results

Loading ... Loading ...

Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Kilka dni temu portal money.pl przytoczył wypowiedź premiera, której część podaję poniżej:

Premier nie ma wątpliwości, że reklama OFE powinna być zakazana w czasie, kiedy obywatele będą podejmowali decyzje o tym, czy pozostać w OFE, czy nie. >> Chcemy, żeby obywatel podejmował decyzje na podstawie informacji, a nie propagandy. Ale trwa jeszcze dyskusja. Niedawno też o tym długo dyskutowaliśmy, na ile pozwolić funduszom w przyszłości na rzetelną reklamę <<

Dostęp do rzetelnej informacji to hasło przewodnie także naszej działalności. Przyjrzyjmy się jak wyglądają materiały rządowe dotyczące OFE:

Pod koniec czerwca Ministerstwo Pracy i Polityki Społecznej przygotowało pokaźną paczkę wykresów na temat zmian w OFE. Poniżej przedstawione wykresy zostały opublikowane przez Ministerstwo na tej stronie, a następnie przedstawiane w różnych mediach, między innymi w serwisie Gazety Wyborczej.

Przykład pierwszy: poziome wykresy paskowe

Patrząc na wykres paskowy mamy tendencje do porównywania długości pasków/pudełek. Dlatego aby umożliwić poprawne porównania przedstawianych wartości, odpowiadające im pudełka powinny zaczynać się od zera.

Tymczasem, patrząc na długości pasków dla OFE i ZUS II na poniższym wykresie, stosunek długości odczytamy jako 100:168. Przedstawiane dane wskazują na stosunek 100:129. Lie-factor tego wykresu to około 1.3 („Lie Factor”to współczynnik zdefiniowany przez Edwarda Tuftego, mierzący jak bardzo wykres przekłamuje relacje obecne w danych).

Czytaj dalej Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Jak (nie)pokazywać bilansu urodzin, zgonów i migracji

Co jakiś czas dostaję od czytelników interesujące sugestie dotyczące raportów / wizualizacji / tematów. Bardzo mnie one cieszą. Mam nadzieję, że kiedyś blog fundacji będzie prowadzony przez więcej osób, a to podsyłanie materiałów jest krokiem w tym kierunku.

Dziś będzie o wykresie z raportu ,,Huszlew Strategia Rozwiązywania Problemów Społecznych”, na który uwagę zwróciła mi Natalia J.

Czytaj dalej Jak (nie)pokazywać bilansu urodzin, zgonów i migracji

Piątek w Toruniu, czyli o alternatywnym splicingu, o wizualizacji danych i o tym co można zrobić dla fundacji

Jutro [piątek 26 kwiecień] będę prowadził dwa referaty w Toruniu. Może tematyka któregoś z nich zainteresuje czytelników tego bloga, w takim wypadku zapraszam.

Drugi z referatów dotyczyć będzie dobrych i złych praktyk związanych z prezentacją danych. Przy okazji przedstawię wybrane zrealizowane i aktualnie realizowane projekty fundacji. Po wykładzie planowany jest panel/luźna rozmowa o tym jak otwierać dane [w tym publiczne], jak otwierać analizy danych [w tym publicznych], o tym co ciekawego można zrobić [w tym razem z fundacją].

Podczas wykładu będzie można między innymi dowiedzieć się:

  • czego użył Hans Rosling by pokazać sytuację gospodarczą na świecie podczas najkrótszego TED talka,
  • co oznacza ,,narracja z użyciem wykresów” i o co chodzi w haśle ,,dobre wizualizacje danych przedstawiają historie”,
  • dlaczego ministerstwo finansów na słynnych ,,wykresach piramidalnych” pomyliło się o prawie 100 procent w przedstawianiu proporcji,
  • jak chcemy badać zjawisko segregacji klasowej w edukacji na poziomie szkoły podstawowej i średniej,
  • jaki mam pomysł na zachęcenie gimnazjalistów do analizowania danych w programie R,
  • będzie też można zdobyć kubek fundacji.

Więc serdecznie zapraszam o godz. 16.30 do Auli Wydziału Matematyki i Informatyki UMK ul. Chopina 12/18 Toruń.
Aktualna wersja prezentacji, którą planuję pokazać dostępna jest tutaj [może ulec zmianie].

Pierwszy z referatów będzie bardziej techniczny. Dotyczyć będzie zagadnienia identyfikacji alternatywnego splicingu genów z użyciem macierzy tilingowych, oraz dyskusji nt. jak w tym problemie sprawdzają się narzędzia analizy wariancji i algorytmy testowania zbioru hipotez. Seminarium zacznie się o 10:15 w sali SS3 na ul. Chopina 12/18 Toruń.