Konkurs na najgorszy wykres 2016 roku

Zbliża się nasz konkurs na najgorszy wykres tego roku. Kandydaci z poprzednich lat dowodzą, że nie jest prosto zdobyć ten tytuł (edycja 2015, edycja 2014, edycja 2013, edycja 2012).

Zasada konkursu jest prosta. Raz dziennie, do końca roku, można wskazać swoje typy za pomocą ankiety umieszczonej na końcu tego wpisu. Po nowym roku zobaczymy, który wykres otrzymał najwięcej głosów. To on otrzyma tytuł ,,Zniekształcenie roku 2016”, a więc grafikę najbardziej zniekształcającą prezentowane dane. Aby ułatwić głosowanie, każdy kandydat ma skrótową nazwę ,,wpadającą w ucho” nazwę.

Tym razem nominowanych grafik było kilkadziesiąt. Część otrzymałem na maila, część trafiła do mnie przez tag @smarterpoland na Facebooku lub Twitterze. Aby uprościć głosowanie, wybrałem 13 grafik w czterech grupach: ,,Ach te słupki”, ,,Co tam panie w polityce”, ,,Pole minowe” i ,,Niefortunne koło”.

Niech zwycięży najlepszy!

Czytaj dalej Konkurs na najgorszy wykres 2016 roku

Program 500+ a prezentacja danych na tle mapy

Na portalu wp.pl trafiłem pod artykułem Platforma celowo opóźnia wypłaty 500+? Mocne słowa posła PiS na taką grafikę.

Screen Shot 2016-05-27 at 09.53.19

Artykuł jest o tym, że w miastach w których wygrało PO procent rozpatrzonych wniosków w programie 500+ jest znacznie mniejszy niż w miastach w których wygrał PiS (pomińmy na chwilę to, że w Polsce mamy więcej niż 8 dużych miast).

Z powyższego wykresu najbardziej w oczy rzuca się to, że z tych 8 miast PO wygrało w 4 największych a PiS w 4 najmniejszych.
Rzuca się to w oczy dlatego, że liczba złożonych wniosków jest proporcjonalna do obwodu zewnętrznego brzegu obwarzanka a nie go jego pola.
Liczby, które są główną treścią artykułu, czyli procent rozpatrzonych wniosków, odpowiadają zaznaczonemu ciemniejszym kolorem wycinkowi okręgu.
Utrudniono porównywanie tych wycinków na kilka sposobów. Jednym jest to, że na wycinkach są liczby które przykrywają część informacji, w przypadku Ostrołęki skutecznie utrudniając jakiekolwiek porównania. Okręgi są umieszczone w różnych punktach (a szkoda, a mogłyby mieć wspólny środek).
Liczby umieszczone są w różnych miejscach grafiki, przez co trudno wykonać na nich jakieś sensowne operacje, jak np. policzyć sumaryczną liczbę przyznanych wniosków.

Te same informacje można przedstawić np. na poniższym wykresie mozaikowym. Można prosto odczytać zarówno procent rozpatrzonych wniosków, liczbę złożonych i rozpatrzonych wniosków.

Screen Shot 2016-05-29 at 08.52.21

Konkurs na najgorszą grafikę 2015

Zbliża się koniec roku, czas na wybór najgorszej grafiki tego roku. Trzeba przyznać, że laureaci konkursów z poprzedniego roku, sprzed dwóch lat czy sprzed trzech lat stawiają poprzeczkę dosyć wysoko. Ale i w tym roku nie brakuje znakomitych kandydatów.

Zasada jest prosta. Wybieramy wykres, który otrzyma tytuł ,,Zniekształcenie roku 2015”. A więc grafikę najbardziej zniekształcającą przekazywane dane. Na końcu wpisu znajduje się sonda. Głosować można na więcej niż jeden wykres. Aby ułatwić głosowanie, każdy kandydat ma skrótową nazwę.

Rok 2015 był rokiem wyborów (Prezydent, Sejm, Senat), połowa z poniższych zgłoszeń ma jakiś związek z wyborami. Zanim zaczniemy ich prezentację chciałbym zaznaczyć, że pojedyncze wpadki (jak prezentowane poniżej) nie są dowodem stronniczości tego czy innego medium (nie są też dowodem braku stronniczości). Nie ma co więc wysuwać zbyt ogólnych wniosków o mediach, skupmy się na wykresach.

Niech zwycięży najlepszy!

Czytaj dalej Konkurs na najgorszą grafikę 2015

Robisz to źle: sondaże dot. referendum z 6 września

Na portalu Gazeta.pl znalazłem ostatnio prezentacje wyników sondaży dot. uczestnictwa w planowanych referendach.

Moją uwagę przykuł poniższy wykres, prezentujący rozkład odpowiedzi na pytanie ,,Czy weźmiesz udział w referendum ogłoszonym na 6 września?”.

Screen Shot 2015-08-25 at 15.46.04

Czytaj dalej Robisz to źle: sondaże dot. referendum z 6 września

Konkurs na najmniej udany wykres 2014 roku

Rok temu, w grudniu, organizowaliśmy konkurs na wykres przekłamujący dane. Podobny konkurs organizowaliśmy dwa lata temu. W tym roku nieco zmieniliśmy formułę. Zamiast szukać przekłamań, tropimy błędy, które utrudniają odczytanie informacji z wykresów. Każdemu może przydarzyć się nieczytelny wykres, ale te wykresy pochodzą z miejsc, gdzie błądzenie powinno być rzadsze, czyli z raportów ministerstw i poważniejszych mediów.

W szrankach stanie więcej wykresów niż w poprzednich edycjach konkursu. Wiele z nich nadesłanych zostało przez czytelników (za co bardzo dziękuję). Znaleziska z poprzednich lat wypełniły esej ,,info-pomyłka” ze zbioru esejów o wizualizacji, zwycięzcy tego głosowania trafią do kolejnej wersji eseju.

Ponieważ statystycy zajmujący się wizualizacją danych praktycznie jednym głosem krytykują wykresy kołowe, prezentację kandydatów zaczniemy właśnie od nich.

Czytaj dalej Konkurs na najmniej udany wykres 2014 roku

Esej 5: Info-pomyłka

Przed chwilą udostępniliśmy esej o tytule ,,Info-pomyłka” pod adresem www.biecek.pl/Eseje/indexPomylka.html. Piąty z serii ,,Wakacje z wizualizacją”.

W tym eseju znaleźć można wiele przykładów błędów w prezentacji danych. Tak celowych manipulacji jak i nieumyślnych potknięć. Wszystkie prezentowane w tym eseju przykłady są z polskiego podwórka, więc lektura powinna być interesująca.

We wtorek zorganizowaliśmy konkurs pośrednio związany z tym esejem. W konkursie należało zaproponować artykuł w którym wykorzystywane są dane. Tym razem otrzymaliśmy 49 zgłoszeń. Co ciekawe każde inne i większość z bardzo różnych tematów (sporo artykułów – ciekawostek, trochę artykułów o polityce, ekonomii i sporcie). Żaden artykuł nie powtórzył się, co dla mnie jest zaskoczeniem (patrz paradoks urodzin, jaka jest szansa, że dwóch studentów z 25 osobowej grupy ma urodziny tego samego dnia?). Ale pozytywnym zaskoczeniem, ponieważ jest więcej materiału do opracowania.

W konkursie wygrał numerek 31, czyli osoba o mailu krzysztof.**********@gmail.com. Gratulujemy! Skontaktujemy się mailowo. Za trzy tygodnie kolejny, ostatni już konkurs.

Ten esej to część zbioru ,,Odkrywać! Ujawniać! Objaśniać!” wydanego przez Fundację, dostępnego już w sprzedaży. O tym jak go kupić można przeczytać na stronie http://biecek.pl/Eseje/ indexZakup.html. Co trzy tygodnie na stronie http://biecek.pl/Eseje/ będziemy publikować kolejny rozdział w postaci elektronicznej, bezpłatnie, na otwartej licencji CC BY&SA.

Dane statystyczne w mediach, konkurs

Czy wykresy służą do manipulowania danymi?
Zazwyczaj (niektórzy powiedzieliby ,,statystycznie”) nie, choć patrząc na niektóre wykresy, nieporadnie prezentujące proste dane, można mieć wątpliwości.

Dobrych wykresów jest coraz więcej, zarówno dlatego, że narzędzia nie pozwalają już popełniać podstawowych błędów, jak i też dlatego, że rośnie świadomość autorów wykresów. Ale wciąż znaleźć można zabawne lub przerażające info-pomyłki i to o nich jest szósty Esej ,,Info-Pomylka”, który odkryjemy za dwa dni.

Czas więc na konkurs.

Wykresy w polskiej prasie pojawiają się coraz częściej, między innymi dlatego, że rośnie dostępność danych, które można pokazać.
Ale nie wszystkie dane okazują się wystarczająco ciekawe by znaleźć się w gazetach lub portalach informacyjnych.
Dzisiejszy konkurs dotyczy właśnie danych liczbowych, które przebijają się do mediów drukowanych lub elektronicznych.

Aby wziąć udział w konkursie, należy znaleźć artykuł z polskojęzycznego portalu informacyjnego, który prezentuje jakieś liczby.
Czy to rankingi, czy wyniki konkursów sportowych, czy poparcie polityczne, czy informacje o demografii czy przestępczości, czy ekonomii, bez znaczenia.

Reguły:
1. W losowaniu biorą udział wszystkie odpowiedzi, nie ma poprawnych i niepoprawnych!.
2. Jedna osoba może wziąć udział tylko raz w tej zabawie.
3. Liczą się tylko głosy oddane dziś i jutro (30 września, 1 października).
4. Spośród odpowiedzi wylosuję jedną osobę, która otrzyma papierowe wydanie Esejów.

Po co?
Pracuję teraz nad zestawem wskazówek dotyczących czytania danych z artykułów prezentowanych w mediach. Okazuje się, że nie zawsze to jest proste, warto pewne rzeczy wyjaśnić.
Ale o jakich zastosowaniach danych w mediach warto opowiedzieć? Tutaj właśnie liczę na Wasze zgłoszenia konkursowe, mam nadzieję z nich odczytać z jakim typem artykułów zazwyczaj kojarzone są dane liczbowe.

Powodzenia w losowaniu. Książka czeka.

[Jeżeli powyższy formularz się nie wyświetla, proszę wysłać odpowiedź przez tę stronę]

Wykresy kołowe są passé

Jestem jedną z tych osób, które uważają, wykresy kołowe to najgorszy możliwy sposób prezentacji danych.

Jakiś czas temu Maciej B. przesłał mi link do raportu, który zachwiał tym przekonaniem.

Raport o wdzięcznym tytule ,,Analytics: The real-world use of big data” opracowany przez IBM Institute for Business Value zawiera wykresy kwadratowe. Oto jeden z nich:

Jaki morał wyciągnąłem z tego raportu?
Big Data przełamie jeszcze niejedną barierę.

Robisz to źle: narracja z użyciem wykresu

W piątkowym numerze ,,Ekonomia & rynek” znalazłem poniższy wykres ilustrujący podtytuł ,,Taki wzrost prognozowali najwięksi optymiści. Większy jest już tylko w Rumunii”.

Wykres pokazuje najwyższy wzrost PKB w Polsce, podtytuł mówi, że w Rumunii jest wyższy.
Dziwnie też wygląda legenda wykresu, oznajmiająca, że 2 zaznaczone jest na żółto a na wykresie są trzy kraje zaznaczone na zielono ale ze wzrostem 2.

Może to tylko błąd na wykresie, a może tylko błąd w tytule. Interesujące pytanie to: który z tych dwóch sprzecznych komunikatów zapamiętamy?

Wykresy z matury z WOS

Lektura zadań z tegorocznej matury z wiedzy o społeczeństwie wprawiła mnie w spore zakłopotanie.
Nie spodziewałem się, że najtrudniejszymi dla mnie pytaniami okażą się te, które wymagają odczytywania danych z wykresów.

Przyjrzyjmy się dwóm zadaniom z matury.

Zgadywać można, że na wykresie przedstawiono średnią z odpowiedzi respondentów, respondenci mogli odpowiadać w skali 0-10 o której mowa pod wykresem. Ta skala nie wygląda na skale przedziałową, więc już to jest niepoprawne, ale to na tyle częsty błąd, że można wybaczyć.

Czy punktem neutralnym na tej skali jest 0? Raczej nie. Wartości nie są w skali ilorazowej, wartość 5 nie oznacza że badania zgadzają się dwa razy mniej niż gdyby odpowiadali 10.

W arkuszu z przykładowymi odpowiedziami z serwisu edulandia czytamy przykładową odpowiedź:
Większość respondentów zgadza się ze stwierdzeniem, że nasz kraj powinien być rządzony zgodnie z wolą społeczeństwa, natomiast niecała połowa respondentów uważa, że kraj rządzony jest zgodnie z wolą społeczeństwa.

Taka odpowiedź sugeruje, że na wykresie przedstawiono frakcje osób zgadzających się z danym twierdzeniem. Ale jeżeli tak jest to skąd ta skala 0 (nie zgadzam się) – 10 (zgadzam się)?
Nawet gdyby pierwszą część potraktować jako zagadkę logiczną (aby średnia była równa 8 to ponad połowa głosów musi być powyżej 5 a mniej niż połowa poniżej 5), to druga część nie gra. Hipotetyczny rozkład głosów mógłby być: 6, 6, 6 (trzy głosy zgadzające się) 0.4 (jeden głos bardzo się niezgadzający), średnia wynosi 4.6 a mimo to trzy czwarte z ankietowanych zgadzało się.

To jednak nie jest prawidłowa odpowiedź! Zgodnie z odpowiedzią z CKE w modelu prawidłowej odpowiedzi jest zapis
,,Postulowany wpływ społeczeństwa na rządy jest znacznie większy niż ocena realnego wpływu. W pierwszym przypadku średnia ocen z badania respondentów (w skali 0–10) wynosi 8, w drugim – 4,6 ”.
Ale i ta odpowiedź budzi wątpliwości. Od jakiej różnicy średnich uzasadnione jest użycie zwrotu ‘znacznie większy’? I właściwie co to zadanie ocenia? Czy umiejętność odgadywania, że na wykresie przedstawiona jest średnia? Gdzie w modelowej odpowiedzi jest to ,,wykorzystanie danych liczbowych”?

Wartości w skali Likerta można pokazać lepiej niż na trzech wykresach paskowych, ale przymknijmy na to oko, to też popularny błąd.

Zgodnie z serwisem edulandia odpowiedź A jest poprawna a C niepoprawna.

Ale w matematyce wzrost o 34% to coś innego niż wzrost o 34 punkty procentowe.
Więc co do zadania A, odsetek wzrósł z 7% do 41% czyli o 586% lub o 37 punkty procentowe.

Więc zgodnie z komentarze CKE odpowiedź A jest niepoprawna a odpowiedź C poprawna.

Zadanie jak widać bada umiejętność odróżniania punktów procentowych od procentów.

Ale moje pytanie brzmi: po co jest ten wykres? Gdyby usunąć wykres a zostawić te sześć liczb nic by się nie zmieniło. A przecież miało być ,,na podstawie wykresu…”