Plebiscyt na najgorszy wykres roku 2019

Jeszcze tylko cztery dni do końca roku! To idealny czas na podsumowania i zestawienia. Jeden z tematów, który mnie najbardziej interesuje to wizualizacja danych w przestrzeni publicznej. A trzeba przyznać, że w tym roku dużo się działo w Polsce i na świecie, wiele wydarzeń aż proszących się o zaprezentowanie za pomocą wykresów.

W ostatnich dniach pojawiło się kilka zestawień najlepszych projektów dotyczących wizualizacji danych, jak np. lista zebrana przez FlowingData czy Information is Beautiful czy lista zebranych najlepszych wizualizacji z The Economist. To świetne pomysłowe, przemyślane i dopracowane w każdym szczególe wizualizacje.

Po drugiej stronie barykady stoją wykresy-koszmarki. Wykresy, które w skutek celowego działania, lub braku umiejętności projektanta, wykrzywiają dane i zniekształcają prezentowaną treść. To te wykresy są gwiazdami plebiscytu ,,Najgorszy wykres roku”, który organizuję już po raz ósmy (edycja 2018, edycja 2017, edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012).

Poniżej lista 12 wykresów wybranych z tych, które otrzymałem od Was w ciągu roku, lub które znalazłem gdzieś w otchłani internetu. Tworzenie epickich wizualizacji danych jest trudne, ale omijanie podstawowych błędów powinno być proste. Pomóżcie wybrać najgorszy z wykresów tego roku. Ja wyniki plebiscytu wykorzystuję między innymi na zajęciach o wizualizacji danych by ostrzegać studentów.

A przed tą dwunastką ostrzegać warto.

1. Prokuratura w liczbach

Pierwszy kandydat pochodzi z Twittera Arkadiusza Myrchy, który umieścił takie to zdjęcie z dokumentu Nowa prokuratura w świetle danych statystycznych. Do samego dokumentu nie udało mi się dotrzeć, był jednak krytykowany też tutaj.

Co jest nie tak w tym wykresie? Prokuratura Krajowa została ponownie utworzona (w miejsce Prokuratury Generalnej) w roku 2016. Nic więc dziwnego, że nie wpływały do niej wcześniej sprawy karne. Przecież nie istniała.

2. Diabelski wzrost składek

Po drugiej stronie politycznej barykady jest poniższy wykres opublikowany przez Platformę Obywatelską na Twitterze. Ten wykres zaprezentowany w lipcu miał pokazać znaczny wzrost wysokości składek ZUS dla przedsiębiorców.

Słupki nie zaczynają się w zerze. Z czasem słupki rosną w każdym wymiarze i dodatkowo zmieniają kolor. Dodatkowa strzałka sugeruje okrutnie wysoki wzrost składek ZUS. Gdy przeliczyć zaprezentowane liczby, okaże się, że wzrost składki w latach 2015-2019 to 20,5%. W tym czasie średnie wynagrodzenie wzrosło o prawie 27%.

.

3. Wykresy kołowe są złe

Na zajęciach z Technik Wizualizacji Danych często przywołuję słowa Edwarda Tuftego, że wykresy kołowe są złe. A od wykresu kołowego gorsze jest tylko wiele wykresów kołowych. Głównym problemem z wykresami kołowymi jest to, że są stosowane często bez żadnej refleksji, co do tego co jest pokazywane. Kółka są ładne, ale powinny być stosowane wyłącznie by pokazywać udział części w całości. Do tego zostały stworzone. Niestety, używane są do pokazywania dowolnych zestawień liczb. Tak jest np w raporcie GDDKIA dotyczącym przejść dla zwierząt.

Ceny metra bieżącego rury o różnych przekrojach przedstawiono jako fragment wycinka koła. Wykres kołowy aby miał sens musi przedstawiać część całości. A do czego sumują się te ceny? (Bonusowe punkty w moim zestawieniu za wykres kołowy w 3D).

4. Wykresy kopertowe są gorsze

Zazwyczaj narzekam na wykresy kołowe, ponieważ są często stosowanej niezgodnie z ich przeznaczeniem. Gorszą rzeczą od wykresów kołowych są wykresy kołowe przycięte do kwadratu. Nie często jednak można znaleźć taki wykres jak poniżej (dziękuję Gazeta Prawna) z wykresem kołowym przyciętym do koperty. Trzeba przyznać że to 12% wygląda na niepokojąco duży obszar w porównaniu z 29%.

Problem z wykresem: pola obszarów na wykresie nie są proporcjonalne do przedstawianych liczb. Rozumiem skojarzenia grafika, ale da się zrobić estetyczną wizualizację nie łamiącą proporcji.

5. Hiperprecyzyjnie o alkoholu

Wykres z TVN przedstawiający jak zwiększyła się wartość sprzedanego alkoholu pomiędzy latami 2014 a 2017. Gdyby podzielić dwie zaprezentowane liczby, okazałoby się, że ta wartość wzrosła o 5%.

Pokazanie 11 cyfr utrudnia szybkie porównanie tych dwóch liczb, a słupki oczywiście nie zaczynają się w zerze.
Zaciemnianie przez uszczegóławianie.

6. Wykres kłosowy

Ciekawymi wariantami wykresów słupkowych są wykresy, które zamiast nudnych słupków stosują fajne grafiki, np kłosy jak w raporcie apostel.pl. I tutaj jednak, trzeba zaczynać kłosy od zera, inaczej wykres prezentuje zaburzone proporcje.

Np. na poniższym wykresie pierwsze 103 jest od kolejnego 99 większe o 4% (i jednoczesnie o 4 punkty procentowe). Ale optycznie wygląda na ponad dwukrotną różnicę.

7. Pamiętaj o opisach

Na portalu forsal.pl w dziale Gospodarka, znajduje się taki ciekawy wykres. Prezentuje on prawdopodobnie spadek oczekiwań inflacyjnych, choć z samego wykresu trudno odgadnąć co oznaczają odcinki różnych kolorów. W oryginalnym artykule, po kliknięciu na wykres można przejść na inną stronę, gdzie kolory linii są już oznaczone (od lewej USA, Europa i Japonia, a szara linia to cel inflacyjny).

W wersji zaprezentowanej na stronie, bez opisów, wykres jest niezrozumiały.

8. Ale te pensje urosły

Skąd się bierze ta awersja do zaczynania wykresów słupkowych w zerze? Poniżej przykład z podsumowania badania losów absolwentów. Pensja absolwentów wzrosła o 6.6% a z poniższego wykresu można odnieść wrażenie, że wzrosła ponad dwukrotnie.

9. Takie cuda, to tylko w podręcznikach do historii

Kolejny przykład pochodzi z podręcznika do historii Historia. Po Prostu. Mamy ciekawy wykres pokazujący bezrobocie i zatrudnienie. Ale coś się złego dzieje z osiami na tym wykresie. Skala dla zatrudnienia ma inną jednostkę niż skala dla bezrobocia (w roku 1933 liczba 780 tys. bezrobotnych ma słupek niewiele krótszy niż 1730 tys. pracujących), skoki słupków są oderwane od skoków liczb (pomiędzy 1934 a 1936 zatrudnienie rosło o 70 tys, ale po słupkach tego nie widać), i skala też jest podejrzana (620 tys. bezrobotnych w 1936 ma krótszy słupek niż 240 tys. bezrobotnych w 1930).

I co mają zrobić wzrokowcy, którzy zapamiętają z wykresu trendy, ale nie wykują na pamięć liczb?

10. Czego się nie robi by być konsekwentnym

Ministerstwo Edukacji Narodowej w marcu na Twitterze umieściło taki to piękny wykres. Wymowa jest dosyć oczywista, będzie coraz więcej pieniędzy na podwyżki dla nauczycieli. Co rok więcej, a już pod koniec to tak dużo, że się ledwie mieści na wykresie.

Tylko, że ostatni słupek to suma lat 2017-2020 (równie dobrze mogłaby być suma 2014-2020). Gdy się od tego 6,3 mld odejmie liczby przedstawione w poprzednich latach to się okaże, że w roku 2020 na podwyżkę przeznaczone będzie 1,4 mld, a więc ponad dwa razy mniej niż w 2019. Liczby niby są, ale gdyby pokazano ten spadek to trend już nie byłby taki konsekwentny.

11. Większa 1/3

Poniższy wykres przedstawia wyniki ankiety z maja, gdzie zbierano odpowiedzi na pytanie ,,Czy PO chciałaby ograniczyć programy socjalne wprowadzone przez PiS”. Pomijam już kwestię sformułowania pytania, moją uwagę zwrócił nagłówek interpretujący wykres.

Na to pytanie 12% odpowiedziało zdecydowanie tak, a 25% odpowiedziało raczej tak (w sumie 37%). Te 37% wystarczyło by w nagłówku napisać ,,większość Polaków”. Jak widać Ci co nie mają zdania nie są prawdziwymi Polakami.

Wyniki tego badania trafiły do mediów w jeszcze bardziej okrojonej postaci.

12. Słupki, wszędzie słupki

Ostatnia pozycja nie pochodzi z polskiej prasy, ale muszę się podzielić tym znaleziskiem. W listopadzie trafiłem na dwie konferencje z przetwarzania języka naturalnego metodami AI/ML. Większość prezentacji pokazywała wyniki ilościowe dla różnych wytrenowanych modeli uczenia maszynowego. Zazwyczaj z użyciem słupków. Różnice są zazwyczaj małe, więc 3/4 prezentacji miała te słupki poucinane w losowych miejscach. Poniżej zdjęcie slajdu z pierwszego zaproszonego prelegenta.

Wojna o słupki zaczynające się od 0 nie jest przegrana! Naście lat temu pamiętam jak wyniki map ciepła w publikacjach bioinformatycznych były w mapie kolorów zielony – czerwony (a więc tragicznej dla osób z upośledzonym widzeniem barw). Zaledwie po kilkunastu latach widać zmianę trendu, bioinformatycy są coraz bardziej uświadomieni i coraz więcej map ciepła jest w kolorystyce niebieski – różowy!

Z wykresami słupkowymi też tak będzie! To moje noworoczne życzenie na najbliższą dekadę 😉

Zagłosuj!

Który wykres(y) zasługuje na miano najgorszego wykresu roku 2019?

Który wykres zasługuje na tytuł ,,Zniekształcenie roku 2019''?

View Results

Loading ... Loading ...

Dziękuję za wszystkie przesłane przez Was wykresy (a było ich sporo, i wokół afery z wynagrodzeniami w NBP, i wokół strajku nauczycieli i wokół wyborów). Do plebiscytu wybrałem tylko 12, ale za każde zgłoszenie bardzo dziękuję.
Osoba, która zgłosiła zwycięski wykres otrzyma dwie książki o wizualizacji Wykresy Unplugged i Odkrywać, Ujawniać, Objaśniać.

Rozstrzygnięto konkurs na komiks o matematyce, informatyce i analizie danych!

Miesiąc temu pisałem o konkursie na najlepszy komiks o matematyce, informatyce i analizie danych. W ubiegłym tygodniu rozstrzygnęliśmy pierwszą edycję!
Nie było to proste. Z ponad 25 zgłoszeń trzeba było wybrać najlepsze w dwóch kategoriach: kategorii szkoły średnie i w kategorii otwartej (w której nagrody funduje nasza fundacja). Komisja w składzie: Kamila Łyczek (Delta), Barbara Roszkowska-Lech (MiNI PW), Tomasz Biernacki (znawca komiksu) i niżej podpisany Przemysław Biecek obradowała zaciekle. Głosy były zróżnicowane, ale koniec końców wybraliśmy bardzo ciekawe prace.

Czy jesteście ciekawi jakie prace nagrodzono?

W kategorii otwartej I nagrodę otrzymał komiks Inwersja Małgorzaty Łazęckiej.

Wyróżniliśmy też dwie świetne prace.

Przystające autobusy Piotra Nieżurawskiego.

Oraz Wpływ społeczności na rozwój PYTHONA Marty Czanockiej-Cieciury.

Więcej o konkursie oraz o wynikach w kategorii dla szkół średnich można przeczytać na tej stronie.
Wszystkie prace nadesłane na konkurs będzie można zobaczyć na specjalnej wystawie komiksów w dniu 12 września 2019 r. w Gmachu Wydziału Matematyki i Nauk Informacyjnych Politechniki Warszawskiej w czasie V Dnia Popularyzacji Matematyki. W tym dniu, w czasie uroczystej gali nastąpi wręczenie nagród wyróżnionym.

Możecie już się przygotowywać do kolejnej edycji!

Ile punktów potrzeba by się dostać do szkoły średniej w Warszawie?

W tym artykule Polityki przeczytałem, że ponad 3 tysiące uczniów nie dostało się do żadnej z wybranych szkół średnich w Warszawie. Pomimo wysiłku szkół by przyjąć możliwie wielu uczniów.

Marcin Luckner (MiNI PW) przesłał mi ciekawą analizę progów punktowych w różnych oddziałach w Warszawie. Poniżej umieszczam wybrane wykresy po drobnych zmianach. Dane pochodzą z serwisu edukacja.warszawa.pl. Przy okazji też będziemy mogli porównać kilka sposobów pokazywania rozkładów.

W powyższych danych znajduje się informacja ile punktów było potrzeba aby dostać się do wskazanego oddziału we wskazanej szkole średniej. W rozbiciu na typ szkoły i na to czy rekrutowały się dzieci z podstawówek czy gimnazjów.
Poniższy wykres (histogram) pokazuje jak wyglądają progi punktowe w różnych typach oddziałów. Na wykresie nie ma szkół sportowych, ponieważ tam były dodatkowe punkty sprawnościowe i trudno te progi porównać.

W różnych mediach można znaleźć informację o uczniu, który miał 190 punktów i nie dostał się do żadnej wybranej szkoły. Ale były też szkoły, które miały znacznie niższe progi przyjęcia. Bardzo wiele oddziałów miało progi przyjecia w okolicy 160 punktów.

John Tukey lata temu zaproponował by rozkłady opisywać za pomocą piątki liczb – min, max, mediana i kwartyle. To 5 liczb które dzieli wartości na 4 równe przedziały. Można je pokazać za pomocą wykresów pudełkowych.

Poniżej mamy wykresy pudełkowe z rozkładem progów punktowych podziałem na dzielnice. Im szersze pudełko tym więcej szkół jest w danej grupie. Najwyższe progi były w szkołach w Śródmieściu (ponad połowa oddziałów miała próg przyjęcia powyżej 165 punktów). łatwiej było się dostać do szkół średnich na Pradze czy w Ursusie.

Okazuje się, że i moją i Marcina ulubioną techniką pokazywania rozkładów jest dystrybuanta empiryczna. Wykres poniżej pokazuje jaki procent oddziałów ma prób przyjęcia mniejszy niż x.

Przykładowo szara linia odpowiada progowi 150 punktów. Tyle punktów wystarczyły by dostać się do praktycznie wszystkich oddziałów integracyjnych, ale już tylko do około 60% oddziałów ogólnych (1 na 3 oddziały ogólne ma wyższy prób punktowy), do około 33% oddziałów w szkołach dwujęzycznych (2 na 3 oddziały w szkołach dwujęzycznych ma wyższy próg przyjęcia). Nie wystarczy na szkoły z międzynarodową maturą.

To jaki jest Wasz ulubiony sposób pokazywania rozkładów?

MI2 @ Data Science Summit (x5) – już za tydzień


Już za tydzień na wydziale MiNI Politechniki Warszawskiej odbędzie się konferencja Data Science Summit.

Aż trudno uwierzyć, że to dopiero trzecia edycja. Z roku na rok rośnie w zawrotnym tempie ściągając ciekawych prelegentów i uczestników z Polski i zagranicy. Dziś jest to jedna z największych konferencji Data Science w regionie.

Rada programowa DSS miała nie lada zadanie by wybrać z ponad 160 zgłoszeń te, które porwą uczestników konferencji (a ma ich być rekordowo wielu). Zgłoszone tematy są bardzo ciekawe i różnorodne (pełny program). Mnie szczególnie cieszy szeroka reprezentacja współpracowników z MI2 DataLab na tej konferencji.
Znajdziecie nas na tych prezentacjach:

W bloku NLP w godzinach 11:00 – 11:30 Barbara Rychalska i Anna Wróblewska opowiedzą o frameworku WildNLP to analizy wrażliwości modeli NLP na celowe ataki lub losowe zakłócenia (więcej o projekcie na tym repo).

W bloku Computer Vision w godzinach 11:40 – 12:10 Anna Wróblewska i studenci z Projektu Zespołowego opowiedzą o fantastycznym projekcie ChaTa – (Charts and Tables), który wspiera automatyczną ekstrakcję i analizę wykresów i tabel w raportach.

Na Main Stage w godzinach 14:30 – 15:00 Przemyslaw Biecek (czyli ja 😉 ) będzie opowiadał o wyjaśnialnym uczeniu maszynowym. To super gorący temat w świecie AI/ML. Nie zabraknie oczywiście naszego flagowego projektu DrWhy.AI, ale będzie też sporo ciekawostek ze świata IML/XAI.

W bloku Future of Data Science: Healthcare w godzinach 15:50 – 16:20 Adam Dobrakowski opowie o wynikach z prowadzonego projektu dotyczącego segmentacji wizyt lekarskich. Jak AI może wspierać naszą służbę zdrowia? Przyjdźcie, zobaczcie!

W bloku Customer Analytics w godzinach 14:30 – 15:00 o segmentacji z użyciem NMF będzie opowiadał Marcin Kosiński (nasz alumni, obecnie Gradient).

W przerwie pomiędzy referatami możecie znaleźć nasz DataLab w pokoju 44 w budynku MiNI (tam gdzie będą referaty). Wpadnijcie porozmawiać o wspomnianych wyżej i innych toczących się projektach (XAI, AutoML, AutoEDA, IML, NLP, AI w medycynie i inne). Jeżeli nie wiecie jak do nas zagadać, to zawsze możecie zacząć od ,,Słyszałem, że macie świetną kawę…”. Nie odmówimy!

Btw, szukamy doktoranta do zespołu, więc może akurat…

Matematyka w komiksie, komiks w matematyce – jeszcze tylko tydzień na Wasze zgłoszenia!


Do 12 czerwca można zgłaszać pomysłowe komiksy o matematyce, informatyce lub analizie danych na konkurs ,,Matematyka w komiksie, komiks w matematyce”.

Zgłaszać można komiksy o objętości od jednego okienka lub jednego paska do jednej strony A4.
Najlepsze komiksy trafią na okładkę Delty i/lub otrzymają nagrody rzeczowe.

Kręci Cię matematyka?
Masz pomysł jak ją pokazać w komiksie!
Prześlij Twoją propozycję na ten konkurs.

Więcej informacji na stronie konkursu https://dpm.mini.pw.edu.pl/node/710.

Kto myśli na rok do przodu sieje zboże (…) a kto myśli na wiele wiele lat do przodu wychowuje młodzież

Dzisiaj rozpoczyna się strajk nauczycieli. Gorąco kibicuję nauczycielom. I jako rodzic dzieci w wieku szkolnym, i jako nauczyciel akademicki, i jako entuzjasta edukacji dzieci i młodzieży. Bardzo dużo zawdzięczam moim nauczycielom, a los zetknął mnie z wieloma pozytywnie zakręconymi pasjonatami.

W czasach gospodarki opartej na wiedzy to edukacja jest sprawą kluczową. A nie ma dobrej edukacji bez pozytywnej selekcji, którą zapewnić mogą dobre warunki pracy. Dobre zarówno jeżeli chodzi o wynagrodzenia jak i stabilne podstawy programowe, możliwości rozwoju i odpowiednie wyposażenie szkół.
Dlatego popieram strajkujących nauczycieli.

Przemysław Biecek

Btw: Poniższy wykres z twittera KPRM ma współczynnik Lie-Factor przekraczający 350%. Jednak warto zwiększyć liczbę godzin matematyki w szkołach.

Bank będzie musiał wyjaśnić… czyli o wyjaśnialnych modelach predykcyjnych

Czym są wyjaśnialne modele predykcyjne?

Interpretowalne uczenie maszynowe (IML od Interpretable Machine Learning) czy wyjaśnialna syntetyczna inteligencja (XAI od eXplainable Artificial Intelligence) to względnie nowa, a ostatnio bardzo szybko rozwijająca się, gałąź uczenia maszynowego.

W skrócie chodzi o to, by konstruować takie modele, dla których człowiek możne zrozumieć skąd biorą się decyzje modelu. Złożone modele typu lasy losowe czy głębokie sieci są ok, o ile potrafimy w jakiś sposób wyjaśnić co wpłynęło na konkretną decyzję modelu.

Po co?

W ostatnich latach często uczenie maszynowe było uprawiane ,,w stylu Kaggle”. Jedynym kryterium oceny modelu była skuteczność modelu na jakimś ustalonym zbiorze testowym. Takie postawienie sprawie często zamienia się w bezsensowne żyłowanie ostatnich 0.00001% accuracy na zbiorze testowym.

Tak wyżyłowane modele najczęściej epicko upadają w zderzeniu z rzeczywistością. Ja na prezentacjach lubię wymieniać przykłady Google Flu, Watson for Oncology, Amazon CV, COMPAS i recydywizm czy przykłady z książki ,,Broń matematycznej zagłady”. Ale lista jest znacznie dłuższa.

Dlaczego to takie ważne?

W lutym fundacja Panoptykon pisała Koniec z „czarną skrzynką” przy udzielaniu kredytów. W ostatni czwartek (21 marca) w gazecie Bankier można było znaleźć ciekawy artykuł Bank będzie musiał wyjaśnić, dlaczego odmówił kredytu, w której opisuje niektóre konsekwencje ustawy przyjętej przez Senat.

Przykładowy cytat:
,,Ustawa wprowadza także m.in. przepis nakazujący bankom przedstawienie klientowi wyjaśnienia dotyczącego tego, które dane osobowe miały wpływ na ostatecznie dokonaną ocenę zdolności kredytowej. Obowiązek ten będzie dotyczył zarówno sytuacji, w której decyzja ta została podjęta w pełni zautomatyzowanym procesie, na podstawie tzw. algorytmów, jak i sytuacji, w której w podejmowaniu decyzji brał udział także człowiek”.

Wygląda więc na to, że niedługo wyjaśnialne uczenie maszynowe spotka nas w okienkach bankowych przy okazji decyzji kredytowych.

Nie tylko banki

Okazuje się, że temat wyjaśnialności w czwartek omawiany był nie tylko w Senacie. Akurat byłem tego dnia na bardzo ciekawej konferencji Polish Business Analytics Summit, na której dr Andrey Sharapov opowiadał o tym jak Lidl wykorzystuje techniki XAI i IML do lepszego wspomagania decyzji.

Zbudować model jest prosto, ale pokazać wyniki modelu biznesowi, tak by ten wiedział jak na ich podstawie podejmować lepsze decyzje – to jest wyzwanie dla XAI. Andrey Sharapov prowadzi na LinkedIn ciekawą grupę na którą wrzuca materiały o wyjaśnialnym uczeniu maszynowym. Sporo pozycji można też naleźć na tej liście.

Na poniższym zdjęciu jest akurat przykład wykorzystania techniki Break Down (made in MI2 Data Lab!!!) do wspomagania decyzji dotyczących kampanii marketingowych.

Warszawa po raz trzeci

Aż trudno uwierzyć w ten zbieg okoliczności, ale tego samego dnia (tak, wciąż piszę o 21 marca) na Spotkaniach Entuzjastów R profesor Marco Robnik omawiał różne techniki wyjaśnialności opartej o permutacje.

Skupił się na technika EXPLAIN i IME, ale było też o LIME i SHAP a na niektórych slajdach pojawiał się nasz DALEX i live (choć pewnie my byśmy już reklamowani nowsze rozwiązanie Mateusza Staniaka, czyli pakiet localModels).

Btw, spotkanie było nagrywane, więc niedługo powinno być dostępne na youtube.

Gdzie mogę dowiedzieć się więcej?

Wyjaśnialne uczenie maszynowe to przedmiot badań znacznej części osób z MI2DataLab. Rozwijamy platformę do automatycznej analizy, eksploracji i wyjaśnień dla modeli predykcyjnych DrWhy.AI.

Niedługo napisze więcej o materiałach i okazjach podczas których można dowiedzieć się więcej o ciekawych zastosowaniach technik wyjaśnialnego uczenia maszynowego w finansach, medycynie spersonalizowanej czy innych ciekawych miejscach.

To już 5 lat! Gość specjalny na najbliższym SERze opowie o wyjaśnialnym ML

W najbliższy czwartek o godzinie 18:00 startujemy z 38. spotkaniem Entuzjastów R.
Aż trudno uwierzyć, że minęło już 5 lat od naszego pierwszego spotkania w ICMie. Przez te 5 lat gościliśmy ponad 70 prelegentów, często osoby, które znaliśmy z ciekawych blogów, pakietów czy książek. Większość prelegentów pracuje w Warszawie, ale też byli ciekawi goście z innych miast, krajów czy nawet spoza Europy. Społeczność sympatyków na meetupie przekroczyła niedawno 2000 osób. W kontynentalnej Europie większa jest tylko grupa użytkowników R w Madrycie (niewiele większa, więc kto wie).

Na najbliższym – jubileuszowym – spotkaniu będziemy gościć profesora Marko Robnik-Šikonja z uniwersytetu w Ljubljanie. Autor kilkudziesięciu znanych prac naukowych z obszaru uczenia maszynowego, autor pakietu ExplainPrediction dla programu R. Na SERze opowie o technikach permutacyjnego wyjaśniania złożonych modeli, w szczególności EXPLAIN, IME, LIME czy SHAP.
Super gorący temat opowiedziany przez światowej sławy specjalistę.
Czegóż chcieć więcej na urodziny?

Ach oczywiście.
Będzie też tort!

Zapraszamy wszystkich sympatyków R, SERów czy wyjaśnialnego uczenia maszynowego. Spotykamy się w sali 107 na wydziale MiNI PW (Koszykowa 75, Warszawa).
Najlepiej zaznaczyć obecność przez stronę na meetupe, ułatwi nam to planowanie wielkości tortu. Do zobaczenia!

DWUMiAN – przyjdź, posłuchaj, opowiedz!


Niewiele jest imprez tak bliskich mojemu sercu jak studencka konferencja DWUMiAN.

Konferencja organizowana przez dwa największe wydziały matematyczno-informatyczne w Warszawie (MiNI PW i MIM UW).

Pierwsza edycja miała miejsce na wydziale MiNI PW, a wykład otwierający miał dziekan MIM UW, prof. Paweł Strzelecki.
W tym roku konferencja ma miejsce na wydziale MIM UW, a wykład otwierający ma dziekan MiNI PW, prof. Wojciech Domitrz.

W programie wiele ciekawych referatów, też o analizie danych (lista zaproszonych gości).

Najważniejsze: do 10 marca można się jeszcze rejestrować. Można też zgłaszać propozycje prezentacji i plakatów! Zawsze warto opowiedzieć o zrealizowanych ciekawych projektach braci studenckiej (ciekawe staże wakacyjne, prace dyplomowe, projekty uczelniane i poza uczelniane są mile widziane).

Oby było więcej takich inicjatyw. Inicjatyw, które łączą i budują pomosty.
Wśród organizatorów są oczywiście osoby z MI2DataLab (wiwat Alicja!), a SmarterPoland jest organizacją wspierającą.

Zarejestruj się tutaj!

Który z nich zostanie najgorszym wykresem 2018?

Zbliża się Sylwester, czas więc wybrać najgorszy wykres roku 2018! Plebiscyt przeprowadzamy co roku od 2012 (edycja 2017,edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012). Z roku na rok dostaję coraz ciekawsze zgłoszenia. Z tegorocznych zgłoszeń (oj, było ich bardzo dużo!) wybrałem 11 niezwykłych propozycji. Dziękuję wszystkim za podsyłanie nominacji.

Zasada plebiscytu jest prosta. Do końca roku można wskazywać swoje typy na najgorszy wykres, głosując za pomocą ankiety umieszczonej na końcu tego wpisu. W jednym dniu można głosować tylko raz. Jednocześnie można wskazać do 5 kandydatów. Po nowym roku zobaczymy, który wykres otrzymał najwięcej głosów. To on otrzyma tytuł „Zniekształcenie roku 2018”. Aby ułatwić głosowanie, każdy kandydat ma skrótową wpadającą w ucho nazwę.

Który wykres okaże się najgorszym wykresem 2018 roku? Wybierzcie sami.

1. Odra w Polsce

Poniższy wykres pochodzi z artykułu TVN24 Mniej szczepień, odra atakuje. Cytując fragment z tego artykułu ,,Jeszcze w 2010 roku zachorowań na odrę było w Polsce kilkanaście, w 2012 roku ponad 70, w zeszłym roku już 133 (http://www.tvn24.pl)”

Niby wszystko ok, wiadomo też, że warto się szczepić, wiec artykuł zgodny ze zdrowym rozsądkiem. Ale gdy przedstawić dane z ostatnich 14 lat prezentowane przez Rządowe Centrum Bezpieczeństwa to słupki powinny wyglądać tak.

Na czerwono zaznaczono dane przedstawione na wykresie TVN24. Problem z wykresem polega na wyborze danych psujących do historii, a nie zaprezentowanie kompletu danych.
Artykuł jest z 2017* roku, więc autor nie wiedział, że w 2017 całkowita liczba zachorowań będzie niższa. Ale dane z 2008, 2009 i 2015 już były dostępne, tyle że nie pasowały do trendu (*wykres trafił do mnie dopiero w tym roku, więc trafił do tegorocznego głosowania).
Problem z wykresem: wybiórcze prezentowanie danych.

2. Coraz lepiej

Poniższy wykres pochodzi z serwisu Budżet Wrocławia 2018. Cytując fragment wprowadzenia ,,Bez skomplikowanych tabel i wykresów prezentujemy wydatki miasta ”. Bardzo słuszny pomysł. Ale wykonanie? To akurat pierwszy wykres z tej strony www:

Lie factor 1.5.
(co to jest Lie-factor? tutaj definicja w języku angielskim a tu opis po polsku).
Paski na wykresie sugerują wzrost o 66% (stosunek 1:1.66) a w rzeczywistości patrząc na liczby wyniósł on 7.5% (stosunek 1:1.075). Pomijam fakt, że wzrost na 2017 był inny niż rok później, czego na wykresie nie widać. Pomijam fakt, że dochody są mniejsze od wydatków, co już się tak w oczy nie rzuca.
Problem z wykresem: paski, które nie są proporcjonalne do prezentowanych liczb. Sugerują większy wzrost dochodów niż w rzeczywistości.

3. Ratunku

Poniższy wykres pochodzi z raportu Pielęgniarki Cyfrowe. Można z niego odczytać, że najniższe zarobki są niższe niż najwyższe. Ale jakie to są kwoty odczytać trudno. Czy ten efekt pseudo 3D był potrzebny?

Problem z wykresem: pseudo-3D utrudnia odczytanie wartości, które odpowiadają prezentowanym słupkom.

Bonus to drugi wykres z tego raportu. Autor prawdopodobnie pomylił znaki nierówności w legendzie. Gdy się wczytać w opis tego wykresu to okazuje się, że ten 1% to jedna pielęgniarka z 400. Trudno odgadnąć też skąd ten szary kwadrat. Za los pielęgniarek trzymam kciuki, ale powinny znaleźć kogoś wymiaru Florence Nightingale do przygotowania wykresów do raportu.

4. Skala

Na Twitterze użytkownika pisorgpl w sierpniu można było znaleźć wykres pokazujący wzrost dochodów z VAT.

Brak osi OY sugerował, że coś może być z nią nie tak. Problem z zaczepianiem słupków w 0 zauważyła między innymi gazeta.pl i opisała w tym artykule.

Wykres pokazujący problem z portalu gazeta.pl

Proporcja najwyższego i najniższego słupka na wykresie to 239px/52px czyli ~4.6. Proporcje liczb to 167/99.
Lie factor ~2.75.

Problem z wykresem: słupki, które nie są zaczepione w 0.

5. Kto wyleczy ten wykres?

Jeżeli jesteśmy już w tematach Twittera, to na Twitterze NFZ można było znaleźć taką grafikę.

Na wykresie przedstawiono planowane wydatki. Wzrost wydatków o 7.7% przedstawiono za pomocą pięciokrotnie wyższego słupka.
Lie factor 4.

Problem z wykresem: słupki, które nie są zaczepione w 0.

6. Pochyl się nad absencją

Na stronie Rynku Pracy znaleźć można taki wykres.

Nie zawsze problem z słupkami polega na tym, że nie zaczynają się w 0. Czasem po prostu trudno odczytać gdzie się kończą. Konia z rzędem, kto odczyta czy absencja w usługach jest wyższa niż w produkcji.

Problem z wykresem: (zbędna) perspektywa i obroty utrudniają odczytanie wartości z wykresu.

7. Polska A, B, C, D, E, F i G

Na portalu Do Rzeczy opublikowano taki sondaż (który trafił do mnie przez Twittera).
Bardzo kreatywne podejście do przedstawiania wyników sondażu.

Problem z wykresem: prezentacja danych utrudnia odczytanie wartości z wykresu.

8. 20%

Było coś z mediów rządowych, to teraz coś od opozycji. Również dostałem namiary na ten wykres przez Twittera, więc przesyłam razem z całym twitem.
To 20% dla PO wygląda bardzo dumnie w zestawieniu z sąsiadującym 37%. Stosunek liczb 20/37 ~ 54/100, stosunek wysokości słupków 370px/458px ~ 81/100.
Lie factor ~1.5.

Kwiatków jest więcej. 17% dla ,nie wiem’ wygląda jak 7% dla partii Kukiza. Za to 6% dla Nowoczesnej jest bardzo daleko od tych 7% dla Kukiza.
Problem z wykresem: słupki nieproporcjonalne do prezentowanych wartości.

9. Od morza po góry

Często narzekam na wykresy z perspektywą, a to że utrudniają odczytanie wartości, a to że perspektywa to zbędny ozdobnik.
Ale tak pochylonego wykresu to jeszcze nie widziałem.

Problem z wykresem: zbędne pochylenie wykresu utrudnia odczytywanie danych z wykresu. Legenda po prawej stronie jest całkowicie zbędna.

10. Wykres zagadka

Ponownie wykres z Twittera. Obok słupków znajduje się informacja o 6% PKB na zdrowie w 2024 r. Ale wykres sugeruje, że w 2024 to już będzie prawie 8% (o ile na osi są %, przydałby się jakiś opis).

Problem z wykresem: opis nie pasuje do wykresu.

11. Kolorowo

Zejdźmy już może z polityki. Coś lżejszego na koniec. Wykres z profilu mojego pracodawcy – statystyki rekrutacji na UW. Zdobył moje serce podwójną legendą dla kolorów (Białystok i ekonomia dzielą się czerwonym, Radom i sinologia żółtym itp) i wykresem kołowym który nie przedstawia udziałów (studiów stacjonarnych na UW jest więcej niż te 6 wymienione w plasterkach kółka, poza tym z udziałami bardziej już kojarzy się liczba miejsc na kandydata niż kandydatów na miejsce). To nie jest tak, że dowolne kilka liczb można rzucić na wykres kołowy!


Problem z wykresem: szerokość białego wycinka koła sugeruje, że coś jest około 1/6 całości. Ale ta intuicja nie ma związku z prezentowanymi wartościami.


Ja swoich dwóch faworytów już mam. Zwycięski wykres trafi do Eseju Info-pomyłka. Jeżeli uda mi się zidentyfikować autora wykresu, to wyślę mu też jeden egzemplarz Esejów na pamiątkę. Ogłoszenie wyników plebiscytu po nowym roku.

Dziękuję wszystkim osobom, które przesłały mi swoje propozycje, nawet jeżeli nie znalazły się w powyższym zestawieniu. Ale sami widzicie, że konkurencja jest duża.

To kto powinien wygrać?

Który wykres zasługuje na tytuł ,,Zniekształcenie roku 2018''?

View Results

Loading ... Loading ...