Plebiscyt na najgorszy wykres roku 2020

Koniec roku to idealny czas na podsumowania i zestawienia. W tym roku wiele się działo, pandemia, wybory prezydenckie, zakup respiratorów od handlarza bronią… Idealne tematy do prezentacji danych z użyciem wykresów. Obok świetnych wykresów (,,flattening the curve” przejdzie do historii) w przestrzeni publicznej pojawiły się też rozwiązania urągające poczuciu smaku lub rozsądkowi.

Który z wykresów był najgorszym z najgorszych? Wybierzmy go w IX plebiscycie na najgorszy wykres roku. Finalistów i zwycięzców z poprzednich można znaleźć na stronach: edycja 2019, edycja 2018, edycja 2017, edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012.

W ciągu roku otrzymałem wiele zgłoszeń i za wszystkie bardzo dziękuję. Wybrałem z nich 10 pozycji, które budzą koszmary u co bardziej wrażliwych adeptów wizualizacji danych. Oto moje subiektywne ,,top 10”. Pomóżcie mi wybrać wykres – ikonę najgorszej wizualizacji roku 2020.

1. Wykresy, których nie było

Pierwszy finalista to prezentacja danych, która nie jest typowym wykresem. W ogóle nie jest wykresem. Ale dodaję ją jako reprezentanta wszystkich zaprzepaszczonych szans na czytelną komunikację o tym jak wygląda pandemia koronawirusa w Polsce. Oto ona:

Być może nie wiecie, bo łatwo było to przegapić, że istnieje oficjalna rządowa strona https://www.gov.pl/web/koronawirus/ prezentująca dane o stanie pandemii. Dzisiaj na tej stronie są nawet całe dwa kartogramy. Ale przez długi czasu, na tej stronie widniały nieczytelne tabelki z pojedynczymi liczbami. Zupełnie nic nie mówiące o rozwoju pandemii.
Offtopic: brawa dla Michała Rogalskiego za zbieranie danych i prezentacje ich w czytelny sposób. Naprawdę dobrze prezentowane są dane o covid na stronach Polityka.pl i kilku innych serwisach, ale o tym napiszę w osobnym blogu.

2. TVP po raz pierwszy (bezrobocie)

Poniższy wykres przesłano mi w tym roku przynajmniej 10 razy, więc telewizja publiczna wchodzi do tegorocznego zestawienia z hukiem.
Jak doskonale widać na tym wykresie stopa bezrobocia rośnie.
To znaczy maleje.
To znaczy wygląda jakby malała, ale rośnie.
To znaczy rośnie, ale zaprezentowano ją tak by wyglądała jakby malała.

Swoją drogą w marcu 2019 było też 6% bezrobocia, w lipcu-wrześniu 2019 bezrobocie było rekordowo niskie. Większość specjalistycznych portali prezentuje dane o bezrobociu czytelnie jako szereg wartości z równym interwałem (miesiąc albo rok), szkoda że w TVP wybrano z niego trzy liczby i pokazano je w zły sposób.

3. TVP po raz drugi (wybory)

W tym roku mieliśmy dwie i pół tury wyborów prezydenckich (te które się nie odbyły liczę jak 0.5, taki statystyczny żart).
Oczywiście nie ma wątpliwości kto będzie liderem sondaży prezentowanych w TVP1, ale jak będzie wyglądała reszta stawki?

Słupek 1% dla Marka Jakubiaka jest niewiele niższy niż 4% dla Roberta Biedronia. Podobnie 4% dla Władysława Kosiniaka-Kamysza jest całkiem duże w porównaniu do 7% Krzysztofa Bosaka.
Zawsze powtarzam studentom wizualizacji danych, że patrząc na słupki intuicyjnie patrzymy na proporcje ich długości, więc najlepiej zaczepić je w zerze aby proporcje słupków oddawały proporcje prezentowanych wartości. W przypadku powyższych słupków zero jest na wysokości nosa kandydatów.

4. TVP po raz trzeci (UE)

Nie wiem co bardziej mnie boli w poniższym wykresie zaprezentowanym w TVP1.
Źle zadane pytanie w ankiecie (ale właściwie o co w nim chodzi), używanie skali kolorów czerwony/zielony (zielony odpowiada odpowiedzi, że mogą być różnie traktowane), nieszczęśliwie umieszczona legenda, czy prezentacja danych za pomocą wykresu kołowego w 3D.
Wydawałoby się, że XX wiek się skończył, a z nim skończyła się moda na trójwymiarowe wykresy kołowe prezentujące dwie liczby.

5. TVP po raz czwarty (zdrowie)

Poniższy wykres ma pokazywać, że wydatki na zdrowie rosną.
Choć gdy spojrzymy na oś OX to się okaże, że te wydatki będą rosły w przyszłości, ostatnie 6 słupków dotyczy kolejnych lat 2020-2025.
Oczywiście źle dobrano punkt zaczepienia słupków, więc ten magiczny wzrost z 5% PKB do 6% PKB wygląda jak prawie dwukrotne zwiększenie wydatków.


Offtopic: Czy 2 mld pln dofinansowania dla TVP przełoży się na sensowniejszą prezentację danych? Nie trzeba być statystykiem by przewidzieć jaka jest odpowiedź na to pytanie. Z dużymi liczbami łatwo się pogubić, więc dla porównania 2 mld to cztery razy więcej niż planowany roczny budżet programu Inicjatywa Doskonałości Uczelnia Badawcza (IDUB), czyli specjalnego celowego dofinansowania 20 najlepszych polskich uczelni. Tak, cztery razy więcej niż łączne dodatkowe dofinansowanie tych 20 uczelni (dla 10 uczelni to 10% extra subwencji, dla pozostałych 10 to 2% ekstra).
Wracamy do wykresów.

6. Floryda, czyli inni też nie umieją w słupki

Z portalu AnalitykPlakal na FB dostałem takie zgłoszenie, pokazujące, że nie tylko TVP nie umie w słupki. O co chodzi? Może o to, że 19 czerwca Floryda była w dołku?

7. Artykuły trzeba umieć czytać

Złe wykresy to nie tylko trzeci wymiar, źle narysowane słupki, czy nieczytelne wykresy kołowe. Najgorsze są te wykresy, które wyglądają sensownie ale zniekształcają prezentowane dane.
Na stronach premier.gov.pl znajdziecie taką grafikę.

Interesuje mnie modelowanie pandemii covid, więc gdy pierwszy raz zobaczyłem tę grafikę pomyślałem sobie – super, komuś udało się zmierzyć ryzyko zakażenia w różnych miejscach. Bardzo cenna informacja. Wygląda na to, że ryzyko zakażenia jest największe w restauracjach, centrach fitness, kawiarniach i hotelach. Coś takiego sugeruje tytuł wykresu.

Pierwsza wątpliwość naszła mnie gdy zobaczyłem oś OX. Ryzyko mierzone w liczbach od 1 do 10 000? Dziwna jednostka jak na ryzyko. Ale jest źródło, więc zobaczmy o co chodzi.

Odszukałem ten artykuł. Wykres z prezentacji premiera idealnie pasuje do Fig 2 D z tej publikacji (patrz powyżej). Tyle, że wykres w artykule nie pokazuje ryzyka ale liczbę dodatkowych zakażeń po otwarciu danego rodzaju miejsc. Czymś zupełnie innym jest ryzyko zakażenia w szkole, a liczba dodatkowych zakażeń jeżeli szkoły będą otwarte (np salonów samochodowych jest mniej niż szkół przez co przełożenie na liczbę zakażeń będzie inne). Co więcej, prezentowane w artykule liczby dotyczą wyników symulacji (stąd te kropeczki na wykresie w artykule, których zabrakło na prezentacji na stronach premier.gov.pl) a nie zmierzonych wartości. Co więcej, symulacje dotyczyły regionu 'Chicago metro area’ i nierozsądnie jest uogólniać te wnioski na cały kraj. Tym bardziej, że w cytowanym artykule pokazywane są dane dla różnych miast w USA i wyniki też są różne dla poszczególnych miast. No cóż, zgadzają się jedynie kolory pudełek, choć akurat te nic w tym przykładzie nie znaczą.

8. Spadający wiek biologiczny

Poniższy wykres pochodzi z prezentacji podsumowującej wyniki badań edukacyjnych TIMSS (Międzynarodowe Badanie Wyników Nauczania Matematyki i Nauk Przyrodniczych), które zostały opublikowane w tym roku. Spadek wyników uczniów nie przebił się w mediach przez strajki, więc łatwo było przeoczyć publikacje tych bardzo ważnych statystyk. Poniżej wklejam jeden wykres z oficjalnej prezentacji ministerstwa.

Można z niego odczytać, że średni wiek biologiczny spadł w skali jednego rocznika spadł o 33%. To zdanie pięknie ilustruje skutki gwałtu prowadzonego na edukacji od lat. Oczywiście średni wiek nie spadł o 1/3 tyko o 1/3 roku. Oczywiście zmiana wynika z tego, że mamy w TIMSS 19 grupę 2/3 dzieci, które zaczęły edukacje jako 7. latki i 1/3 które zaczęły jako 6-latki. Oczywiście aby zaprezentować dwie średnie nie trzeba robić wykresu liniowego z nieczytelną skalą OY.

Ale najbardziej boli to, że ten wykres jest masakryczną deformacją bardzo ciekawego wykresu 3.2 z raportu opracowanego przez IBE (cały raport jest ciekawy i wart przeczytania).

Rysunek z raportu IBE pokazuje jak różne grupy wiekowe przystąpiły do badania TIMSS w 2015 i 2019. Rysunek z raportu ministerstwa redukuje tę historię do dwóch źle zaprezentowanych liczb. Powinien kiedyś trafić do podręczników jako przykład jak nie wolno krzywdzić danych.

9. Uważaj na przezroczystość

Na koniec coś lżejszego. Poniższy wykres pochodzi z raportu PAN Zrozumieć Covid-19. Raport jest ciekawy i pełen interesujących informacji.
Jedną z nich jest zależność ryzyka śmierci od wieku i płci. W założeniu to ryzyko mógł pokazać wykres 16 (poniższy). Trudno jednak z niego odczytać jakie jest ryzyko w poszczególnych grupach wiekowych. Już Jacques Bertin w swojej genialnej Sémiologie Graphique pisał, że różne charakterystyki wykresu, w różny sposób nadają się do prezentacji danych. Poziom przezroczystości nada się do zaznaczenia porządku, ale nie nadaje się do pokazywania wartości w skali ilościowej.

10. To ja już wolę słupki

I jeszcze jedna wariacja na temat prezentacji danych. Zgłoszenie pochodzi z portalu AnalitykPlakal. Nie wiem co miał na myśli projektant tego wykresu. Ładniej będzie jeżeli zamiast proporcjonalnych słupków pokażemy nieproporcjonalne głowy liderów partii?


Weź udział w plebiscycie!

Który wykres(y) zasługuje na miano najgorszego wykresu roku 2020?
Zagłosuj! Niech wygra najgorszy!

Można wskazać więcej niż jednego kandydata.

Który wykres zasługuje na tytuł ,,Najgorszy wykres roku 2020''? (wskaż jednego lub więcej)

View Results

Loading ... Loading ...

To już koniec listy do głosowania. Zgłoszeń otrzymałem znacznie więcej, bardzo za nie dziękuję. Poniżej wrzucam jeszcze kilka obrazków, ale już bez komentarza (miniaturki można powiększyć).
Nie wklejam zgłoszeń koronawirusowych. Poświęcę im osobny wpis na blog.

Idzie nowy rok. Chciałbym nam wszystkim życzyć, aby w 2021 pojawiło się coraz więcej wizualizacji w czytelny sposób prezentujących nawet bardzo złożone dane.

Plebiscyt na najgorszy wykres roku 2019

Jeszcze tylko cztery dni do końca roku! To idealny czas na podsumowania i zestawienia. Jeden z tematów, który mnie najbardziej interesuje to wizualizacja danych w przestrzeni publicznej. A trzeba przyznać, że w tym roku dużo się działo w Polsce i na świecie, wiele wydarzeń aż proszących się o zaprezentowanie za pomocą wykresów.

W ostatnich dniach pojawiło się kilka zestawień najlepszych projektów dotyczących wizualizacji danych, jak np. lista zebrana przez FlowingData czy Information is Beautiful czy lista zebranych najlepszych wizualizacji z The Economist. To świetne pomysłowe, przemyślane i dopracowane w każdym szczególe wizualizacje.

Po drugiej stronie barykady stoją wykresy-koszmarki. Wykresy, które w skutek celowego działania, lub braku umiejętności projektanta, wykrzywiają dane i zniekształcają prezentowaną treść. To te wykresy są gwiazdami plebiscytu ,,Najgorszy wykres roku”, który organizuję już po raz ósmy (edycja 2018, edycja 2017, edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012).

Poniżej lista 12 wykresów wybranych z tych, które otrzymałem od Was w ciągu roku, lub które znalazłem gdzieś w otchłani internetu. Tworzenie epickich wizualizacji danych jest trudne, ale omijanie podstawowych błędów powinno być proste. Pomóżcie wybrać najgorszy z wykresów tego roku. Ja wyniki plebiscytu wykorzystuję między innymi na zajęciach o wizualizacji danych by ostrzegać studentów.

A przed tą dwunastką ostrzegać warto.

1. Prokuratura w liczbach

Pierwszy kandydat pochodzi z Twittera Arkadiusza Myrchy, który umieścił takie to zdjęcie z dokumentu Nowa prokuratura w świetle danych statystycznych. Do samego dokumentu nie udało mi się dotrzeć, był jednak krytykowany też tutaj.

Co jest nie tak w tym wykresie? Prokuratura Krajowa została ponownie utworzona (w miejsce Prokuratury Generalnej) w roku 2016. Nic więc dziwnego, że nie wpływały do niej wcześniej sprawy karne. Przecież nie istniała.

2. Diabelski wzrost składek

Po drugiej stronie politycznej barykady jest poniższy wykres opublikowany przez Platformę Obywatelską na Twitterze. Ten wykres zaprezentowany w lipcu miał pokazać znaczny wzrost wysokości składek ZUS dla przedsiębiorców.

Słupki nie zaczynają się w zerze. Z czasem słupki rosną w każdym wymiarze i dodatkowo zmieniają kolor. Dodatkowa strzałka sugeruje okrutnie wysoki wzrost składek ZUS. Gdy przeliczyć zaprezentowane liczby, okaże się, że wzrost składki w latach 2015-2019 to 20,5%. W tym czasie średnie wynagrodzenie wzrosło o prawie 27%.

.

3. Wykresy kołowe są złe

Na zajęciach z Technik Wizualizacji Danych często przywołuję słowa Edwarda Tuftego, że wykresy kołowe są złe. A od wykresu kołowego gorsze jest tylko wiele wykresów kołowych. Głównym problemem z wykresami kołowymi jest to, że są stosowane często bez żadnej refleksji, co do tego co jest pokazywane. Kółka są ładne, ale powinny być stosowane wyłącznie by pokazywać udział części w całości. Do tego zostały stworzone. Niestety, używane są do pokazywania dowolnych zestawień liczb. Tak jest np w raporcie GDDKIA dotyczącym przejść dla zwierząt.

Ceny metra bieżącego rury o różnych przekrojach przedstawiono jako fragment wycinka koła. Wykres kołowy aby miał sens musi przedstawiać część całości. A do czego sumują się te ceny? (Bonusowe punkty w moim zestawieniu za wykres kołowy w 3D).

4. Wykresy kopertowe są gorsze

Zazwyczaj narzekam na wykresy kołowe, ponieważ są często stosowanej niezgodnie z ich przeznaczeniem. Gorszą rzeczą od wykresów kołowych są wykresy kołowe przycięte do kwadratu. Nie często jednak można znaleźć taki wykres jak poniżej (dziękuję Gazeta Prawna) z wykresem kołowym przyciętym do koperty. Trzeba przyznać że to 12% wygląda na niepokojąco duży obszar w porównaniu z 29%.

Problem z wykresem: pola obszarów na wykresie nie są proporcjonalne do przedstawianych liczb. Rozumiem skojarzenia grafika, ale da się zrobić estetyczną wizualizację nie łamiącą proporcji.

5. Hiperprecyzyjnie o alkoholu

Wykres z TVN przedstawiający jak zwiększyła się wartość sprzedanego alkoholu pomiędzy latami 2014 a 2017. Gdyby podzielić dwie zaprezentowane liczby, okazałoby się, że ta wartość wzrosła o 5%.

Pokazanie 11 cyfr utrudnia szybkie porównanie tych dwóch liczb, a słupki oczywiście nie zaczynają się w zerze.
Zaciemnianie przez uszczegóławianie.

6. Wykres kłosowy

Ciekawymi wariantami wykresów słupkowych są wykresy, które zamiast nudnych słupków stosują fajne grafiki, np kłosy jak w raporcie apostel.pl. I tutaj jednak, trzeba zaczynać kłosy od zera, inaczej wykres prezentuje zaburzone proporcje.

Np. na poniższym wykresie pierwsze 103 jest od kolejnego 99 większe o 4% (i jednoczesnie o 4 punkty procentowe). Ale optycznie wygląda na ponad dwukrotną różnicę.

7. Pamiętaj o opisach

Na portalu forsal.pl w dziale Gospodarka, znajduje się taki ciekawy wykres. Prezentuje on prawdopodobnie spadek oczekiwań inflacyjnych, choć z samego wykresu trudno odgadnąć co oznaczają odcinki różnych kolorów. W oryginalnym artykule, po kliknięciu na wykres można przejść na inną stronę, gdzie kolory linii są już oznaczone (od lewej USA, Europa i Japonia, a szara linia to cel inflacyjny).

W wersji zaprezentowanej na stronie, bez opisów, wykres jest niezrozumiały.

8. Ale te pensje urosły

Skąd się bierze ta awersja do zaczynania wykresów słupkowych w zerze? Poniżej przykład z podsumowania badania losów absolwentów. Pensja absolwentów wzrosła o 6.6% a z poniższego wykresu można odnieść wrażenie, że wzrosła ponad dwukrotnie.

9. Takie cuda, to tylko w podręcznikach do historii

Kolejny przykład pochodzi z podręcznika do historii Historia. Po Prostu. Mamy ciekawy wykres pokazujący bezrobocie i zatrudnienie. Ale coś się złego dzieje z osiami na tym wykresie. Skala dla zatrudnienia ma inną jednostkę niż skala dla bezrobocia (w roku 1933 liczba 780 tys. bezrobotnych ma słupek niewiele krótszy niż 1730 tys. pracujących), skoki słupków są oderwane od skoków liczb (pomiędzy 1934 a 1936 zatrudnienie rosło o 70 tys, ale po słupkach tego nie widać), i skala też jest podejrzana (620 tys. bezrobotnych w 1936 ma krótszy słupek niż 240 tys. bezrobotnych w 1930).

I co mają zrobić wzrokowcy, którzy zapamiętają z wykresu trendy, ale nie wykują na pamięć liczb?

10. Czego się nie robi by być konsekwentnym

Ministerstwo Edukacji Narodowej w marcu na Twitterze umieściło taki to piękny wykres. Wymowa jest dosyć oczywista, będzie coraz więcej pieniędzy na podwyżki dla nauczycieli. Co rok więcej, a już pod koniec to tak dużo, że się ledwie mieści na wykresie.

Tylko, że ostatni słupek to suma lat 2017-2020 (równie dobrze mogłaby być suma 2014-2020). Gdy się od tego 6,3 mld odejmie liczby przedstawione w poprzednich latach to się okaże, że w roku 2020 na podwyżkę przeznaczone będzie 1,4 mld, a więc ponad dwa razy mniej niż w 2019. Liczby niby są, ale gdyby pokazano ten spadek to trend już nie byłby taki konsekwentny.

11. Większa 1/3

Poniższy wykres przedstawia wyniki ankiety z maja, gdzie zbierano odpowiedzi na pytanie ,,Czy PO chciałaby ograniczyć programy socjalne wprowadzone przez PiS”. Pomijam już kwestię sformułowania pytania, moją uwagę zwrócił nagłówek interpretujący wykres.

Na to pytanie 12% odpowiedziało zdecydowanie tak, a 25% odpowiedziało raczej tak (w sumie 37%). Te 37% wystarczyło by w nagłówku napisać ,,większość Polaków”. Jak widać Ci co nie mają zdania nie są prawdziwymi Polakami.

Wyniki tego badania trafiły do mediów w jeszcze bardziej okrojonej postaci.

12. Słupki, wszędzie słupki

Ostatnia pozycja nie pochodzi z polskiej prasy, ale muszę się podzielić tym znaleziskiem. W listopadzie trafiłem na dwie konferencje z przetwarzania języka naturalnego metodami AI/ML. Większość prezentacji pokazywała wyniki ilościowe dla różnych wytrenowanych modeli uczenia maszynowego. Zazwyczaj z użyciem słupków. Różnice są zazwyczaj małe, więc 3/4 prezentacji miała te słupki poucinane w losowych miejscach. Poniżej zdjęcie slajdu z pierwszego zaproszonego prelegenta.

Wojna o słupki zaczynające się od 0 nie jest przegrana! Naście lat temu pamiętam jak wyniki map ciepła w publikacjach bioinformatycznych były w mapie kolorów zielony – czerwony (a więc tragicznej dla osób z upośledzonym widzeniem barw). Zaledwie po kilkunastu latach widać zmianę trendu, bioinformatycy są coraz bardziej uświadomieni i coraz więcej map ciepła jest w kolorystyce niebieski – różowy!

Z wykresami słupkowymi też tak będzie! To moje noworoczne życzenie na najbliższą dekadę 😉

Zagłosuj!

Który wykres(y) zasługuje na miano najgorszego wykresu roku 2019?

Który wykres zasługuje na tytuł ,,Zniekształcenie roku 2019''?

View Results

Loading ... Loading ...

Dziękuję za wszystkie przesłane przez Was wykresy (a było ich sporo, i wokół afery z wynagrodzeniami w NBP, i wokół strajku nauczycieli i wokół wyborów). Do plebiscytu wybrałem tylko 12, ale za każde zgłoszenie bardzo dziękuję.
Osoba, która zgłosiła zwycięski wykres otrzyma dwie książki o wizualizacji Wykresy Unplugged i Odkrywać, Ujawniać, Objaśniać.

Rozstrzygnięto konkurs na komiks o matematyce, informatyce i analizie danych!

Miesiąc temu pisałem o konkursie na najlepszy komiks o matematyce, informatyce i analizie danych. W ubiegłym tygodniu rozstrzygnęliśmy pierwszą edycję!
Nie było to proste. Z ponad 25 zgłoszeń trzeba było wybrać najlepsze w dwóch kategoriach: kategorii szkoły średnie i w kategorii otwartej (w której nagrody funduje nasza fundacja). Komisja w składzie: Kamila Łyczek (Delta), Barbara Roszkowska-Lech (MiNI PW), Tomasz Biernacki (znawca komiksu) i niżej podpisany Przemysław Biecek obradowała zaciekle. Głosy były zróżnicowane, ale koniec końców wybraliśmy bardzo ciekawe prace.

Czy jesteście ciekawi jakie prace nagrodzono?

W kategorii otwartej I nagrodę otrzymał komiks Inwersja Małgorzaty Łazęckiej.

Wyróżniliśmy też dwie świetne prace.

Przystające autobusy Piotra Nieżurawskiego.

Oraz Wpływ społeczności na rozwój PYTHONA Marty Czanockiej-Cieciury.

Więcej o konkursie oraz o wynikach w kategorii dla szkół średnich można przeczytać na tej stronie.
Wszystkie prace nadesłane na konkurs będzie można zobaczyć na specjalnej wystawie komiksów w dniu 12 września 2019 r. w Gmachu Wydziału Matematyki i Nauk Informacyjnych Politechniki Warszawskiej w czasie V Dnia Popularyzacji Matematyki. W tym dniu, w czasie uroczystej gali nastąpi wręczenie nagród wyróżnionym.

Możecie już się przygotowywać do kolejnej edycji!

Ile punktów potrzeba by się dostać do szkoły średniej w Warszawie?

W tym artykule Polityki przeczytałem, że ponad 3 tysiące uczniów nie dostało się do żadnej z wybranych szkół średnich w Warszawie. Pomimo wysiłku szkół by przyjąć możliwie wielu uczniów.

Marcin Luckner (MiNI PW) przesłał mi ciekawą analizę progów punktowych w różnych oddziałach w Warszawie. Poniżej umieszczam wybrane wykresy po drobnych zmianach. Dane pochodzą z serwisu edukacja.warszawa.pl. Przy okazji też będziemy mogli porównać kilka sposobów pokazywania rozkładów.

W powyższych danych znajduje się informacja ile punktów było potrzeba aby dostać się do wskazanego oddziału we wskazanej szkole średniej. W rozbiciu na typ szkoły i na to czy rekrutowały się dzieci z podstawówek czy gimnazjów.
Poniższy wykres (histogram) pokazuje jak wyglądają progi punktowe w różnych typach oddziałów. Na wykresie nie ma szkół sportowych, ponieważ tam były dodatkowe punkty sprawnościowe i trudno te progi porównać.

W różnych mediach można znaleźć informację o uczniu, który miał 190 punktów i nie dostał się do żadnej wybranej szkoły. Ale były też szkoły, które miały znacznie niższe progi przyjęcia. Bardzo wiele oddziałów miało progi przyjecia w okolicy 160 punktów.

John Tukey lata temu zaproponował by rozkłady opisywać za pomocą piątki liczb – min, max, mediana i kwartyle. To 5 liczb które dzieli wartości na 4 równe przedziały. Można je pokazać za pomocą wykresów pudełkowych.

Poniżej mamy wykresy pudełkowe z rozkładem progów punktowych podziałem na dzielnice. Im szersze pudełko tym więcej szkół jest w danej grupie. Najwyższe progi były w szkołach w Śródmieściu (ponad połowa oddziałów miała próg przyjęcia powyżej 165 punktów). łatwiej było się dostać do szkół średnich na Pradze czy w Ursusie.

Okazuje się, że i moją i Marcina ulubioną techniką pokazywania rozkładów jest dystrybuanta empiryczna. Wykres poniżej pokazuje jaki procent oddziałów ma prób przyjęcia mniejszy niż x.

Przykładowo szara linia odpowiada progowi 150 punktów. Tyle punktów wystarczyły by dostać się do praktycznie wszystkich oddziałów integracyjnych, ale już tylko do około 60% oddziałów ogólnych (1 na 3 oddziały ogólne ma wyższy prób punktowy), do około 33% oddziałów w szkołach dwujęzycznych (2 na 3 oddziały w szkołach dwujęzycznych ma wyższy próg przyjęcia). Nie wystarczy na szkoły z międzynarodową maturą.

To jaki jest Wasz ulubiony sposób pokazywania rozkładów?

Projektowanie ekstremalne, czyli … z pamiętnika nauczyciela akademickiego


Dzisiaj będzie o pewnym ciekawym eksperymentalnym projekcie prowadzonym pomiędzy PW, UW oraz ASP. Przedmioty projektowe prowadzę od kilkunastu lat, ale ten był wyjątkowy. Poniżej krótko opiszę o co chodziło i jakie z tego zostały mi nauczki na przyszłość. Może komuś się przyda do realizacji podobnych zajęć.

Projekt dotyczył wizualizacji danych, a wizualizacja to bardzo interdyscyplinarny obszar. Pracując w takich miejscach można poznać bardzo ciekawe osoby z korzeniami w innych dziedzinach, od kontrolingu po wzornictwo przemysłowe. Tak się jakoś złożyło, że podczas poprzednich wakacji robiliśmy coś z dr Ewą Modrzejewską (Instytut Polonistyki Stosowanej, Uniwersytet Warszawski), której jedno z hobby to retoryka w wizualizacji danych. Mniej więcej w tym samym czasie pracowaliśmy nad Wykresami Unplugged z dr Magdą Małczyńską-Umeda (Akademia Sztuk Pięknych w Warszawie). Od słowa do słowa wykluł się w naszych głowach pomysł na zrobienie interdyscyplinarnego projektu, w którym na poważnie zderzylibyśmy perspektywę retoryczną, projektową i statystyczną.

Jak się bawić to na całego. A że w grupie raźniej to do zabawy zaprosiliśmy 20 studentów z zajęć, które prowadzimy. Kilku z dziennikarstwa UW, kilku z projektowania ASP i kilku z matematyki i informatyki MiNI PW.
Studentów podzieliliśmy na 4 grupy, w każdej grupie znaleźli się przedstawiciele każdej uczelni. Na warsztat wzięliśmy bardzo ciekawe dane otrzymane od firmy LekSeek. Dane dotyczyły częstości chorób w podziałach na wiek, płeć i inne cechy socjo-demo. Choroba to często dla młodych temat tabu. W projekcie chodziło o to by ten temat odczarować.

Każda z grup musiała znaleźć dla siebie jakiś temat a następnie przygotować analizy danych związane z wybranym tematem, krótki artykuł o wynikach analiz i plakat nawiązujący do analiz.
Wyszło naprawdę super. Poniżej jest jeden z plakatów, które zostały przygotowane. Tak, w tej głowie jest rozkład częstości wizyt lekarskich związanych z depresją w podziale na grupy wiekowe i płeć (autorem jest Dawid Grzelak, ASP). Genialne!

Więcej o samym projekcie, oraz o uzyskanych wynikach można przeczytać w raporcie Dane – Retoryka – Dizajn. W raporcie znaleźć można zarówno kody z analiz, jak i artykuły o wynikach i plakaty nawiązujące do znalezionych wyników.

After all myślę, że było to bardzo ciekawe doświadczenie i dla nas (prowadzących) i dla studentów. Zdecydowanie wychodzi się poza strefę komfortu.
Dla tych co chcieliby podobny projekt zrealizować, kilka doświadczeń:

– Logistyka w umawianiu spotkań dla studentów z 3 uczelni to oczywiście masakra. Nam się udało znaleźć jakieś popołudnia, ale czasem trzeba było w locie szukać innych terminów. Terminy spotkań lepiej zaplanować z wyprzedzeniem, najlepiej jeszcze przed rekrutacją studentów na taki projekt.
– Nasz projekt realizowany był podczas 3 wspólnych +- 2 godzinnych walnych spotkań, pomiędzy nimi był czas na prace w podgrupach. Lepiej byłoby mieć więcej dłuższych spotkań. Dwie godziny to mało aby przesiąknąć pomysłami osób z innych uczelni.
– Studenci z tak różnymi doświadczeniami mają różne sposoby pracy i potrzebują trochę czasu a czasem i pomocy by dograć się z resztą grupy. Jakieś małe zadania team-buildingowe powinny pomóc.
– Zestawienie przy jednym stole inżyniera informatyka, projektanta artystę i dziennikarza śledczego to ciekawa okazja by zobaczyć jak wygląda zupełnie inny warsztat pracy. Czasem jednak trzeba aktywnie zachęcać by poszczególne osoby chciały się tym warsztatem podzielić z nowymi współpracownikami.
– Tak różnorodne grupy to na początku spory chaos, ale z chaosu rodzą się fajne rzeczy.

MI2 @ Data Science Summit (x5) – już za tydzień


Już za tydzień na wydziale MiNI Politechniki Warszawskiej odbędzie się konferencja Data Science Summit.

Aż trudno uwierzyć, że to dopiero trzecia edycja. Z roku na rok rośnie w zawrotnym tempie ściągając ciekawych prelegentów i uczestników z Polski i zagranicy. Dziś jest to jedna z największych konferencji Data Science w regionie.

Rada programowa DSS miała nie lada zadanie by wybrać z ponad 160 zgłoszeń te, które porwą uczestników konferencji (a ma ich być rekordowo wielu). Zgłoszone tematy są bardzo ciekawe i różnorodne (pełny program). Mnie szczególnie cieszy szeroka reprezentacja współpracowników z MI2 DataLab na tej konferencji.
Znajdziecie nas na tych prezentacjach:

W bloku NLP w godzinach 11:00 – 11:30 Barbara Rychalska i Anna Wróblewska opowiedzą o frameworku WildNLP to analizy wrażliwości modeli NLP na celowe ataki lub losowe zakłócenia (więcej o projekcie na tym repo).

W bloku Computer Vision w godzinach 11:40 – 12:10 Anna Wróblewska i studenci z Projektu Zespołowego opowiedzą o fantastycznym projekcie ChaTa – (Charts and Tables), który wspiera automatyczną ekstrakcję i analizę wykresów i tabel w raportach.

Na Main Stage w godzinach 14:30 – 15:00 Przemyslaw Biecek (czyli ja 😉 ) będzie opowiadał o wyjaśnialnym uczeniu maszynowym. To super gorący temat w świecie AI/ML. Nie zabraknie oczywiście naszego flagowego projektu DrWhy.AI, ale będzie też sporo ciekawostek ze świata IML/XAI.

W bloku Future of Data Science: Healthcare w godzinach 15:50 – 16:20 Adam Dobrakowski opowie o wynikach z prowadzonego projektu dotyczącego segmentacji wizyt lekarskich. Jak AI może wspierać naszą służbę zdrowia? Przyjdźcie, zobaczcie!

W bloku Customer Analytics w godzinach 14:30 – 15:00 o segmentacji z użyciem NMF będzie opowiadał Marcin Kosiński (nasz alumni, obecnie Gradient).

W przerwie pomiędzy referatami możecie znaleźć nasz DataLab w pokoju 44 w budynku MiNI (tam gdzie będą referaty). Wpadnijcie porozmawiać o wspomnianych wyżej i innych toczących się projektach (XAI, AutoML, AutoEDA, IML, NLP, AI w medycynie i inne). Jeżeli nie wiecie jak do nas zagadać, to zawsze możecie zacząć od ,,Słyszałem, że macie świetną kawę…”. Nie odmówimy!

Btw, szukamy doktoranta do zespołu, więc może akurat…

Kto myśli na rok do przodu sieje zboże (…) a kto myśli na wiele wiele lat do przodu wychowuje młodzież

Dzisiaj rozpoczyna się strajk nauczycieli. Gorąco kibicuję nauczycielom. I jako rodzic dzieci w wieku szkolnym, i jako nauczyciel akademicki, i jako entuzjasta edukacji dzieci i młodzieży. Bardzo dużo zawdzięczam moim nauczycielom, a los zetknął mnie z wieloma pozytywnie zakręconymi pasjonatami.

W czasach gospodarki opartej na wiedzy to edukacja jest sprawą kluczową. A nie ma dobrej edukacji bez pozytywnej selekcji, którą zapewnić mogą dobre warunki pracy. Dobre zarówno jeżeli chodzi o wynagrodzenia jak i stabilne podstawy programowe, możliwości rozwoju i odpowiednie wyposażenie szkół.
Dlatego popieram strajkujących nauczycieli.

Przemysław Biecek

Btw: Poniższy wykres z twittera KPRM ma współczynnik Lie-Factor przekraczający 350%. Jednak warto zwiększyć liczbę godzin matematyki w szkołach.

iBreakDown: faster, prettier and more precise explanations for predictive models (with interactions)

LIME and SHAP are two very popular methods for instance level explanations of machine learning models (XAI).
They work nicely for images and text inputs, but share similar weakness in case of tabular data: explanations are additive while complex models are (sometimes) not. iBreakDown addresses this problem.

iBreakDown is a a successor of the breakDown package. Yesterday it has arrived on CRAN. Key new features are:

– It identifies and shows feature interactions (if there are local interactions in the model).
– It is much faster. For additive explanations the complexity is O(p) instead of O(p^2).
– The plotD3 function creates an interactive D3-based break-down plot (thanks to r2d3).
– iBreakDown has a new design, created by Hanna Dyrcz. We will have a talk about it ,,Machine learning meets design. Design meets machine learning.” at satRdays. Try the new theme `theme_drwhy()`!.
– It shows explanation level uncertainty – how good are explanations?

A methodology behind this package is described in the iBreakDown: Uncertainty of Model Explanations for Non-additive Predictive Models.

A nice titanic-powered use-case is described in the titanic vignette.

An example of the D3 interactive explainer is here.

Some intuition is introduced in the Visual Exploration, Explanation and Debugging (working version, still in progress).

iBreakDown is a part of the DrWhy.AI family of explainers consistent with the DALEX.

Let us know if you like it. Feel free to create a pull request with new features, add issue with new idea or star the github repository if you like this package.

Mat-korzenie MiNI PW

Dzisiaj będzie o ciekawym projekcie z Technik Wizualizacji Danych.
Ale najpierw historyjka.

Od studiów jestem fanem hackerspaceów. Miejsc w których ludzie razem robią szalone projekty. Więc i przedmioty projektowe na studiach staram się też tak organizować, by kurs był czasem robienia jakiegoś interesującego projektu (przynajmniej dla prowadzącego ;-)).
Gdy na wydziale statystyki UCDavis zobaczyłem takie drzewo genealogiczne pracowników, pomyślałem, WOW, to jest pomysł na kolejny projekt dla studentów z TWD.

O co chodzi z tą genealogią?
Mathematics Genealogy Project to projekt wspierany przez American Mathematical Society. Otwarta baza danych linkująca matematyków i promotorów ich pracy doktorskiej. Podobny pomysł co baza współautorów publikacji czy współautorów pakietów oprogramowania czy połączenia znajomych na facebooku, tyle że w wersji mat.

W ramach ostatniego projektu z TWD studenci szukali sposobu na przedstawienie związki lwowskiej i warszawskiej szkoły matematycznej z pracownikami wydziału MiNI PW.

Poniżej dwie wizualizacje, które najbardziej przypadły mi do gustu.

Wersja interaktywna tutaj (uwaga, zabawa z grafami uzależnia).

Pełna wersja tutaj.

A jak wyglądałoby drzewo Twojego wydziału?
😉

DWUMiAN – przyjdź, posłuchaj, opowiedz!


Niewiele jest imprez tak bliskich mojemu sercu jak studencka konferencja DWUMiAN.

Konferencja organizowana przez dwa największe wydziały matematyczno-informatyczne w Warszawie (MiNI PW i MIM UW).

Pierwsza edycja miała miejsce na wydziale MiNI PW, a wykład otwierający miał dziekan MIM UW, prof. Paweł Strzelecki.
W tym roku konferencja ma miejsce na wydziale MIM UW, a wykład otwierający ma dziekan MiNI PW, prof. Wojciech Domitrz.

W programie wiele ciekawych referatów, też o analizie danych (lista zaproszonych gości).

Najważniejsze: do 10 marca można się jeszcze rejestrować. Można też zgłaszać propozycje prezentacji i plakatów! Zawsze warto opowiedzieć o zrealizowanych ciekawych projektach braci studenckiej (ciekawe staże wakacyjne, prace dyplomowe, projekty uczelniane i poza uczelniane są mile widziane).

Oby było więcej takich inicjatyw. Inicjatyw, które łączą i budują pomosty.
Wśród organizatorów są oczywiście osoby z MI2DataLab (wiwat Alicja!), a SmarterPoland jest organizacją wspierającą.

Zarejestruj się tutaj!