Rozstrzygnięto konkurs na komiks o matematyce, informatyce i analizie danych!

Miesiąc temu pisałem o konkursie na najlepszy komiks o matematyce, informatyce i analizie danych. W ubiegłym tygodniu rozstrzygnęliśmy pierwszą edycję!
Nie było to proste. Z ponad 25 zgłoszeń trzeba było wybrać najlepsze w dwóch kategoriach: kategorii szkoły średnie i w kategorii otwartej (w której nagrody funduje nasza fundacja). Komisja w składzie: Kamila Łyczek (Delta), Barbara Roszkowska-Lech (MiNI PW), Tomasz Biernacki (znawca komiksu) i niżej podpisany Przemysław Biecek obradowała zaciekle. Głosy były zróżnicowane, ale koniec końców wybraliśmy bardzo ciekawe prace.

Czy jesteście ciekawi jakie prace nagrodzono?

W kategorii otwartej I nagrodę otrzymał komiks Inwersja Małgorzaty Łazęckiej.

Wyróżniliśmy też dwie świetne prace.

Przystające autobusy Piotra Nieżurawskiego.

Oraz Wpływ społeczności na rozwój PYTHONA Marty Czanockiej-Cieciury.

Więcej o konkursie oraz o wynikach w kategorii dla szkół średnich można przeczytać na tej stronie.
Wszystkie prace nadesłane na konkurs będzie można zobaczyć na specjalnej wystawie komiksów w dniu 12 września 2019 r. w Gmachu Wydziału Matematyki i Nauk Informacyjnych Politechniki Warszawskiej w czasie V Dnia Popularyzacji Matematyki. W tym dniu, w czasie uroczystej gali nastąpi wręczenie nagród wyróżnionym.

Możecie już się przygotowywać do kolejnej edycji!

Ile punktów potrzeba by się dostać do szkoły średniej w Warszawie?

W tym artykule Polityki przeczytałem, że ponad 3 tysiące uczniów nie dostało się do żadnej z wybranych szkół średnich w Warszawie. Pomimo wysiłku szkół by przyjąć możliwie wielu uczniów.

Marcin Luckner (MiNI PW) przesłał mi ciekawą analizę progów punktowych w różnych oddziałach w Warszawie. Poniżej umieszczam wybrane wykresy po drobnych zmianach. Dane pochodzą z serwisu edukacja.warszawa.pl. Przy okazji też będziemy mogli porównać kilka sposobów pokazywania rozkładów.

W powyższych danych znajduje się informacja ile punktów było potrzeba aby dostać się do wskazanego oddziału we wskazanej szkole średniej. W rozbiciu na typ szkoły i na to czy rekrutowały się dzieci z podstawówek czy gimnazjów.
Poniższy wykres (histogram) pokazuje jak wyglądają progi punktowe w różnych typach oddziałów. Na wykresie nie ma szkół sportowych, ponieważ tam były dodatkowe punkty sprawnościowe i trudno te progi porównać.

W różnych mediach można znaleźć informację o uczniu, który miał 190 punktów i nie dostał się do żadnej wybranej szkoły. Ale były też szkoły, które miały znacznie niższe progi przyjęcia. Bardzo wiele oddziałów miało progi przyjecia w okolicy 160 punktów.

John Tukey lata temu zaproponował by rozkłady opisywać za pomocą piątki liczb – min, max, mediana i kwartyle. To 5 liczb które dzieli wartości na 4 równe przedziały. Można je pokazać za pomocą wykresów pudełkowych.

Poniżej mamy wykresy pudełkowe z rozkładem progów punktowych podziałem na dzielnice. Im szersze pudełko tym więcej szkół jest w danej grupie. Najwyższe progi były w szkołach w Śródmieściu (ponad połowa oddziałów miała próg przyjęcia powyżej 165 punktów). łatwiej było się dostać do szkół średnich na Pradze czy w Ursusie.

Okazuje się, że i moją i Marcina ulubioną techniką pokazywania rozkładów jest dystrybuanta empiryczna. Wykres poniżej pokazuje jaki procent oddziałów ma prób przyjęcia mniejszy niż x.

Przykładowo szara linia odpowiada progowi 150 punktów. Tyle punktów wystarczyły by dostać się do praktycznie wszystkich oddziałów integracyjnych, ale już tylko do około 60% oddziałów ogólnych (1 na 3 oddziały ogólne ma wyższy prób punktowy), do około 33% oddziałów w szkołach dwujęzycznych (2 na 3 oddziały w szkołach dwujęzycznych ma wyższy próg przyjęcia). Nie wystarczy na szkoły z międzynarodową maturą.

To jaki jest Wasz ulubiony sposób pokazywania rozkładów?

Projektowanie ekstremalne, czyli … z pamiętnika nauczyciela akademickiego


Dzisiaj będzie o pewnym ciekawym eksperymentalnym projekcie prowadzonym pomiędzy PW, UW oraz ASP. Przedmioty projektowe prowadzę od kilkunastu lat, ale ten był wyjątkowy. Poniżej krótko opiszę o co chodziło i jakie z tego zostały mi nauczki na przyszłość. Może komuś się przyda do realizacji podobnych zajęć.

Projekt dotyczył wizualizacji danych, a wizualizacja to bardzo interdyscyplinarny obszar. Pracując w takich miejscach można poznać bardzo ciekawe osoby z korzeniami w innych dziedzinach, od kontrolingu po wzornictwo przemysłowe. Tak się jakoś złożyło, że podczas poprzednich wakacji robiliśmy coś z dr Ewą Modrzejewską (Instytut Polonistyki Stosowanej, Uniwersytet Warszawski), której jedno z hobby to retoryka w wizualizacji danych. Mniej więcej w tym samym czasie pracowaliśmy nad Wykresami Unplugged z dr Magdą Małczyńską-Umeda (Akademia Sztuk Pięknych w Warszawie). Od słowa do słowa wykluł się w naszych głowach pomysł na zrobienie interdyscyplinarnego projektu, w którym na poważnie zderzylibyśmy perspektywę retoryczną, projektową i statystyczną.

Jak się bawić to na całego. A że w grupie raźniej to do zabawy zaprosiliśmy 20 studentów z zajęć, które prowadzimy. Kilku z dziennikarstwa UW, kilku z projektowania ASP i kilku z matematyki i informatyki MiNI PW.
Studentów podzieliliśmy na 4 grupy, w każdej grupie znaleźli się przedstawiciele każdej uczelni. Na warsztat wzięliśmy bardzo ciekawe dane otrzymane od firmy LekSeek. Dane dotyczyły częstości chorób w podziałach na wiek, płeć i inne cechy socjo-demo. Choroba to często dla młodych temat tabu. W projekcie chodziło o to by ten temat odczarować.

Każda z grup musiała znaleźć dla siebie jakiś temat a następnie przygotować analizy danych związane z wybranym tematem, krótki artykuł o wynikach analiz i plakat nawiązujący do analiz.
Wyszło naprawdę super. Poniżej jest jeden z plakatów, które zostały przygotowane. Tak, w tej głowie jest rozkład częstości wizyt lekarskich związanych z depresją w podziale na grupy wiekowe i płeć (autorem jest Dawid Grzelak, ASP). Genialne!

Więcej o samym projekcie, oraz o uzyskanych wynikach można przeczytać w raporcie Dane – Retoryka – Dizajn. W raporcie znaleźć można zarówno kody z analiz, jak i artykuły o wynikach i plakaty nawiązujące do znalezionych wyników.

After all myślę, że było to bardzo ciekawe doświadczenie i dla nas (prowadzących) i dla studentów. Zdecydowanie wychodzi się poza strefę komfortu.
Dla tych co chcieliby podobny projekt zrealizować, kilka doświadczeń:

– Logistyka w umawianiu spotkań dla studentów z 3 uczelni to oczywiście masakra. Nam się udało znaleźć jakieś popołudnia, ale czasem trzeba było w locie szukać innych terminów. Terminy spotkań lepiej zaplanować z wyprzedzeniem, najlepiej jeszcze przed rekrutacją studentów na taki projekt.
– Nasz projekt realizowany był podczas 3 wspólnych +- 2 godzinnych walnych spotkań, pomiędzy nimi był czas na prace w podgrupach. Lepiej byłoby mieć więcej dłuższych spotkań. Dwie godziny to mało aby przesiąknąć pomysłami osób z innych uczelni.
– Studenci z tak różnymi doświadczeniami mają różne sposoby pracy i potrzebują trochę czasu a czasem i pomocy by dograć się z resztą grupy. Jakieś małe zadania team-buildingowe powinny pomóc.
– Zestawienie przy jednym stole inżyniera informatyka, projektanta artystę i dziennikarza śledczego to ciekawa okazja by zobaczyć jak wygląda zupełnie inny warsztat pracy. Czasem jednak trzeba aktywnie zachęcać by poszczególne osoby chciały się tym warsztatem podzielić z nowymi współpracownikami.
– Tak różnorodne grupy to na początku spory chaos, ale z chaosu rodzą się fajne rzeczy.

MI2 @ Data Science Summit (x5) – już za tydzień


Już za tydzień na wydziale MiNI Politechniki Warszawskiej odbędzie się konferencja Data Science Summit.

Aż trudno uwierzyć, że to dopiero trzecia edycja. Z roku na rok rośnie w zawrotnym tempie ściągając ciekawych prelegentów i uczestników z Polski i zagranicy. Dziś jest to jedna z największych konferencji Data Science w regionie.

Rada programowa DSS miała nie lada zadanie by wybrać z ponad 160 zgłoszeń te, które porwą uczestników konferencji (a ma ich być rekordowo wielu). Zgłoszone tematy są bardzo ciekawe i różnorodne (pełny program). Mnie szczególnie cieszy szeroka reprezentacja współpracowników z MI2 DataLab na tej konferencji.
Znajdziecie nas na tych prezentacjach:

W bloku NLP w godzinach 11:00 – 11:30 Barbara Rychalska i Anna Wróblewska opowiedzą o frameworku WildNLP to analizy wrażliwości modeli NLP na celowe ataki lub losowe zakłócenia (więcej o projekcie na tym repo).

W bloku Computer Vision w godzinach 11:40 – 12:10 Anna Wróblewska i studenci z Projektu Zespołowego opowiedzą o fantastycznym projekcie ChaTa – (Charts and Tables), który wspiera automatyczną ekstrakcję i analizę wykresów i tabel w raportach.

Na Main Stage w godzinach 14:30 – 15:00 Przemyslaw Biecek (czyli ja 😉 ) będzie opowiadał o wyjaśnialnym uczeniu maszynowym. To super gorący temat w świecie AI/ML. Nie zabraknie oczywiście naszego flagowego projektu DrWhy.AI, ale będzie też sporo ciekawostek ze świata IML/XAI.

W bloku Future of Data Science: Healthcare w godzinach 15:50 – 16:20 Adam Dobrakowski opowie o wynikach z prowadzonego projektu dotyczącego segmentacji wizyt lekarskich. Jak AI może wspierać naszą służbę zdrowia? Przyjdźcie, zobaczcie!

W bloku Customer Analytics w godzinach 14:30 – 15:00 o segmentacji z użyciem NMF będzie opowiadał Marcin Kosiński (nasz alumni, obecnie Gradient).

W przerwie pomiędzy referatami możecie znaleźć nasz DataLab w pokoju 44 w budynku MiNI (tam gdzie będą referaty). Wpadnijcie porozmawiać o wspomnianych wyżej i innych toczących się projektach (XAI, AutoML, AutoEDA, IML, NLP, AI w medycynie i inne). Jeżeli nie wiecie jak do nas zagadać, to zawsze możecie zacząć od ,,Słyszałem, że macie świetną kawę…”. Nie odmówimy!

Btw, szukamy doktoranta do zespołu, więc może akurat…

Kto myśli na rok do przodu sieje zboże (…) a kto myśli na wiele wiele lat do przodu wychowuje młodzież

Dzisiaj rozpoczyna się strajk nauczycieli. Gorąco kibicuję nauczycielom. I jako rodzic dzieci w wieku szkolnym, i jako nauczyciel akademicki, i jako entuzjasta edukacji dzieci i młodzieży. Bardzo dużo zawdzięczam moim nauczycielom, a los zetknął mnie z wieloma pozytywnie zakręconymi pasjonatami.

W czasach gospodarki opartej na wiedzy to edukacja jest sprawą kluczową. A nie ma dobrej edukacji bez pozytywnej selekcji, którą zapewnić mogą dobre warunki pracy. Dobre zarówno jeżeli chodzi o wynagrodzenia jak i stabilne podstawy programowe, możliwości rozwoju i odpowiednie wyposażenie szkół.
Dlatego popieram strajkujących nauczycieli.

Przemysław Biecek

Btw: Poniższy wykres z twittera KPRM ma współczynnik Lie-Factor przekraczający 350%. Jednak warto zwiększyć liczbę godzin matematyki w szkołach.

iBreakDown: faster, prettier and more precise explanations for predictive models (with interactions)

LIME and SHAP are two very popular methods for instance level explanations of machine learning models (XAI).
They work nicely for images and text inputs, but share similar weakness in case of tabular data: explanations are additive while complex models are (sometimes) not. iBreakDown addresses this problem.

iBreakDown is a a successor of the breakDown package. Yesterday it has arrived on CRAN. Key new features are:

– It identifies and shows feature interactions (if there are local interactions in the model).
– It is much faster. For additive explanations the complexity is O(p) instead of O(p^2).
– The plotD3 function creates an interactive D3-based break-down plot (thanks to r2d3).
– iBreakDown has a new design, created by Hanna Dyrcz. We will have a talk about it ,,Machine learning meets design. Design meets machine learning.” at satRdays. Try the new theme theme_drwhy()!.
– It shows explanation level uncertainty – how good are explanations?

A methodology behind this package is described in the iBreakDown: Uncertainty of Model Explanations for Non-additive Predictive Models.

A nice titanic-powered use-case is described in the titanic vignette.

An example of the D3 interactive explainer is here.

Some intuition is introduced in the Visual Exploration, Explanation and Debugging (working version, still in progress).

iBreakDown is a part of the DrWhy.AI family of explainers consistent with the DALEX.

Let us know if you like it. Feel free to create a pull request with new features, add issue with new idea or star the github repository if you like this package.

Mat-korzenie MiNI PW

Dzisiaj będzie o ciekawym projekcie z Technik Wizualizacji Danych.
Ale najpierw historyjka.

Od studiów jestem fanem hackerspaceów. Miejsc w których ludzie razem robią szalone projekty. Więc i przedmioty projektowe na studiach staram się też tak organizować, by kurs był czasem robienia jakiegoś interesującego projektu (przynajmniej dla prowadzącego ;-)).
Gdy na wydziale statystyki UCDavis zobaczyłem takie drzewo genealogiczne pracowników, pomyślałem, WOW, to jest pomysł na kolejny projekt dla studentów z TWD.

O co chodzi z tą genealogią?
Mathematics Genealogy Project to projekt wspierany przez American Mathematical Society. Otwarta baza danych linkująca matematyków i promotorów ich pracy doktorskiej. Podobny pomysł co baza współautorów publikacji czy współautorów pakietów oprogramowania czy połączenia znajomych na facebooku, tyle że w wersji mat.

W ramach ostatniego projektu z TWD studenci szukali sposobu na przedstawienie związki lwowskiej i warszawskiej szkoły matematycznej z pracownikami wydziału MiNI PW.

Poniżej dwie wizualizacje, które najbardziej przypadły mi do gustu.

Wersja interaktywna tutaj (uwaga, zabawa z grafami uzależnia).

Pełna wersja tutaj.

A jak wyglądałoby drzewo Twojego wydziału?
😉

DWUMiAN – przyjdź, posłuchaj, opowiedz!


Niewiele jest imprez tak bliskich mojemu sercu jak studencka konferencja DWUMiAN.

Konferencja organizowana przez dwa największe wydziały matematyczno-informatyczne w Warszawie (MiNI PW i MIM UW).

Pierwsza edycja miała miejsce na wydziale MiNI PW, a wykład otwierający miał dziekan MIM UW, prof. Paweł Strzelecki.
W tym roku konferencja ma miejsce na wydziale MIM UW, a wykład otwierający ma dziekan MiNI PW, prof. Wojciech Domitrz.

W programie wiele ciekawych referatów, też o analizie danych (lista zaproszonych gości).

Najważniejsze: do 10 marca można się jeszcze rejestrować. Można też zgłaszać propozycje prezentacji i plakatów! Zawsze warto opowiedzieć o zrealizowanych ciekawych projektach braci studenckiej (ciekawe staże wakacyjne, prace dyplomowe, projekty uczelniane i poza uczelniane są mile widziane).

Oby było więcej takich inicjatyw. Inicjatyw, które łączą i budują pomosty.
Wśród organizatorów są oczywiście osoby z MI2DataLab (wiwat Alicja!), a SmarterPoland jest organizacją wspierającą.

Zarejestruj się tutaj!

Do którego aktora jesteś najbardziej podobny? Czyli z pamiętnika nauczyciela akademickiego, Warsztaty Badawcze 1/3

Najbardziej lubię prowadzić przedmioty, które kończą się działającym projektem. Jednym z takich przedmiotów są Warsztaty Badawcze, które prowadzę na MiNI PW. Formuła przedmiotu pozostawia dużą swobodę. W tym semestrze większość projektów polegała na analizie obrazu z kamery, wykorzystaniu głębokich sieci do rozpoznania i analizy twarzy. Kiedyś napiszę o tym przedmiocie więcej, ale dzisiaj zacznę od pokazania kilku ciekawych rozwiązań.

Projekty studentów dostępne są jako strony internetowe. Można samemu się nimi pobawić. Poniżej trzy przykładowe.

Do jakiego aktora/aktorki jestem najbardziej podobny?

Pod adresem https://hollywoodgallery.mini.pw.edu.pl/ znaleźć można aplikację, która na bazie zdjęcia twarzy szuka najbardziej podobnego aktora/aktorki.

Na ile lat wyglądam?

Inna sieć uczyła się rozpoznawać wiek na podstawie zdjęcia twarzy. Dostępna jest pod adresem https://agerecognition.mini.pw.edu.pl. Mnie zazwyczaj odmładza 😉

Najbardziej podobny poseł/posłanka

Pod adresem http://similarmp.mini.pw.edu.pl dostępna jest aplikacja rozpoznająca twarz i szukająca najbardziej podobnego posła/posłanki spośród posłów obecnej kadencji. Nie ma gwarancji, że będzie to poseł/posłanka którą lubimy, ale można zaryzykować. Najlepiej aplikację otwierać przez Firefox. Chrome nie zezwala na dostęp do kamery aplikacjom po http.

Więcej informacji o tych i innych projektach, ich architekturze i analizie opracowanego rozwiązania, znaleźć można na stronie przedmiotu https://github.com/pbiecek/CaseStudies2019W/. Szczególnie projektów związanych z szukaniem najbardziej podobnych osób jest więcej, choć nie wszystkie są dostępne w sieci poza wydziałem MiNI.

Na ścianie naszego Data Labu (Koszykowa 75 Wa-wa) umieszczony jest monitor z kamerką. Czasem wyświetlona jest któraś z powyższych aplikacji. Można podejść i się pobawić.
Kto wie do jakiego aktora okażemy się podobni?

Wykresy unplugged – ćwicz rysowanie wykresów

Wykresy Unplugged to nasza nowa pozycja poświęcona wizualizacji danych. Pisałem o niej przed świętami (więcej informacji tutaj), ale pierwszy druk miał mały nakład i rozszedł się błyskawicznie.
Nic straconego!
Od kilku dni w księgarniach jest już dodruk. Poniżej krótki opis co znajdziecie w środku tej pozycji oraz gdzie można ją kupić.

W Esejach o wizualizacji danych znaleźć można sporo teorii ale niewiele ćwiczeń. Wykresy unplugged to głównie ćwiczenia (28 stron, A4, pełny kolor). Zeszyt wyposażony jest w 8 kompletów danych i ćwiczeń do samodzielnego wyrysowania. Wyrysowania ołówkiem i kredkami, nie ma co ograniczać się do możliwości nawet najlepszego programu graficznego. Obok ćwiczeń jest też kilka wkładek tematycznych o technikach wizualizacji. To zeszyt ćwiczeń dla każdej kreatywnej osoby, nawet zabieganego dyrektora działu Data Science.

Prace nad wykresami zaczęliśmy w okolicach UseR 2017 (jak widać opracowanie takiej pozycji trwa mniej więcej tyle co ciąża słonia). Książka powstała dzięki współpracy z Ewą Baranowską (entuzjastka D3 i grafiki interaktywnej), Piotrem Sobczykiem (autor między innymi Szychta w danych) oraz studiem graficznym storyvisio.

Wykresy unplugged można kupić w Wydawnictwach Uniwersytetu Warszawskiego, w Księgarni PWN lub znaleźć najtańszego dostawcę na ceneo.

Frajdy z rysowania wykresów!