Co widać w lesie losowym?


Miesiąc temu ruszył MI2DataLab, kuźnia/warsztat z narzędziami do analizy danych.
Dzisiaj mieliśmy pierwszą, po oficjalnym otwarciu, obronę pracy magisterskiej w grupie MI2.

Aleksandra Paluszyńska z MIM UW obroniła pracę Structure mining and knowledge extraction from random forest with applications to The Cancer Genome Atlas.
W pracy opisała metodologię stojącą za opracowanym przez nią pakietem randomForestExplainer. Pakiet służy do wizualnej diagnostyki lasów losowych. Analizy ważnych zmiennych, ważnych interakcji, brzegowych zależności itp.

Pracę przeczytać można tutaj.

Pakiet można pobrać i zainstalować z CRAN lub GitHuba.

Krótka winietka opisująca pakiet jest dostępna tutaj.

Z pakietu warto skorzystać – już żaden las losowy nie będzie miał przed nami tajemnic.

Z pamiętnika nauczyciela akademickiego… Trening data scienistów a skoki o tyczce

Pochodzi ze strony https://pl.wikipedia.org/wiki/Skok_o_tyczce

Zakończyłem niedawno trwający pół roku eksperyment dydaktyczny dotyczący sposobu oceniania w nauczaniu data scientistów/stosowanych statystyków.
Dziedzina zobowiązuje. Prowadząc zajęcia trzeba eksperymentować w poszukiwaniu lepszych rozwiązań, zbierać dane i na ich podstawie planować zmiany.

Czy oceny są ważne?

Czy w nauczaniu jakiegoś przedmiotu ważne są kryteria oceny?
To dosyć ciekawa kwestia.
Gdy prowadzę szkolenia poza uczelnią, nikt się nie dopytuje po warsztatach ,,Jaka ocenę dostałem?”. Uczestnikom wystarczy świadomość, że czegoś się nauczyli i wiedzą czego.
Ale w jakiś magiczny osób, mury uczelni sprawiają, że kryteria oceny stają się istotne.
Wiele (większość?) studentów traktuje ocenę i kryteria oceny jako pierwszoplanowy wyznacznik co należy na danym kursie robić.
No cóż, można z tym podejściem walczyć, ale nie można go ignorować.
Ten wpis poświęcony jest w całości kryteriom oceny, bez zagłębianie się w treść kursu.

Po co zmiana?

Poprzednio opisywane i testowane formuły oceny zajęć (1, 2, 3, 4, 5 i inne) oparte były o zbiór zadań/aspektów projektu (realizowanego w grupie) niezależnie ocenianych.
Przykładowo dwa lata temu projekt dotyczył zebrania i analizy danych o tym co media piszą o kandydatach na prezydenta.
Niezależnie ocenianym kryterium była (1) jakość kodu R, (2) sposób prezentacji wyników, (3) bogactwo i (4) złożoność pobranych danych, (5)zastosowana metodologia analizy, itp.

Pomimo, że studenci raczej dobrze przyjmowali taki sposób oceny (ciekawe projekty, można je realizować w grupie, nakierowane na praktyczną weryfikacje pozyskanej wiedzy) to mnie nie podobały się dwa elementy.

Po pierwsze każdy z aspektów był bardzo szeroki i złożony, przez co ocena np. w skali 0-10 staje się uznaniowa (ocena złożonego procesu jest zawsze uznaniowa, ale tutaj poziom swobody przeszkadzał mi).
Dlaczego jakość kodu oceniona jest na 5 a nie 6 punktów?
Samo spisywanie argumentów za i przeciw ocenami każdego etapu każdego zespołu zajmowało mi więcej czasu niż przygotowanie materiałów na zajęcia.

Po drugie gdy projekt podzieli się na wiele części i każdą oceni niezależnie, to okazuje się, że zazwyczaj żadna z części nie jest idealna ale tez żadna nie jest beznadziejna, wiec rozkład punktów zbiega do jakiegoś Gaussa.

Trzeba spróbować czegoś innego.

Ale o co chodzi?

Przedmiotem eksperymentu był sposób oceny postępów prac nad określonym zagadnieniem. Ten sposób był testowany w lecie 2016/2017 na wydziałach MiNI PW (Warsztaty Badawcze) i MIM UW (Modele Liniowe).

Sam pomysł na eksperyment najłatwiej przedstawić korzystając z analogii do skoków o tyczce.
Jak ktoś skoczy 6,17m to rekord świata, jak 6 to rekord Polski, 5m to długość tyczki itp.
Aby skoczyć wysoko liczy się wiele czynników, ale to jak wysoko się skoczyło po prostu widać.
Zorganizujmy więc kryteria oceny złożone z poprzeczek umieszczonych na różnych poziomach trudności, tak by w ramach realizacji projektu uczestnicy wiedzieli jak złożony problem potrafią rozwiązać.

A jak to wygląda w akademickich warunkach?
Część zaliczenia związana z projektem (czasem są jeszcze inne składowe – egzamin lub prace domowe) jest podzielona na 5 (na PW) lub 10 (na UW) części – etapów. Aby podejść do realizacji etapu n+1 trzeba wcześniej zrealizować etap n.
Kolejne etapy są coraz trudniejsze i są związane z wykonaniem określonego modelu/zadania.

Etapy oceniane są 0-1, zrealizowanie wszystkich etapów to 100% z projektu.

Gdyby ktoś chciał zobaczyć jak wyglądały poziomy trudności na Warsztatach Badawczych, to może je podejrzeć tutaj: https://github.com/pbiecek/WarsztatyBadawcze/tree/master/MiNI_2017
A na modelach liniowych
https://github.com/pbiecek/LinearModels/tree/master/MIMUW_2017
Starałem się tak kalibrować poziom trudności, by dla doświadczonej osoby był to 1-2 dni solidnej pracy.

Co na to studenci?

Dla obu grup przygotowałem ankietę z pytaniami o to czy trudność była odpowiednio dobrana i czy sposób oceny był adekwatny. Odpowiedzi było znacznie więcej niż połowa zarejestrowanych studentów, więc choć w sumie studentów nie było zbyt wielu (~40) to odpowiedzi traktuję jako reprezentatywne.

Z premedytacją ankieta została wysłana studentom dwukrotnie. Raz na chwilę przed końcowym wystawieniem punktów/ocen i raz po tym jak poznali swoje punkty i oceny.

W przypadku pytania o kalibracje trudności właściwie wszyscy potwierdzili że zadania nie były ani za trudne ani za łatwe, może z lekką przewagą w kierunku ,jednak trudne’. Co było dla mnie dużym zaskoczeniem, ponieważ jedynie pojedynczy studenci zrealizowali 80%+ projektu.

Co ciekawe, odpowiedzi studentów na pytanie ,czy ten sposób oceny jest dobry dla warsztatowej formy zajęć’ różniły się znacznie w zależności od tego czy odpowiedź padła przed czy po ocenie.
Odpowiedzi wysłane przed poznaniem końcowej oceny oscylowały blisko środkowej, neutralnej odpowiedzi ,nadaje się’. Podczas gdy po tym jak studenci poznali swoje punkty i oceny odpowiedzi zaczęły przyjmować skrajne wartości.
Większość ‘idealnie pasuje’ ale znalazła się też jedna odpowiedź ‘te zajęcia wymagają innego sposobu oceniania’, osoby która zgłosiła rozwiązanie, które nie zostało zaakceptowane. To większe zróżnicowanie przypisuję temu, że studenci zobaczyli że nie wystarczy tylko zrobić dany punkt ale trzeba go zrobić dobrze. Zobaczyli też jak wyglądają komentarze – feedback to ich zgłoszeń.
Mnie akurat taki rozkład odpowiedzi cieszy. Zawsze znajdą się niezadowolone osoby, ale dobrze że są też tacy, co akurat na tym przedmiocie odnaleźli coś dla siebie.

Jeżeli chodzi o wyrywki z komentarzy studentów, to przytoczę kilka wskazujących silne strony tego sposobu oceniania

,,…Jasno określone kryteria oceniania i adekwatnie oceniony wkład pracy…”
,,…Informacje zwrotne na każdym etapie też są bardzo cenne…”
,,…Umiejętność prowadzenia dużych projektów jest bardzo ważna, a pomijana w nauczaniu większości przedmiotów na wydziale…”

i te przypisane do słabych stron tego sposobu oceniania.

,,…Ocena binarna sprawia że nie ma motywacji żeby starać się bardziej niż niezbędne minimum…”
,,…Jak to na pańskich zajęciach, projekt zajmuje dużo czasu, pełen semestr takich przedmiotów to by było za dużo…”

Pointa

Generalnie to jestem zadowolony z tej formuły oceniania. Zderzenie z naprawdę dużym projektem, z jasno zarysowanym planem realizacji, z rosnącym poziomem trudności jednocześnie z krokami których łatwość wykonania zależy od jakości rozwiązań w poprzednim etapie – to nowe na uczelni, ciekawe i myślę że kształcące doświadczenie.

Oceny z tego semestru były jednymi z najniższych w ostatnich latach które wystawiłem (niewiele osób wykonało 80% projektu). Dawno już nie było tyle trójek czy braków zaliczenia, a liczbę piątek w dwóch grupach można pokazać na palcach jednej ręki.
Jak się jednak okazuje, studentom (w większości) to nie przeszkadza, a wręcz daje możliwość poważniejszego sprawdzenia się w realizacji dużego, złożonego i wymagającego projektu.

Kilka rzeczy z pewnością zmienię w kolejnym semestrze.

Pierwszą będzie większa komponenta indywidualna. Teraz, przez to, że cały projekt był realizowany w zespole, dało się odczuć że niektóre elementy zespołu bezkarnie wkładały w projekt mniejszy wysiłek. Po kilku latach eksperymentów z ocenianiem zespołowych projektów widzę, że jednak czysta składowa indywidualna jest bardzo ważna.
Drugą będzie wprowadzenie dwóch (prostszych) projektów. Niestety jeden projekt rozciągnięty w czasie powoduje, że mniej przyzwyczajone to tego sposobu pracy osoby zaczynają coś robić pod koniec semestru, gdy już jest na wszystko za późno. Dwa projekty pozwalają zarówno na przeprowadzenie projektu zespołowego jak i indywidualnego.

Doświadczenia / pomysły na inne eksperymenty edukacyjne?
W przyszłym semestrze prowadzę dwa super ciekawe przedmioty (programowanie w R i techniki wizualizacji danych).
To wymarzone miejsce na testowanie pomysłów na projekty edukacyjne.

1 czerwca – otwarcie MI^2 DataLab


Od kilku miesięcy na wydziale MiNI Politechniki Warszawskiej trwają prace nad przygotowaniem DataLabu.
Zajmowały one ostatnio większość mojej uwagi, tym bardziej miło mi poinformować, że oficjalne otwarcie DataLab odbędzie się już w najbliższy czwartek!
Uroczyste przecięcie wstęgi planowane jest na 11:30, a pomiędzy 12:00 – 16:00 będzie można przyjść, rozejrzeć się i porozmawiać o projektach, możliwościach biernej lub czynnej współpracy.

Na otwarcie przygotowane są różne atrakcje, można np. wygrać Lego Mindstorm lub wziąć udział w dwóch warsztatach:
– Pierwszy ,,Reinforcement Learning – jak nauczyć maszynę wygrywać z człowiekiem?” odbędzie się w czwartek 16:30 – 19:00 (liczba miejsc ograniczona, zapisy http://bit.ly/2q75jUi).
– Drugi ,,Tajniki druku 3D dla początkujących” odbędzie się w piątek 14:00-18:00 (liczba miejsc ograniczona, zapisy http://bit.ly/2qKX3bl).
Słyszałem też coś o molekularnym barze.

Ale o co chodzi?

DataLab powstał na wzór MediaLabów i Hakerspaceów.
To miejsce w którym będziemy prowadzić zaawansowane warsztaty, badania i prace rozwojowe związane z tworzeniem nowych narzędzi analizy i wizualizacji danych.
Lab będzie przestrzenią otwartą dla osób, które mają czas, motywację i energię aby pogłębiać swoje umiejętności analityczne, głównie doktorantów, ale też zainteresowanych studentów lub osoby pracujące przy ciekawych projektach.
Journal club, dostęp do nowych technologii, mini-warsztaty hands-on, wyposażona biblioteczka, środowisko nastawione na zaawansowane modelowanie matematyczno-statystyczne, tego możecie się spodziewać po tej przestrzeni do pracy kreatywnej.

Zainteresowany wzięciem udziału a naszych projektach?
Przyjdź na otwarcie!

DataLab wyposażyła nam firma Nethone z grupy Daftcode.

Archipelag Matematyki


Wydział MiNI PW prowadzi MiNI Akademię Matematyki, czyli spotkania i konkursy dla uczniów szkół ponad gimnazjalnych i nauczycieli. W poprzedni piątek miało miejsce uroczyste zakończenie roku na MiNI Akademii Matematyki, podczas którego pokazano kilka bardzo ciekawych filmików wyprodukowanych w ramach projektu Archipelag Matematyki.

Filmiki są pełne matematycznego (i nie tylko) humoru, który o rozpuku rozbawił moje dzieci a uśmiech wywołał nawet u mnie. Poniżej podpinam trzy filmiki dostępne na youtube. Kolejne mają pojawić się wkrótce na tym kanale (dostępne są od jakiegoś czasu, ale ja się o nich dowiedziałem dopiero w piątek na Akademii). Smaczku tym filmikom dodaje fakt, że marynarzy grają zawodowi matematycy z wydziału MiNI.

Archipelag Matematyki Odcinek 01: “Hotel Hilberta”

Archipelag Matematyki Odcinek 02: “Kartograf van der Graaf”

Archipelag Matematyki Odcinek 04: “Syreni śpiew”

Studia doktoranckie z Data Science

Screen Shot 2017-05-07 at 18.11.58

Obrazek po prawej to link do Keep pushing. The illustrated guide to a Ph.D. Matt Might. Warto obejrzeć jako wprowadzenie do poniższego postu.

Wspólne studia doktoranckie MIM UW + MiNI PW

Bezpośrednim powodem przygotowania tego wpisu jest otwarcie jesienią wspólnych studiów doktoranckich przez dwa świetne wydziały matematyczno-informatyczne: Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego oraz Matematyki i Nauk Informacyjnych Politechniki Warszawskiej. Na obu wydziałach można bronić doktoraty albo z informatyki albo z matematyki i oba te wydziały prowadzą studia w obu kierunkach. Ale też na obu wydziałach te dwie ścieżki mają wiele przecięć splatających się wokół czegoś co dziś określa się jako Data Science.

Przygotowuję ten wpis, ponieważ gdy sam robiłem doktorat o pewnych procesach miałem mgliste lub żadne wyobrażenie co doprowadziło do różnych, nie zawsze dobrych, decyzji. To co prawda było już kilkanaście lat temu, ale jak się okazuje pewne wątki są wciąż aktualne a pewne rozterki dotykają kandydatów na studia doktoranckie niezależnie od pokolenia i koniunktury. Od lat pracuję na wydziale, który prowadzi studia doktoranckie, współpracuję z działami badawczymi różnych dużych firm, w których pracują doktoranci i często rozmawiam z osobami przed, w trakcie lub świeżo po doktoracie i wiele z tych osób ma bardzo podobne wątpliwości co do studiów doktoranckich. Stwierdziłem, że szerzej podzielę się moim (bardzo subiektywnym) spojrzeniem na temat wartości takich studiów.

Czytaj dalej Studia doktoranckie z Data Science

Ustawa 2.0


Ministerstwo Nauki i Szkolnictwa Wyższego wyłoniło trzy zespoły, które pracowały nad założeniami do nowej ustawy o szkolnictwie wyższym, tzw. Ustawie 2.0. Wyniki prac tych zespołów można znaleźć tutaj http://www.nauka.gov.pl/ustawa20/.

Nie jest to prosta lektura. Ale… Dzisiaj Obywatele Nauki opublikowali opinię na temat tych założeń. W tej opinii znajduje się porównanie propozycji prac każdego z trzech zespołów w zestawienie z propozycją ON i w podziale na istotne grupy tematyczne.
To już da się czytać a nawet warto przeczytać. pdf tutaj.

Jednym z wątków, który mnie szczególnie interesował jest temat popularyzacji nauki. Niestety w trzech zgłoszonych propozycjach ten wątek jeżeli się pojawia to skrótowo. Postulaty ON idą w kierunku znacznie poważniejszego potraktowania roli popularyzacji nauki (rozdział VIII). Innym ciekawym wątkiem jest model kariery naukowej, w tym dyskusja czy zostawić habilitacje, czy zostawić profesurę, jakie mogą być doktoraty itp (rozdział III).

123…

Jerzy_Neyman2
Dzisiaj mamy rocznicę 123 urodzin Jerzego Neymana. Jerzy Spława-Neyman to jeden z twórców częstościowego podejścia do testowania, prawdopodobnie najbardziej znany ze sformułowania procesu testowania hipotez jako problem optymalizacji funkcji mocy testu. Współautor lematu Neymana-Pearsona.

Jerzy Neyman doktorat zrobił na Uniwersytecie Warszawskim, jego egzaminatorami byli Wacław Sierpiński i Stefan Mazurkiewicz. Plotka głosi, że ci wybitni matematycy widzieli w Neymanie talent, ale to czym się zajmował nie pasowało do ich definicji matematyki (odwieczny problem na linii matematyka-statystyka). Wysłali go więc do Wielkiej Brytanii aby się sprawdził wśród innych statystyków. Sprawdził się, został np. ForMemRS.

W życiorysie Jerzego Neymana jest wiele polskich akcentów, np. ten, że stworzył w Instytucie Nenckiego laboratorium Biometrii (tak, Nencki to ten Instytut PAN po drugiej stronie ulicy Pasteura). Koniec końców Neyman został jednak profesorem na Berkeley. Zapraszał tam wielu polskich matematyków i statystyków, np. Witolda Kloneckiego, który później opowiadał nam rozmaite anegdotki.

Więcej o Neymanie można przeczytać na stronach AMS lub Wikipedii.

Przyjdź, posłuchaj, porozmawiaj – 13.IV Wrocław, 8.V Kraków, 26.V Warszawa

W najbliższych dniach prowadzę kilka wykładów i warsztatów.

Czwartek 13.IV – UWr Wrocław
godzina 14-15 Wykład o biostatystyce i dużych danych.
godzina 15-17 Warsztaty z wizualizacji danych.

Więcej informacji: http://www.blog.math.uni.wroc.pl/node/171.

Poniedziałek 08.V – PKr Kraków
godzina 15-17 Warsztaty z wizualizacji danych.
godzina 17-18 Wykład statystyka obliczeniowa, duże dane i genetyka.

Więcej informacji: https://www.meetup.com/Cracow-R-Users-Group/events/239021538/.

Piątek 26.V – PW Warszawa
Wykład o biostatystyce i dużych danych.

Te spotkania to fragment serii wyjazdów poświęconych (1) zastosowaniom statystyki obliczeniowej w analizie dużych danych onkologicznych oraz (2) nowym narzędziom do wizualizacji danych/wizualizacji modeli statystycznych.
Między innymi prowadzę te spotkania z nadzieją na znalezienie współpracowników (doktorantów/post-doków) zainteresowanych którymś z ww. tematów.
Ciekawych projektów do realizacji jest sporo. Zainteresowanych zapraszam więc do pogadanek przed/po spotkaniu.

Poprzednie spotkania z tej serii

Czwartek 09.III – MiNI PW Warszawa
godzina 18-19 Historia R.

Czwartek 16.IIIUniejów
godzina 13-14 Wykład wizualizacja danych.

Czwartek 23.III – CO/UEP Poznań
godzina 13-14 Wykład o biostatystyce i dużych danych.
godzina 18-19 Historia R.

Czwartek 06.IV – MIM UW Warszawa
godzina 14-15 Wykład o biostatystyce i dużych danych.

Coś jest w tych czwartkach.

Big Data – bigger opportunities 24-25 kwietnia 2017


Już trzeci rok z rzędu, mam przyjemność poinformować, że nasza Fundacja objęła honorowym patronatem konferencję Big Data – bigger opportunities, organizowaną przez SKN Statystyki SGH.

Poniżej notatka od organizatorów.

Big Data – bigger opportunities, czyli jak Big Data napędza biznes

Moda na Big Data wciąż nie mija. Co więcej, trend ma się rozwijać. Jak prognozuje firma analityczna IDG, w ciągu najbliższych 3 lat wartość rynku zaawansowanej analityki danych wzrośnie ze 130 mld dol. do ponad 203 mld dol. Jednak pomimo tego, że o Big Data mówi się wiele, termin ten nadal pozostaje nieco owiany tajemnicą – ładnie brzmiący, intrygujący, lecz enigmatyczny i niejasny dla przeciętnego Kowalskiego. O co chodzi w tym całym Big Data? Co ma wspólnego z efektywnie prowadzonym biznesem? Odpowiedzi na te pytania szukają między innymi studenci Szkoły Głównej Handlowej, organizując konferencję „Big Data – bigger opportunities”.

Konferencja, organizowana w tym roku już po raz trzeci przez Studenckie Koło Naukowe Statystyki, jest jedyną w Polsce tak dużą konferencją poświęconą tematyce Big Data i jej zastosowaniu w biznesie tworzoną wyłącznie przez studentów. Nie umniejsza to jednak jej poziomu merytorycznego. Tegoroczna edycja projektu odbędzie się 24 i 25 kwietnia w SGH i skupi na przedstawieniu tematyki Big Data z perspektywy realnych problemów biznesowych, rozwiązanych dzięki narzędziom zaawansowanej analityki. Program pierwszego dnia obejmuje 3 warsztaty poświęcone zastosowaniu narzędzi Big Data w praktyce. Agenda drugiego dnia przewiduje natomiast cykl 7 prelekcji, skierowanych do większej liczby uczestników. O wykorzystaniu Big Data w różnorodnych branżach – marketingowej, konsultingowej, bankowej – opowiedzą eksperci z firm takich jak Bank Millennium, Dentsu Aegis Network Polska, Zenith, Cloud Technologies, Deloitte i PwC.

Udział w konferencji jest bezpłatny, lecz na poszczególne prelekcje oraz warsztaty będą obowiązywać zapisy. Link do zapisów pojawi się na stronie Organizatora: www.sknstatystyki.pl. Informacje o wydarzeniu będą również na bieżąco publikowane na profilu SKN Statystyki na Facebooku. Ponadto 10 kwietnia w SGH odbędzie się dzień promocyjny konferencji z licznymi atrakcjami: poczęstunkiem, konkursami, stoiskami partnerów merytorycznych wydarzenia.

Jakich metod statystycznej analizy danych uczyć się?


The New England Journal of Medicine (dla bibliometroholików: 50 pkt MNiSW, impact factor ponad 50, pierwsza liga) opublikował dwa tygodnie temu krótki, ale bardzo ciekawy komentarz Statistical Methods. Przebadano 238 prac z roku 2015 pod kątem używanych technik statystycznych oraz zestawiono te wyniki z artykułami z poprzednich lat (od 1978, łącznie ~1000 artykułów).

Całość streszcza wykres po prawej (to link do oryginalnego artykułu). W dobrych czasopismach medycznych wykorzystywane są coraz bardziej zaawansowane metody statystyczne. Metody nieparametryczne i regresja wielokrotna w ponad 1/3 prac. Analiza przeżycia i analiza mocy testów, każde w ponad połowie artykułów (bardzo duży wzrost w ostatnich latach). Wielokrotne testowanie w co piątym artykule. Tylko co dwudziesty artykuł nie ma ,,statystyki”.