Maraton Analizy Danych, czyli niedzielna notatka z pamiętnika nauczyciela akademickiego


Miałem dzisiaj przyjemność uczestniczyć w pracach jury podczas Maratonu Analizy Danych, wydarzenia zorganizowanego przez koło SNK Data Science Management z SGH. Hakaton trwał 24h, a po maratonie były jeszcze 3h prezentacji. W maratonie wzięły udział zespoły głównie z UW, PW i SGH, choć byli też uczestnicy z innych uczelni, również spoza Warszawy.

Przestrzeń na hakaton bardzo przyjemna (Mysia 3), organizacja świetna (ale czy czegoś innego można się spodziewać po kole z SGH?). To był jeden z bardzo nielicznych hakatonów, w którym duży nacisk położono na faktyczną analizę danych.

Takie imprezy robią na mnie duże wrażenie. Młodzi ludzie, przez cały dzień i całą noc walczą z jakimś problemem, a później jeszcze mają siłę pokazać wyniki innym zespołom.
Ach te studenckie czasy!
Wśród rozwiązań dominował R i Python, sporo było map (oczywiście leaflet), były aplikacje Shiny, a nawet w prezentacjach pojawił się jakiś PowerBI. Od strony metodologicznej dało się wyczuć dwa rodzaje podejść, nazwijmy je umownie podejściem maszynowym (jak model to random forest albo xgboost) i statystycznym (aż po statystykę Morana dla danych przestrzennych). To już same w sobie było świetne, uczestnicy zostali wystawieni na nowe (dla części z nich) algorytmy i podejścia do analizy danych.

Lubię takie wydarzenia, ponieważ pokazują jakie kompetencje posiadają najaktywniejsi studenci (ech, to spaczone spojrzenie nauczyciela akademickiego).
Od strony narzędziowej zespoły prezentowały bardzo wysoki poziom (a to studenci I i II stopnia), niesamowite co udało się zrobić w 24h. Od strony prezentacyjnej poziom też był wysoki. Czytelne sensowne przedstawianie problemu i rozwiązania. Były zespoły, które zdążyły zrobić i analizę i aplikację webową i bardzo graficznie dopracowaną prezentację. Znacznie wyższy poziom niż +-10 lat temu gdy prezentacje projektów bywały drętwe.

Ponieważ jestem człowiekiem, dla którego do szklanki zawsze można jeszcze trochę dolać, więc i tutaj zastanawiałem się jakie kompetencje dotyczące analizy danych można by dalej rozwinąć.

I wyszło mi, że wąskim gardłem było najczęściej samo określenie problemu do rozwiązania. Często (a pisząc często rozszerzam to i na inne znane mi hakatony i na znane mi projekty uczelniane) analiza danych jest ,,data-driven” a nie ,,problem-driven”.
Wychodzi się od dostępnego zbioru danych i zastanawia jaki by tu problem z tych danych rozwiązać. W konsekwencji gdy już wydaje się, że ten problem się rozwiązało, okazuje się, że te dane niespecjalnie się do tego problemu nadawały. Czy to z powodu agregacji, czy zakresów czy czegoś innego.
Pozostawia to pewien niedosyt. Widać było ciekawy problem, widać było wysiłek i umiejętności, ale rozwiązanie nie jest w pełni satysfakcjonujące z uwagi na ,,zniewolenie myślenia przez te konkretne dane”. Rozwiązanie nie jest wymuskane, lśniące, pachnące itp.
Potraktowałbym to jako wskazówkę dla prowadzących przedmioty projektowe na uczeniach, by większy nacisk włożyć na krytyczną ocenę potencjału wykorzystania określonego źródła danych.

Tak czy inaczej Maraton Analizy Danych był fantastycznym wydarzeniem pełnym pozytywnej energii. To była pierwsza edycja, oby były kolejne.
Najbliższy hakaton związany z analizą danych odbędzie się za dwa tygodnie, podczas konferencji Data Science Summit (nasza fundacja jest partnerem!).
Z pewnością też tam będę 😉

Z pamiętnika nauczyciela akademickiego – Irracjonalne wybory

TL;DR

Wybory studentów są czasem nieracjonalne, przynajmniej z mojego punktu widzenia. Ale czasem to znaczenie lepiej i bardzo mnie to cieszy.

Dłuższa wersja

Na przedmiocie Techniki Wizualizacji Danych mam w tym roku bardzo silną grupę matematyków ze specjalności SMAD (statystyka i analiza danych) i informatyków ze specjalności PAD (przetwarzanie i analiza danych). W semestrze mamy trzy projekty i spodziewałem się, że wyniki każdego będą tak ciekawe, że je tutaj opiszę.

Ale…

W terminie oddanie pierwszego projektu zadałem też całkiem wciągającą pracę domową. Projekt dotyczył wizualizacji danych komunikacji miejskiej VaVeL, praca domowa dotyczyła przeprowadzenia badania sprawdzającego jak ludzie odczytują dane z wykresów. Z projektu można było dostać do 100 punktów, praca domowa jest punktowana 10 punktów, z możliwością dodatkowego bonusu 10 punktów jeżeli będzie bardzo dobra. Projekt był dosyć silnie skierowany na konkretny dobór danych, praca domowa pozostawiała bardzo szerokie pole do interpretacji.
Czasu oczywiście niewiele, warto zrobić jedno i drugie ale projekt to 100 punktów a praca domowa max 20.
Na co studenci poświęcili więcej czasu?
Racjonalnie (więcej o tym na samym końcu) byłoby się skupić głownie na projekcie. Ale patrząc na wyniki, więcej czasu i serca widać w pracach domowych. Badania, które wykonali na pracę domową były tak ciekawe, że to właśnie o nich napiszę poniżej.

Ale o co chodzi

Punktem wyjścia do pracy domowej był esej Percepcja obrazu oraz trudność w wyobrażenia sobie co odbiorca widzi na naszym wykresie, jeżeli nie jest obciążony naszą wiedzą, co na tym wykresie chcieliśmy pokazać. Na wykładzie omawialiśmy sobie jak nasz mózg widzi wykresy, jak rozumie dane i co potrafi z wykresu odczytać a czego nie.
Zadaniem było przeprowadzenie badania na kolegach/koleżankach, badania oceniającego które wykresy są lepiej (=precyzyjniej) odczytywane.

I co z tego wyszło

Jedna z grup (Alicja Gosiewska, Kinga Jamróz, Maja Kalinowska, Karolina Marcinkowska) przygotowała internetową ankietę weryfikującą co internauci widzą a czego nie widzą a następnie zebrała wyniki w raporcie.

Ankietę można znaleźć w internecie TUTAJ i bardzo polecam ją zrobić. Jest świetnie przygotowana, zaskakująca i to po prostu dobra zabawa.

Wyniki z zebranych badań w postaci raportu są dostępne TUTAJ.
Uwierzcie, że po zrobieniu ankiety, będziecie chcieli wiedzieć jak zrobili ją inni.

Ciekawych prac domowych było oczywiście więcej.
Zespół (Mateusz Mazurkiewicz, Wojciech Rosiński, Dawid Stelmach) sprawdzał czy wykresy słupkowe sa faktycznie takie dobre jak je prowadzący rysuje.
Ta praca mierzy się z wykresami typu tree plot (Ahmed Abdelkarim, Aleksandra Hernik, Iwona Żochowska)
Z piktogramami (czy ISOTYPE) mierzyła się grupa (Paweł Pollak, Karol Prusinowski, Karol Szczawiński)
A zespół (Anton Lenartovich, Mateusz Mechelewski) rozstrzygał komu podobają się wykresy typu płatki śniegu.

A co do tytułowej irracjonalności.
Na jesienną pluchę polecam książkę Dana Ariely (dostępna też jako audiobook) Predictably Irrational: The Hidden Forces That Shape Our Decisions.
Oczywiście zachowania studentów wcale nie są irracjonalne. Zamiast wybrać zadanie z większą liczbą punktów wybrali zadanie ciekawsze w dłuższej perspektywie jest lepszym wyborem.
A to, jak pisałem na wstępie, bardzo mnie ucieszyło.

Ciekawe konferencje w obszarze uczenia maszynowego w Warszawie

Konferencja WhyR zakończyła się zaledwie dwa tygodnie temu, a na horyzoncie wiele kolejnych ciekawych konferencji dla zainteresowanych uczeniem maszynowym. Cztery najbliższe, dziejące się w Warszawie to:

Screen Shot 2017-10-12 at 14.09.48Machine Learning Level Up to wydarzenie organizowane przez firmę Nethone z grupy DaftCode przy współpracy MI2DataLab. To cykl czterech spotkań po 1,5h. Pierwsze rozpocznie się 19 października. Na najbliższą edycję zapisy są już zakończone, ale można na szukać informacji o kolejnych wydarzeniach na naszym Facebooku.

logo code4life
Konferencja Code4Life odbędzie się 27 października. Konferencja organizowana przez firmę Roche związana z IT oraz rozwiązaniami z rynku usług medycznych. Wiele referatów związanych z przetwarzaniem języka naturalnego.

slider_2_14.11Na 14 listopada można szykować się na ML@Enterprise – wiele warsztatów połączonych z tutorialami (7 godzin), panel ,,ML nad Wisłą”, innymi słowy ciekawe wydarzenie.
I tutaj znajdziemy tematy wokół NLP, ale różnych tematów przewijających się przez tę konferencję jest zdecydowanie więcej.

Screen Shot 2017-10-12 at 14.18.37Miesiąc później, 15 grudnia, na MIM UW odbędzie się konferencja PL in ML: Polish View on Machine Learning organizowana przez koło studenckie ML.

Wizualna eksploracja modeli statystycznych @ MI2DataLab

W poprzednim tygodniu mieliśmy kolejne dwie obrony świetnych prac magisterskich zrealizowanych w MI2DataLab. Obie prace związane były z budową ciekawego narzędzia do eksploracji i wizualizacji modeli statystycznych. W obu przypadkach udało się zbudowac użyteczny pakiet do eksploracji modeli określonego typu.

Agnieszka Sitko obroniła pracę ,,Merge and Select: Visualization of a likelihood based k-sample adaptive fusing and model selection”, w której opisuje metodę i narzędzie do analizy relacji pomiędzy zmienną jakościową a odpowiedzią, która może być zmienną ilościową jedno lub wielowymiarową, zmienną binarną lub cenzorowaną.

Metoda jest zaimplementowana w narzędziu factorMerger. Poniżej ściągawka. Więcej materiałów: Wersja CRAN pakietu. Wersja developerska pakietu. Preprint artykułu. Winietka.

factorMerger-cheatsheet

Tego samego dnia Magda Młynarczyk obroniła pracę ,,Modele ryzyk konkurujących wraz z zastosowaniami w analizie chorych z nowotworami układu krwiotwórczego” w której opisuje metody analizy ryzyk konkurujących. W ramach pracy powstało narzędzie ułatwiające pracę z danymi tego rodzaju. Pakiet cr17 jest już dostępny na CRAN.

Screen Shot 2017-09-25 at 15.42.31

Więcej materiałów: Wersja CRAN pakietu. Wersja developerska pakietu. Winietka.

Obie prace, są częścią większej inicjatywy dotyczącej eksploracji i wizualizacji złożonych modeli statystycznych. O całej inicjatywie eksploracji wizualnej będzie można posłuchać na konferencji WhyR w piątek podczas mojego referatu ,,Show me your model”.

Co widać w lesie losowym?


Miesiąc temu ruszył MI2DataLab, kuźnia/warsztat z narzędziami do analizy danych.
Dzisiaj mieliśmy pierwszą, po oficjalnym otwarciu, obronę pracy magisterskiej w grupie MI2.

Aleksandra Paluszyńska z MIM UW obroniła pracę Structure mining and knowledge extraction from random forest with applications to The Cancer Genome Atlas.
W pracy opisała metodologię stojącą za opracowanym przez nią pakietem randomForestExplainer. Pakiet służy do wizualnej diagnostyki lasów losowych. Analizy ważnych zmiennych, ważnych interakcji, brzegowych zależności itp.

Pracę przeczytać można tutaj.

Pakiet można pobrać i zainstalować z CRAN lub GitHuba.

Krótka winietka opisująca pakiet jest dostępna tutaj.

Z pakietu warto skorzystać – już żaden las losowy nie będzie miał przed nami tajemnic.

1 czerwca – otwarcie MI^2 DataLab


Od kilku miesięcy na wydziale MiNI Politechniki Warszawskiej trwają prace nad przygotowaniem DataLabu.
Zajmowały one ostatnio większość mojej uwagi, tym bardziej miło mi poinformować, że oficjalne otwarcie DataLab odbędzie się już w najbliższy czwartek!
Uroczyste przecięcie wstęgi planowane jest na 11:30, a pomiędzy 12:00 – 16:00 będzie można przyjść, rozejrzeć się i porozmawiać o projektach, możliwościach biernej lub czynnej współpracy.

Na otwarcie przygotowane są różne atrakcje, można np. wygrać Lego Mindstorm lub wziąć udział w dwóch warsztatach:
– Pierwszy ,,Reinforcement Learning – jak nauczyć maszynę wygrywać z człowiekiem?” odbędzie się w czwartek 16:30 – 19:00 (liczba miejsc ograniczona, zapisy http://bit.ly/2q75jUi).
– Drugi ,,Tajniki druku 3D dla początkujących” odbędzie się w piątek 14:00-18:00 (liczba miejsc ograniczona, zapisy http://bit.ly/2qKX3bl).
Słyszałem też coś o molekularnym barze.

Ale o co chodzi?

DataLab powstał na wzór MediaLabów i Hakerspaceów.
To miejsce w którym będziemy prowadzić zaawansowane warsztaty, badania i prace rozwojowe związane z tworzeniem nowych narzędzi analizy i wizualizacji danych.
Lab będzie przestrzenią otwartą dla osób, które mają czas, motywację i energię aby pogłębiać swoje umiejętności analityczne, głównie doktorantów, ale też zainteresowanych studentów lub osoby pracujące przy ciekawych projektach.
Journal club, dostęp do nowych technologii, mini-warsztaty hands-on, wyposażona biblioteczka, środowisko nastawione na zaawansowane modelowanie matematyczno-statystyczne, tego możecie się spodziewać po tej przestrzeni do pracy kreatywnej.

Zainteresowany wzięciem udziału a naszych projektach?
Przyjdź na otwarcie!

DataLab wyposażyła nam firma Nethone z grupy Daftcode.

Studia doktoranckie z Data Science

Screen Shot 2017-05-07 at 18.11.58

Obrazek po prawej to link do Keep pushing. The illustrated guide to a Ph.D. Matt Might. Warto obejrzeć jako wprowadzenie do poniższego postu.

Wspólne studia doktoranckie MIM UW + MiNI PW

Bezpośrednim powodem przygotowania tego wpisu jest otwarcie jesienią wspólnych studiów doktoranckich przez dwa świetne wydziały matematyczno-informatyczne: Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego oraz Matematyki i Nauk Informacyjnych Politechniki Warszawskiej. Na obu wydziałach można bronić doktoraty albo z informatyki albo z matematyki i oba te wydziały prowadzą studia w obu kierunkach. Ale też na obu wydziałach te dwie ścieżki mają wiele przecięć splatających się wokół czegoś co dziś określa się jako Data Science.

Przygotowuję ten wpis, ponieważ gdy sam robiłem doktorat o pewnych procesach miałem mgliste lub żadne wyobrażenie co doprowadziło do różnych, nie zawsze dobrych, decyzji. To co prawda było już kilkanaście lat temu, ale jak się okazuje pewne wątki są wciąż aktualne a pewne rozterki dotykają kandydatów na studia doktoranckie niezależnie od pokolenia i koniunktury. Od lat pracuję na wydziale, który prowadzi studia doktoranckie, współpracuję z działami badawczymi różnych dużych firm, w których pracują doktoranci i często rozmawiam z osobami przed, w trakcie lub świeżo po doktoracie i wiele z tych osób ma bardzo podobne wątpliwości co do studiów doktoranckich. Stwierdziłem, że szerzej podzielę się moim (bardzo subiektywnym) spojrzeniem na temat wartości takich studiów.

Czytaj dalej Studia doktoranckie z Data Science

Poland: Into the light

Siedzę sobie na konferencji Contemporary Oncology, słucham keynote’a z Kalifornii (Nicholas Schork) a ten mówi, że niecały miesiąc temu w Nature / Careers (Nature, to prawdopodobnie obok Science najbardziej rozpoznawane naukowe czasopismo), był artykuł o tym jak szybko się rozwija polska nauka (z uwagi na czasopismo głównie chodzi o nauki o życiu).

Artykuł o tytule Poland: Into the light jest w całości dostępny online. Ku pokrzepieniu serc 😉

Przecinające się krzywe przeżycia

Spotkałem się ostatnio z ciekawym problemem.
Mamy dwie grupy pacjentów na dwóch różnych schematach leczenia i chcemy porównać ich dalsze losy, a konkretnie krzywe niepowodzenia leczenia (prawdopodobieństwo zgonu/wznowy).
Na pierwszy rzut oka klasyczna analiza przeżycia, test log-rank i po sprawie.

Ale szybko okazuje się, że krzywe przeżycia się przecinają, co więcej oczekiwać można tego po wcześniejszej rozmowie z lekarzem. Jeden schemat leczenia jest bardziej agresywny więc może prowadzić do gorszych rokowań krótkookresowych, ale lepszych w dalszej perspektywie.

Klasyczny test dla krzywych przeżycia oparty jest o odległość pomiędzy krzywymi, mierzoną jest jako ważona suma kwadratów odległości w poszczególnych punktach. Ale gdy krzywe się przecinają to taki test ma niską moc i nie ma sensu go stosować.

A więc co robić?
Ciekawe studium symulacyjne porównujące różne podejścia do testowania przecinających się krzywych zostało opublikowane dwa lata temu w Plos One (!).
Okazuje się, że dobrze sprawdza się rodzina testów Renyi, która jest oparta o supremum ważonych odległości pomiędzy krzywymi przeżycia.
W R te testy są zaimplementowane w pakiecie survMisc w funkcji comp. Jest to znacznie mocniejszy test dla przecinających się krzywych.

A przy okazji, okazuje się, że zmianę w hazardach w rozpatrywanym problemie dobrze ilustrują reszty Schonefelda. Poniższy wykres pokazuje, że hazard w jednej grupie jest znacznie wyższy do 12 miesiąca, a później gorsze losy czekają pacjentów drugiej grupy.

Oba wykresy wykonane pakietem survminer.

Opisy osi usunąłem ponieważ wyniki tych analiz jeszcze nie są opublikowane, ale też nazwy nie mają większego znaczenia.

Więcej statystyki Bayesowskiej

Statystyka częstościowa królowała w naukach empirycznych przez większość XX wieku. Początki XXI wieku wieszczą zmiany. Od kilkunastu lat pisał o nich np. Terry Speed na łamach biuletynu IMS. Pisało też wielu innych, ale Terry Speed jest biostatystykiem więc łatwiej mi się na niego powoływać. Zmiany nabrały tempa po rekomendacjach ASA sprzed kilku miesięcy dotyczących p-wartości, a więc jednej z głównych nóg statystyki częstościowej.

Jakby tego było mało, w ubiegłym tygodniu Frank Harrell opublikował post My Journey From Frequentist to Bayesian Statistics. Pierwsze zdanie to: If I had been taught Bayesian modeling before being taught the frequentist paradigm, I’m sure I would have always been a Bayesian. Mocne prawda?

Również niedawno zamieszanie wokół p-wartości spowodowały posty Andrew Gelmana z serii pizzagate. Tu co prawda czarnym charakterem nie jest sama p-wartość ale profesor, który wykorzystał p-hacking do (prawie) granic przyzwoitości.

Kolejny sygnał, że warto do edukacji statystyków i data-scientistów wprowadzać więcej statystyki Bayesowskiej. A semestr letni tuż tuż…