Co widać w lesie losowym?


Miesiąc temu ruszył MI2DataLab, kuźnia/warsztat z narzędziami do analizy danych.
Dzisiaj mieliśmy pierwszą, po oficjalnym otwarciu, obronę pracy magisterskiej w grupie MI2.

Aleksandra Paluszyńska z MIM UW obroniła pracę Structure mining and knowledge extraction from random forest with applications to The Cancer Genome Atlas.
W pracy opisała metodologię stojącą za opracowanym przez nią pakietem randomForestExplainer. Pakiet służy do wizualnej diagnostyki lasów losowych. Analizy ważnych zmiennych, ważnych interakcji, brzegowych zależności itp.

Pracę przeczytać można tutaj.

Pakiet można pobrać i zainstalować z CRAN lub GitHuba.

Krótka winietka opisująca pakiet jest dostępna tutaj.

Z pakietu warto skorzystać – już żaden las losowy nie będzie miał przed nami tajemnic.

1 czerwca – otwarcie MI^2 DataLab


Od kilku miesięcy na wydziale MiNI Politechniki Warszawskiej trwają prace nad przygotowaniem DataLabu.
Zajmowały one ostatnio większość mojej uwagi, tym bardziej miło mi poinformować, że oficjalne otwarcie DataLab odbędzie się już w najbliższy czwartek!
Uroczyste przecięcie wstęgi planowane jest na 11:30, a pomiędzy 12:00 – 16:00 będzie można przyjść, rozejrzeć się i porozmawiać o projektach, możliwościach biernej lub czynnej współpracy.

Na otwarcie przygotowane są różne atrakcje, można np. wygrać Lego Mindstorm lub wziąć udział w dwóch warsztatach:
– Pierwszy ,,Reinforcement Learning – jak nauczyć maszynę wygrywać z człowiekiem?” odbędzie się w czwartek 16:30 – 19:00 (liczba miejsc ograniczona, zapisy http://bit.ly/2q75jUi).
– Drugi ,,Tajniki druku 3D dla początkujących” odbędzie się w piątek 14:00-18:00 (liczba miejsc ograniczona, zapisy http://bit.ly/2qKX3bl).
Słyszałem też coś o molekularnym barze.

Ale o co chodzi?

DataLab powstał na wzór MediaLabów i Hakerspaceów.
To miejsce w którym będziemy prowadzić zaawansowane warsztaty, badania i prace rozwojowe związane z tworzeniem nowych narzędzi analizy i wizualizacji danych.
Lab będzie przestrzenią otwartą dla osób, które mają czas, motywację i energię aby pogłębiać swoje umiejętności analityczne, głównie doktorantów, ale też zainteresowanych studentów lub osoby pracujące przy ciekawych projektach.
Journal club, dostęp do nowych technologii, mini-warsztaty hands-on, wyposażona biblioteczka, środowisko nastawione na zaawansowane modelowanie matematyczno-statystyczne, tego możecie się spodziewać po tej przestrzeni do pracy kreatywnej.

Zainteresowany wzięciem udziału a naszych projektach?
Przyjdź na otwarcie!

DataLab wyposażyła nam firma Nethone z grupy Daftcode.

Studia doktoranckie z Data Science

Screen Shot 2017-05-07 at 18.11.58

Obrazek po prawej to link do Keep pushing. The illustrated guide to a Ph.D. Matt Might. Warto obejrzeć jako wprowadzenie do poniższego postu.

Wspólne studia doktoranckie MIM UW + MiNI PW

Bezpośrednim powodem przygotowania tego wpisu jest otwarcie jesienią wspólnych studiów doktoranckich przez dwa świetne wydziały matematyczno-informatyczne: Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego oraz Matematyki i Nauk Informacyjnych Politechniki Warszawskiej. Na obu wydziałach można bronić doktoraty albo z informatyki albo z matematyki i oba te wydziały prowadzą studia w obu kierunkach. Ale też na obu wydziałach te dwie ścieżki mają wiele przecięć splatających się wokół czegoś co dziś określa się jako Data Science.

Przygotowuję ten wpis, ponieważ gdy sam robiłem doktorat o pewnych procesach miałem mgliste lub żadne wyobrażenie co doprowadziło do różnych, nie zawsze dobrych, decyzji. To co prawda było już kilkanaście lat temu, ale jak się okazuje pewne wątki są wciąż aktualne a pewne rozterki dotykają kandydatów na studia doktoranckie niezależnie od pokolenia i koniunktury. Od lat pracuję na wydziale, który prowadzi studia doktoranckie, współpracuję z działami badawczymi różnych dużych firm, w których pracują doktoranci i często rozmawiam z osobami przed, w trakcie lub świeżo po doktoracie i wiele z tych osób ma bardzo podobne wątpliwości co do studiów doktoranckich. Stwierdziłem, że szerzej podzielę się moim (bardzo subiektywnym) spojrzeniem na temat wartości takich studiów.

Czytaj dalej Studia doktoranckie z Data Science

Poland: Into the light

Siedzę sobie na konferencji Contemporary Oncology, słucham keynote’a z Kalifornii (Nicholas Schork) a ten mówi, że niecały miesiąc temu w Nature / Careers (Nature, to prawdopodobnie obok Science najbardziej rozpoznawane naukowe czasopismo), był artykuł o tym jak szybko się rozwija polska nauka (z uwagi na czasopismo głównie chodzi o nauki o życiu).

Artykuł o tytule Poland: Into the light jest w całości dostępny online. Ku pokrzepieniu serc ;-)

Przecinające się krzywe przeżycia

Spotkałem się ostatnio z ciekawym problemem.
Mamy dwie grupy pacjentów na dwóch różnych schematach leczenia i chcemy porównać ich dalsze losy, a konkretnie krzywe niepowodzenia leczenia (prawdopodobieństwo zgonu/wznowy).
Na pierwszy rzut oka klasyczna analiza przeżycia, test log-rank i po sprawie.

Ale szybko okazuje się, że krzywe przeżycia się przecinają, co więcej oczekiwać można tego po wcześniejszej rozmowie z lekarzem. Jeden schemat leczenia jest bardziej agresywny więc może prowadzić do gorszych rokowań krótkookresowych, ale lepszych w dalszej perspektywie.

Klasyczny test dla krzywych przeżycia oparty jest o odległość pomiędzy krzywymi, mierzoną jest jako ważona suma kwadratów odległości w poszczególnych punktach. Ale gdy krzywe się przecinają to taki test ma niską moc i nie ma sensu go stosować.

A więc co robić?
Ciekawe studium symulacyjne porównujące różne podejścia do testowania przecinających się krzywych zostało opublikowane dwa lata temu w Plos One (!).
Okazuje się, że dobrze sprawdza się rodzina testów Renyi, która jest oparta o supremum ważonych odległości pomiędzy krzywymi przeżycia.
W R te testy są zaimplementowane w pakiecie survMisc w funkcji comp. Jest to znacznie mocniejszy test dla przecinających się krzywych.

A przy okazji, okazuje się, że zmianę w hazardach w rozpatrywanym problemie dobrze ilustrują reszty Schonefelda. Poniższy wykres pokazuje, że hazard w jednej grupie jest znacznie wyższy do 12 miesiąca, a później gorsze losy czekają pacjentów drugiej grupy.

Oba wykresy wykonane pakietem survminer.

Opisy osi usunąłem ponieważ wyniki tych analiz jeszcze nie są opublikowane, ale też nazwy nie mają większego znaczenia.

Więcej statystyki Bayesowskiej

Statystyka częstościowa królowała w naukach empirycznych przez większość XX wieku. Początki XXI wieku wieszczą zmiany. Od kilkunastu lat pisał o nich np. Terry Speed na łamach biuletynu IMS. Pisało też wielu innych, ale Terry Speed jest biostatystykiem więc łatwiej mi się na niego powoływać. Zmiany nabrały tempa po rekomendacjach ASA sprzed kilku miesięcy dotyczących p-wartości, a więc jednej z głównych nóg statystyki częstościowej.

Jakby tego było mało, w ubiegłym tygodniu Frank Harrell opublikował post My Journey From Frequentist to Bayesian Statistics. Pierwsze zdanie to: If I had been taught Bayesian modeling before being taught the frequentist paradigm, I’m sure I would have always been a Bayesian. Mocne prawda?

Również niedawno zamieszanie wokół p-wartości spowodowały posty Andrew Gelmana z serii pizzagate. Tu co prawda czarnym charakterem nie jest sama p-wartość ale profesor, który wykorzystał p-hacking do (prawie) granic przyzwoitości.

Kolejny sygnał, że warto do edukacji statystyków i data-scientistów wprowadzać więcej statystyki Bayesowskiej. A semestr letni tuż tuż…

Co nowego w ,,Przewodnik po pakiecie R – wydanie 4.0”?

Przewodnik1234okladka
Czwarte wydanie ,,Przewodnika po pakiecie R” trafiło do księgarń w połowie grudnia. Pierwszy nakład był mały i szybko się skończył, ale od połowy stycznia Przewodnik jest ponownie dostępny.
A ja mam trochę czasu by napisać co nowego można znaleźć w czwartym wydaniu.

Zmian jest wiele. Kierunki zmian są dwa. Po pierwsze, obniżyć próg wejścia dla osób, które dopiero zaczynają przygodę z analizą danych. Łagodnym wprowadzeniem w temat są pierwsze dwa rozdziały. W upraszczaniu tej części przydały się doświadczenia z Pogromców Danych (2000+ osób) i z różnych szkoleń dla nie-programistów.
Drugi kierunek zmian to szersze wprowadzenie do pakietów z grupy tidyverse oraz ułatwień, które oferuje RStudio. Weterani R mają różne ulubione edytory i rozwiązania codziennych problemów, ale dla osób rozpoczynających przygodę z pewnością najefektywniejszą drogą wejścia jest połączenie RStudio i pakietów z tidyverse. Również osoby pracujące z R od lat mogą z zaskoczeniem odkryć, że praca z datami jest bardzo prosta dzięki pakietowi lubridate (ok, lubridate ma już kilka lat na karku) lub że praca z czynnikami jest prosta dzięki pakietowi forcats.

Wzorem poprzednich wydań, pierwsze 3 rozdziały (150 stron) są dostępne bezpłatnie jako pdf online tutaj.

Rozdział 1 – Wprowadzenie
W pierwszym rozdziale znajduje się krótki opis narzędzia jakim jest język R i edytor RStudio.
Zaczynam od pytania ,,Dlaczego warto poznać R?”,
Czytelnik może zapoznać się z przykładowymi fragmentami kodu R do pobierania danych z internetu (z nadzieją na reakcję czytelnika ,,WoW, to się da zrobić w 5 linijkach! Ja też tak chcę!!!”), wizualizacji pobranych danych oraz prostego modelowania statystycznego. Wszystko w zaledwie kilku linijkach kodu, możliwe dzięki dużej ekspresji języka.
Jeżeli ktoś jeszcze nie wie, czy praca z R jest dla niego, ten rozdział pomoże podjąć decyzję.
Jest tutaj też krótka historia rozwoju R, od początków S po lawinowy rozwój R w ostatnich latach/miesiącach.

Czytaj dalej Co nowego w ,,Przewodnik po pakiecie R – wydanie 4.0”?

Odkrywać! Ujawniać! Objaśniać!

eseje
W listopadzie mamy wiele akcji wydawniczych. Kilka dni temu pisałem o tym, że do księgarni trafiają Muffinki – bogato ilustrowane opowiadania statystyczne dla dzieci.
A w tę sobotę do księgarni wrócił ,,Zbiór esejów o sztuce prezentowania danych Odkrywać! Ujawniać! Objaśniać!” Akurat dostaliśmy z drukarni kolejny metr sześcienny książek. W sam raz na święta.

Cała książka jest dostępna w formacie html tutaj. Wersję papierową można kupić w tych księgarniach.

A co znajduje się w kolejnych rozdziałach?

Perełki z historii – Zobaczcie jak wyglądała słynna Róża Nightingale, wykres który uratował tysiące ludzkich istnień. Co tak naprawdę w Człowieku witruwiańskim zakodował Da Vinci? Jakimi wykresami Otton Neurath chciał edukować społeczeństwo.

Percepcja obrazu – Czym różni się plamka ślepa od żółtej oraz dlaczego przy słabym świetle trudno trafić w dziurkę od klucza. Dlaczego na łodziach podwodnych jest czerwone oświetlenie. Co łączy dentystę i dietetyka?

Percepcja kolorów – Dlaczego nie widzimy w podczerwieni ani ultrafiolecie, choć niektóre owady i węże potrafią. Co można odczytać z wykresu chromatyczności i jak pomóc kolegom z deuteranomalią.

Percepcja danych – Jak wygląda Rachunek od państwa 2012? Dlaczego tak trudno czytać wyniki sondaży? Dlaczego tak trudno radzić sobie z niepewnością?

okladka-724x1024

Od kuchni – Dlaczego wykres mozaikowy jest świetny choć rzadko stosowany? Co widać w twarzach Chernoffa? Dlaczego dobre garnki to nie wszystko?

Info-pomyłka – Jaki nie dać się zwieść słupkom, kątom, i dziwnym osiom.

Droga – Jak bawić się prezentacją danych. I to nie tylko na komputerze.

Gramatyka – Do ilu można liczyć w języku plemienia Pirahã? Jak składać wykresy w pakiecie ggplot2? Czym charakteryzuje się polski rozkład normalny?

Miłej lektury!

RBioMeSs – R, uczenie maszynowe, statystyka medyczna i bioinformatyka

masterR

TL;DR: 24 listopada, w ramach Spotkań Entuzjastów R, odbędzie się spotkanie poświęcone R, bioinformatyce i statystyce medycznej. Więcej informacji tutaj.

LV:
Rozmawiałem ostatnio ze znajomym o ciekawych wyzwaniach związanych z analizą dużych danych. Zaczęło się od wyników w obszarze sieci konwolucyjnych i deep learningu ale zbaczaliśmy na różne tematy gdzie dane są niemałe a wyzwania być może i większe.
Gdy myśleć o klasyfikacji obrazów o rozmiarach 64×64 piksele (4096 piksle) to o ileż bardziej złożona jest predykcja losów pacjenta na bazie ekspresji dla 20 tysięcy genów czy informacji o stanie mutacji/metylacji dla milionów sond (miliony markerów dla każdego pacjenta! to już jest wysokowymiarowa przestrzeń).

Czytaj dalej RBioMeSs – R, uczenie maszynowe, statystyka medyczna i bioinformatyka

Nagrania z ICML 2016

Przeglądając zaległe wiadomości z wakacji trafiłem na link do nagrań referatów i warsztatów z konferencji International Conference on Machine Learning (ICML). Są one dostępne na stronie http://techtalks.tv/icml/2016/.

Dlaczego warto się im przyjrzeć? Susan Athey określiła ICML jako Hottest conference in the hottest area (oczywiście różne obszary są gorętsze dla różnych osób). Referatów jest wiele, póki co obejrzałem tylko sesje plenarne (te zazwyczaj są bardzo dobre lub wyśmienite).

Do gustu przypadły mi referaty o analizie dużych grafów Mining Large Graphs: Patterns, Anomalies, and Fraud Detection, analizie obrazu A Quest for Visual Intelligence in Computers i referat o analizie przyczynowo skutkowej Causal Inference for Policy Evaluation (trzy na pięć).

Wszystkich nagrań jest bardzo wiele, ale jeżeli znacie jakieś warte polecenia to śmiało sugerujcie w komentarzach.