
W sobotę odbył się pierwszy maraton zespołowej analizy danych. Na miejscu zjawiło się prawie 60 uczestników (przeróżne stopnie zaawansowania w sztuce analizy danych, w większości absolwenci, głównie osoby z Warszawy ale też z Krakowa, Poznania, Białej Podlaskiej), którzy zmierzyli się z trzema problemami pod okiem 8 koordynatorów. Maraton trwał ponad 11 godzin więc do końca wytrwali tylko twardziele, ale było ich sporo (ponad połowa).
W przypadku każdego problemu udało się zrobić coś ciekawego (same prezentacje wyników zajęły dwie godziny a i tak były skracane). Największe wrażenie na mnie zrobiły wyniki zespołów pracujących na danych nowotworowych. Temat był bardzo trudny, wymagał dużego zrozumienia ze strony biologów molekularnych i ze strony analityków. Dane do analiz były duże, trudno było je wstępnie przetworzyć (pomimo że i tak sporo pracy wykonywał pakiet RTCGA), dużo czasu zajmowało samo czyszczenie danych, samo pobieranie danych zabijało wifi. W połowie maratonu wydawało się, że ledwie udało się przygotować dane do analizy a i cel analiz nie był super precyzyjny.
Ale tak czasem jest, że trudności wzmacniają (tych, którzy je przezwyciężą) i koniec końców w tym temacie udało się znaleźć kilka niesamowitych zależności pokazujących coś …. zaskakującego. Do końca chyba nie udało się wyjaśnić skąd te wyniki, moje podejrzenie dotyczy różnych podtypów molekularnych raka piersi. Temat tak wciągnął uczestników, że pewne analizy i wymiany komentarzy są wciąż prowadzone, nawet po zakończonym maratonie.
Jak przystało na osoby napędzane danymi, po spotkaniu zrobiliśmy ankietę. Ci co odpowiedzieli na ankietę w większości byli bardzo zadowoleni (podkreślano super atmosferę, możliwość poznania ciekawych ludzi oraz nauczenia się nowych sztuczek/metod analizy danych) i deklarowali chęć udziału w kolejnych (niektórzy nawet comiesięcznych) maratonach. Kilka rzeczy organizacyjnych trzeba będzie usprawnić (więcej kawy, większe sale, bardziej przystosowane do pracy zespołowej) ale mamy już przekonanie, że warto będzie zrobić kolejny maraton po wakacjach.
Z ankiety wynikało, że głównym powodem przyjścia na maraton było: (1) chęć zmierzenia się z ciekawym i ważnym problemem, (2) chęć podniesienia umiejętności pracy z R, (3) chęć popracowania w grupie, poznania ludzi i nawiązania kontaktów.
W przyszłości prawdopodobnie będziemy rozdzielać te grupy, osoby chcące podszkolić się z R będziemy kierować na warsztaty, a maratony zostawimy dla osób bardziej zaawansowanych, chcących znaleźć w danych coś czego jeszcze nikt inny nie widział.
Serdecznie dziękujemy opiekunom merytorycznym (w kolejności alfabetycznej): Artur Kalinowski, Katarzyna Potęga (CNK), Tymoteusz Wołodźko, Tomek Żółtak (IBE), Marcin Herok, Maciej Olszewski, Bartosz Wawrzynów (IIMCB), osobom pomagającym w organizacji: Paulina Auguścik, Marcin Kosiński, Katarzyna Fąk, Barbara Sozańska (MiNI) oraz sponsorowi (DeepSense.io) i oczywiście wszystkim uczestnikom, bez których to wydarzenie nie miałoby miejsca.
One thought on “Maraton zespołowej analizy danych – podsumowanie”