TL;DR: 24 listopada, w ramach Spotkań Entuzjastów R, odbędzie się spotkanie poświęcone R, bioinformatyce i statystyce medycznej. Więcej informacji tutaj.
LV:
Rozmawiałem ostatnio ze znajomym o ciekawych wyzwaniach związanych z analizą dużych danych. Zaczęło się od wyników w obszarze sieci konwolucyjnych i deep learningu ale zbaczaliśmy na różne tematy gdzie dane są niemałe a wyzwania być może i większe.
Gdy myśleć o klasyfikacji obrazów o rozmiarach 64×64 piksele (4096 piksle) to o ileż bardziej złożona jest predykcja losów pacjenta na bazie ekspresji dla 20 tysięcy genów czy informacji o stanie mutacji/metylacji dla milionów sond (miliony markerów dla każdego pacjenta! to już jest wysokowymiarowa przestrzeń).
Ostatnio zresztą ma miejsce coraz więcej konferencji, i w kraju i za granicą, poświęconych analizie dużych danych w genetyce. Przykładowo, tydzień temu, prof. Ewa Frątczak (SGH) wspólnie z SAS zorganizowała konferencję Advanced Analytics and Data Science, która w tym roku była poświęcona tematowi: Biostatistics – High-dimensional, Big Data & Analytics (tutaj moja prezentacja, 2.5 PB danych, 100 000 godzin obliczeń itp). Dwa tygodnie temu na eRum Bio-R było osobną sesją. Miesiąc temu na Polskim Kongresie Genetyki była sekcja Big Data. A na początku roku konferencja Contemporary Oncology była poświecona Precision Medicine – large-scale molecular analyses. Akurat te konferencje znam ponieważ miałem na nich prezentacje, ale przykładów jest znacznie więcej.
Wśród analiz bioinformatycznych R jest bardzo popularny, szczególnie pakiety z repozytorium Bioconductor. Stąd pomysł na spotkanie R poświęcone analizom bio-med-stat (roboczo nazwane RBioMeSs).
To spotkanie odbędzie się 24 listopada na MiNI PW. Strona spotkania na meetup, warto się zarejetrować abyśmy wiedzieli ile jedzenia i jak dużą salę zorgniazować. Mamy w planie prelegenta pracującego w przemyśle, Dariusz Ratman z Roche opowie o Automating gene expression analysis and visualisation with R/Bioconductor: bringing genomics results to scientists, oraz prelegentki z akademii, Alicja Szabelska-Beręsewicz i Joanna Zyprych-Walczak przedstawią referat Dyskusja biologa ze statystykiem w towarzystwie R – czyli jak znaleźć przydatne informacje w bezmiarze danych biologicznych.
Jeżeli znajdzie się wystarczająco wielu chętnych to spotkania RBioMeSs będziemy powtarzać co kwartał, potencjalnie w różnych miastach. Silne ośrodki bio-info są też we Wrocławiu, Krakowie, Gliwicach, Trójmieście, Poznaniu i pewnie wielu innych miastach.
(Swoją drogą w ramach grupy MI^2 mamy spotkania w tym temacie co tydzień w poniedziałki na MiNI, zapraszamy!).
Pizzę i snaki na listopadowe spotkanie sponsoruje firma bioinformatyczna Ardigen. Za wsparcie dziękujemy!
Btw: poprzednie spotkanie – R Ladies wypadło świetnie. Relacje z tego spotkania można znaleźć tutaj.
Jako osobnik nie mający nic wspólnego z biostatystyką ani przetwarzaniem PB danych, ale któremu zdarzyło się kilka razy w życiu współpracować przy statystycznej analizie danych z lekarzami z WUM mam tylko takie pytanie: a jak się do tego wszystkiego odnoszą polscy lekarze właśnie?
Ci, których znam, to albo już stosują albo odnoszą się pozytywnie. Ale nie mam żadnych statystyk dotyczących całego kraju.
Ja akurat pracuję z onkologami, podstawowe badania markerów to afaik jest juz standard, high-throughput toruje sobie drogę. Np. na WUM mają Zakład Genetyki Medycznej a tam sekwenator który ciągle pracuje, do tego szafa-serwer.
Postaram się powiedzieć, jak to wygląda z drugiej strony – jestem lekarzem-rezydentem w szpitalu uniwersyteckim.
W przypadku „klasycznej” biostatystyki (badania osberwacyjne) nierzadko któryś z autorów pracy dysponuje podstawowym warsztatem statystycznym (uczą tego na studiach doktoranckich), jednakże z reguły ogranicza się on do prostych metod – popularne testy parametryczne i nieparametryczne, ewentualnie prosta regresja, które można wyklikać w pakiecie. Niestety w takim przypadku sprawdzenie założeń ograniczone jest z reguły do testu Shapiro-Wilka, a bardziej złożone analizy (które w zdecydowanej większości przypadków mogą i powinny być użyte) należą do rzadkości (transformacja, poprawka na wielokrotne testowanie, wieloczynnikowa regresja/analiza przeżycia, wielopoziomowe modelowanie korelacji, statystyka bayesowska). Efekt braku konsultacji z biostatystykiem widać też nierzadko w metodologii badania oraz próbie interpretacji. Niestety znaczna część prac będzie na to skazana, ponieważ lekarz nie znajdzie raczej czasu na naukę całek i macierzy, a pieniądze na badania statutowe (o ile je otrzyma) są dość niewielkie i często skończą się na odczynnikach. Stąd zewnętrzne analizy jeżeli już są, to są stosunkowo proste.
Oczywiście w przypadku dużych badań kohortowych, badań longitudinalnych, triali, zapotrzebowanie na zaplecze statystyczne (a co za tym idzie kwoty finansowania) jest już inne i skorzystanie z zewnętrznej pomocy statystyków jest pożądane. Niestety tej sferze nie mam jeszcze doświadczenia.
W przypadku metod bioinformatycznych (NGS, mikromacierze, inne wysokowydajne) obecność bioinformatyka albo przynajmniej przeszkolonego laboranta jest już konieczna, bo nie słyszałem o wielu lekarzach, którzy poradziliby sobie z dry-labem, chociaż niewątpliwie tacy też są. Tutaj sam charakter i złożoność badania wymusza współpracę na płaszczyźnie lekarz – laborant – informatyk/statystyk i podąża ona naturalnie. Niestety pomimo całej „seksowności” tego typu prac, jest ich zdecydowanie mniej, co oczywiście wynika z dostępności środków.
Niezależnie od charakteru badania, gdyby tylko pozwalały na to środki finansowe, każdy zespół lekarski chciałby, aby analizę wykonał doświadczony biostatystyk. Nie każdy natomiast zdaje sobie sprawę, że chciałby skonsultować się jeszcze zanim zacznie zbierać materiał 🙂 Muszę też dodać, że w przypadku takiej współpracy problem stanowi komunikacja i wymaga, aby przynajmniej jedna strona miała już przynajmniej fragmentaryczne pojęcie o tym, co robi ta druga. Lekarz nie rozumie matematycznych podstaw analizy, nie zna ograniczeń metod, a ogarnięcie wielowymiarowego problemu nie przychodzi naturalnie nawet z pomocą wykresów. W przypadku różnych -omics jest to już w ogóle rozumiane według schematu (materiał badawczy) –> (magia) –> (wyniki), stąd rezultaty będą interpretowane tylko przez pryzmat doboru próby, a nie np. błędu laboratoryjnego, ograniczeń metody, czy nieprawidłowej analizy. Z drugiej strony statystyk będzie miał problem z oszacowaniem klinicznej istotności problemu lub wskazania alternatywnej ścieżki analizy w przypadku, gdy tej zaplanowanej z jakichś przyczyn przeprowadzić nie można.
Dziękuję za komentarz ,,z drugiej strony”.
W przypadku biostatystyków jednej osobie czasem trudno ogarnąć wszystkie warianty pipeline’u analizy danych. Dlatego pomiędzy MIM UW a MiNI PW budujemy grupę studentów i doktorantów i pracowników pracujących nad statystyczną analizą danych z NGS (https://github.com/geneticsMiNIng).