Sfabrykowane dane a powtarzalne badania

Dwa tygodnie temu w tym wpisie, pisałem o narzędziach wspierających przeprowadzanie powtarzalnych badań. Tzn narzędziach, dzięki którym można prześledzić każdy krok wykonanych analiz. Taką całą ścieżkę może łatwo powtórzyć niezależny weryfikator. W przypadku badań, które prowadzą do prób klinicznych na żywych ludzkich pacjentach naturalne jest oczekiwać by wyniki badań były dokładnie zweryfikowane przez niezależnego badacza. Wspomniałem też o przykładzie sfabrykowanego badania wykrytego przez ,,statystyków śledczych” .

Ostatnio widziałem 15minutowe streszczenie opisujące o co chodziło w tym sfabrykowanym badaniu. Materiał telewizyjny jest trochę podkolorowany, ale w 15 minut pozwala na zrozumienie co się stało. Materiał do obejrzenia na tej stronie.

I na koniec mały komentarz, coś co mi zapadło w pamięć gdy przysłuchiwałem się dyskusji n.t. tego badania. Pytanie było, czy jest coś złego w eksperymentowaniu na pacjentach z terminalnym stanem nowotworu, dla których nie ma i tak innego lekarstwa. Czy to nie jest tak, że warto chwycić się nawet znikomej szansy na wyleczenie, nawet jeżeli badania nad lekiem były niezbyt solidnie przeprowadzone. Odpowiedź była taka, że nie, zdecydowanie nie warto chwytać się losowych badań. Pomijając przypadek tego konkretnego leku, który skutecznie szkodził zamiast skutecznie leczyć, to w przypadku terapii wymagających wykonania biopsji nowotworu płuc jest spore ryzyko uszkodzenia płuc przez co pacjent będzie w gorszym stanie i też nie będzie się kwalifikował do innych sposobów leczenia.

I jeszcze komentarz autora pakietu knitr. Czy to nie dziwne, że (jako badacze) oczekujemy od analityków, że będą prowadzili powtarzalne i dobrze udokumentowane badania, skoro nie wymagamy tego samego od studentów statystyki?

Na stronie http://rpubs.com/ znajduje się serwis pozwalający na proste opublikowanie raportu w knitr.

Statystyka śledcza, powtarzalne badania, Sweave, knitr czyli useR 2012

Gdyby zadać pytanie ,,Czy wyniki analiz statystycznych prezentowane w raportach lub artykułach naukowych powinny być powtarzalne?” większość osób odpowiedziałaby tak. Powinno być jasne jakie są dane źródłowe i jak były przetwarzane zanim uzyskano podany wynik.

Na pytanie ,,Czy wyniki analiz statystycznych prezentowane w raportach lub pracach naukowych można odtworzyć?” odpowiadać powinny tylko osoby przygotowujące raporty lub próbujące odtworzyć wyniki innych. I tutaj z odpowiedziami może być różnie. W skutek wstępnych transformacji, usuwania przypadków ,,odstających”, różnych wariantów normalizacji, zawodnej pamięci bywa tak, że po roku autor nie jest w stanie odtworzyć własnych analiz, a co dopiero inna osoba. Efekt ten jest szczególnie silny gdy używa się narzędzie typu ,,wyklikaj analizę i zapomnij”.

Problem zawodnej pamięci jest mniej poważny niż problemy w analizie. Każdy jest omylny, dostęp do dokładnego opisu jak analizy zostały przeprowadzone pozwala na szybkie znalezienie i naprawienie ewentualnych błędów.

Statystyka śledcza

Statystyka śledcza to robocza nazwa dziedziny w której celem jest zbadanie czy analizę danych można odtworzyć oraz czy analiza została przeprowadzona poprawnie. Dziś na useR Kevin Coombes pokazywał przykłady błędów statystycznych znalezionych w poważnych czasopismach medycznych (takich poważnych błędów jak np pomylenie indeksu identyfikatora nazwy genu o +1 czy pomylenie etykietek zdrowy/chory!). Jak się okazuje wyśledzenie niektórych błędów w artykule kosztuje ponad 1500 godzin pracy statystyka! 1500 godzin to prawie rok pracy na pełnym etacie! A byłoby łatwiej gdyby nie trzeba było przeprowadzać odwrotnej inżynierii pracy statystyka, ale gdyby ta praca była udokumentowana. Bardzo ciekawy przypadek jednego ze znalezionych przez Kevina błędu znaleźć można w pracy http://bioinformatics.mdanderson.org/Supplements/ReproRsch-Chemo/SR0.pdf, materiały dodatkowe pozwalające na całkowite odtworzenie tego znaleziska znajdują się tutaj http://bioinformatics.mdanderson.org/Supplements/ReproRsch-Chemo/.

Powtarzalne badania

Na szczęście są narzędzia pozwalające na zapisanie całej analizy w postaci powtarzalnego skryptu (np. R) oraz zintegrowanie takiego skryptu z narzędziem pozwalającym na wygenerowanie prezentacji, raportu z komentarzami, publikacji, książki, podręcznika w formacie pdf, html, doc i innych. Taka integracja pozwala na dokładne sprawdzenie jaki zestaw analiz był użyty by wygenerować określony wykres / wynik / tabelę.

Do takiej integracji służą między innymi pakiety Sweave i knitr dla programu R.

Statystyk Frank Harell jest jednym z misjonarzy powtarzalnych badań, poprowadził na useR interesujące warsztaty dotyczące obu pakietów.  Obszerne materiały prezentowane podczas warsztatów i wiele ciekawych odnośników do samouczków znaleźć można na tej stronie: http://biostat.mc.vanderbilt.edu/wiki/Main/SweaveLatex.