Publikacja wyroku w sprawie…


ASA, czyli American Statistical Association (szacowne towarzystwo statystyków amerykańskich), wydało wyrok w sprawie p-wartości.

Zapytacie, ale o co chodzi? Po co towarzystwo naukowe publikuje oświadczenie w sprawie definicji matematycznej?

Badania naukowe są coraz częściej oparte o dane ilościowe. Stworzyło to olbrzymie zapotrzebowanie na metody analizy danych. Takie rozwiązania jak p-wartości zaczęły być powszechnie używane w najróżniejszych środowiskach, nie zawsze z głębokim zrozumieniem co, po co i dlaczego.
Cytując Tolkiena
I pewne rzeczy, które nie powinny być zapomniane…
…przepadły.
Historia stała się legendą…
…legenda stała się mitem.

Błędna interpretacja p-wartości oraz zbytnie im zawierzanie jest obecnie jednym z poważniejszych problemów w nauce (moim skromnym zdaniem). Praca naukowców z danymi czasem zamienia się w zapasy jak zmusić p-wartość by była niższa niż 0.05. Co samo w sobie nie jest trudne, ale jest zupełnie bezsensowne.

A przecież

The p-value was never intended to be a substitute for scientific reasoning.

To cytat z ww artykułu. Inny cytat, który może zachęcić do przeczytania całego wyroku:

A p-value, or statistical significance, does not measure the size of an effect or the
importance of a result.

Cherry-picking promising findings, also known by such terms as data dredging, significance chasing, significance questing, selective inference and “p-hacking,” leads to a spurious excess of statistically significant results in the published literature and should be vigorously avoided.

Pełną treść wyroku można przeczytać tutaj.

Jak żyć?

W sumie nic nowego.
Krytycznie o kulcie p-wartości pisze się już od lat. Ale problem jest coraz poważniejszy, bo i policzyć p-wartość coraz prościej, więc tłucze się je hurtowo i niestety często bezkrytycznie.

Problem nie ma prostego rozwiązania (bo problemem jest bezkrytyczność). Wydaje się jednak, że krokiem w dobrym kierunku jest nie zawierzanie pojedynczej statystyce, ale zbieranie różnych statystyk liczbowych lub graficznych w celu pełniejszego zrozumienia badanego zjawiska.

16 thoughts on “Publikacja wyroku w sprawie…”

    1. To przez Macieja Sthura.

      Ale jest też drugi argument. Zdarzają się w sieci komentarze typu ,,ASA powiedziała NIE dla p-wartości” (komentarze nie do końca prawdziwe = nie prawdziwe). Te juz brzmią jak wyrok.

    1. Akurat miałem na myśli porównanie wieków XIX i XX.
      Nie jest to jednak wniosek oparty o dane ale opinia na bazie opisów problemow z ktorymi borykali się Fisher czy Pearson. Co do terazniejszosci to nie wiem jak sprawa wyglada w roznych dziedzinach, ale w biologii badania oparte o dane w ostatnich dekadach przezywaja rozkwit (pewnie dzieki dostepnosci nowych metod pomiaru).

    1. Tak, wyważony komentarz.
      Podoba mi się zdanie ,,I put much of the blame on statistical education, for two reasons.”

      Akurat w tym tygodniu na Statystyce II robiliśmy symulacyjne badanie mocy testu pearsona, oczywiście były p-wartości i było 0.05.
      Robiliśmy eksperymenty z wielkością próby ale jednak dwie godziny to za mało czasu by do tematu podejść szerzej.

      ,,First, in our courses and textbooks (my own included), we tend to take the “dataset” and even
      the statistical model as given, reducing statistics to a mathematical or computational problem of
      inference and encouraging students and practitioners to think of their data as given”

      W książkach trudno to zrobić inaczej, ale na tegorocznym projekcie studenci ze statystyki II mają zbiór danych i zero wskazówek jaki model zastosować. Jestem bardzo ciekaw co z tego wyjdzie. Bo może być różnie.

  1. Dawno, dano temu, pisałem dla studentów tak:
    Gdyby średnie wzrostu dla obu płci w populacji były równe (czyli gdyby ich różnica wynosiła 0 – wiersz „Różnica średnich według hipotezy”), to prawdopodobieństwo otrzymania w tej procedurze wartości t=10,133688 według wskazania z wiersza „P(T<=t) dwustronny” byłoby mniejsze od 6,98676E-16, co w innym zapisie ma postać 0,000000000000000699. Aby odnieść to prawdopodobieństwo do czegoś, na temat czego istnieje nie tylko oszacowanie wielkości, ale także potoczne wyobrażenie o jego przejawianiu się, można przywołać szansę na trafienie sześciu liczb w pojedynczym zakładzie tzw. Lotto (dawniej Totolotek). Otóż prawdopodobieństwo trafienia w 6 liczb spośród 49 wynosi 0,000000071511238420, czyli jest 102 352 498 (ponad sto milionów!) razy większe niż prawdopodobieństwo uzyskania takiego wyniku, jaki uzyskano, pod warunkiem spełnienia wszystkich teoretycznych i praktycznych założeń postępowania statystycznego.
    Wiersz „P(T<=t) jednostronny” dotyczy dokładnie tych samych danych, ale przy założeniu, że różnica nie może być ujemna. Wtedy prawdopodobieństwo, że otrzymana wartość t jest przypadkowa, w tej procedurze musi być dwa razy mniejsze z powodów, których omówienie zostało tutaj zaniechane, zresztą tak samo jak rozwinięcie istoty stopni swobody – w tej procedurze nie wymagają one żadnych dodatkowych decyzji. Sama procedura ma zresztą kilka ograniczeń (np. różnica zawsze musi być dodatnia), ale ich ominięcie na ogół bywa bardzo łatwe – wystarczy zamienić miejscami oznaczenia kolumn w skrzynce tak, aby pierwsza zawsze miała wyższą średnią
    Jako ciekawostkę można podać inny wynik, który otrzymuje się dla założenia, że różnica średnich wzrostu nie wynosi zero, ale że mężczyźni są przeciętnie o dwanaście centymetrów wyżsi, a zarazem empiryczne wartości w próbach losowych są dokładnie takie same (takie same liczebności i takie same indywidualne wzrosty). Wtedy prawdopodobieństwo otrzymania takiego wyniku, jaki otrzymano, jest w przybliżeniu równe szansie na trafienie co najmniej trójki w Lotto, co wynosi 0,0186375450020223. Ten poziom prawdopodobieństwa czasem uchodzi za wystarczająco mały, aby uznać, że różnica wzrostu może wynosić 12 centymetrów (α0,01) – jest to wcześniej sygnalizowany wybór arbitralnego kryterium (Tabela 1). Panuje przy tym dość powszechna zgoda, że prawdopodobieństwo trafienia co najmniej czwórki w Lotto (0,000987141135152236, α<0,001) wyznacza poziom wystarczająco mały dla uznania wyniku uzyskanych obliczeń t za świadectwo jego nieprzypadkowości. Dla omawianych tu prób na podstawie odpowiednich wartości t za wystarczająco prawdopodobną według takich kryteriów uchodziłaby każda różnica średnich arytmetycznych od około +13 do około +17 centymetrów.
    Jednak w razie nielosowego doboru osób każdej z płci (tylko ze specyficznie wyodrębnionych grup), prawdopodobieństwo uzyskania jakiejkolwiek wartości wskaźnika t staje się nieokreślone, czyli może być dowolne dla jego całego zakresu. Na przykład, bardzo konkretna, łatwa do uzyskania i niemożliwa do zakwestionowania różnica średniej arytmetycznej wzrostu między zawodowymi dżokejami a reprezentacyjnymi siatkarkami może wynieść -18 cm. Użycie takie różnicy w profesjonalnie wyspecjalizowanej aplikacji (w przeciwieństwie do Excela dopuszczającej ujemne różnice) daje wynik zupełnie nieprawdopodobny, a jednocześnie sprzeczny z całokształtem rzeczywistości, bo nie występujący poza taką szczególną próbą – na ogół kobiety są niższe od mężczyzn, i raczej rzadko się zdarza, że jest odwrotnie. Inne zagrożenia trafności pojawiłyby się, gdyby empiryczne rozkłady były bardziej podobne do rozkładów teoretycznych z odmiennych rodzin, np. lognormalnych. Wtedy brak różnicy między średnimi, lub tylko ich małe różnice pozorują większą niż rzeczywista zgodność empirycznych rozkładów Dlatego statystyka wypracowała warunki, pod którymi można przeformułować opisy typu „na ogół więcej…, chociaż nie jest to regułą, bo bywa odwrotnie” na wskaźniki liczbowe, jednak o interpretacjach wykraczających poza potocznie rozumiane słownictwo.

    1. Ciekawe,
      przy czym, aby studenci stwierdzili, że wynik jest nieprawdopodobny, muszą wcześniej rozumieć czym są p-wartości i jakie można mieć oczekiwania.

      Swoją drogą, w wolnym czasie pracuję nad taką opowiastką prześmiewczą ,,Siedem kręgów piekła statystyków”.
      P-wartości są na trzecim kręgu.

          1. W sumie możliwe, że to było iskrą. Jeżeli chodzi o narracje to myślałem o czymś podobnym.

            Choć jeżeli chodzi o treść książki Burnsa to mnie dziwi narzekanie na to, że R jest jaki jest i nie jest jak C++.
            To tak jakby robić sobie żarty z niemieckiego, że ma długie słowa i nie używa literki ą.
            Taki język, korzenie w LISPie, taka jego specyfika.

  2. Czuję się strasznie stary, bo ciągle wpadam w stany ”deja vu” (już widziałem, już przeżyłem). W 1999 roku w organie American Psychological Association (skrót APA – strasznie podobny do ASA) ukazały się rekomendacje lub wymagania dla prezentowania wyników statystycznych procedur. W zasadzie, (choć z nieco innym rozłożeniem akcentów oraz w innej strukturalizacji), w pełni pokrywają się one zarówno ze skróconym, jak i pełnym stanowiskiem ASA z 2016 roku. Kilka dni potrwało, zanim znalazłem w zarchiwizowanych plikach po którymś poprzednim komputerze tekst Wilkinson, L., & Task Force on Statistical Inference. (1999). Statistical methods in psychological journals: Guidelines and explanations. American Psychologist, 54, 594–604. (https://www.apa.org/pubs/journals/releases/amp-54-8-594.pdf) – obecnie jest w domenie publicznej (gdy go w 1999 roku pobierałem – nie był). W literaturze psychologicznej (także polskiej) uchodzi za zbiór kanonicznych wskazówek (jest bardzo często cytowany), choć oczywiście zupełnie oddzielną kwestią jest ich rzeczywiste przestrzeganie. Sam temat dyskusji i używane w niej argumenty klasyfikuję jako odkrywanie przez (amerykańskie) pokolenia komputerowe przedkomputerowych oczywistości statystyki stosowanej.

    1. Nie wiem jak jest w innych dziedzinach, ale w statystyce wiele rzeczy jest odkrywanych na nowo.
      Z mojej perspektywy najciekawszym przykładem jest zagadnienie testowania zbioru hipotez.
      Z jednej strony rozpracowane przy okazji testów post-hoc w latach 40-50, później na nowo odkryte przy okazji korekty FDR na przełomie wieków i ostatnio powracające z regułami wyboru modelu typu lasso.
      Ale za każdym razem z większym rozmachem. Może taka jest natura tego typu algorytmów. Aby zrobić dwa kroki do przodu może trzeba cofnąć się i zapomnieć co było ostatnio główną przeszkodą.

      Co do rekomendacji APA to kiedyś je przeglądałem i dziwiłem się, dlaczego nie są uwzględnione w kursach ze statystyki (przynajmniej nie w tych które ja znam). Wiele rzeczy sensownie skodyfikowano.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *