Nauka spod znaku kultu cargo, a liczenie średniej i odchylenia standardowego

Jakiś czas temu współpracujący doktorant przypomniał mi o terminie ,,nauka spod znaku cargo’’ powtarzjąc to wyrażenie w odniesieniu do polskiej nauki kilkanaście razy w ciągu tygodnia. ,,Nauka spod znaku cargo’’ to nazwa rozdziału z biografii Richarda Feymana ,,Pan raczy żartować, panie Feyman’’ (rewelacyjna książka) nawiązującego do kulty cargo, bardzo interesującego zjawiska (zobacz więcej np. tutaj http://en.wikipedia.org/wiki/Cargo_cult). We wspomnianym rozdziale Feyman piętnuje pseudonaukowe zachowania polegające na powtarzaniu pewnych czynności, które wykonują naukowcy, bez zrozumienia po co sie je wykonuje. W przypadku przedstawionym w książce zabrakło krytycznego spojrzenia na wyniki eksperymentu i dryfowanie publikowanych wyników w kierunku błędnej ale ,,powszechnie uznanej za prawdziwą’’ wartości.

Zastanawiałem się czy można na poletku statystyki znaleźć przykład nauki spod znaku cargo. Okazuje się, że przykładów jest co nie miara. Cała statystyka jest traktowana przez pewne środowiska jak zbiór rytuałów w wyniku których bogowie zsyłają odpowiedź: ,,statystycznie istotne (publikować)” lub ,,nie istotne statystycznie (nie publikować)”. W tej religii czci się liczbę 0.05, współczynnik korelacji Pearsona a starsi szamani przekazują sobie wiedzę jak wywołać, przepraszam, wykonać regresję logistyczną. W tych zaklęciach nie ma nic złego o ile stosuje się świadomie. Złe jest jedynie używanie tych zaklęć bezkrytycznie. Łatwo kwestionować sensowność używania korelacji Pearsona lub poziomu istotności 0.05, więcej frajdy będzie jeżeli zmierzymy się z rytuałem tak podstawowym jak opisywanie danych poprzez podanie średniej i ochylenia standardowego, czyli charakterystyk zakorzenionych bardzo bardzo głęboko.

 

Jakiś czas temu na seminarium licencjackim omawialiśmy raport dotyczacy związków pomiędzy paleniem papierosów a alergiami, a dokładniej artykuł ,,Problem inhalacji dymu tytoniowego w badaniach ECAP jako zagadnienie zdrowia publicznego’’ z ktróry można znaleźć pod adresem https://ckp.wum.edu.pl/sites/ckp.wum.edu.pl/files/periodyk_nr_1-2011_0.pdf.

W tym artykule znaleźć można zdanie ,,Palenie tytoniu w Polsce wśród osób, które zadeklarowały palenie przynajmniej przez rok, zwykle rozpoczyna się około 18. roku życia (m = 17,77 +- 3,06).‘’

Odgadnąć można, że w nawiasach podano średnią i odchylenie standardowe. Reszta tego wpisu ma na celu uzasadnienie dlaczego liczenie i prezentowanie średniej i odchylenia standardowego dzisiaj to zły pomysł choć kiedyś było dobrym pomysłem.

Dlaczego liczenie średniej to zły pomysł?

Zacznijmy od tego co czytelnik chciałby zobaczyć w nawiasie. Poszukiwany jest liczbowy opis przeciętnego wieku w którym rozpoczyna się palenie (o ile się pali) wraz z informacją jak bardzo wiek rozpoczęcia palenia różni się od wielu przeciętnego. Liczy się tylko to by ten opis był zrozumiały dla czytelnika i by pozwalał na zrozumienie kiedy ludzie zaczynają palić.

  •  Najczęściej średnią pokazuje się wierząc, że przedstawia ona wartość najbardziej typową. W pewnych sytuacjach to jest prawda, ale nie zawsze. Jeżeli analizowana cecha ma rozkład niesymetryczny, np. można spodziewać się wartości znacznie większych od przeciętnych, to średnia zamiast wskazywać na wartości typowe będzie przesunięta w kierunku wartości nietypowych (bardziej niz np. mediana). W przypadku wieku rozpoczęcia palenia mamy do czynienia z potencjalnie niesymetrycznym, prawostronnie skośnym rozkładem. Przykładowo, mając grupę czterech osób, które zaczeły palić w wieku 12 lat i jednej, która zaczeła palić w wieku 52 lat, średnia wychodzi 20 lat. W żaden sposób nie opisuje ona wartości typowej.
  • Kolejna kwestia dotyczy grupy na której liczy sie średni wiek. W opisywanym przykładzie średnia liczona jest tylko dla osób, które palą. Ale ankietowane są osoby w różnym wieku. W przedstawianym badaniu wywiad przeprowadzany w grupie osób dorosłych, w grupie nastolatków i w grupie dzieci. Zróbmy mały eksperyment myślowy. Zapytajmy tysiąc 6latków w jakim wieku zaczęły palić papierosy. Ponieważ (mam nadzieję) 6latki nie palą zazwyczaj papierosów, np. tylko dwójka z nich odpowiedziała by, że juz pali papierosy. Po uśrednieniu ich odpowiedzi okazałoby się, że średnio dzieci palą przed 6 rokiem życia. Ok, czyli średni wiek rozpoczęcia palenia zależeć będzie od tego jaka jest struktura wiekowa grupy którą pytamy. Liczenie średniej tak po prostu z wszystkich ankietowanych osób nie ma sensu.
  • I jeszcze dochodzi kwestia tego jak zmienia się wiek rozpoczynania palenia z czasem. Może tak być, że osoby urodzone w latach czterdziestych zaczynały palić w innym wieku niż osoby urodzone w latach sześciesiątych czy osiemdziesiątych. Obserwując reakcję osób referujacych ten artykuł łatwo zauważyć, że średnią 18 lat odnoszą do obecnego pokolenia młodych palaczy, odczytują ją błędnie jak stwierdzenie, że teraz młodzi rozpocznie palenie w wieku 18 lat. Tymczasem jeżeli wrzucimy wszystkich ankietowanych do jednego worka to średniej nie można nijak przypisać do aktualnego młodego pokolenia.

Po co więc liczono średnią dla wszystkich badanych? Czyżby z przekonania, że w prawdziwych aktykułach naukowych podawane są średnie więc i w tym tak być powinno?

 

Dlaczego liczenie odchylenia standardowego to zły pomysł?

To zaskakujące jak często w artykułach podawane jest odchylenie standardowe, choć wzór na policzenie odchylenia standardowego jest wyjątkowo trudny w interpretacji (pierwiastek, kwadraty, iloraz itp). Ok, odchylenie to jakaś ocena parametru skali, im większe odchylenie standardowe tym większe różnice pomiędzy średnią a wartościami. Ale poza takimi mglistymi intuicjami mało kto potrafi powiedzieć co to znaczy odchylenie standardowe=3. W artykułach podaje się więc współczynniki, których interpretacja jest niejasna, tylko dlatego, że kiedyś tak robiono. Są oczywiście znacznie lepsze oceny parametru skali, takie jak rozstęp międzykwartylowy i kwartyle, które mają łatwą do wyjaśnienia interpretację (o tym za chwilę). Odchylenie standardowe nie ma jasnej interpretacji więc trudno znaleźć powód by je podawać opisując wiek rozpoczęcia palenia.

 

Dlaczego kiedś to był dobry pomysł?

W kulcie cargo kluczowym problemem jest kopiowanie wzorców, które w pewnym kontekście mają sens. Ale są kopiowane w miejsce / czas gdzie sensu nie mają. Powyżej napisałem dlaczego liczenie średniej i odchylenia standardowego nie mają sensu. W przypadku odchylenia standardowego ta krytyka dotyczy praktycznie wszystkich cech. Pytanie więc zostaje kiedy te parametry miały sens, skoro były używane na tyle często, że stały się utrwalonym rytułałem.

(Dawno dawno temu) Około 80 lat temu, gdy na świecie nie istniały jeszcze komputery, aby porównywać grupy obiektów używało się testu t-studenta i/lub analizy wariancji. Mając kartkę i długopis można nawet dla dużego zbioru danych łatwo policzyć średnią i odchylenie standardowe w grupach. Mając te dwie wartości i tablice statystyczne można użyć testu t-studenta by ocenić czy różnica pomiędzy średnimi jest duża czy nie. Nie było to doskonałe narzędzie, ale nie było innego. Statystycy byli wyedukowani i wiedzieli kiedy jest sens pokazywać odchylenie standardowe a kiedy nie. Ponieważ test t-studenta był w pewnych kręgach bardzo często wykonywany, dlatego rzucając okiem na średnie i odchylenia standardowe można na pierwszy rzut oka ocenić na ile grupy się od siebie różnia i wyrobić sobie orientację jak wygląda rozkład zmiennej w grupach. Ale 80 lat to szmat czasu. Dzisiaj mamy wiele narzędzi do opisu rozkładu interesujących nas zmiennych. Nie ma więc żadnego uzasadnienia by wpisywać do tabelek opisujących rozkład zmiennej odchlenie standardowe.

Wracając do zdania od tórego zaczeliśmy ten wpis, to co jest ciekawe to kiedy zaczyna się palić. Czy to jest tak, że nastolatki sa podatne na wpadnięcie w nałóg i jak już przekroczy barierę, powiedzmy 22 lat to już się nie zaczyna palić, czy też można zacząć palić w każdym wieku. Aby spróbować odpowiedzieć na to pytanie zobaczymy jak rozkład wieku w którym zaczyna się palenie zależy od wieku osoby którą pytamy.

[Rys 1] Na osi OX zaznaczono rok urodzenia ankietowanej osoby, dla każdej grupy rowieśników wyznaczono wartość minimalną i maksymalną (jasne małe kropki), medianę a więc wiek przed którym rozpoczyna palenie 50% osób, które będą palić, kwantyle 10% i 90%, a więc przedział czasu w którym rozpoczyna palenie 80% pytanych. Czarna linia pokazuje maksymalny wiek ankietowanych w chwili badania. Gdy pytamy wśród osób młodych nie dziwi nas (już), że mediana i kwantyle są niżej, ale co ciekawe w grupie osób powyżej 30 roku życia kwantyle się stabilizują. 80% osób zaczyna palić pomiędzy 15 a 22-23 rokiem życia. Zdarzają się też bardzo wczesne albo bardzo późne początki.

 

Na koniec należy uczciwie podważyć sensowność używania danych o wieku rozpoczęcia palenia na podstawie ankiet. Przyjmując, że fakt palenia albo wieku rozpoczęcia palenia może być wstydliwy dla pewnych osób należy spodziewać się pewnej liczby nieprawdziwych odpowiedzi. Aby mieć wartościowe dane tego typu zmienne należy zbierać inaczej niż w postaci ankiety. Ale to temat na inny wpis.

Pointa.

Cytując Franka Harella, można zebrać dane w eksperymencie za 10 milionów dolarów, ale jeżeli na statystykę przeznaczy się 1000 dolarów to otrzyma się wyniki warte 1000 dolarów.

Jeżeli jakieś zależności nie są oczywiste to nalezy przyznaczyć więcej czasu i środków by wyjasnić zleżności które są w danych.

 

6 myśli na temat “Nauka spod znaku kultu cargo, a liczenie średniej i odchylenia standardowego”

  1. Bardzo ciekawa historyjka, ale co do ostatecznej puenty nie jestem pewien. W pełni się zgadzam z ogólną wymową, artykułu, ale co do tego konkretnego przykładu, wydaj mi się, że mediana tego zbioru oscyluje w okolicy 18 lat. Co więcej kwantyle dla 90 i 10% leżą w okolicy 21 i 15, co sugerowałoby, że rozkład nie jest aż tak niesymetryczny jak by się mogło wydawać. Naturalnie na wykresie widać oczywistą zależność maksymalnego wieku ankietowanych od ich roku urodzenia, ale nie widzę jakiegoś głębokiego przekłamania w podanej wartości średniej…

  2. To prawda, że mediana zmienia się od 12 (dla młodych) do 18 (dla starszych) lat więc jest bliska podanej średniej 17,7.
    Ale metodyka była zła, a to, że wynik trafił się bliski medianie było jedynie argumentem za tym by nie pastwić się nad tymi wynikami bardziej.
    Dlatego zamiast pokazać jak błędna jest ocena średniej potrzebowałem dłuższej opowieści aby uzasadnić słabość metodyki.
    Efekt mam nadzieję będzie taki, że rzadziej będzie się pojawiał komentarz, że średni wiek sięgnięcia po papierosy/alkohol/narkotyki to X lat.

  3. Albo nie zrozumiałem zarzutu dot. podanej średniej, albo jest on nieuzasadniony. Podano średnią rozpoczęcia palenia (a więc TYLKO u palaczy), a nie w całej populacji. Jak zresztą można by podać taką średnią dla całej populacji, palących i niepalących? Jak wyrazić liczbowo wiek rozpoczęcia palenia dla osób, które nigdy nie rozpoczęły palenia??? Dlatego przykład z 6-latkami jest niefortunny. Gdyby miał być analogiczny z tym w podanym badaniu, to powinien podać średnią rozpoczęcia palenia (prawie 6 lat) tylko u tych dwojga 6-latków, które zadeklarowały palenie (jak w badaniu).

    Oczywiście zgoda, że b. często mediana lub media lepiej opisuje rozkład niż średnia. Ale to inna sprawa.

    Odchylenie standardowe. Dla ogółu to rzeczywiście może być czarna magia (cargo), ale kto zetknął się z czymś więcej niż najbardziej tylko popularne pojęcie średniej, dla niego (niej) odchylenie standardowe będzie znaczyło, że tylko ok. 5% wyników jest poniżej i ok. 5% wyników powyżej. Czyli tylko ok. 5% z tych, którzy palą co najmniej rok, zaczęło palić przed 14,6 r.ż i ok. 5% po 20,8 r.ż. Pozostałe ok. 90% (czyli prawie wszyscy) z palaczy, rozpoczęli palenie między 14,6 a 20,8 r.ż. To wystarczy (chyba…) Oczywiście, znaczenie odchylenia standardowego przy porównywaniu dwóch grup (jak w przykładzie z testem t-Studenta) jest nieco inne niż znaczenie odchylenia standardowego bez porównania expressis verbis (jak przy średniej wieku rozpoczęcia palenia). Ale to znaczenie równie ważne (porównujemy rozrzut w grupie palaczy z pewnym naszym wyobrażeniem długości życia człowieka; co innego, jeśli wiemy, że prawie wszyscy palacze rozpoczynają nałóg między 14. a 20. r.ż., a co innego gdybyśmy mieli odchylenie standardowe np. +/- 14, czyli wiedzielibyśmy, że prawie wszyscy palacze rozpoczynają palić między 3. a 31. r.ż. Tylko dla kogoś, kto orientuje się, jaka jest długość życia człowieka, ta różnica jest istotna. Dla Marsjan byłaby tylko abstrakcyjną liczbą. Zakładam, że Marsjanie nie wiedza, jak długo żyjemy…).

    Oczywiście, sensowność danych pochodzących z deklaracji ankietowanego/ej jest zachowana tylko wtedy, jeśli nie zapominamy, że to jego/jej deklaracje i rozpatrujemy je w kontekście kultury ankietowanych. Pełna zgoda.

  4. Bardzo podobają mi się autobiografie R Feymana ponieważ pokazuje on jak ważne są detale i jak ważne jest zastanawianie się ,po co’?.

    Nie chodzi przecież o to by policzyć średnią i wpisać do tabelki, ale żeby coś powiedzieć/pokazać. Tymczasem policzenie arytmetycznej średniej z deklarowanego wieku rozpoczęcia palenia kompletnie nic nie mówi o wieku rozpoczęcia palenia.
    Dlaczego? Powody podałem powyżej trzy, ale skupię się na najważniejszym. Średnia jest liczona z mieszaniny podpopulacji, przy czym nie znamy proporcji mieszania.

    Nie obserwujemy wieku rozpoczęcia palenia dla wszystkich palaczy, ale wiek rozpoczęcia palenia dla osób które już zaczęły palić. Jeżeli pytamy szesnastolatka o wiek rozpoczęcia palenia i on mówi, że nie pali to oznacza to, że on jak dotąd nie pali. Może zacznie palić w przyszłości. Średnia deklarowanego wieku rozpoczęcia palenia jest więc z założenia niższa w grupie nastolatków niż w grupie osób dorosłych.
    A w badaniu podano średnią dla wszystkich ankietowanych osób. Co taki współczynnik opisuje? Nie wiadomo. To ważona średnia z odpowiedzi nastolatków i z odpowiedzi osób dorosłych przy czym nawet nie wiemy z jakimi wagami wykonano to ważenie.

    Czytając więcej o ECAP przekonamy się, że jest jeszcze gorzej. Nie mamy w badaniu losowej próbki z populacji, ale próbkowanie było stratyfikowane tak by mieć trzy grupy: małych dzieci, młodzieży i trzecią grupę osób dorosłych. Stratyfikacja była związana z pytaniami o alergie, ale z punktu widzenia liczenia średniej problemem jest to, że proporcja nastolatków i osób dorosłych nie odpowiadają proporcjom osób dorosłych i nastolatków w populacji.

    Tak więc w poprawny artymetycznie sposób policzono średnią, równą 17,7 ale ta wartość nie ma żadnego uchwytnego znaczenia.

    Co do odchylenia standardowego to napiszę kiedyś o tym więcej bo temat na to zasługuje. Ale w skrócie, popularna interpretacja częstościowych przedziałów ufności jest niepoprawna. Przedziały ufności interpretuje się tak jakby się chciało (nieznana wartość z prawdopodobieństwem x jest w ustalonym przedziale ufności) a nie jak są one definiowane (stochastyczny przedział który z prawdopodobieństwem x zawiera nieznaną ustaloną wartość).
    Ale nawet nie oto chodzi. W przykładzie który podałeś wykorzystujesz sd aby oszacować kwantyle. Ale przecież mając kilka tysięcy obserwacji kwantyle (przynajmniej rzędu 0.05 i 0.95) można oszacować lepiej z danych (bez założeń dot rozkładu).

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">