Czy dwie zmienne mogą jednocześnie być dodatnio i ujemnie skorelowane?

Dzisiejszy wpis wynika z dyskusji ze studentami z seminarium licencjackiego, ciekawej dyskusji, mam też nadzieję że będzie ciekawa dla szerszego grona.

Zastanowimy się dzisiaj czy potwierdzone klinicznie problemy z nieżytem nosa są skorelowane z zanieczyszczeniem powietrza. Nawet bez żadnych twardych danych spodziewamy się, że jakaś dodatnia zależność może być, i raczej im bardziej zanieczyszczone powietrze tym gorzej a więc i więcej problemów z nieżytem nosa.

Jeżeli jednak przed zobaczeniem danych wiemy jakiego wyniku oczekujemy to lepiej byśmy tych analiz nie robili. I tak trudno będzie nam utrzymać obiektywizm i raczej będziemy szukać metody, która potwierdzi nasze oczekiwania.

Na podstawie badania ECAP, największego w Polsce badania dotyczącego alergii, postaramy się odpowiedzieć na postawione powyżej badanie dotyczące zależności pomiędzy wymienionymi zmiennymi. Wyniki takiego badania sa przedstawione w periodyku ,,Kształcenie podyplomowe’’.

Spójrzmy na artykuł ,,Stan środowiska przyrodniczego a choroby alergiczne’’ strona 30, a w szczególności na wyniki ze strony 33-34.

W tabeli 2 użyto testu niezależności by zbadać czy jest zależność pomiędzy zanieczyszczeniem powietrza a potwierdzonym klinicznie nieżytem nosa. Zanieczyszczenie było badane w subiektywnej 11 stopniowej skali (0-10). Następnie testami sprawdza się czy osoby mieszkające w miejscach bez zanieczyszczenia powietrza (zanieczyszczenie=0) mają mniej potwierdzonych nieżytów nosa niż osoby mieszkające w miejscach słabo zanieczyszczonych (zanieczyszczenie=1-3) średnio zanieczyszczonych (zanieczyszczenie =4-7) czy bardzo zanieczyszczonych (zanieczyszczenie=8-10). W dwóch na trzy porównania otrzymuje się istotnie statystycznie więcej zachorowań w miejscach o większym zanieczyszczeniu. Wydaje się więc, że jest zależność dodatnia, tam gdzie jest zanieczyszczenie jest więcej nieżytów nosa.

Problem pojawia się jedynie jeżeli spojrzymy na rycinę 2

Pokazuje ona jaki był procent osób z nieżytem nosa dla każdej z 11 grup zanieczyszczeń powietrza. Wykres ten nie jest czytelny, ale jeżeli informację o procencie osób z nieżytem przedstawić na wykresie punktowym to otrzymamy następujący (moim zdaniem czytelniejszy) wykres

 

Zielona przerywana linia to regresja liniowa. Jak by nie liczyć korelacji pomiędzy procentem nieżytów  a poziomem zanieczyszczenia (czy współczynnikiem Perasona, czy Spearmana czy Kendalla, za każdym razem korelacja jest ujemna) to otrzymujemy ujemną zależność. Czyli wręcz im bardziej zanieczyszczone powietrze, tym średnio mniej osób z nieżytem nosa.

 

Ok, te same dane, to samo pytanie, dwie różne odpowiedzi. Różnica jest taka, że za pierwszym razem pogrupowano zanieczyszczenie do 4 grup i za referencyjną wybrano brak zanieczyszczenia, czyli zanieczyszczenie =0. W drugim przypadku nie było agregacji ale zignorowano liczbę osób w każdej z 11 grup zanieczyszczenia powietrza.

Statystyka daje jednoznaczne odpowiedzi, przy czym często ta odpowiedź brzmi ,,o co Ci tak naprawdę chodzi, co chcesz sprawdzić?”.

 

4 thoughts on “Czy dwie zmienne mogą jednocześnie być dodatnio i ujemnie skorelowane?”

  1. Takie nędznie zaprojektowane, przeprowadzone i przedstawione „badania” epidemiologiczno-statystyczne to woda na młyn populistycznych przeciwników statystyki (i nauki w ogóle: „statystyka kłamie!”).
    Przypomina mi to odtrąbione co roku wyniki na „najlepszy samochód w swojej klasie” (i podobne). Wystarczy podzielić całą produkcję samochodów danego roku na taką liczbę klas, jak wyprodukowano modeli, i każdy model zdobywa złoty medal w swojej klasie!!!
    To jest prawdziwy problem ze statystyką, a raczej ze „statystykami”: tzw. fishing expedition. Najpierw zbiera się tak wiele danych liczbowych, jak tylko się da (klient i tak zapłaci…), a potem hulaj dusza – można z nimi zrobić wszystko. Gdzie zasada stawiania hipotezy? Gdzie rzetelność próby z populacji? Gdzie rozumienie, że „alergiczny nieżyt nosa” to zespół chorobowy, a nie choroba, a więc ma wiele różnych etiologii (a nie jedną)? Ehhh….
    (@smarterpoland, spójrz na Edelman Trust Barometer, dziś bodajże opublikowany za 2012 r. i zobacz jak manipulują danymi! W głowie się nie mieści…)

  2. Dziękuję za namiary na raport Edelman Trust Barometer, interesujący, postaram się kiedyś opisać wybrane wykresy.

    Podoba mi się określenie ,,fishing expedition”, bardzo pasuje do niektórych prób analiz.

    Problemem z którym warto się zmierzyć jest zły wizerunek statystyki jako nauki pokrewnej do astrologii. Dziś kilka żartów dotyczących ,,złudzenia statystycznego” słyszałem nawet na antenie polskiego radia. W mediach statystyka przedstawiana jest jako narzędzie manipulacji większej nawet niż photoshop.

    Poprawę wizerunku można rozpocząć od znalezienia nowej nazwy ;-). Jakieś pomysły na atrakcyjne tłumaczenie termin „Data Scientist”? Mnie podoba się ,,inżynier danych”.

  3. Ciekawy post. Dzięki. Świetny przykład danych, problematycznej analizy oraz pułapkami „imtymności”. Myślenie imtymne czyli nawyk postrzegania rzeczywistości w kategoriach „im X rośnie, tym Y rośnie (lub maleje)” gdy zależność może być nieliniowa. No i nie ma jak strategiczne agregowanie danych w celu uzyskania pożądanych wynikow… Prawie jak strategiczne raportowanie p-values: http://coin.wne.uw.edu.pl/mkrawczyk/lies.pdf

    Zastanowilo mnie to zdanie: „Jeżeli jednak przed zobaczeniem danych wiemy jakiego wyniku oczekujemy to lepiej byśmy tych analiz nie robili. I tak trudno będzie nam utrzymać obiektywizm i raczej będziemy szukać metody, która potwierdzi nasze oczekiwania”. Jak to sie ma do typowego workflow polegajacego na formulowaniu hipotez i ich testowaniu przy uzyciu danych.

    Ciekaw jestem jak ty, jako statystyk podszedłbyś do analizy tych danych. Moze temat na nastepny post? 😉

    1. Z tym badaniem jest kilka problemów, których już raczej nie da się naprawić na etapie analiz. Podstawowym jest skala 0-10, która jest całkowicie subiektywna, czymś innym będzie ocena zanieczyszczenia w małej miejscowości (gdzie pewnie bliskość dużej ulicy będzie oznaczało zanieczyszczone powietrze) a czymś innym w dużym mieście (pewnie wiele osób uzna, że jeżeli w pobliżu jest park to już nie jest źle). Można próbować ją standaryzować pomiędzy ośrodkami ale czy jest sensowne ocenianie zanieczyszczenia na 11 poziomach?

      Co w takim razie robić?
      W idealnym świecie na etapie formułowania hipotez należy określić w jaki sposób będą one weryfikowane. Czyli w protokole badania piszemy, że interesuje nas zależność pomiędzy zanieczyszczeniem a natężeniem choroby, zanieczyszczenie mierzymy na trzech poziomach, natężenie choroby na trzech poziomach a hipotezę weryfikujemy testem X. Gdyby osoba projektująca badanie musiała się zastanowić jak dana zmienna będzie uwzględniona w analizach prawdopodobnie zasugerowałaby użycie mniej subiektywnej skali z mniejszą liczbą poziomów.

      Unika się w ten sposób problemu obciążenia badacza wynikami.
      Ten problem jest wskazany we fragmencie, który cytujesz. Jeżeli dane są już zebrane i mogę teraz użyć różnych metod statystycznych, które mogą dać mi różne wyniki to z tych różnych wyników:
      (a) mogę przedstawić tylko ten, który zgadza się z moimi przekonaniami (ale mamy obciążenie)
      (b) mogę pokazać wyniki dla każdej z metod które mi przychodzą na myśl, czyli napisać o nastu metodach statystycznych które można użyć, nastu wynikach, z których część pokazuje to część coś innego. Więc na podstawie rozbieżności wnioskuję ….. Tak się (niestety?) nie robi. Jeżeli jedna z metod pokazuje wynik który chciałbym by był prawdziwy to stwierdzam że ta właśnie metoda się nadawała do tych właśnie danych a pozostałe są niewłaściwe.

      Zgodnie z regułami statystyki klasycznej/częstościowej tak hipoteza jak i metoda jej weryfikacji powinna zostać wybrana przed zobaczeniem danych. Tylko wtedy jest sens mówić o kontroli błędu pierwszego rodzaju. Jeżeli metodę mogę wybrać zależnie od tego co wychodzi to traci się jakąkolwiek kontrolę nad poziomem błędów.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *