Następne kilka wpisów poświęconych będzie różnym raportom ,,o stanie Świata”’. Będzie technicznie więc na rozluźnienie dziś coś lekkiego.
Jakiś czas temu miałem przyjemność poprowadzić krótki ,Lunch & Learn’ dla zainteresowanych pracowników Netezza R&D IBM Polska (z którymi czasem coś robię). Prezentacja dotyczyła zagadnień związanych z wizalizacją danych, kilka typowych przykładów np. opisywanych przez Tufte’go jak i kilka lokalnych przykładów z naszego podwórka. Ponieważ uważam, że wizualizacje tworzy sie przede wszystkim po to by przedstawić zależności, które są w danych, bez przekłamań i zniekształceń (estetyka jest ważna ale nie może być argumentem w zniekształcaniu zależności) to staram się też przekonywać, że błędy w wizualizacjach wynikają częściej z niewiedzy niż świadomej manipulacji.
Manipulacja wykresem ma tę ,,wadę’’, że osoby znające techniki manipulacji zauważą i zdemaskują próbę manipulacji. Więc przekornie można powiedzieć, że jeżeli już ktoś bardzo chce manipulować wynikami to znacznie lepiej manipulować danymi niż sposobem ich prezentacji (btw: Oczywiście nie na leży manipulować ani jednym ani drugim).
Wczoraj kolega przesłał mi link do artykułu pokazujący przykład maniplacji na etapie przygotowanie formlarza dla ankiet.
Link do artykułu znajduje się tutaj.
W artykule pokazywany jest przykład jak dobierając listę odpowiedzi w ankietach ,,zaprojektować’’ wynik.
Celem ankiety miało być określenie jaki procent Polaków ogląda telewizję powyżej 4 godzin. Odpowiadając ankietowani mieli kilka opcji do wyboru. W zależności od wyboru listy możliwych odpowiedzi uzyskuje się różne wyniki.
W cytowanym artykule jest sporo wody na ten temat, ale w skrócie różnice wynikach wynikały stąd, że pytanie było niejasne, pytano o rzecz o kórej większośc pytanych nie wiedziała (skąd mają wiedzieć jaka jest średnia danej cechy w populacji, wiedzą ile oni oglądają telewizji) lub której nie potrafi precyzyjnie ocenić (trudno precyzyjnie ocenić ile się czasu przeznacza na pewną aktywność, chyba że chodzi o godziny w pracy). Dlatego też część osób wybierała mniej lub bardziej losową odpowiedź. Projektując formularz możemy tą część losowych odpowiedzi przenieść tam gdzie chcemy np. w celu uzyskania oczekiwanych wyników.
Ok, nie jest celem tego wpisu szerzenie klimatów ,,statystycy nas okłamują, strzeżcie się’’. Celem jest pokazanie jak ważna jest dostępność surowych danych a nawet informacji jak wyglądały formlarze używane do zbierania danych. Celem jest pokazanie, że ilość czasu czy pieniędzy przeznaczona na analizy czy na szukanie i pytanie ankietowanych nie przekłada się na jakość wyników.
Aby mieć wyniki wysokiej jakości trzeba dbać o możliwie największą przejrzystość procesu projektowania, przeprowadzania i analizy.
A to inny przykład (też z dzisiejszej prasy:
http://wyborcza.pl/1,90913,11060136,Sondaz_o_mlodych_na_niereprezentatywnej_probie.html
gdzie przez „szatkowanie” próby na małe pod-próby zatraca się zupełnie znaczenie wyniku dla badanej populacji.
To mi przypomina przedstawianie licznych korelacji z jednej próby losowej, bez zastosowania poprawki Bonferroniego. Korelacja mogła być „statystycznie istotna” (umownie) dla całej próby, ale dla jej „wycinka” (jak w powyższym badaniu preferencji młodych wyborców) – bliska rzutowi monetą (co wcale nie znaczy, że z własnej obserwacji nie możemy wyciągnąć poprawnego wniosku, z którym wynik „statystyczny” jest zgodny tylko przypadkowo).
A oto nieco inny przykład (też z dzisiejszej prasy:
(w dzisiejszej GW: „Badanie młodzieży na niereprezentatywnej próbie – strona 2 – zdaje się, że nie chce „puścić” linku do artykułu),
gdzie przez „szatkowanie” próby na małe pod-próby zatraca się zupełnie znaczenie wyniku dla badanej populacji.
To mi przypomina przedstawianie licznych korelacji z jednej próby losowej, bez zastosowania poprawki Bonferroniego. Korelacja mogła być „statystycznie istotna” (umownie) dla całej próby, ale dla jej „wycinka” (jak w powyższym badaniu preferencji młodych wyborców) – bliska rzutowi monetą (co wcale nie znaczy, że z własnej obserwacji nie możemy wyciągnąć poprawnego wniosku, z którym wynik „statystyczny” jest zgodny tylko przypadkowo).
Dzięki za namiar. Link to tego artykułu jest tutaj.
To ,,szatkowanie” w poszukiwaniu grup w których coś ,,istotnego” się dzieje nazywane jest w kręgach statystyki medycznej ,,Statystyczną siatką barona Munchausena” odwołując się do artykułu z Lancet ,,Munchausen’s statistical grid, which makes all trials significant” (http://www.thelancet.com/journals/lancet/article/PIIS0140-6736(84)91641-6/fulltext).
Hmmm, jednak nie zdecydowałem się: 31 dolarów za przywilej przeczytania dowcipnego (jak przypuszczam) tekstu…. Nic z tego. Ale zastanawiam się, czy dziś, gdy obowiązują bardziej rygorystyczne metody oceny „validity & reliability” niż w 1984 (kiedy to artykuł został napisany i kiedy statystyka była ciągle jeszcze „ręczna”) te niebezpieczeństwa nie są już znacznie mniejsze. W każdym razie w artykułach „peer-reviewed”, bo w publikacjach dla szerokich mas, jak jest każdy widzi (no, może nie każdy…)
Dziś większym niż skorumpowana statystyka zagrożeniem są chyba błędy logicznej interpretacji wyników, a nawet budowania hipotez. Zmienne współzależne. Confounding factors. A dla przeciętnego czytelnika: korelacja vs. związek przyczynowo-skutkowy… Ryzyko względne i bezwzględne (artykuły prasowe: wzrost zachorowań o 100%!!! Tzn. z 1/10000000 do 2/10000000) Pamiętam tę hucpę, gdy ogłaszano, że dzieci karmione z butelki mają WOBEC TEGO niedobór żelaza i DLATEGO ich IQ jest niższy o 10%….