Następne kilka wpisów poświęconych będzie różnym raportom ,,o stanie Świata”’. Będzie technicznie więc na rozluźnienie dziś coś lekkiego.
Jakiś czas temu miałem przyjemność poprowadzić krótki ,Lunch & Learn’ dla zainteresowanych pracowników Netezza R&D IBM Polska (z którymi czasem coś robię). Prezentacja dotyczyła zagadnień związanych z wizalizacją danych, kilka typowych przykładów np. opisywanych przez Tufte’go jak i kilka lokalnych przykładów z naszego podwórka. Ponieważ uważam, że wizualizacje tworzy sie przede wszystkim po to by przedstawić zależności, które są w danych, bez przekłamań i zniekształceń (estetyka jest ważna ale nie może być argumentem w zniekształcaniu zależności) to staram się też przekonywać, że błędy w wizualizacjach wynikają częściej z niewiedzy niż świadomej manipulacji.
Manipulacja wykresem ma tę ,,wadę’’, że osoby znające techniki manipulacji zauważą i zdemaskują próbę manipulacji. Więc przekornie można powiedzieć, że jeżeli już ktoś bardzo chce manipulować wynikami to znacznie lepiej manipulować danymi niż sposobem ich prezentacji (btw: Oczywiście nie na leży manipulować ani jednym ani drugim).
Wczoraj kolega przesłał mi link do artykułu pokazujący przykład maniplacji na etapie przygotowanie formlarza dla ankiet.
Link do artykułu znajduje się tutaj.
W artykule pokazywany jest przykład jak dobierając listę odpowiedzi w ankietach ,,zaprojektować’’ wynik.
Celem ankiety miało być określenie jaki procent Polaków ogląda telewizję powyżej 4 godzin. Odpowiadając ankietowani mieli kilka opcji do wyboru. W zależności od wyboru listy możliwych odpowiedzi uzyskuje się różne wyniki.
W cytowanym artykule jest sporo wody na ten temat, ale w skrócie różnice wynikach wynikały stąd, że pytanie było niejasne, pytano o rzecz o kórej większośc pytanych nie wiedziała (skąd mają wiedzieć jaka jest średnia danej cechy w populacji, wiedzą ile oni oglądają telewizji) lub której nie potrafi precyzyjnie ocenić (trudno precyzyjnie ocenić ile się czasu przeznacza na pewną aktywność, chyba że chodzi o godziny w pracy). Dlatego też część osób wybierała mniej lub bardziej losową odpowiedź. Projektując formularz możemy tą część losowych odpowiedzi przenieść tam gdzie chcemy np. w celu uzyskania oczekiwanych wyników.
Ok, nie jest celem tego wpisu szerzenie klimatów ,,statystycy nas okłamują, strzeżcie się’’. Celem jest pokazanie jak ważna jest dostępność surowych danych a nawet informacji jak wyglądały formlarze używane do zbierania danych. Celem jest pokazanie, że ilość czasu czy pieniędzy przeznaczona na analizy czy na szukanie i pytanie ankietowanych nie przekłada się na jakość wyników.
Aby mieć wyniki wysokiej jakości trzeba dbać o możliwie największą przejrzystość procesu projektowania, przeprowadzania i analizy.