Ankiety a manipulacja

Następne kilka wpisów poświęconych będzie różnym raportom ,,o stanie Świata”’. Będzie technicznie więc na rozluźnienie dziś coś lekkiego.
Jakiś czas temu miałem przyjemność poprowadzić krótki ,Lunch & Learn’ dla zainteresowanych pracowników Netezza R&D IBM Polska (z którymi czasem coś robię). Prezentacja dotyczyła zagadnień związanych z wizalizacją danych, kilka typowych przykładów np. opisywanych przez Tufte’go jak i kilka lokalnych przykładów z naszego podwórka. Ponieważ uważam, że wizualizacje tworzy sie przede wszystkim po to by przedstawić  zależności, które są w danych, bez przekłamań i zniekształceń (estetyka jest ważna ale nie może być argumentem w zniekształcaniu zależności) to staram się też przekonywać, że błędy w wizualizacjach wynikają częściej z niewiedzy niż świadomej manipulacji.

Manipulacja wykresem ma tę ,,wadę’’, że osoby znające techniki manipulacji zauważą i zdemaskują próbę manipulacji. Więc przekornie można powiedzieć, że jeżeli już ktoś bardzo chce manipulować wynikami to znacznie lepiej manipulować danymi niż sposobem ich prezentacji (btw: Oczywiście nie na leży manipulować ani jednym ani drugim).

Wczoraj kolega przesłał mi link do artykułu pokazujący przykład maniplacji na etapie przygotowanie formlarza dla ankiet.
Link do artykułu znajduje się tutaj.
W artykule pokazywany jest przykład jak dobierając listę odpowiedzi w ankietach ,,zaprojektować’’ wynik.

Celem ankiety miało być określenie jaki procent Polaków ogląda telewizję powyżej 4 godzin. Odpowiadając ankietowani mieli kilka opcji do wyboru. W zależności od wyboru listy możliwych odpowiedzi uzyskuje się różne wyniki.

z11022341x

W cytowanym artykule jest sporo wody na ten temat, ale w skrócie różnice wynikach wynikały stąd, że pytanie było niejasne, pytano o rzecz o kórej większośc pytanych nie wiedziała (skąd mają wiedzieć jaka jest średnia danej cechy w populacji, wiedzą ile oni oglądają telewizji) lub której nie potrafi precyzyjnie ocenić (trudno precyzyjnie ocenić ile się czasu przeznacza na pewną aktywność, chyba że chodzi o godziny w pracy). Dlatego też część osób wybierała mniej lub bardziej losową odpowiedź. Projektując formularz możemy tą część losowych odpowiedzi przenieść tam gdzie chcemy np. w celu uzyskania oczekiwanych wyników.

Ok, nie jest celem tego wpisu szerzenie klimatów ,,statystycy nas okłamują, strzeżcie się’’. Celem jest pokazanie jak ważna jest dostępność surowych danych a nawet informacji jak wyglądały formlarze używane do zbierania danych. Celem jest pokazanie, że ilość czasu czy pieniędzy przeznaczona na analizy czy na szukanie i pytanie ankietowanych nie przekłada się na jakość wyników.

Aby mieć wyniki wysokiej jakości trzeba dbać o możliwie największą przejrzystość procesu projektowania, przeprowadzania i analizy.

 

Czy dwie zmienne mogą jednocześnie być dodatnio i ujemnie skorelowane?

Dzisiejszy wpis wynika z dyskusji ze studentami z seminarium licencjackiego, ciekawej dyskusji, mam też nadzieję że będzie ciekawa dla szerszego grona.

Zastanowimy się dzisiaj czy potwierdzone klinicznie problemy z nieżytem nosa są skorelowane z zanieczyszczeniem powietrza. Nawet bez żadnych twardych danych spodziewamy się, że jakaś dodatnia zależność może być, i raczej im bardziej zanieczyszczone powietrze tym gorzej a więc i więcej problemów z nieżytem nosa.

Jeżeli jednak przed zobaczeniem danych wiemy jakiego wyniku oczekujemy to lepiej byśmy tych analiz nie robili. I tak trudno będzie nam utrzymać obiektywizm i raczej będziemy szukać metody, która potwierdzi nasze oczekiwania.

Na podstawie badania ECAP, największego w Polsce badania dotyczącego alergii, postaramy się odpowiedzieć na postawione powyżej badanie dotyczące zależności pomiędzy wymienionymi zmiennymi. Wyniki takiego badania sa przedstawione w periodyku ,,Kształcenie podyplomowe’’.

Spójrzmy na artykuł ,,Stan środowiska przyrodniczego a choroby alergiczne’’ strona 30, a w szczególności na wyniki ze strony 33-34.

W tabeli 2 użyto testu niezależności by zbadać czy jest zależność pomiędzy zanieczyszczeniem powietrza a potwierdzonym klinicznie nieżytem nosa. Zanieczyszczenie było badane w subiektywnej 11 stopniowej skali (0-10). Następnie testami sprawdza się czy osoby mieszkające w miejscach bez zanieczyszczenia powietrza (zanieczyszczenie=0) mają mniej potwierdzonych nieżytów nosa niż osoby mieszkające w miejscach słabo zanieczyszczonych (zanieczyszczenie=1-3) średnio zanieczyszczonych (zanieczyszczenie =4-7) czy bardzo zanieczyszczonych (zanieczyszczenie=8-10). W dwóch na trzy porównania otrzymuje się istotnie statystycznie więcej zachorowań w miejscach o większym zanieczyszczeniu. Wydaje się więc, że jest zależność dodatnia, tam gdzie jest zanieczyszczenie jest więcej nieżytów nosa.

Problem pojawia się jedynie jeżeli spojrzymy na rycinę 2

Pokazuje ona jaki był procent osób z nieżytem nosa dla każdej z 11 grup zanieczyszczeń powietrza. Wykres ten nie jest czytelny, ale jeżeli informację o procencie osób z nieżytem przedstawić na wykresie punktowym to otrzymamy następujący (moim zdaniem czytelniejszy) wykres

 

Zielona przerywana linia to regresja liniowa. Jak by nie liczyć korelacji pomiędzy procentem nieżytów  a poziomem zanieczyszczenia (czy współczynnikiem Perasona, czy Spearmana czy Kendalla, za każdym razem korelacja jest ujemna) to otrzymujemy ujemną zależność. Czyli wręcz im bardziej zanieczyszczone powietrze, tym średnio mniej osób z nieżytem nosa.

 

Ok, te same dane, to samo pytanie, dwie różne odpowiedzi. Różnica jest taka, że za pierwszym razem pogrupowano zanieczyszczenie do 4 grup i za referencyjną wybrano brak zanieczyszczenia, czyli zanieczyszczenie =0. W drugim przypadku nie było agregacji ale zignorowano liczbę osób w każdej z 11 grup zanieczyszczenia powietrza.

Statystyka daje jednoznaczne odpowiedzi, przy czym często ta odpowiedź brzmi ,,o co Ci tak naprawdę chodzi, co chcesz sprawdzić?”.

 

Kim są eksperci z Narodowego Centrum Nauki? Część 4

Ostatnie dwa wpisy pokazywały dorobek ekspertów oceniających wnioski w NCN w rozbiciu na dziedziny. Rozbicie było potrzebne, ponieważ w różnych dziedzinach spodziewać się można różnej liczby publikacji i pochodnych współczynników.

Dzisiaj krótko scharakteryzuję same dziedziny. Dla każdej z dziedzin liczyliśmy medianę liczby cytowań/publikacji/h-indeksu/liczby autorów na pracę. Pokażemy teraz te współczynniki na wspólnym wykresie.
Oglądając poniższe wykresy proszę pamiętać że dziedziny są reprezentowane najczęściej przez jedynie kilka osób – ekspertów NCN.

[Update: poniższe wykresy są w formacie png, po kliknięciu otworzy się wersja wektorowa]


Dla mnie dużym zaskoczeniem jest pozycja matematyki. Słyszałem dotąd, że matematycy mniej publikują, są rzadziej cytowani niż przedstawiciele nauk stosowanych np. biologii (tak, wiem jak to brzmi). Tymczasem na tym wykresie jest inaczej. Przyglądając się bliżej matematykom okazuje się, że dwóch o największym dorobku pracują w dziedzinie matematyka (zgodnie z klasyfikacją KBN) ale najpopularniejsze prace dotyczą raczej informatyki. niemniej jak widać nic nie stoi na przeszkodzie by matematyk robiący coś ciekawego dużo publikował i był cytowany.

Innych zaskoczeń nie było, proszę tylko zwrócić uwagę, że pierwszy wykres ma osie w skali logarytmicznej.

Kim są eksperci z Narodowego Centrum Nauki? Część 3

Wczoraj przedstawiłem rozkłady liczby cytowań i liczby publikacji dla ekspertów NCN z różnych dziedzin. Aplikacja ,,Publish or Perish” liczy wiele różnych interesujących współczynników. Dziś pokażę rozkłady dwóch popularnych współczynników, czyli h-indeks oraz średniej liczby autorów na publikację dla ekspertów.

 
Lista dziedzin w porządku określonym przez liczbę ekspertów (linki do poniższych wykresów):
biologia, nauki chemiczne, fizyka, medycyna, informatyka, ekonomia, nauki weterynaryjne, nauki historyczne, automatyka i robotyka, nauki prawne, nauki filologiczne, mechanika, matematyka, biologia medyczna, nauki medyczne, geografia, geologia, nauki filozoficzne, nauki farmaceutyczne, socjologia, inzynieria materialowa, technologia chemiczna, nauki o sztukach pieknych, zootechnika, psychologia, pedagogika, naukiopolityce, inzynieria i ochrona srodowiska, budowa i eksploatacja maszyn, organizacja i zarzadzanie, agronomia, telekomunikacja, technologia zywnosci i zywienia, astronomia, nauki teologiczne.

Kim są eksperci z Narodowego Centrum Nauki? Część 2

Dwa dni temu w tym wpisie opisałem zbiór danych który zebrałem by zobaczyć kim są eksperci oceniający wnioski w ramach konkursu NCN z roku 2011. Dzisiaj na wykresach pokażę liczby publikacji i liczby cytowań w podziale na dziedziny.

Każdy z poniższych wykresów odpowiada jednej dziedzinie wymienionej w bazie danych Ludzie Nauki. Na wykresie przedstawiono charakterystyki ekspertów z danej dziedziny. Każdy punkt odpowiada jednemu ekspertowi, punkty mogą mieć różne kształty oraz różne kolory.

Kształt punktu zależy od tego czy ekspert jest inżynierem czy nie, inżynierów oznaczyłem trójkątami, nie inżynierów kołami.

Kolor punktu odpowiada identyfikowalności eksperta. Problemy z identyfikacją mogą mieć dwa źródła. Pierwsze poważniejsze, dotyczy około 4% przypadków, gdy istnieją przynajmniej dwa różne wpisy w bazie danych Ludzie Nauki wskazujące na osoby o tym samym imieniu, nazwisku i stopniu/tytule naukowym. Nie sposób odgadnąć która z tych osób jest naszym ekspertem, więc do analiz włączone są wszystkie ,,możliwe osoby”. Zwiększa to liczbę osób nieznacznie. Drugi problem dotyczy bazy danych ,,Publish or Perish”. Jeżeli istnieją przynajmniej dwie osoby o tym samym imieniu i nazwisku to niesposób automatycznie rozróżnić ich dorobków. Dla takiej grupy osób policzyć można jedynie sumę wszystkich publikacji i sumę wszystkich cytowań. Bardzo często zdarza się, że eksperta udało się dokładnie zidentyfikować po stopniu/tytule naukowym ale nie udało się oddzielić publikacji imienników. Na czarno i jasno-czerwono zaznaczeni są eksperci, którzy na podstawie bazy Ludzie Nauki mają unikatową kombinację imienia i nazwiska. Na szaro i ciemno-czerwono eksperci dla których jest więcej niż jeden wpis, przez co potencjalnie ich charakterystyki zostały błędnie zawyżone przez połączenie wyników różnych osób.

Kolorem jasno/ciemno-czerwonym zaznaczono kobiety, kolorem czarnym/szarym mężczyzn. W przypadku kobiet, wiele z nich ma podwójne nazwisko, co też może wpłynąć na statystyki cytowań i publikacji, dane te należy traktować poglądowo.

Zielonymi przerywanymi liniami zaznaczam mediany dorobku ekspertów, których udało się jednoznacznie zidentyfikować.

Update: ponieważ otrzymałem informacje, że rysunki w formacie svg nie u wszystkich poprawnie się wyświetlają, więc zamieniłem je na png, po kliknięciu otworzą się rysunki w postaci wektorowej.

 
Lista dziedzin w porządku określonym przez liczbę ekspertów (linki do poniższych wykresów):
biologia, nauki chemiczne, fizyka, medycyna, informatyka, ekonomia, nauki weterynaryjne, nauki historyczne, automatyka i robotyka, nauki prawne, nauki filologiczne, mechanika, matematyka, biologia medyczna, nauki medyczne, geografia, geologia, nauki filozoficzne, nauki farmaceutyczne, socjologia, inzynieria materialowa, technologia chemiczna, nauki o sztukach pieknych, zootechnika, psychologia, pedagogika, nauki o polityce, inzynieria i ochrona srodowiska, budowa i eksploatacja maszyn, organizacja i zarzadzanie, agronomia, telekomunikacja, technologia zywnosci i zywienia, astronomia, nauki teologiczne.

Kim są eksperci Narodowego Centrum Nauki?

Pieniędzy na naukę w Polsce jest mało (jeżeli porównać z zachodnimi sąsiadami), dlatego dzielenie tych pieniędzy budzi zazwyczaj emocje i burzliwe dyskusje. W przypadku pierwszego konkursu grantowego organizowanego przez NCN (Narodowe Centrum Nauki) tych emocji było sporo, krytykowano miedzy innymi wybór recenzentów i ekspertów. Tak się złożyło, że NCN nie ujawniło listy recenzentów ale ,,prawie” ujawniło listę ekspertów. Piszę ,,prawie” ponieważ lista ekspertów przedstawiona na tej stronie jest bez podziału na panele, przez co mało użyteczna. W prasie znaleźć można pojedyncze głosy (jak np ten) przekonujące czytelnika, że eksperci mają znaczący dorobek, ale te informacje dotyczą jednego panelu i bez nazwisk trudno je zweryfikować.

Więc plan na ten tydzień to przyjrzenie się bliżej ekspertom NCN. Nie mam zamiaru oceniać osób, ponieważ w wielu przypadkach ich dorobek jest o rząd lub rzędy wielkości większy niż mój, chciałbym jedynie pokazać jak wygląda dorobek ekspertów z rożnych dziedzinach. Ponieważ dane zbierane były automatycznie więc podczas zbierania zdarzyć się mogło, że komuś niedoszacowano albo przeszacowano. Dlatego nie ma sensu oceniać jednostek, ale można przyjrzeć się całej populacji. Mam nadzieję, że informacje o dorobku ekspertów będą użyteczne nie tylko w kontekście konkursów NCN, ale też młodym ludziom dadzą wyobrażenie jak wyglądają dorobki osób w kraju uznanych. Koniec końców, do wykonania tych wizualizacji użyłem danych z trzech źródeł, z których każde starało się dostęp do danych ograniczyć, więc samo wyciąganie danych było dobrą zabawą.

Skąd są dane ?

Informacje o imionach i nazwiskach ekspertów wyciągnięte są z tego dokumentu.

Aby nie analizować ekspertów z różnych dziedzin w jednym worku z bazy danych Ludzie Nauki OPI wyciągnąłem informację o dziedzinie w której pracują eksperci (około 4% osób nie udało mi się jednoznacznie zidentyfikować ponieważ kilka osób ma identyczne imię, nazwisko i tytuł). Należy podkreślić, że dziedzina wskazana w bazie OPI nie musi mieć nic wspólnego z panelem w którym ekspert zasiadał. Dzięki podziałowi na dziedziny unikniemy mieszania humanistów ze ścisłowcami.

Mała modyfikacja programu Publish or Perish (zobacz tutaj) pozwoliła na ściągnięcie informacji o g-liczbie cytowań, g-liczbie publikacji i g-h-indeksie oszacowanych na bazie Google Scholar. Piszę g-* ponieważ ta wyszukiwarka ma tendencje do zawyżania wskaźników. Jest jednak łatwym do weryfikacji punktem odniesienia.

Co w danych piszczy?

Dzisiejszy wpis to rozgrzewka opisująca jakie dane są zebrane. Dzisiaj będzie mnie interesowało to jaki stopień naukowy i jakie dziedziny znajdziemy wśród ekspertów. Przyszłe analizy liczby cytowań i h-indeksu będziemy przeprowadzać osobno dla każdej z dziedzin.

Rozkład stopni naukowych wśród ekspertów jest następujący:
prof. dr hab. (298), dr hab. (87), prof. dr hab. inz. (76), dr hab. inz. (26), dr (13), ks. dr hab. (3), dr inz. (3), prof. (2), ks. prof. dr hab. (2), przew. kwal. II (1), prof. przew. kwal. II (1), prof. dr inz. (1), prof. dr hab. przew. kwal. I (1), o. prof. dr hab. 1.
Zobaczmy jak te liczby wyglądają w rozbiciu na dziedziny.

[Update: Przedstawiona jest poniżej wersja rastrowa, po kliknięciu na wykres otworzy się wersja wektorowa, skalowalna, znacznie lepiej wyglądająca.]

Rysunek 1. Dziedziny w których pracują eksperci NCN. W kolejnych wierszach przedstawiono dziedziny KBN w których pracują eksperci. Ponieważ są eksperci pracujący w kilku dziedzinach, więc suma wszystkich liczb w nawiasach jest większa niż liczba ekspertów. Najczęściej współwystępujące pary dziedzin połączone są linią po prawej stronie. Po lewej stronie kolorami oznaczono skład tytułów i stopni ekspertów z danej dziedziny. Jaśniejsze kolory odpowiadają osobom bez inżyniera, ciemniejsze osobom z inżynierem. Osoby ,,tylko” z habilitacją są zaznaczane na zielono, profesorowie na niebiesko.

Wszystkich dziedzin jest sporo, ale dla części jest niewielu reprezentantów, przez co w dalszych analizach skoncentrujemy się na najliczniejszych dziedzinach do socjologi włącznie.

Dziś pokażę jeszcze rozkład płci ekspertów w każdej z dyscyplin.

Rysunek 2. Rozkład płci ekspertów NCN w rozbiciu na dziedziny.

 

Gdzie dziś uprawia się naukę? Krótka analiza najlepszych prac z ‘Computer Science’

Dostałem dziś od znajomego link do strony podsumowującej listę prac, które otrzymały nagrody ,,Best Paper Awards’’ w ostatnich latach na czternastu międzynarodowych konferencjach związanych z informatyką. Link do strony z tym podsumowaniem znajduje się tutaj.

Ostatnimi czasy spotykam się z opiniami różnych osób, jakoby nauka w takich dziedzinach jak statystyka obliczeniowa, masywne przetwarzanie danych, inżynieria oprogramowania, bazy danych, była rozwijana już nie na uczelniach (jak kiedyś) ale w dużych firmach, które mają dostęp do dużych zbiorów danych.

Postaram się przedstawić graficznie wyniki z wymienionej wyżej strony z rankingami, tak by można było pokusić się o odpowiedź na pytanie czy najwyższej próby  ‘Computer Science’ (nie znam dobrego polskiego tłumaczenia, słowo informatyka wydaje się mi uboższe) uprawia się bardziej na uczelniach czy w firmach. Oczywiście badanie najlepszych prac z konferencji nie da wyczerpującej odpowiedzi na pytanie gdzie nauka się najszybciej/najbardziej rozwija, ale może zbliży nas o jeden krok do tej odpowiedzi.

Dane z wymienionej strony zostały automatycznie przetworzone. Skrypt w programie R użyty do przetworzenia danych i wygenerowania wykresów znajduje się tutaj. Interesować będą mnie jednostki w których, afiliowani są autorzy najlepszych prac. Wkład jednostki w naukę będę mierzył zliczając punkty zebrane przez pracowników tych jednostek. Punkty unormowałem, tak że na każdy rok i na każdą konferencję do rozdania jest równo po 1 punkt. Jeżeli więc w danym roku na danej konferencji wygrały 2 prace, w każdej po 3 autorów, to każdy autor do swojej jednostki wniesie po 1/6 punktu. Jest to więc inna miara niż opisana w  oryginalnym podsumowaniu.

Dzielę teraz wszystkie jednostki na akademickie (Politechniki, Uniwersytety, Akademie Nauk) i nie akademickie (wszystkie pozostałe). Zdaję sobie sprawę, że ten podział nie zawsze jest oczywisty, ale taki został wykonany. Dla każdej jednostki i dla każdego roku liczę liczbę uzbieranych punktów.

Na poniższych wykresach na czarno zaznaczam jednostki akademickie, na czerwono pozostałe. Wszystkich jednostek jest ponad 200, więc nazwy podaję jedynie dla tych, które uzbierały 1 lub więcej punktu. Wśród wszystkich autorów jest jeden z polska afiliacją, który wniósł dla UW 0.2 punktu (Mikołaj Bojańczyk, gratulujemy). To jednak nie wystarczyło by UW był oznaczony również z nazwy.

Na poniższych wykresach osie są w skali pierwiastkowej, po to by uzyskać większą rozdzielczość tam gdzie jednostek jest dużo.

 

Rysunek 1. Z konieczności nazwy jednostek są małe, warto więc otworzyć ten obrazek na osobnej zakładce i powiększyć.  Na osi OX znajduje się liczba punktów uzbierana w latach 1996-2006, na osi OY w latach 2007-2011. Nie wszystkie konferencje mają tak długą historię, dlatego na osi OX punktów do zdobycia było mniej.

Z rysunku 1 możemy odczytać, które jednostki zdobywały więcej punktów kiedyś a które zdobywają więcej punktów teraz. Uniwersytet Carmegie Mellon czy Washington utrzymują stałe tempo zbierania punktów, Uniwersytet w Toronto czy IBM Research zbierało więcej punktów kiedyś, a w ostatnich latach wysoko oceniane są prace osób pracujących w Yahoo Research czy Microsoft Research.

Ale pytanie od którego zaczęliśmy dotyczyło zmiany trendu. Z powyższego rysunku trudno tę zmianę trendu odczytać, zbyt wiele punktów jest narysowanych. Policzmy więc jaki procent punktów zebranych w roku X został zebranych przez jednostki akademickie.

 

Rysunek 2. Na osi OY zaznaczono jaki procent punktów do zdobycia w danym roku otrzymały jednostki akademickie.

Na rysunku 2 przedstawiony jest udział jednostek akademickich w afiliacjach autorów najlepszych prac. Na tym wykresie nie widać trwałego trendu. Są pewne fluktuacje, ale nie można powiedzieć by to artykuły powstające w przemyśle wypierały prace akademickie (w kategorii najlepsza praca).

Ostatni wykres jest prawdopodobnie najmniej czytelny, ale bardzo chciałem go zobaczyć więc tez go tu umieścić. Poniżej jest przedstawiona skumulowana liczba punktów zebrana przez pracowników ze wskazanej jednostki.

 

Rysunek 3. Aby odczytać etykiety należy otworzyć ten rysunek na osobnej karcie i powiększyć. Na osi OX znajdują się lata a na osi OY skumulowana liczba punktów zdobyta do danego roku. Na czarno jednostki akademickie, nazwa jednostek znajduje się po prawej stronie.

 

Przyznam, że dla mnie zaskoczeniem był brak widocznego trendu w zwiększaniu się udziału oddziałów badawczych z przemysłu w afiliacjach autorów najlepszych prac. Być może śledzenie tylko najlepszych prac nie jest dobrą miarą. Być może te naprawdę najlepsze wyniki są patentowane a nie prezentowane jako publikacje. A być może ‘Computer Science’ jest wciąż rozwijana i jednostkach akademickich i w przemyśle i dostęp do dużych danych można uzyskać nawet będąc akademikiem, jeżeli tylko się chce.

 

 

 

Praca dla doktorów na wydziale MIM UW

Instytut Matematyki Stosowanej Uniwersytetu Warszawskiego a w szczególności grupa Statystyki Matematycznej szuka doktorów, doktorów habilitowanych i profesorów matematyki lub statystyki chętnych do zasilenia naszych szeregów.

W przypadku młodych (do 5 lat po doktoracie lub końcówka doktoratu) doktorów broniących doktorat poza województwem mazowieckim możliwe jest współfinansowanie wynagrodzenia z granatów na staże podoktorskie NCN (więcej informacji tutaj http://www.ncn.gov.pl/ogloszenia/konkursy/podoktorskie-15-12-2011).

Dofinansowanie to około 10tys PLN miesięcznie plus drobne na wyposażenie pokoju.
W Instytucie zapewniamy miłą atmosferę do pracy i dużą elastyczność.

Więcej informacji można otrzymać emailowo.

Ankiety studenckie, stratyfikacja a macierze korelacji

Dzisiejszy wpis jest pierwszym z serii wpisem dotyczącym wizualizacji i analizy danych zbieranych w procesie nauczania w szkołach wyższych. Rok temu mój magistrant, Filip Grotkowski, w ramach pracy magisterskiej wykonał szkielet oprogramowania pozwalający na automatyczne generowanie raportów na podstawie danych z systemów: Uniwersytecki System Obsługi Studentów (USOS) i Internetowa Rejestracja Kandydatów (IRKA). Więcej o systemie USOS przeczytać można np. tutaj.

Kolejni magistranci kontynuują rozwój tego systemu. Celem jest opracowanie systemu raportów, który będzie prezentował ciekawe informacje dla studentów i nauczycieli akademickich. Aktualnie kilkanaście uczelni używa tego systemu i teoretycznie raz opracowany zestaw raportów będzie można uruchomić na każdej z tych uczleni. Tak więc ten i kolejne wpisy w tle mają pytanie, jakie informacje użyteczne dla studentów i nauczycieli akademickich można wyłowić z baz danych o procesie studiowania i mam nadzieję, że czytelnicy tego bloga swoimi uwagami pomogą w znalezieniu sposobów znajdowania odpowiedzi na najciekawsze pytania.

 

Dziś będzie o liczeniu korelacji pomiędzy wynikami z ankiet studenckich.

Na wydziale MIM Uniwersytetu Warszawskiego przeprowadzane są ankiety wśród studentów. O ile wiem ankiety są organizowane przez Samorząd Studencki.
Studenci odpowiadają na 11 pytań opisujących ich zadowolenie z każdego z wybranych przedmiotów. Między innymi oceniają przygotowanie prowadzącego, dostępność materiałów, dostępność prowadzącego, ogólną ocenę zajęć, ogólna oceną prowadzącego itp.

Wielki plus dla samorządu za zorganizowanie tego systemu i aktywne motywowanie studentów do wypełniania ankiet, dzięki czemu wypełnianych jest kilka tysięcy ankiet na semestr. Plus za pytanie o 11 aspektów dotyczących przeżytego kursu, ułatwia to zrozumienie co się podobało a co nie w danym kursie. Minus za brak pomysłu na przedstawienie wyników dla tych 11 aspektów.

 

Wyniki ankiet dla kierunku Matematyka dla semestru zimowego 2010 opracowane przez studentów wydziału MIM zostały umieszczone pod tym adresem. Raport jest miły dla oka, znajduje się tam wiele wykresów i liczb. Brawa dla autorów za jego wykonanie, ale jak zwykle nawet w najlepszym raporcie znajdzie się coś do czego  można mieć uwagę. A moja jest taka, że mam wrażenie, że z takich ankiet można wyciągnąć więcej informacji. I to jest temat kilku najbliższych wpisów.

Ten wpis poświęcę dyskusji nt. macierzy korelacji pomiędzy odpowiedziami na pytania z ankiet.
Jest ona przedstawiona w wymienionym wyżej raporcie w części ‘Korelacja pomiędzy wynikami z pytań’.
Pamiętajmy, że te wyniki są prezentowane dla studentów i pracowników wydziału informatyki i matematyki, więc można wybaczyć zalew liczb i prezentowanie korelacji z dokładnością do trzech cyfr po przecinku (co sam też będę czynił poniżej).

Problem z tą macierzą korelacji polega na tym, że nie wiadomo co ona pokazuje.

Dlaczego?
Przypomnijmy jak była ona konstruowana.
Studenci dla każdego odbytego kursu odpowiadali na 11 pytań w skali od 1 do 7. Puryści stwierdzą, że ta skala przypomina bardziej skalę Likerta niż dane ilościowe więc liczenie z odpowiedzi średniej a co dopiero korelacji nie ma sensu. Ale przymknijemy na razie na to oko.
Skupmy się na razie na tym jak policzyć korelację pomiędzy dwoma pytaniami, np. ogólną oceną z zajęć a ogólną oceną prowadzącego.
Problem z liczeniem korelacji zilustrujemy takim przykładem. Przypuśćmy, że poniższa tabela opisuje wyniki z czterech ankiet.

Korelacja próbkowa dla odpowiedzi na te pytania to 0,8. Ale jest ona pochodną tego, że jeden prowadzący został wysoko oceniony a drugi nisko. Mamy bowiem do czynienia z grupami odpowiedzi o potencjalnie różnych rozkładach (średnich) i obserwujemy mieszaninę takich grup. Spróbujmy oddzielić wpływ prowadzącego na ocenę i wpływ rozumienia pytania 1 i 2 przez oceniającego studenta.

Licząc średnie w kolumnach, możemy każdemu prowadzącemu przypisać średnią ocenę na zadane pytanie.

Jeżeli teraz policzymy korelację pomiędzy takimi średnimi otrzymamy korelację równą 1. Ta korelacja opisuje jak bardzo podobne są charakterystyki 1 i 2 prowadzących. Wysoka korelacja świadczy o tym, że prowadzący wysokich odpowiedziach na jedno pytanie mają też wysokie odpowiedzi na drugie pytanie.

Zobaczmy teraz jak wyglądają różnice pomiędzy wynikami z ankiet a średnimi wynikami prowadzących (będę je poniżej nazywał resztami)

To oczywiście skrajny przykład, ale ma na celu pokazanie, że licząc korelację na średnich lub na resztach można nadać interpretację takich korelacji. Liczenie korelacji z pominięciem informajcie o ,,efekcie prowadzącego” utrudnia lub uniemożliwia określenie co dokładnie ta korelacja mierzy. Liczba jakaś zawsze wyjdzie, ale co ona znaczy?
Tego typu problem polegający na obserwowaniu wartości z grupy niejednorodnych podpopulacji jest w analizie danych dosyć częsty, warto więc być na niego wyczulonym.

Ok, a jak to wygląda dla naszych danych, tj wyników ankiety dotyczacych semestru zimowego 2010?
Dostęp mam tylko do odpowiedzi na 8 z wymienionych 11 pytań, dlatego poniżej pokazuję macierz korelacji tylko dla tych 8 pytań.
Pierwsza macierz pokazuje korelację pomiędzy średnimi dla prowadzących, druga to korelacja pomiędzy resztami.
Jak widzimy te macierze dosyć się różnią.

Macierz korelacji dla średnich ocen prowadzących.

Macierz korelacji dla różnic pomiędzy ocenami prowadzących a wynikami ankiet.

Powyższe macierze różnią się. Najbardziej różnią się korelacje pomiędzy oceną opiniowanych zajęć a pozostałymi odpowiedziami. Patrząc na korelacje liczone na średnich dla prowadzących mamy wysoka korelację, która świadczy o tym, że jeżeli prowadzący jest wysoko oceniany to i zajęcia są wysoko oceniane (i symetrycznie, korelacja jest symetryczną miarą).
Porównując korelacje liczone na resztach, widzimy brak istotnych korelacji. Co znaczy, że studenci inaczej interepretują ocenę prowadzącego i ocenę przedmiotu. Uwzględniwszy ,,efekt prowadzącego” odpowiedzi na te pytania są nieskorelowane. Pozostałe pytania są skorelowane w podobnym stopniu, co można interpretować tak, że wszystkie pytania poza siódmym oceniają różne cechy prowadzącego, sposobu przekazywania wiedzy, uporządkowania, charyzmy itp. Pytanie 7 w percepcji studentów dotyczy wyłącznie oceny przedmiotu.

Dociekliwi zauważą, że podobnie jak braliśmy pod uwage ,,efekt prowadzącego” tak i powinniśmy brać pod uwage ,,efekt studenta”. Nie jesteśmy jednak w stanie tego zrobić, ponieważ ankiety są anonimowe i nie ma jak policzyć średniej odpowiedzi na wybranego studenta. Ponieważ jednak liczba ankiet na studenta jest mnijesza niż liczba ankiet na przedmiot więc można mieć nadzieję, że efekt studenta jest znacznie mniejszy.

Pointa?
Przedstawianie różnych charakterystyk danych z ankiet to świetny pomysł ale trzeba zastanowić się co prezentuje dana charakterystyka i czy przypadkiem nie jest ona obciążona jakimś innym efektem.
Licząc korelację na danych, które agregują wyniki z kilku grup należy wziąć pod uwage różnice pomiędzy grupami. Dzięki temu będzie można wskazać na jakim etapie korelacja/podobieństwo jest istotne.
Pytanie z którym należy się jeszcze zmierzyć to w jaki sposób pokazać macierz korelacji tak by dało się ją całą ogarnąć percepcją.

 

Po co używać wykresów kołowych, czyli raporty znanej fundacji a ,,lie factor”

Zacznę od tego, że FNP stara się czytelnie prezentować wyniki swoich konkursów. Z ostatniego konkursu START dla przejrzystości upubliczniono wnioski laureatów, a więc jest tutaj duża przejrzystość. NCN mógłby się dużo nauczyć (sposób ich publikacji wyników pierwszego konkursu pozostawia wiele pytań). Pisząc kolokwialnie, FNP robi świetną robotę (tzn. ludzie pracujący w tej fundacji).
Niemniej FNP też zdarzają się wpadki.

Na tej stronie przedstawiono raport z rekrutacji różnych programów prowadzonych przez Fundację.

Z jakiegoś powodu uznano, że trójwymiarowe wykresy kołowe nadadzą się do czegokolwiek. Tymczasem dwie pierwsze reguły wizualizacji danych to: nie uzywaj pseudo-trójwymiarowych wykresów jeżeli nie trzeba i nie uzywaj wykresów kołowych. Nie jest tylko jasne która z tych reguł jest pierwsza a która drugą. Pseudo-trzeci wymiar na wykresach oszukuje percepcję i nie pozwala na poprawną ocenę długości/szerokości itp. Wykresy kołowe sa niedobre ponieważ nie potrafimy dobrze porównywać kątów.

Zobaczmy przykładowy wykres prezentowany ww raporcie na stronie 2.

Co jest dziwnego w tym wykresie? Są dwa kawałki, które opisują po 5% i dwa opisujące po 11%, ale coś jest z nimi nie tak. Zmierzmy długości odpowiednich cięciw.

Długości tych cięciw w pixelach to odpowiednio 116, 211, 126, 46 pixeli.

Edward Tufte zdefiniował kiedyś współczynnik ,,lie-factor”, który liczony jest jako iloraz efektu widocznego na wykresie do efektu w danych.

Stosunek długości cięciw A:D to 116/46 = 2.6 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Stosunek długości cięciw B:C to 211/126 = 1.7 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Czy trzeba więcej argumentów przeciwko wykresom kołowym 3D?

W ogóle ilość danych przedstawionych w powyższym raporcie do jego objętości jest dosyć mizerna. Całą stronę 2 mozna by przedstawić za pomocą jednego wykresu na którym jest więcej informacji. Kod do wygenerowania tego wykresu znajduje się tutaj. A wykres poniżej (trochę lepiej wygląda dla innych progrmów gdzie było więcej lauretów)

Krytykując wykresy 3D spójrzmy jeszcze na poniższy z tego samego raportu. Pierwszy słupek ma wysokość 15% ale jest znacznie poniżej linii siatki oznaczającej 15%. Pewnie da się to jakoś wytłumaczyć, ale i tak dosyć dziwnie to wygląda.