W poprzednie wakacje Fundacja prowadziła projekt dotyczący eksploracji danych z badania PISA (Program Międzynarodowej Oceny Umiejętności Uczniów) prowadzonego przez OECD (Organizacja Współpracy Gospodarczej i Rozwoju). Do projektu zgłosiło się kilku wolontariuszy i w wyniku prowadzonych prac powstało kilka ciekawych grafik i projektów [np. tutaj Tomasz Owczarek pisze jak użyć Tableau do eksploracji tych danych, a tutaj pokazujemy jak wykształcenie rodziców koreluje z wynikami dzieci].
Temat porwał mnie na tyle, by wykorzystywać te dane na zajęciach z modeli liniowych i mieszanych. Praca na ciekawych i dużych danych była bardzo stymulująca dla studentów, w wyniku czego wykonali sporo interesujących analiz [oczywiście o nich pisaliśmy, np. tutaj].
Z tych wszystkich działań jednak pozostało we mnie wrażenie, że nie rozumiemy zbyt dobrze złożoności danych z badania PISA. Potrafimy tworzyć rankingi krajów w oparciu o pewne współczynniki, potrafimy przedstawiać zależności pomiędzy parami, trójkami, czwórkami zmiennych, ale nie ogarniamy całości. Raporty n.t. danych PISA mają po kilkaset stron z których zrozumieć można na raz może kilka. Tych informacji jest zbyt dużo a historia w nich ukryta jest niezbyt jasna.
OECD ma program grantowy Thomasa Alexandra, którego celem jest zbieranie naukowców z różnych dziedzin by testować różne techniki eksploracji danych PISA. Mile widziani są ludzie ,,spoza dziedziny”, i jak się okazało jest to na tyle szeroka definicja że obejmuje nawet takich biostatystyków medycznych jak ja. W ramach tego programu, wraz z grupką studentów, chcących nauczyć się R i eksploracji danych w R, będziemy szukać interesujących historii w danych PISA. A przede wszystkim będziemy szukać sposobu by te historie przedstawić graficznie, w zrozumiały sposób.
Dane z badania PISA 2012 będą udostępnione w poniedziałek 3 czerwca. Na początku będziemy szukać historii związanych z różnicami w wynikach pomiędzy płciami i jakie czynniki wpływają na to że te różnicę są w jednych szkołach/miastach/krajach duże a w innych małe. Kolejnym tematem będzie zagadnienie segregacji uczniów w szkołach w zależności od statusu majątkowego lub kulturowego rodziców czy też wyników dzieci.
Masa interesujących pytań.
Postaram się publikować wyniki na blogu na bieżąco, być może w niedopracowanej/otwartej formie. Zapraszam też do zadawania pytań, kwestionowania wyników, sugerowania alternatywnych rozwiązań.
Może razem uda nam się na jakiś ciekawe zależności natrafić.
Fascynującą cechą badania PISA jest zakres. Co trzy lata badanych jest 500 tysięcy 15latków z kilkudziesięciu krajów. Dzięki temu z tych danych można wyciągać mniej przypadkowe wnioski niż ,,Zagraniczni uczeni na próbie 20 osób odkryli, że jedzenie marchewki wieczorem ułatwia czytanie tekstu ze zrozumieniem”.
Ale czy uda się nam znaleźć interesujące historie w danych PISA 2012?
Już niebawem zobaczymy!