Żyj marzeniem…

W poprzednie wakacje Fundacja prowadziła projekt dotyczący eksploracji danych z badania PISA (Program Międzynarodowej Oceny Umiejętności Uczniów) prowadzonego przez OECD (Organizacja Współpracy Gospodarczej i Rozwoju). Do projektu zgłosiło się kilku wolontariuszy i w wyniku prowadzonych prac powstało kilka ciekawych grafik i projektów [np. tutaj Tomasz Owczarek pisze jak użyć Tableau do eksploracji tych danych, a tutaj pokazujemy jak wykształcenie rodziców koreluje z wynikami dzieci].

Temat porwał mnie na tyle, by wykorzystywać te dane na zajęciach z modeli liniowych i mieszanych. Praca na ciekawych i dużych danych była bardzo stymulująca dla studentów, w wyniku czego wykonali sporo interesujących analiz [oczywiście o nich pisaliśmy, np. tutaj].

Z tych wszystkich działań jednak pozostało we mnie wrażenie, że nie rozumiemy zbyt dobrze złożoności danych z badania PISA. Potrafimy tworzyć rankingi krajów w oparciu o pewne współczynniki, potrafimy przedstawiać zależności pomiędzy parami, trójkami, czwórkami zmiennych, ale nie ogarniamy całości. Raporty n.t. danych PISA mają po kilkaset stron z których zrozumieć można na raz może kilka. Tych informacji jest zbyt dużo a historia w nich ukryta jest niezbyt jasna.

OECD ma program grantowy Thomasa Alexandra, którego celem jest zbieranie naukowców z różnych dziedzin by testować różne techniki eksploracji danych PISA. Mile widziani są ludzie ,,spoza dziedziny”, i jak się okazało jest to na tyle szeroka definicja że obejmuje nawet takich biostatystyków medycznych jak ja. W ramach tego programu, wraz z grupką studentów, chcących nauczyć się R i eksploracji danych w R, będziemy szukać interesujących historii w danych PISA. A przede wszystkim będziemy szukać sposobu by te historie przedstawić graficznie, w zrozumiały sposób.

Dane z badania PISA 2012 będą udostępnione w poniedziałek 3 czerwca. Na początku będziemy szukać historii związanych z różnicami w wynikach pomiędzy płciami i jakie czynniki wpływają na to że te różnicę są w jednych szkołach/miastach/krajach duże a w innych małe. Kolejnym tematem będzie zagadnienie segregacji uczniów w szkołach w zależności od statusu majątkowego lub kulturowego rodziców czy też wyników dzieci.

Masa interesujących pytań.
Postaram się publikować wyniki na blogu na bieżąco, być może w niedopracowanej/otwartej formie. Zapraszam też do zadawania pytań, kwestionowania wyników, sugerowania alternatywnych rozwiązań.
Może razem uda nam się na jakiś ciekawe zależności natrafić.

Fascynującą cechą badania PISA jest zakres. Co trzy lata badanych jest 500 tysięcy 15latków z kilkudziesięciu krajów. Dzięki temu z tych danych można wyciągać mniej przypadkowe wnioski niż ,,Zagraniczni uczeni na próbie 20 osób odkryli, że jedzenie marchewki wieczorem ułatwia czytanie tekstu ze zrozumieniem”.

Ale czy uda się nam znaleźć interesujące historie w danych PISA 2012?
Już niebawem zobaczymy!

9 myśli na temat “Żyj marzeniem…”

  1. Super! Powodzenia! Pozazdrościć studentów. :) Swoją drogą jaki jest dobór próby do tego badania? Jaka jest metodologia? Jeżeli z wykorzystaniem metody reprezentacyjnej, to czy będziecie mieli wagi?

    1. Losowanie jest dwupoziomowe. Najpierw losowane sa szkoly, pozniej w ramach szkoly losowani sa studenci. Wag tez jest i to sporo. Jak bede mial dostep do stacjonarnegokomputera to podesle link do metodologii badania. Moim zdaniem raporty OECD pod katem statustyki wykonane sa bardzo rzetelnie.

  2. Przy takich badaniach ciekawią mnie dwie rzeczy.
    Pierwsza, to skąd wiadomo na ile oceny korelują rzeczywiście z wiedzą czy umiejętnościami, a nie np. doborem pytań (nie zawsze są sensowne, przynajmniej w polskiej szkole wiele jest na bardziej na “wykucie” czy “dopasowanie się do klucza” niż zrozumienie)?
    Druga, to na ile da się wyciągać wyciągać wnioski inne niż “jest korelacja”? Tj. co jest czego przyczyną, i ew. co z tym robić? Zwłaszcza, że tematy wokół płci czy też grup etnicznych mają nieraz swoją poprawną politycznie wersję, jak rzetelnie podejść do nieraz subtelnych różnic (np. kiedy dziedzi z biednych rodzin mają gorsze wyniki, bo nie mają środków czy pozycji społecznej na dobrą edukacje, a kiedy to wynika z tego, że np. statystycznie mogą być mniej inteligentne). Tym bardziej, że zwykle takie efekty się przenikają i cieżko oddzielić.

    1. Ad 1. Oczywiscie ze dla jednostki nie koreluja. Wiedza i umiejetnosci nie sa w liniowej skali, nie mozna ich ocenic jedna lub czterema liczbami. Ale dla wiekszych grup moga byc uzytecznymi wskaznikami pozwalajacymi na porownywanie pewnych trendow pomiedzy grupami.
      Ad 2. I tu wlasnie mamy piekno modelowania. Korelacja dla dwoch zmiennych nic nie mowi, moze byc efektem ubocznym niejednorodnej proby. Ale mamy modele regresyjne i inne metody pozwalajace na identyfikowanie i usuwanie ,,niechcianych” efektow. Oczywiscie trudno miec pewnosc ze wszystkie artefakty zostaly usuniete, ale dlatego wazna jest transparentnosc i powtarzalnosc wszystkich analiz. W przypadku OECD transparentlnosc jest ,,core’owa” wartoscia.
      Czasem tez pewnych efektow nie mozna rozdzielic, ale to tez jakas informacja.

  3. Ad 1.
    Raczej mam na myśli efekty, które właśnie liczby raczej ukrywają, i gdzie zależność parametru może być przeciwna od tego, co chcemy. Np. szkoła X jest “lepsza” od Y, bo tak wynika z ocen, zaś “prawda” jest taka, że np. w szkole X ludzie nie robią nic innego niż przygotowują się do konkretnych testów.

    Przykład z życia (gdzie wartość numeryczna jest bezużyteczna) to np. ankiety z zajęć vs mimuw.wikispaces. Z wyników tego pierwszego niewiele wynika dla studenta (dla mnie: nic nigdy nie wynikło). Raz, coś widać tylko przy drastycznej różnicy jakości. Dwa, zależy też od parametru (np. prowadzący może mieć styl, który nie podpadł innym, ale dla mnie jest dobry). Zaś wyniki z wikispaces ciężko przełożyć na liczbę, zaś zwykle dają b. dobre odzwierciedlenie stanu rzeczy.

    1. Badania PISA maja ta zalete, ze szkola nic nie ma z tego ze dobrze w nich wypadnie, bo dane szkoly sa anonimizowane. Wiec nie ma presji by przygotowywac uczniow ,,pod badanie PISA”.
      To troche redukuje problem, ktory jest powszechny prze testach gimnazjalinych czy maturze.

      Co do ankiet MIMUW, niewiele z nich wynika bo te ankiety nie zostaly przygotowane tak by cos z nich wynikalo. Nie wiadomo do konca dla kogo i po co sa przygotowane [choc znajomy z komisji dydaktycznej mowil mi ze komentarze bywaja i tam bardzo ciekawe]. A wikispaces to studenci dla studentow, wiec wiedza po co dziela sie opiniami. Nie po to by moc policzyc srednia z ocen ale po to by podzielic sie wrazeniami o prowadzacym [choc moim zdaniem ten system tez daleki jest od doskonalosci].

    1. Tak, to prawda. Do grudnia nie mozna upubliczniac zadnych wynikow dotyczacych roku 2012.
      Dlatego bede pisal o analizach na przykladzie porzednich edycji PISA, a wyniki dotyczace PISA2012 pojawia sie w grudniu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">