Dzisiaj będziemy kontynuować temat czynników korelujących z wynikami w gimnazjum. Ostatnio pisaliśmy na ten temat we wpisie o zależnościach pomiędzy wynikami z matematyki a zamożnością i wykształceniem rodziców. Poniżej porównamy jednocześnie wyniki z testów językowych jak i matematycznych. Sprawdzimy czy z lepszymi wynikami w gimnazjum koreluje liczba komputerów w domu, liczba książek czy liczba telewizorów. I zakończymy komentarzem dotyczącym zależności przyczynowo-skutkowej.
W poprzednim wpisie, przedstawiając wyniki z matematyki, nie uwzględnialiśmy płci uczniów. Było to usprawiedliwione, ponieważ obie płcie mają podobne średnie wyniki z testów matematycznych (patrz wykres poniżej). Jeżeli jednak chcemy uwzględnić umiejętności językowe to płeć musimy uwzględnić. Na poniższym rysunku przedstawiamy dla każdej z płci średnie wyniki w testach językowych jak i matematycznych. Zakresy na obu osiach od 400 do 600 punktów zachowamy na wszystkich poniższych wykresach. W tym zakresie mieści się 74% wyników wszystkich uczniów. A na wykresie każdy uczeń to jedna szara kropka.

Jednym z pytań, które zadawano uczniom podczas badania PISA było 'ile czasu średnio czytają dla przyjemności’ oraz 'jak często czytają beletrystykę’. Spodziewać się można, że obie te zmienne korelować będą z umiejętnościami językowymi. Zobaczmy jednak czy korelują z umiejętnościami matematycznymi. W nawiasach w tytule wykresu przedstawiono procent zmienności wyników wyjaśniony przez opisywaną zmienną. Zmienna płeć ,,wyjaśnia” dodatkowo 8% zmienności w wynikach z testów językowych i poniżej 0.1% w wynikach testów z matematyki. Wracając do pytania o korelacje wyników z matematyki a czytaniem dla przyjemności i czytaniem beletrystyki: średnio rzecz biorąc osoby lubiące czytać mają lepsze wyniki w obu rodzajach testów.


Przyjrzyjmy się teraz trzem bardzo ciekawym zmiennym, mianowicie liczbie komputerów, telewizorów i książek w domu. Wielkość punktu odpowiada frakcji uczniów udzielających danej odpowiedzi i jak widzimy niewiele jest uczniów, którzy nie mają w domu komputera czy telewizora, za to łatwiej znaleźć uczniów u których w domu jest poniżej 10 książek.
Pierwszą ciekawą obserwacją jest to, że związek każdego z tych trzech czynników z wynikami z testów językowych i matematycznych jest praktycznie taki sam. Liczba telewizorów zdaje się nie korelować z wynikami (a nawet najlepiej radzi sobie niewielka grupa uczniów bez telewizora w domu), liczba komputerów w domu już koreluje i wyjaśnia 5% zmienności, a liczba książek w domu wyjaśnia oszałamiające 16% zmienności w wynikach. Te 16% to bardzo dużo. Z wykresu odczytujemy, że różnica w średnich dla uczniów z domów wypełnionych książkami w stosunku do domów ubogich w książki to ponad 100 punktów i dla umiejętności językowych i matematycznych.



Ok, jaki wniosek można wyciągnąć z tych korelacji? Czy jeżeli zależy nam na wynikach dzieci powinniśmy zamówić na allegro pakiet 201 książek?
Ze wszystkich zmiennych w badaniu PISA jakie dotąd przeglądaliśmy, liczba książek jest zmienną, która najbardziej koreluje z wynikami i w testach językowych i testach matematycznych, wyjaśnia najwięcej zmienności. Więcej niż wykształcenie rodziców czy dochody rodziny. Liczba książek w domu silniej koreluje z wynikami językowymi niż czas przeznaczony przez gimnazjalistę na ich czytanie!
Jednocześnie mocno wątpliwe jest by książki miały tę magiczną moc, by stojąc na półce lub leżąc pod poduszką rozwijały umysły gimnazjalistów.
Prawdopodobnie, choć tę hipotezę trzeba zweryfikować, liczba książek w domu jest związana z oczytaniem rodziców, które nie jest ujęte bezpośrednio innymi pytaniami z kwestionariusza PISA a ma większy związek z wynikami dzieci niż ,,oficjalny udokumentowany” poziom wykształcenia. Korelacja wyników z liczbą książek jest ciekawym sygnałem, ale nie dowodem ,,przyczynowości”. Można za to dopatrywać się ukrytej zmiennej, nie ujętej formularzem, a charakteryzującej dom w którym dziecko średnio przyswaja więcej umiejętności językowych i matematycznych (które zresztą są ze sobą silnie skorelowane).
Interesujące, prawda?

Super. Elegancko pzreszliśmy od czytania danych do czytania ich – ze zrozumieniem! Spoza suchych danych zaczyna przemawiać do nas struktura samej rzeczywistości.
Proponowałbym analizę czynnikową zmiennych uwzględnionych w badaniach lub/i analizę skupień. Analiza czynnikowa może pomóc w wyodrębnieniu pewnych „wiązek” zmiennych, wpływających na wyniki uczniów. Dzięki temu może dowiemy się, czym charakteryzują się owe tajemnicze domy, w których chowane są dzieci-mózgowcy? 😉
Analiza czynnikowa to ciekawa metoda, ale czy nadaje się do scharakteryzowania 'tajemniczych domów’?
Profil tych domów można łatwiej zbudować porównując grupę np. 'top 20%’ zmienna po zmiennej patrząc dla której zmiennej te dwie grupy uczniów najbardziej się różnią (tajemnicze domy to te o wyższym dochodzie, średnio wyższym wykształceniu i liczbie książek)).
To co chciałbym mieć, ale na razie nie bardzo wiem czym to uzyskać, to informacje o hierarchii ważności zmiennych na zasadzie 'jeżeli w modelu mamy liczbę książek to wykształcenie rodziców i dochody nie grają już roli, choć osobno korelują z wynikami uczniów’. Dla kilku zmiennych można to zrobić ręcznie porównując rożne modele regresji, ale dla dziesiątek zmiennych które są ze sobą powiązane?
Stosowane są do tego pewne algorytmy analizy danych, a także metody oparte na sztucznej inteligencji, ale znam je tylko ze słyszenia.
http://www.pharmacoepi.org/meetings/27thconf/presentations/Evaluation%20of%20a%20Parsimonious%20High-Dimensional%20Propensity%20Score.pdf
Dzięki za linki, nie słyszałem wcześniej o tej metodzie. Wygląda na mocno ,,inżynierską”, ale jest pakiet w R więc warto się jej przyjrzeć.
Myślałem jednak o czymś w stylu modeli grafowych/sieci Bayesowskich/modeli strukturalnych,
tyle że w przeciwieństwie do wymienionych o czymś co ,,działa” i w graficznej postaci ,,ujmuje” zależności pomiędzy zmiennymi.
Zresztą postaram się w najbliższym czasie na małym przykładzie kilku zmiennych z badania PISA pokazać o co mi chodzi.
Tu w popularniejszej formie:
http://discovermagazine.com/2012/jul-aug/06-algorithm-finds-connections-scientists-never-see
PS.
Mam roboczą nazwę dla tajemniczej zmiennej: „aspiracje intelektualne najbliższego środowiska wychowawczego ucznia”.
Można by prześledzić, jak maszyny uczą się identyfikować najzdolniejszych uczniów (np. reprezemntujących 20% najwyższych wyników) na podstawie analizy pozostałych zmiennych uwzględnionych w badaniach. Chodzi tu o talie metody jak: alterneting decision tree (ADTree, LADTree, PART czy FilteredClassifier, i wiele innych).
Też ciekawe podejście. Choć budować opis mechanizmu na bazie metody, która optymalizowana jest pod kątem skuteczności predykcji może być ryzykowny.
Btw: zwrot ,maszyny uczące się identyfikować najzdolniejszych uczniów’ może niektórych przyprawić o gęsia skórkę 😉 GATACCA?
Cóż, analiza wariancji była początkowo wykorzystywana głównie na uczelniach rolniczych. Wiele metod analizy danych stosowanych w naukach społecznych miało dość mało romantyczny rodowód. Wszystko zależy od tego, jak sformułujemy problem. Jeśli sformułujemy go w ten sposób: „Jak skutecznie przewidzieć poziom zdolności matematycznych uczniów nie znając ich wyników w testach zdolności matematycznych, ale dysponując miarami innych zmiennych?” to wszystko gra.
„Liczba telewizorów zdaje się nie korelować z wynikami (a nawet najlepiej radzi sobie niewielka grupa uczniów bez telewizora w domu)” nie dziwi mnie ten wynik. Oglądanie telewizji uwstecznia człowieka.
Analizy te jakoś mało zaskakujące a wyniki oczyiwste.
Takie sa dane. Wyszukiwanie tylko rzeczy, ktore dziwia i prezentowanie tylko dziwnych wynikow falszuje obraz calosci.