Jakiś czas temu pisałem (tutaj) o tym jak w prosty sposób wczytać do programu R dane z badania PISA przeprowadzonego w roku 2009. Pisałem również, że w te wakacje kilku wolontariuszy pomaga Fundacji w analizie tych danych. Czasem zdarzają się ciekawe obserwacje i o jednej z nich będzie dzisiaj.
Autorem przedstawionych poniżej wyników/wizualizacji jest Tomasz Owczarek.
Egzaminy w ramach badania PISA przeprowadzano w szkołach tak prywatnych jak i publicznych, tak z dużych jak i z małych miast. Mając to na uwadze można postawić takie pytanie: jak wygląda zróżnicowanie wyników uczniów w zależności od tego czy szkoła jest prywatna czy nie, czy jest w dużym mieście czy małym? Jak się zaraz okaże w przypadku polskich szkół różnice w średnich wynikach z testu matematycznego są duże, szkoły w większych miastach mają uczniów z lepszymi wynikami, szkoły prywatne mają średnio lepsze wyniki niż publiczne (chodzi o szkoły dla 15latków). Nie oznacza to, że poziom nauczania jest lepszy (to mierzyłaby edukacyjna wartość dodana), ale że w szkole są średnio lepsi uczniowie (a to może być efektem wielu czynników).
Temat ciekawy, ponieważ jeżeli różnica w wynikach bierze się stąd, że w dużych miastach i szkołach prywatnych edukacja jest na wyższym poziomie, to być może da się tych dobrych nauczycieli ,,udostępnić online” w ramach inicjatyw typu Khan Academy. Ale być może różnica w wynikach bierze się wyłącznie z tendencji ,,lepsi przyszli, lepsi wyszli”?
Na pytanie skąd biorą się różnice w wynikach postaramy się odpowiedzieć później (sami jeszcze nie wiemy, pracujemy nad tym). A poniżej kilka obserwacji przedstawiających różnice w wynikach dla różnych szkół.
Poniższe wykresy są zrzutami ekranu z interaktywnej wizualizacji wykonanej z użyciem programu Tableau (dostępnej tutaj).
Rysunek 1. Wyniki dla wybranych polskich szkół, na niebiesko wyniki dla szkół publicznych, na pomarańczowo dla szkół prywatnych. Im większe miasto tym lesze wyniki, systematycznie w szkołach prywatnych wyniki są średnio wyższe.
Rysunek 2. Dodajmy kilka innych krajów do porównania. Okazuje się że tylko w USA i Chile (korekta, było Chinach) ,,efekt szkoły prywatnej” (mówimy o szkołach dla 15latków) jest podobnej wielkości. Co ciekawe dla większości krajów nie widać zależności pomiędzy wynikami a wielkością miasta w którym jest szkoła (a więc Polska jest tu wyjątkiem).
Zachęcam do ,,pobawienia” się interaktywną mapą dostępną (dostępnej tutaj) i do dzielenia się obserwacjami.
Średnia nie mówi wiele, jeśli niewiele wiadomo na temat rozkładu wyników w próbie. Rozumiem, że wyliczanie średnich było uprawnione? Może jakieś szczegóły na ten temat? Jak silne jest zróżnicowanie średnich wyników między szkołami danego typu i w danej lokalizacji? Może chociaż jakieś informacje nt. średnich, odchyleń standardowych itp. Opisówka jest jednak ważna.
W tym miejscu http://public.tableausoftware.com/shared/6KJF4JWS7 można dla każdej szkoły zobaczyć jak wygląda jej średnia i jakie są odchylenia standardowe.
Metodologia wyznaczania PV1MATH usprawiedliwia użycie średniej zamiast mediany (robiłem wyniki dla median i kwartyli i były podobne znaczeniowo, ale mniej czytelne graficznie).
Zresztą pytanie można zadać inaczej. Gdyby chcieć badać różnice pomiędzy szkołami w miejscowościach o różnej wielkości / typach szkół, to jaką miarę zamiast różnicy średnich / różnicy median użyć?
Wygląda na to, że szkoły prywatne rzeczywiście mają chyba zdolniejszych uczniów z matematyki, skoro wyniki średnie skupiają się wokół wyższej przeciętnej, a jednocześnie odchylenia standardowe są mniejsze (uczniowie bardziej jednorodni pod względem poziomu zdolności?). Zdarzają się jednak, jak widzę, również szkoły prywatne, które osiągają stosunkowo słabe wyniki – sądząc po wartości odchylenia standardowego, zapewne ze względu na większe zróżnicowanie poziomu zdolności uczniów (no cóż, wszyscy chyba wiemy o wrażliwości średniej na wartości skrajne). Szkoły publiczne to przeważającej mierze zbieranina różnorodnych indywidualności, stąd i średnie bardzo rozrzucone wokół przeciętnej i odchylenia standardowe o niemal ekstremalnych wartościach. Ciekawe byłoby porównanie poziomu klas profilowanych w poszczególnych szkołach. Na wyniki w nauce mają przecież wpływ także zainteresowania i motywacja. Natomiast jeśli chodzi o porównania międzygrupowe, to jeśli rozkład wyników jest w miarę symetryczny i jednomodalny, to można pozostać przy średniej. Po przekształceniu wartości średnich na jednostki z być można by się pokusić o analizę wariancji/regresji/korelacji. Ciekaw jestem jaka jest siła związku między obserwowanymi zmiennymi (w jakim stopniu rodzaj szkoły i jej lokalizacja wpływają na wyniki) i czy np. jest ona liniowa?
Dla samej Polski są pomiary dla ponad 5 tysięcy uczniów, jakakolwiek analiza wariancji / regresja praktycznie każdy efekt wskaże jako istotny. Jeżeli uwzględnić wyniki z innych krajów (ponad 500 tysięcy) jest jeszcze ciekawiej.
Dlatego techniki eksploracji / wizualizacji sprawdzą się IMHO lepiej niż klasyczne modelowanie regresyjne.
Niestety nie znalazłem informacji o przynależności do klas, można by wtedy zobaczyć czy w tych dobrych szkołach średnich są ,,klasy olimpijczyków” a reszta jest w średniej czy jest inaczej.
Ponownie IMHO interesujące jest to, że dla innych państw nie obserwuje się tak wyraźnego trendu związanego z wielkością miasta czy ,,prywatnością” szkoły.
Btw: kategoria wielkie miasto to miasto powyżej 1mln osób, w Polsce jest tylko jedno takie.
PS. Z tą regresją i liniowością to pojechałem. Przecież tylko jedna zmienna jest ciągła. 🙂
to np. Koreanczycy z wiosek bijacy wszystkich, Japonczycy z miasteczek lagujacy w prywatnych szkolach, i to samo Norwedzy z miast..
Hmm, a jest jakaś poszlaka wskazująca, ze CHL to Chiny, a nie Chile?
Ups…
Poprawiłem wpis, chodzi rzeczywiście o Chile. Informacje jak kodowane są państwa można znaleźć w Codebook dla badania PISA tutaj: http://pisa2009.acer.edu.au/.
Dzięki za uwagę