Bohaterem dzisiejszego wpisu jest jądrowy estymator gęstości.
Analizując dane znajduje się czasem zaskakujące zależności. Nie zawsze wiadomo co z nimi zrobić. Poniżej opiszę takie znalezisko, które wydaje się być interesujące, choć jeszcze nie jestem pewien dlaczego. Materiał w sam raz na blog.
Badanie PISA na podstawie kwestionariusza ucznia ocenia status ESCS rodziny (skrót od Economic, Social and Cultural Status), który agreguje informacje o zamożności i edukacji rodziców jak i o stanie posiadania dóbr kultury (książek, obrazów, itp). Sztuczny jednowymiarowy indeks, ale ponieważ wiadomo, że zamożność rodziny koreluje z wynikami uczniów, więc często go się uwzględnia w analizach z powodu wygody (po co dodawać do modelu 10 zmiennych gdy można jedną?).
Ciekawe jest nie tylko śledzenie zależności pomiędzy wynikami uczniów a indeksem ESCS ale również oglądanie jak rozkład ESCS zmienia się pomiędzy kolejnymi badaniami.
Nie można porównywać bezpośrednich wartości ESCS ponieważ w każdym badaniu PISA są one inaczej normowane (coraz więcej krajów bierze udział w badaniu), ale można porównywać kształty rozkładów.
Rozkład indeksu ESCS dla 15-latków z Polski w roku 2003 wyglądał tak:
Zero to średnia dla krajów OECD. Im wyższa wartość tym wyższy status zamożności / wykształcenia rodziny. Dla Polski widzimy dużą modę poniżej zera i niewielką módkę ponad jedynką.
A jak wyglądał status dla roku 2009?
(dla roku 2006 niestety mam brakujące dane a w roku 2000 ESCS nie był jeszcze liczony)
Widzimy, że ta górka w okolicach jedynki rośnie. Czyli grono zamożnych rodzin jest liczniejsze.
Jak wygląda sprawa w roku 2012?
Tutaj odległość pomiędzy obiema modami znacząco wzrosła. Co więcej ta niższa moda przesunęła się w lewo.
Lepiej to widać, gdy złoży się wyniki z tych trzech badań na jednym wykresie.
Można odnieść wrażenie, że górka w okolicy jedynki rośnie (czyli osób o wyższym statusie jest coraz więcej) ale też grupa osób o niższym statusie jest coraz niżej.
Co z kolei można odczytać jako sygnał rosnącego rozwarstwienia materialno-kulturowo-edukacyjnego rodziców 15-latków (oczywiście brak środka rozkładu może mieć różne inne przyczyny, jak np. osoby o średniej zamożności nie decydowały się na dzieci lub częściej emigrowały).
Naturalna krytyka tych wyników jest taka, że wartości ESCS nie powinno się porównywać pomiędzy latami, bowiem wartość 0 nie odpowiada temu samemu statusowi. Bezwzględne wartości nie mają więc znaczenia, znaczenie może mieć jedynie względne położenie obu rozkładów.
Względem czego? Zobaczmy jak ta historia wyglądała dla Niemiec.
Wartości ESCS można porównywać w ramach jednego badania. Więc to co można zauważyć, to że Niemcy są zamożniejsi (to wiedzieliśmy, ale możemy zobaczyć jak bardzo) i że u nich ,,te górki” się nie rozchodzą.
Wyraźniej widać to na wykresie, na którym wszystkie krzywe są razem.
Pytanie które mnie gryzie: Czy te wykresy sugerują rosnące rozwarstwienie społeczno/ekonomiczno/kulturowe w Polsce? Jakie inne procesy mogłyby rozsunąć populacje ESCS rodzin dzieci badanych w PISA?
Kody źródłowe użyte do wykonania powyższych wykresów są dostępne na githubie tutaj.
Wielkie dzięki!. Czegoś takiego właśnie potrzebowałem kilka lat temu przy pracy magisterskiej (jako alternatywa dla propensity score matching). Ale podejrzewam że może się jeszcze przydać.
Mam naiwne pytanie (jako R-owy noob): jak zainstalować pakiet nie-CRANowy? (Tu konkretnie: PISA2003lite.)
potrzebujesz pakietu devtools
a później
library(devtools)
install_github(„PISA2003lite”, „pbiecek”)
Dzięki, (prawie) działa! (Po też odpowiednio – „PISA2009lite” i „PISA2012lite”.)
Prawie, gdyż z jakiegoś powodu mam „oscylacje” dla POL2012: https://www.dropbox.com/s/mxuzk2l8a3055kl/POL2012.png
Są „Warning” w stylu
1: In density.default(student2003p$ESCS, weights = student2003p$W_FSTUWT, :
sum(weights) != 1 — will not get true density
Ale dla każdego roku.
Wiesz może, co może być u mnie nie tak?
ciekawy ten wynik z PL z 2012, daje do myślenia… Jeśli jednak wartości ESCS nie są w jakiś sposób standaryzowane między latami, to obserwowana pogłębiająca się bimodalność może być pozytywnym wskaźnikiem = wszyscy jesteśmy coraz bogatsi, ale ci najbogatsi bogacą się szybciej niż mniej bogaci.
Druga sprawa, techniczna – może dodając trochę szumu do zmiennej 'rok’ można próbować robić jakąś ekstrapolacje na lata pomiędzy, dla których nie ma danych i przedstawiać to w postaci 3d albo izolinii (bo kilka gęstości nałożonych na siebie może być mało czytelne). Ale może coś przekombinowałem 🙂
@Piotr,
ostrzeżenia biorą się stąd, że wagi są nieunormowane. Możesz je unormować jeżeli interesuje Cię prawdziwa gęstość,lub pozostawić takie jeżeli interesuje Cię tylko kształt.
Te duże wahania mogą wynikać ze zbyt wąskiego okna, możesz je ręcznie rozszerzyć w funkcji density.
@Michał,
OECD liczy też ECSC w latach 2009 i 2012 przeskalowane do roku 2003, tak by można było porównać te wartości pomiędzy latami, tyle że nie dostałem jeszcze tych danych (procedura ich otrzymania jest dosyć zagmatwana), dostanę to zobaczę jak to wygląda.
Nie jestem też przekonany czy to że bogaci bogacą się szybciej jest pozytywne (zakładając że i biedni się bogacą, co by to nie znaczyło). Duże nierówności mogą działać demotywująco, a może nie, to już pewnie temat dla socjologa.
Ciekawa analiza, zwłaszcza w kontekście konsekwencji takiego rozwarstwienia. Bo za tymi pozycjami na wykresie są przecież konkretne różnice. Część społeczeństwa, która jest w wyższym modzie może sobie pozwolić już na życie względnie komfortowe – zaoszczędzić parę groszy, zainwestować w edukację dzieci, zainwestować w swoje wykształcenie. A to wszystko tylko będzie wzmacniać rozwarstwienie.
Pisałem o tym ostatnio tutaj: http://www.edukacjajestfajna.pl/2014/02/portfel-rodzicow-wyniki-w-szkole.html
Dochody rodziców przekładają się dość bezpośrednio na wyniki szkolne, osiągane przez dzieci. Potwierdzają to zresztą te same testy PISA. W efekcie tego rozwarstwienie z pokolenia na pokolenie będzie głębsze, o ile ktoś (kto!?) nie zacznie wdrażać bardzo konkretnych i systemowych działań, wspierających zdolne dzieciaki z biedniejszych rodzin.
@Piotr,
już wiem skąd te górki u Ciebie
pracowałeś na
student2012p <- na.omit(student2012[student2012$OECD == "OECD",c("ESCS","W_FSTUWT")])
dp2012 <- density(student2012o$ESCS, weights=student2012o$W_FSTUWT, bw=.01, from=-3, to=3)
gdzie sprawdzałem jak wygląda rozkład dla całej OECD
a wyniki tylko dla Polski sa dwa wiersze wyzej
student2012p <- na.omit(student2012[student2012$CNT == "Poland",c("ESCS","W_FSTUWT")])
dp2012 <- density(student2012p$ESCS, weights=student2012p$W_FSTUWT, bw=.1, from=-3, to=3)
@Łukasz,
tak konsekwencje mogą być ciekawe,
te wykresy pokazywały rozwarstwienie w zamożności
rozwarstwienie w wynikach uczniów można zobaczyć za pomocą aplikacji
http://smarterpoland.pl/index.php/2014/02/pisa-2012-zawod-rodzica-a-aplikacje-w-shiny/
w Polsce zróżnicowanie wyników w zależności od zawodu rodzica jest podobnie duże jak w Niemczech, choć tam mają wczesny system specjalizacji!
Czytałem Twój post, interesujący, jasne jest ale też warto to powtarzać, że materiały edukacyjne są lepsze i gorsze i że dostęp do tych lepszych jest (częściej) limitowany. Jeżeli uważamy że dzieci powinny mieć równe szanse to trzeba o to zadbać bo obecnie o to się nie dba wystarczająco.
Zastanawiam się, czy plany ministerstwa idą w kierunku obniżenia ceny tych gorszych materiałów czy zwiększenia dostępności tych lepszych (np. darmowe podręczniki, bardzo jestem ciekaw do której kategorii one trafią). Oby to drugie, choć zmiany systemowe są trudniejsze niż obietnice darmowego laptopa czy podręczników.