Dzisiaj będziemy kontynuować temat czynników korelujących z wynikami w gimnazjum. Ostatnio pisaliśmy na ten temat we wpisie o zależnościach pomiędzy wynikami z matematyki a zamożnością i wykształceniem rodziców. Poniżej porównamy jednocześnie wyniki z testów językowych jak i matematycznych. Sprawdzimy czy z lepszymi wynikami w gimnazjum koreluje liczba komputerów w domu, liczba książek czy liczba telewizorów. I zakończymy komentarzem dotyczącym zależności przyczynowo-skutkowej.
Tag: PISA
Zamożność czy wykształcenie, czyli o efekcie rodzica w wynikach klasówek z matematyki
Kilka dni temu w tym wpisie pisałem o efekcie szkoły (a dokładniej ,,lokalizacji” i ,,prywatności szkoły”), który obserwuje się w wynikach testu matematycznego z badania PISA. Temat bardzo ciekawy, a wyniki to kamyczek do dyskusji n.t. różnic w poziomie szkół w Polsce.
Dziś będzie jeszcze ciekawej, zobaczymy jakie ,,charakterystyki” rodzica korelują z wynikami testu matematycznego.
Podobnie jak poprzednio, opieramy się tutaj na danych z badania PISA 2009. W ramach tego badania mierzono poziom umiejętności 15-latków w rozwiązywaniu zadań matematycznych. Zbierano również ankiety od rodziców egzaminowanych uczniów. Wśród pytań zadanych rodzicom było pytanie o wykształcenie, dochody rodziny i ,,aktywności edukacyjne” takie jak czytanie dzieciom książek, śpiewanie piosenek itp. Zobaczmy które z odpowiedzi korelują z wynikami testu matematycznego. Prezentowane poniżej wyniki zostały zainspirowane wynikami Tomasza Owczarka opracowanymi w Tableau (link do tych oryginalnych wyników poniżej).
Zacznijmy od ilustracji sytuacji w Polsce. Poniższy wykres przedstawia średnie i przedziały ufności dla średnich (95%) w grupach gimnazjalistów w zależności od wykształcenia bardziej wykształconego rodzica i od dochodu rodziny. W danych wykształcenie rodziców opisane jest w skali ISCED (3A, 4, 5B, 5A i 6), na wykresie przedstawiłem ich polskie odpowiedniki. Przychód rodziny jest określony na podstawie ankiety, do wyboru był jeden z 6 przedziałów. W każdym państwie przedziały dochodu były standaryzowane medianą dochodów na rodzinę w danym kraju.

Zgodnie z przypuszczeniami im bardziej wykształceni rodzice tym dzieci lepiej sobie radzą z matematyką (prawdopodobnie efekt obserwowanych w domu wzorców). Również im zamożniejsi rodzice tym dzieci sobie lepiej radzą z matematyką (prawdopodobnie efekt lepszej/uzupełnianej edukacji). Dzieci wykształconych i zamożnych rodziców mają średnio najlepsze wyniki.
Jak myślicie, która z tych dwóch cech jest istotniejsza? Okazuje się, że efekt wyedukowanych rodziców jest większy.
Widzieliśmy na poprzednim wpisie, że istotnymi efektami był też efekt szkoły. Używając modelu regresji można uwzględnić dodatkowo efekt szkoły i porównać wyniki ,,wewnątrz-szkole” uczniów różniących się zamożnością/wykształceniem rodziców ale uczęszczających do tych samych szkół. Okazuje się, że oba efekty, i zamożności i wykształcenia, pozostają. Czyli nawet po unormowaniu wyników w ramach szkoły, dzieci zamożniejszych lub lepiej wykształconych rodziców radzą sobie średnie lepiej z matematyką. Kod w programie R użyty do tych analiz znajduje się tutaj.
Efekt czytania książek dzieciom.
W ankiecie pytano też rodziców czy czytali książki dzieciom, czy śpiewali piosenki lub opowiadali historie. Niestety ta część wyników nie jest dostępna dla Polski, pozostaje nam tylko zmierzyć efekt tych aktywności na danych z innych państw. Najistotniejszym z efektów okazuje się czytanie książek dzieciom. Obserwuje się znacznie lepsze wyniki z matematyki u dzieci, którym czytano książki (największy u dzieci, którym czytano bajki codziennie lub prawie codziennie). Zakończmy więc apelem do rodziców ,,Czy jesteś zamożny czy biedny, czy jesteś profesorem czy nie dostałeś się do szkoły średniej, czytaj dzieciom książki”.
Polska a inne kraje.
A jak ta sytuacja wygląda w innych państwach? Okazuje się że bardzo podobnie, ale najlepiej będzie to sprawdzić samodzielnie bawiąc się interaktywnymi wykresami Tableau dostępnymi tutaj (strona z komentarzem Tomka jest tutaj).
Poziom umiejętności matematycznych w szkołach prywatnych a państwowych, w miastach małych i dużych
Jakiś czas temu pisałem (tutaj) o tym jak w prosty sposób wczytać do programu R dane z badania PISA przeprowadzonego w roku 2009. Pisałem również, że w te wakacje kilku wolontariuszy pomaga Fundacji w analizie tych danych. Czasem zdarzają się ciekawe obserwacje i o jednej z nich będzie dzisiaj.
Autorem przedstawionych poniżej wyników/wizualizacji jest Tomasz Owczarek.
Egzaminy w ramach badania PISA przeprowadzano w szkołach tak prywatnych jak i publicznych, tak z dużych jak i z małych miast. Mając to na uwadze można postawić takie pytanie: jak wygląda zróżnicowanie wyników uczniów w zależności od tego czy szkoła jest prywatna czy nie, czy jest w dużym mieście czy małym? Jak się zaraz okaże w przypadku polskich szkół różnice w średnich wynikach z testu matematycznego są duże, szkoły w większych miastach mają uczniów z lepszymi wynikami, szkoły prywatne mają średnio lepsze wyniki niż publiczne (chodzi o szkoły dla 15latków). Nie oznacza to, że poziom nauczania jest lepszy (to mierzyłaby edukacyjna wartość dodana), ale że w szkole są średnio lepsi uczniowie (a to może być efektem wielu czynników).
Temat ciekawy, ponieważ jeżeli różnica w wynikach bierze się stąd, że w dużych miastach i szkołach prywatnych edukacja jest na wyższym poziomie, to być może da się tych dobrych nauczycieli ,,udostępnić online” w ramach inicjatyw typu Khan Academy. Ale być może różnica w wynikach bierze się wyłącznie z tendencji ,,lepsi przyszli, lepsi wyszli”?
Na pytanie skąd biorą się różnice w wynikach postaramy się odpowiedzieć później (sami jeszcze nie wiemy, pracujemy nad tym). A poniżej kilka obserwacji przedstawiających różnice w wynikach dla różnych szkół.
Poniższe wykresy są zrzutami ekranu z interaktywnej wizualizacji wykonanej z użyciem programu Tableau (dostępnej tutaj).
Rysunek 1. Wyniki dla wybranych polskich szkół, na niebiesko wyniki dla szkół publicznych, na pomarańczowo dla szkół prywatnych. Im większe miasto tym lesze wyniki, systematycznie w szkołach prywatnych wyniki są średnio wyższe.
Rysunek 2. Dodajmy kilka innych krajów do porównania. Okazuje się że tylko w USA i Chile (korekta, było Chinach) ,,efekt szkoły prywatnej” (mówimy o szkołach dla 15latków) jest podobnej wielkości. Co ciekawe dla większości krajów nie widać zależności pomiędzy wynikami a wielkością miasta w którym jest szkoła (a więc Polska jest tu wyjątkiem).
Zachęcam do ,,pobawienia” się interaktywną mapą dostępną (dostępnej tutaj) i do dzielenia się obserwacjami.
Dane z badanie PISA 2009 a pakiet SAScii
Jakiś czas temu rozsyłałem informację o tym, że fundacja SmarterPoland rekrutuje wolontariuszy. Zgłosił się tuzin osób a po trzech tygodniach pozostała szóstka aktywnych osób (znacznie więcej niż się spodziewałem! super!). Pracujemy nad zbiorem danych PISA 2009 i pewnie nie raz jeszcze napiszę tu o uzyskanych wynikach, gdy już będą nadawały się do prezentacji. Wiki projektu znajduje się tutaj.
Jednym z pierwszych wytworzonych artefaktów, o którym chciałbym tutaj napisać jest przetworzony zbiór danych z badania PISA w formacie csv, który łatwo wczytać do programu R lub innych programów (oryginalny nie jest najłatwiejszy do wczytania). Zawiera on podzbiór wybranych kolumn z oryginalnego badania, dzięki czemu zajmuje po rozpakowaniu tylko 400MB i można jeszcze z nim pracować na zwykłym domowym komputerze.
Pod linkami: [students], [parents], [school] znajdują się spakowane pliki z danymi (Uwaga! Spakowane ważą około 85MB). W [tym pliku] znajduje się skrypt programu R pobierający spakowane pliki, rozpakowujący je i wczytujący dane do programu R. Plik z danymi w postaci binarnej R (RData) znajduje się tutaj: [plik Rdata].
Artefakt o tyle ciekawy, że ma stronie projektu PISA dane dostępne są jedynie w postaci łatwej do wczytania do SASa lub SPSSa.
Konwersję wykonał Maciej Beręsewicz. Ciekawostką dla użytkowników R będzie informacja, że użył do tego pakietu SAScii. Użyteczny pakiet, pozwala na wykorzystanie skryptów SASa z definicją jak wczytać dane w postaci tekstowej. Pakiet SAScii parsuje skrypt SASa a następnie wykorzystuje zebrane informacje by wczytać dane bezpośrednio do R. W [tym pliku] jest skrypt wykorzystujący pakiet SAScii.
I na koniec link do bardzo surowych/wstępnych prac/eksperymentów przeprowadzonych przez Tomasza Owczarka, mianowicie do próbnej analizy danych z użyciem [Tableau]. Na razie bez żadnego komentarza, gdy wyniki dojrzeją przedstawię je tutaj z komentarzami.
,,Szkoła to strata czasu”. Czy tak o szkole myślą 15-letni Polacy?
Tak, ten tytuł bardziej przypomina tytuł z Faktu czy portalów (dez)informacyjnych, niż wyważony tytuł bloga informacyjnego ;-). Ale przynajmniej pasuje do treści prezentowanej poniżej.
W poprzednim wpisie pisałem o badaniu PISA w ramach którego w roku 2009 przepytano ponad 500 tyś 15-latków z całego świata z czego prawie 5 tyś z Polski. Pytano o bardzo wiele rzeczy, między innymi o nastawienie do szkoły. Angielskojęzyczną wersję ankiety z oryginalnymi pytaniami znaleźć można tutaj. Dwa pytania zainteresowały mnie szczególnie: Q33A i Q33B, czyli (w wolnym tłumaczeniu) ,,Szkoła uczy mnie rzeczy, które mogą być przydatne w przyszłej pracy” i ,,Szkoła to strata czasu”. Przy obu zdaniach student mógł zaznaczyć ,,bardzo się nie zgadzam”, ,,nie zgadzam się”, ,,zgadzam się”, ,,bardzo się zgadzam”. Ponieważ najczęściej ankietowani zgadzali się z pierwszym zdaniem a nie zgadzali z drugim, więc aby łatwiej przedstawić te wyniki graficznie zamieniłem obie zmienne na binarne, w pierwszym przypadku licząc jaki procent uczniów ,,bardzo się zgadza” z tym, że szkoła przygotowuje do pracy, a w drugim przypadku jaki procent uczniów ,,bardzo się zgadza”, ,,zgadza się” lub ,,nie zgadza się” z tym zdaniem (czyli wszystko poza ,,bardzo się nie zgadzam”). Inny podział poziomów na zmienne binarne nie zmieniał znacząco kolejności państw ale mniej je różnicował, dlatego nie zastosowałem binaryzacji metodą dwa za vs. dwa przeciw.
Poniżej graficzna prezentacja jak te dwa wskaźniki wyglądają dla europejskich państw.
Tak, to państwo w prawym dolnym rogu to Polska.
Tak, to źle wróży skoro uczniowie tak myślą o szkole.
Tak, ze zbioru kilkuset współczynników można wybrać takie w których wypadamy znacznie lepiej na tle europejskich krajów.
Tak, ten wpis miał na celu sprowokowanie Was do poklikania w te interaktywne wykresy przedstawiające inne charakterystyki uczniów.
Tak, do badania PISA jeszcze wrócimy i przedstawimy te dane bez tej sztucznej binaryzacji (jak tylko wymyślę jak to zrobić czytelnie, a może Wy macie na to jakiś pomysł?).
W ankiecie dla ucznia jest znacznie więcej pytań. Może któreś z nich szczególnie Was interesuje?
Badanie PISA a interaktywna grafika
Poniżej przedstawię podsumowanie kilku zmiennych opisujących 15-latków z 74 różnych krajów. Przedstawione poniżej dane zebrano w ramach badania PISA w roku 2009. Są to bardzo ciekawe dane i będziemy do nich jeszcze niejednokrotnie wracać. W tym wpisie jednak zamiast skupiać się na danych lub historii, którą te dane opisują, moim celem będzie przedstawienia interesującego narzędzia do tworzenia interaktywnych wykresów, czyli portalu tableausoftware. Do bardziej szczegółowego omówienia danych z badania PISA wrócimy w przyszłości.
PISA to skrót nazwy Programu Międzynarodowej Oceny Umiejętności Uczniów (Programme for International Student Assessment). Jego celem jest uzyskanie porównywalnych danych o umiejętnościach uczniów z różnych krajów, którzy ukończyli 15 rok życia. PISA bada umiejętności i wiedzę ważną z perspektywy wyzwań, przed jakimi 15-latkowie staną w swym dorosłym życiu (więcej informacji o PISA). Z tej strony można pobrać bazę danych z surowymi danymi oraz skrypty pozwalające na wczytanie tych danych do programów SAS i SPSS (w sumie ponad 1GB danych). Format danych jest dosyć nieprzyjemny do wczytania z poziomu R. Przygotowuję odpowiedni skrypt i pewnie niedługo napiszę o tym jak wczytać całe dane prosto i wygodnie do R. Na razie niewielki wycinek z tych danych, 20 zmiennych, można pobrać w formacie binarnym Rdata z tej strony. Ponieważ moim zdaniem edukacja młodych ludzi jest bardzo, bardzo, bardzo ważna, dlatego też ten zbiór danych stanowi bardzo interesujący kąsek do dalszej analizy i mam nadzieję będziemy wiele razy do niego wracać. Jutro opiszę trochę dokładniej jak były konstruowane zmienne w wycinku danych, który tutaj pokazuję.
Dzisiaj jednak chciałbym napisać nie o danych ale o narzędziu tableausoftware. Podczas ,,10 lunchów” poznałem Daniela O., który podesłał mi namiary na to narzędzie do przygotowywania i udostępniania wizualizacji danych. W tym narzędziu można np. opracować zbiór interaktywnych wykresów a następnie prosto upublicznić te wykresy w postaci strony www. Idealne narzędzie dla dziennikarzy pracujących z danymi (btw: nic nie mam z tego, że tak słodzę. Trial jest za darmo do używania). Pobawiwszy się nim na prostych tabelkach tylko czekałem na okazję by jakieś interesujące dane przedstawić za jego pomocą. I okazja się nadarzyła.
Poniższy rysunek jest linkiem do strony z czterema interaktywnymi wykresami i filtrem w postaci pola wielokrotnego wyboru (checkbox). W jutrzejszym wpisie dokładniej opiszę jak liczone były zmienne, które są tu prezentowane, na razie chodzi mi wyłącznie o pokazanie narzędzia. To tylko drobny pokaz możliwości wspomnianego narzędzia. Interaktywność pozwala na przefiltrowanie punktów lub sprawdzenie jak wybrane państwa przedstawione na jednym wykresie są położone na innych wykresach. Mam też nadzieję, że nawet taka podstawowa interakcja ułatwi zrozumienie i przyciągnie uwagę do tych danych.
Czy tak jest? Czy kusiło Was pobawić się tymi wykresami? Czy mieliście czas by sprawdzić jak wypada Polska na tle innych państw jeżeli listę tych innych Państw ograniczymy np tylko do Europy? Chętnie usłyszę Wasze opinie i wrażenia. Czy warto umieszczać taką interaktywną grafikę, czy lepiej pozostać przy statycznych wykresach (bo RSS czyta się offline, bo nie ma czasu na klikanie)? A może temat wciągnął Was na tyle, że pobraliście komplet wykresów i dane i stworzyliście własną kombinację ciekawych wykresów (można to zrobić, link do pobrania środowiska na dole wizualizacji)?