PISA 2012 – w jakich kategoriach poprawiliśmy nasze wyniki

Na początku grudnia opublikowano wyniki z badania PISA 2012, które dotyczyły umiejętności 15-latków z różnych krajów. Polscy uczniowie wypadli dobrze w tych badaniach, ale bardziej niż dobry wynik cieszy systematyczna (obserwowana przez ostatnie 12 lat) poprawa poziomu umiejętności.

Dziś napiszemy o tym w jakich obszarach umiejętności rosły najszybciej. Ale zanim napiszę o wynikach, kilka zdań o metodologii: Analizie poddamy 29 krajów które brały udział w badaniach PISA 2003 i PISA 2012. Te badania są odległe o 9 lat, oba skupione na matematyce, co znaczy że większość z pytań w tych dwóch edycjach dotyczyła matematyki.
Ponadto wybierzemy tylko te zadania, które rozwiązywano zarówno w teście z roku 2003 i z roku 2012. Czyli będziemy sprawdzać jak liczba poprawnych odpowiedzi na dokładnie to samo pytanie zwiększyła się po dziewięciu latach. Każde pytanie jest sklasyfikowane ze względu na dziedzinę wiedzy – czy pytanie dotyczy matematyki czy nauk przyrodniczych? Jeżeli matematyka, to czy to pytanie z algebry czy z rachunku prawdopodobieństwa? Jakich kompetencji to pytanie wymaga – szukania połączeń, czy reprodukcji?

Czytaj dalej PISA 2012 – w jakich kategoriach poprawiliśmy nasze wyniki

Umiejętności Polaków – wyniki Międzynarodowego Badania Kompetencji Osób Dorosłych (PIAAC)

Umiejętności stały się globalną walutą XXI wieku
Angel Gurria, Sekretarz Generalny OECD,
Wstęp do Strategii Umiejętności OECD (OECD, 2012)

Tak rozpoczyna się raport opracowany przez Instytut Badań Edukacyjnych Umiejętności Polaków – wyniki Międzynarodowego Badania Kompetencji Osób Dorosłych (PIAAC) – Raport. Linki do międzynarodowego opracowania danych z programu PIAAC przedstawiłem we wtorkowym wpisie.

Co znajdziemy w raporcie IBE?
Wiele informacji. Cały raport z załącznikami to 160 stron. Poniżej pokażę dwie wybrane obserwacje, które dla mnie były najciekawsze.

Związek pomiędzy umiejętnościami w społeczeństwie a PKB czy wskaźnikiem zatrudnienia.

Okazuje się, że nie widać bezpośredniego związku pomiędzy PKB na mieszkańca a średnim poziomem umiejętności. Trochę to było dla mnie zaskakujące.


[Rozumienie tekstu po lewej, umiejętności numeryczne po prawej]

Za to kraje o wyższym wskaźniku zatrudnienia to często kraje o wyższym średnim wskaźniku umiejętności. Zależność ta jest w dużej części indukowana przez Hiszpanię i Włochy, które w obu rankingach są na samym końcu.

Ostrożnie jednak z formułowaniem przyczynowo skutkowych zależności, zarówno wyższe średnio umiejętności mogą generować miejsca pracy jak i sam fakt pracowania może wpływać na wyższe umiejętności.


[Rozumienie tekstu po lewej, umiejętności numeryczne po prawej]

Poziom umiejętności w różnych krajach.

Drugą, bardzo ciekawą sprawą był sposób przedstawiania umiejętności w krajach. Pierwszy wykres przedstawiał średnie za pomocą wykresów pudełkowych.

Sam wybór wykresu pudełkowego nie jest najlepszy, ponieważ sugeruje błędnie skalę ilorazową (niestety to dosyć częsty problem).
Ale pomijając to, ciekawe jest, że porównując średnie łatwo nam ,,uwierzyć”, że jeden kraj jest lepszy/gorszy niż drugi. Polska na tym wykresie wygląda na dwa razy gorszą niż Belgia (przez długości słupków, które tutaj nie mają rzeczywistego znaczenia).

Czy średnia nie zniekształca opisu? Średnia z dwóch osób o średnich umiejętnościach może być taka sama jak średnia z dwóch osób, jednej o wysokich drugiej o niskich umiejętnościach.

Ten problem rozwiązano przy kolejnych wykresach przedstawiając strukturę umiejętności w podziale na pięć poziomów umiejętności.

Odbiór tego wykresu jest już zupełnie inny niż wykresu ze średnimi. Rzeczywistość przestaje być jednowymiarowa i łatwiej jest taki opis zrozumieć.

Widząc tak przedstawioną strukturę, widać wręcz różne możliwe działania mogące poprawić ogólną sytuację.
Można inwestować w podnoszenie umiejętności osób o niskim poziomie umiejętności. Lub zwiększać udział osób o najwyższych umiejętnościach, licząc że to oni pociągną gospodarkę. Lub pracować ,,na całym froncie”. Co wybrać to już inna sprawa, ale przynajmniej na tym wykresie widzimy możliwości jakie są do wyboru.

Podoba mi się taki sposób prezentacji, więc na koniec zestawienie dla wszystkich krajów (wykres 42 z cytowanego raportu).

PIAAC, warto wiedzieć

Czy wiecie co się wydarzyło 8 października? Było o tym głośno w USA, UK, Kanadzie, Francji i w Niemczech. W polskich mediach temat się nie przebił. A szkoda, bo chodzi o badanie, które może mieć duży wpływ na rozwój naszego kraju.

Co więc się wydarzyło? 8 października organizacja OECD opublikowała pierwszą wersję wyników z badania PIAAC (Programme for the International Assessment of Adult Competencies). Badania w ramach którego w 24 krajach przeprowadzono u osób dorosłych (16-64 lata) ocenę umiejętności numerycznych (rozumowania matematycznego), zrozumienia tekstu i umiejętności rozwiązywania problemów z użyciem technologii. Ponad pięć tysięcy osób z każdego z tych krajów miało do rozwiązania zestaw bardzo praktycznych zadań, np. przeczytanie listy ofert pracy i odpowiedzenie na proste pytanie dot. tych ofert (czytanie ze zrozumieniem), opisu wyprzedaży typu ,,dwie w cenie jednej” i odpowiedzenie na pytanie ile zapłaci się za parę butów (umiejętności numeryczne), użycie strony internetowej firmy w celu zgłoszenia reklamacji (rozwiązywanie problemów). Zobacz przykładowe problemy tutaj.

Wstępne wyniki przedstawione są na tej stronie.

Jak Polacy wypadli w tej ocenie umiejętności?

Wszystko jest względne, zobaczmy więc jak średnio wypadliśmy względem średniej z krajów OECD. Aby było ciekawiej wyniki przedstawimy osobno dla różnych grup wiekowych.

Co ciekawe młodzi Polacy mają średnie wyniki na poziomie średniej OECD, starsi trochę tracą do średniej. Jest to związane z ciekawym zjawiskiem rosnących aspiracji jeżeli chodzi o młodsze (przynajmniej młodsze niż ja) pokolenie.

Ok, ale mało kto wie, które kraje są członkami OECD, więc może coś konkretniejszego? Jak Polska wypada w porównaniu z UK? Czy mieszkańcy wysp mają wyższe umiejętności a tym samym mogą wykonywać (średnio) bardziej wymagające prace?

Ci młodsi mieszkańcy wysp raczej nie. To ciekawe zjawisko, nie tylko dotyczące UK, ale też USA czy Francji, że grupa 16-24 wypada na tle ,,społeczności OECD” gorzej niż starsze grupy (grupy nazywane są też kohortami, ciekawe słowo prawda?).

Liderem rankingu w Europie są Finowie. Średnio radzili sobie oni znacznie lepiej w testach umiejętności niż inne narody.

Słabo radzą sobie Hiszpani i Włosi.

Badanie PIAAC nazywane jest PISA dla dorosłych (PISA to badanie umiejętności szkolnych 15-latków). Samo badanie, jego konstrukcja i prezentacja wyników nie jest może jeszcze doskonała, ale staje się jasne, że w krótkiej przyszłości będą publicznie dostępne i publicznie porównywane dane n.t. poziomu umiejętności pracowników z różnych krajów / regionów / grup. Wpłynie to na rynek pracy i gospodarkę. Temat kryzysu w Europie oraz zagrożone gospodarki krajów z grupy PIGS i nie tylko, powodują, że w ocenie umiejętności osób zdolnych do pracy szuka się pomysłu na rozwiązanie problemów.

Po co nam te wyniki (ich uzyskanie naprawdę dużo kosztuje)?
Jednym takie dane posłużą do pogłębiania kompleksów (znowu wypadliśmy gorzej niż…), innych dowartościuje (ci i ci są głupsi), jeszcze innym pomoże rozsądnie przeznaczyć środki na rzeczywiste podnoszenie umiejętności w społeczeństwie.

Przykładowo w raporcie z badania umieszczono poniższy wykres, pozwalający na ocenę jakiego rodzaju umiejętności ,,będą w cenie” w najbliższej przyszłości.

Czy wykorzystamy te badanie do lepszego rozwoju? Jest to moim zdaniem znacznie ciekawszy temat niż te, które były poruszane w polskich gazetach 8 października.

Instytut Badań Edukacyjnych przygotował polską wersję raportu bazującego na danych PIAAC. Można go zobaczyć pod tym adresem. Napiszę o nim więcej w czwartek.

,,Efekt rodzica”, czyli o szansach edukacyjnych dzieci a zawodzie rodzicow

Ostatnio dużo pracuję z danymi PISA. [PISA to badanie powtarzane co trzy lata dotyczące wyników 15-latków z całego świata w testach matematycznych, przyrodniczych i dotyczących czytania. Można porównać wyniki uczniów z ponad 50 krajów. W grudniu udostępnione będą dane z edycji 2012, poniżej pokażę wyniki dla edycji 2009.]

To co mnie w tym zbiorze szczególnie interesuje to możliwość oceny jak różne czynniki korelują z wynikami uczniów. Próba rozplątania uwikłanych efektów szkoły, domu (najczęściej rodziców), systemu edukacji i indywidualnych predyspozycji to fantastyczne puzzle.

Jeżeli chodzi o efekt domu to oczywistymi czynnikami korelującymi z wynikami uczniów są zamożność rodziców i poziom wykształcenia rodziców. Okazuje się jednak, że jest inna bardzo ciekawa zmienna, związana z oboma powyższymi a jednocześnie dużo ciekawsza w interpretacji.

Chodzi mianowicie o zawód rodzica. Zawody w badaniu PISA są kodowane zgodnie z klasyfikacją ISCO (International Standard Classification of Occupations). Kod ma cztery cyfry, pierwsza cyfra odpowiada ,,statusowi społecznemu” zawodu (1 – managerowie, 9 proste zawody bez większych kwalifikacji). Druga cyfra określa grupę zawodów (np. 2xxx oznacza wysoko wyszkolonych specjalistów, 21xx inżynierów, 22xx w służbie zdrowia, 23xx w szkolnictwie wyższym, itp). Kolejne cyfry doprecyzowują zawód. Tą cechę jednak trudno analizować ponieważ ma w sumie kilkaset poziomów, dlatego też w analizach często zawód rodziców jest zastępowany jakimś pojedynczym indeksem.

Ale okazuje się, że analiza zawodów daje ciekawe wyniki. Zobaczmy na poniższym drzewie, jakie są średnie wyniki studentów, których przynajmniej jeden rodzic należy do określonej grupy zawodów [Wyniki dla Polski].
Na osi OY wynik z testu matematycznego, im wyżej tym lepiej. Wielkość kropki odpowiada liczbie uczniów w tej grupie. Pozioma kreska to średnia z ,,pierwszej cyfry” ISCO.

Bardzo wyraźnie dzieci rodziców z grupy 2xxx mają wyższe wyniki niż pozostałe grupy. Ta sytuacja powtarza się i dla czytania i dla nauk przyrodniczych i dla większości innych krajów.

Wynik o tyle ciekawy, że zanim go zobaczyłem, spodziewałem się, że to grupa 1xxx będzie miała najwyższą średnią [dzieci osób mających środki i widzę by zapewnić ,,najlepszą szkołę”]. (grupa 1xxx jest średnio bardziej zamożna od 2xxx, z wykształceniem jest już różnie w różnych krajach).

Tymczasem rodzic fizyk, lekarz, inżynier ,,zaraża” (średnio) do nauki bardziej niż wyżej sytuowany manager (wszystko to operacje na średnich).

Zobaczmy jak ta sytuacja wygląda w innych krajach. Za lidera w Europie uważa się Finlandię, kraj przodujący w rankingach. Kraj w którym rozwarstwienie społeczne w szkołach jest uważane za jedno z najmniejszych. Zestawmy wyniki uczniów dla różnych grup zawodowych rodziców Polski i Finlandii.

Co ciekawe okazuje się, że wyniki dla pewnych grup zawodowych w Polsce są porównywalne czy nawet wyższe niż dla odpowiedników z Finlandii.

Wygląda więc na to, że w Finlandii wysoka średnia jest uzyskana dzięki poprawianiu szans edukacyjnych dzieci rodziców z gorszych profesji.

Kuszący wniosek to: nie wystarczy mieć środki by zapewnić (=kupić) dostęp do dobrej szkoły i innych narzędzi edukacyjnych. Istotnym czynnikiem jest ,,zarażenie” dziecka, co jest pewnie łatwiejsze gdy dziecko widzi jak nauka funkcjonuje w świecie rodziców.

The PISA2003lite package is released. Let’s explore!

Today I’m going to show how to install PISA2003lite, what is inside and how to use this R package. Datasets from this package will be used to compare student performance in four math sub-areas across different countries.
At the end of the day we will find out in which areas top performers from different countries are stronger and in which they are weaker.

In the post ,,The PISA2009lite is released” an R package PISA2009lite with data from PISA 2009 was introduced. The same approach was applied to convert data from PISA 2003 into an R package. PISA (Programme for International Student Assessment) is a worldwide study focused on measuring scholastic performance on mathematics, science and reading of 15-year-old school pupils.
The study performed in 2003 was focused on mathematics. Note, that PISA 2012 was focused on mathematics as well, so it will be very interesting to compare results between both studies [when only date from PISA 2012 data become public].

The package PISA2003lite is on github, so to install it you just need

You will find three data sets in this package. These are: data from student questionnaire, school questionnaire and cognitive items.

Let's plot something! What about strong and weak sides in particular MATH sub-areas?
In this dataset the overall performance is represented by five plausible values: PV1MATH, PV2MATH, PV3MATH, PV4MATH, PV5MATH. But for each student also performance in four sub-scales is measured. These sub-scales are: Space and Shape, Change and Relationships, Uncertainty and Quantity (plausible values: PVxMATHx, x=1..5, y=1..4).

Let's find out how good are top performers in each country in different sub-scales.
For every country, let's calculate the 95% quantile of performance in every subscale.

Just few more lines to add the proper row- and col- names.

And here are results. Table looks nice, but there is so many numbers.
Let's use PCA to reduce dimensionality of the data.

plot of chunk unnamed-chunk-5

Quite interesting!
It looks like first PCA coordinate is an average over all sub-scales. Thus on the plot above the further left, the better are top performers in all sub-scales.
But the second PCA coordinate differentiates between countries in which top performers are better in 'Space and Shape' [top] versus ‚Uncertainty’ [bottom]. Compare this plot with the table above, and you will see that for Czech Republic, Slovak Republic, Russian Federation the 'Space and Shape' is the strongest side of top performers.
On the other side Sweden, USA, Norway, Ireland score higher in ‚Uncertainty’.

As you may easily check, that results are pretty similar if you focus on averages or performers from the bottom tail.

Which direction is better? Of course it depends. But since ,,change is the only sure thing'', understanding of uncertainty might be useful.

The PISA2009lite package is released

This post introduces a new R package named PISA2009lite. I will show how to install this package, what is inside and how to use it.

Introduction

PISA (Programme for International Student Assessment) is a worldwide study focused on measuring performance of 15-year-old school pupils. More precisely, scholastic performance on mathematics, science and reading is measured in more than 500 000 pupils from 65 countries.

First PISA study was performed in 2000, second in 2003, and then in 2006, 2009 and the last one in 2012. Data from the last study will be made public on December 2013. Data from previous studies are accessible through the PISA website http://www.oecd.org/pisa/.
Note that this data set is quite large. This is why the PISA2009lite package will use more than 220MB of your disk [data sets are compressed on disk] and much more RAM [data sets will be decompressed after [lazy]loading to R].

Let's see some numbers. In PISA 2009 study, number of examined pupils: 515 958 (437 variables for each pupil), number of examined parents: 106 287 (no, their questions are not related to scholastic performance), number of schools from which pupils were sampled: 18 641. Pretty large, complex and interesting dataset!

On the official PISA webpage there are instructions how to read data from 2000-2009 studies into SAS and SPSS statistical packages. I am transforming these dataset to R packags, to make them easier to use for R users.
Right now, PISA2009lite is mature enough to share it. There are still many things to correct/improve/add. Fell free to point them [or fix them].

This is not the first attempt to get the PISA data available for R users. On the github you can find 'pisa' package maintained by Jason Bryer (https://github.com/jbryer/pisa) with data from PISA 2009 study.
But since I need data from all PISA editions, namely 2000, 2003, 2006, 2009 and 2012 I've decided to create few new packages, that will support consistent way to access data from different PISA studies.

Open the R session

The package is on github, so in order to install it you need just

now PISA2009lite is ready to be loaded

You will find five data sets in this package [actually ten, I will explain this later]. These are: data from student questionnaire, school questionnaire, parent questionnaire, cognitive items and scored cognitive items.

You can do a lot of things with these data sets. And I am going to show some examples in next posts.

Country ranking in just few lines of code

But as a warmer let's use it to calculate average performance in mathematics for each country.

Note that student2009$W_FSTUWT stands for sampling weights, student2009$PV1MATH stands for first plausible value from MATH scale while student2009$CNT stands for country

And plot it.

plot of chunk unnamed-chunk-6

Żyj marzeniem…

W poprzednie wakacje Fundacja prowadziła projekt dotyczący eksploracji danych z badania PISA (Program Międzynarodowej Oceny Umiejętności Uczniów) prowadzonego przez OECD (Organizacja Współpracy Gospodarczej i Rozwoju). Do projektu zgłosiło się kilku wolontariuszy i w wyniku prowadzonych prac powstało kilka ciekawych grafik i projektów [np. tutaj Tomasz Owczarek pisze jak użyć Tableau do eksploracji tych danych, a tutaj pokazujemy jak wykształcenie rodziców koreluje z wynikami dzieci].

Temat porwał mnie na tyle, by wykorzystywać te dane na zajęciach z modeli liniowych i mieszanych. Praca na ciekawych i dużych danych była bardzo stymulująca dla studentów, w wyniku czego wykonali sporo interesujących analiz [oczywiście o nich pisaliśmy, np. tutaj].

Z tych wszystkich działań jednak pozostało we mnie wrażenie, że nie rozumiemy zbyt dobrze złożoności danych z badania PISA. Potrafimy tworzyć rankingi krajów w oparciu o pewne współczynniki, potrafimy przedstawiać zależności pomiędzy parami, trójkami, czwórkami zmiennych, ale nie ogarniamy całości. Raporty n.t. danych PISA mają po kilkaset stron z których zrozumieć można na raz może kilka. Tych informacji jest zbyt dużo a historia w nich ukryta jest niezbyt jasna.

OECD ma program grantowy Thomasa Alexandra, którego celem jest zbieranie naukowców z różnych dziedzin by testować różne techniki eksploracji danych PISA. Mile widziani są ludzie ,,spoza dziedziny”, i jak się okazało jest to na tyle szeroka definicja że obejmuje nawet takich biostatystyków medycznych jak ja. W ramach tego programu, wraz z grupką studentów, chcących nauczyć się R i eksploracji danych w R, będziemy szukać interesujących historii w danych PISA. A przede wszystkim będziemy szukać sposobu by te historie przedstawić graficznie, w zrozumiały sposób.

Dane z badania PISA 2012 będą udostępnione w poniedziałek 3 czerwca. Na początku będziemy szukać historii związanych z różnicami w wynikach pomiędzy płciami i jakie czynniki wpływają na to że te różnicę są w jednych szkołach/miastach/krajach duże a w innych małe. Kolejnym tematem będzie zagadnienie segregacji uczniów w szkołach w zależności od statusu majątkowego lub kulturowego rodziców czy też wyników dzieci.

Masa interesujących pytań.
Postaram się publikować wyniki na blogu na bieżąco, być może w niedopracowanej/otwartej formie. Zapraszam też do zadawania pytań, kwestionowania wyników, sugerowania alternatywnych rozwiązań.
Może razem uda nam się na jakiś ciekawe zależności natrafić.

Fascynującą cechą badania PISA jest zakres. Co trzy lata badanych jest 500 tysięcy 15latków z kilkudziesięciu krajów. Dzięki temu z tych danych można wyciągać mniej przypadkowe wnioski niż ,,Zagraniczni uczeni na próbie 20 osób odkryli, że jedzenie marchewki wieczorem ułatwia czytanie tekstu ze zrozumieniem”.

Ale czy uda się nam znaleźć interesujące historie w danych PISA 2012?
Już niebawem zobaczymy!

Zrób to sam – PISA 2009 DIY, od podszewki…

(… kontynuacja wtorkowego wpisu Tomasza Owczarka)

Zgodnie z zapowiedzią, w dzisiejszym wpisie pokażę, w jaki sposób dokonywać prostych modyfikacji w zaprezentowanej wizualizacji. Wpis ten jest przeznaczony przede wszystkim dla osób, które chciałyby wykorzystać ją w celach dydaktycznych (wcześniej dostosowując do swoich potrzeb), a które nie miały wcześniej do czynienia z Tableau czy innymi podobnymi narzędziami. Pozostałych mam nadzieję zainteresować krótkim opisem programu Tableau Public i swoimi wrażeniami związanymi z jego użytkowaniem. Dla osób, które poczują się zachęcone do zapoznania się z Tableau, zamieszczam subiektywny wybór linków do materiałów na jego temat. Jeśli natomiast wśród czytelników znajdą się tacy, którzy już z niego korzystali ,,jeszcze zanim to było modne”, namawiam do dzielenia się uwagami :).

Na wszelki wypadek zaznaczę, że nie jestem w żaden sposób związany z firmą Tableau Software (a szkoda 🙂 ). Głównym celem wpisu nie jest promowanie produktu określonego producenta (to raczej efekt uboczny), tylko popularyzacja narzędzia edukacyjnego utworzonego za jego pomocą. Wszystkie zamieszczone w tekście opinie są moimi prywatnymi, wygłoszonymi z nieprzymuszonej w żaden sposób (ani kijem, ani marchewką) woli. A jedyną moją korzyść stanowić będzie pozytywna reakcja czytelników 🙂

Czytaj dalej Zrób to sam – PISA 2009 DIY, od podszewki…

Zrób to sam – PISA 2009 DIY, czyli łatwe w użyciu narzędzie do eksploracji danych

Dzisiaj na blogu pierwszy gościnny wpis. Pierwszy, ponieważ mam nadzieję, że ciekawych gościnnych wpisów z czasem będzie więcej. Autorem tego jest Tomasz Owczarek. Przedstawi on wrażenia z organizowanego przez fundację projektu wakacyjnego związanego z analizą danych PISA 2009. A również, a może przede wszystkim, przedstawi narzędzie, które wykonał, a które pozwala na eksplorację przez niespecjalistę danych z badania PISA. Świetne narzędzie, które można użyć do zaspokojenia własnej ciekawości, ale również można je wykorzystać do zainteresowania innych analizą danych, np na wprowadzających zajęciach z analizy danych. Tak proste w użyciu że można użyć nawet w gimnazjum, tak ciekawe, że nadaje się do pokazywania studentom na uczelniach wyższych.


Kliknij by otworzyć narzędzie.

Czytaj dalej Zrób to sam – PISA 2009 DIY, czyli łatwe w użyciu narzędzie do eksploracji danych