intsvy: PISA for research and PISA for teaching

The Programme for International Student Assessment (PISA) is a worldwide study of 15-year-old school pupils’ scholastic performance in mathematics, science, and reading. Every three years more than 500 000 pupils from 60+ countries are surveyed along with their parents and school representatives. The study yields in more than 1000 variables concerning performance, attitude and context of the pupils that can be cross-analyzed. A lot of data.

OECD prepared manuals and tools for SAS and SPSS that show how to use and analyze this data. What about R? Just a few days ago Journal of Statistical Software published an article ,,intsvy: An R Package for Analyzing International Large-Scale Assessment Data”. It describes the intsvy package and gives instructions on how to download, analyze and visualize data from various international assessments with R. The package was developed by Daniel Caro and me. Daniel prepared various video tutorials on how to use this package; you may find them here: http://users.ox.ac.uk/~educ0279/.

PISA is intended not only for researchers. It is a great data set also for teachers who may employ it as an infinite source of ideas for projects for students. In this post I am going to describe one such project that I have implemented in my classes in R programming.

I usually plan two or three projects every semester. The objective of my projects is to show what is possible with R. They are not set to verify knowledge nor practice a particular technique for data analysis. This year the first project for R programming class was designed to experience that ,,With R you can create an automated report that summaries various subsets of data in one-page summaries”.
PISA is a great data source for this. Students were asked to write a markdown file that generates a report in the form of one-page summary for every country. To do this well you need to master loops, knitr, dplyr and friends (we are rather focused on tidyverse). Students had a lot of freedom in trying out different things and approaches and finding out what works and how.

This project has finished just a week ago and the results are amazing.
Here you will find a beamer presentation with one-page summary, smart table of contents on every page, and archivist links that allow you to extract each ggplot2 plots and data directly from the report (click to access full report or the R code).

FR

Here you will find one-pagers related to the link between taking extra math and students’ performance for boys and girls separately (click to access full report or the R code).

ZKJ

And here is a presentation with lots of radar plots (click to access full report or the R code).

GMS

Find all projects here: https://github.com/pbiecek/ProgramowanieWizualizacja2017/tree/master/Projekt_1.

And if you are willing to use PISA data for your students or if you need any help, just let me know.

PISA 2015 – how to read/process/plot the data with R

Yesterday OECD has published results and data from PISA 2015 study (Programme for International Student Assessment). It’s a very cool study – over 500 000 pupils (15-years old) are examined every 3 years. Raw data is publicly available and one can easily access detailed information about pupil’s academic performance and detailed data from surveys for studetns, parents and school officials (~2 000 variables). Lots of stories to be found.

You can download the dataset in the SPSS format from this webpage. Then use the foreign package to read sav files and intsvy package to calculate aggregates/averages/tables/regression models (for 2015 data you shall use the GitHub version of the package).

Below you will find a short example, how to read the data, calculate weighted averages for genders/countries and plot these results with ggplot2. Here you will find other use cases for the intsvy package.

pisa2015

library("foreign")
library("intsvy")
library("dplyr")
library("ggplot2")
library("tidyr")

stud2015 <- read.spss("CY6_MS_CMB_STU_QQQ.sav", use.value.labels = TRUE, to.data.frame = TRUE)
genderMath <- pisa2015.mean.pv(pvlabel = "MATH", by = c("CNT", "ST004D01T"), data = stud2015)

genderMath <- genderMath[,c(1,2,4,5)]
genderMath %>%
  select(CNT, ST004D01T, Mean) %>%
  spread(ST004D01T, Mean) -> genderMathWide

genderMathSelected <-
  genderMathWide %>%
  filter(CNT %in% c("Austria", "Japan", "Switzerland",  "Poland", "Singapore", "Finland", "Singapore", "Korea", "United States"))

pl <- ggplot(genderMathWide, aes(Female, Male)) +
  geom_point() +
  geom_point(data=genderMathSelected, color="red") +
  geom_text(data=genderMathSelected, aes(label=CNT), color="grey20") +
  geom_abline(slope=1, intercept = 0) + 
  geom_abline(slope=1, intercept = 20, linetype = 2, color="grey") + 
  geom_abline(slope=1, intercept = -20, linetype = 2, color="grey") +
  geom_text(x=425, y=460, label="Boys +20 points", angle=45, color="grey", size=8) + 
  geom_text(x=460, y=425, label="Girls +20 points", angle=45, color="grey", size=8) + 
  coord_fixed(xlim = c(400,565), ylim = c(400,565)) +
  theme_bw() + ggtitle("PISA 2015 in Math - Gender Gap") +
  xlab("PISA 2015 Math score for girls") +
  ylab("PISA 2015 Math score for boys") 

Canonical Discriminant Analysis a wykresy HE (***)

Tydzień temu pisaliśmy o wielowymiarowych modelach liniowych. Rozważaliśmy zagadnienie w którym k wymiarowy wektor zmiennych objaśnianych jest różnicowany przez zmienną grupującą. Aby ocenić czy istnieje jakaś zależność patrzymy na macierze E i H (patrz poprzedni wpis).

Problem, który nam pozostał to fakt, że zmienna objaśniana ma k wymiarów a więc i macierze efektów E i H są wymiaru kxk. Efektywnie, na wykresie możemy oglądać te macierze wyłącznie po rzucie na jakąś dwuwymiarową przestrzeń.

Ale na jaką dwuwymiarową podprzestrzeń patrzeć? Możemy brać dowolne rzuty macierzy E i H i je oglądać, ale czy któryś rzut jest lepszy do oglądania?

Przypomnijmy, że chodzi nam przede wszystkim o to by zobaczyć czy podgrupy zmiennej objaśniającej istotnie różnicują wielowymiarowe zmienne objaśniane. Dlatego naturalnym pomysłem jest redukcja wymiaru w zmiennych objaśnianych tak by zachować jak najwięcej wariancji pomiędzy grupami wyznaczonymi przez zmienną objaśniającą.

Popularną techniką takiej redukcji wymiaru jest Canonical Discriminant Analysis. W przestrzeni zmiennej objaśnianej szuka ona ortogonalnych wektorów wyjaśniających możliwie dużo międzygrupowej wariancji. Jeżeli z takich wektorów wybierzemy dwa pierwsze, to otrzymamy podprzestrzeń, w której analizowane grupy różnią się najsilniej (w sensie wariancji międzygrupowej).

Czytaj dalej Canonical Discriminant Analysis a wykresy HE (***)

Wykresy HE (***)

(Kierując się sugestiami z maili, trudniejsze techniczne wpisy oznaczać będę gwiazdkami w tytule)

GPS w domowych zastosowaniach pozwala kierowcom ominąć korki, ale w bardziej przemysłowych zastosowaniach pozwala na zarządzanie flotą pojazdów lub sterowanie bojowym dronem. Podobnie jest i z wizualizacją. Słupki i kropki można wykorzystać by pokazać kilka średnich ale istnieją też dla nich bardziej zaawansowane zastosowania, takie jak np. prezentacja różnic w strukturach kowariancji. I dziś będzie o takich wizualizacjach, ale po kolei.

Problem z którym ostatnio miałem do czynienia jest następujący (dziedzina: antropologia). Mamy czaszki z różnych lokalizacji i od osobników obu płci. Każda czaszka jest opisana zbiorem pięciu liczb opisujących odległości pomiędzy określonymi punktami na czaszce. Co chcemy sprawdzić? Czy i jak parametry czaszek różnią się pomiędzy płciami i lokalizacjami.

Gdybyśmy parametry czaszek opisywali jedną liczbą zamiast pięcioma na tak postawiony problem można by podejść stosując klasyczną dwukierunkową analizę wariancji.
Mając pięć parametrów opisujących czaszki, gdybyśmy każdy z nich traktowali niezależnie moglibyśmy tak postawiony problem rozwiązać pięcioma niezależnymi analizami wariancji.
Ale parametry są zależne i w tym przypadku lepszym podejściem jest zastosowanie modeli umożliwiających jednoczesne modelowanie wielowymiarowych zmiennych.

Problem jednoczesnego modelowania wielowymiarowych cech pojawia się dosyć często, szczególnie gdy zmienne, które opisujemy są zależne. Przykładowo w łącznym modelowaniu ilości mleka, białka i tłuszczu w udoju lub w analizie czynników wpływających na poziom umiejętności (opisany przez zestaw zmiennych).

Gdzie w tym zagadnieniu są ciekawe wykresy? Zobaczmy. Zaczniemy od przypomnienia jak sprawa wygląda problem testowania dla jednowymiarowych zmiennych.

Model liniowy zazwyczaj przedstawia się w postaci

Screen Shot 2015-02-15 at 22.06.50

Czytaj dalej Wykresy HE (***)

PISA – analiza z wykorzystaniem pakietu survey

Podczas warsztatów towarzyszących konferencji PAZUR Maciej Beręsewicz (Katedra Statystyki, Uniwersytet Ekonomiczny w Poznaniu) przedstawiał pakiet survey, świetne narzędzie do analizy danych sondażowych. Zgodził się dla nas przygotować krótki opis tego pakietu na przykładzie danych PISA 2009.

Tak więc dziś gościnny wpis, będzie R, będzie statystyka, będzie ciekawie.

[Pomysł na wstawki z użyciem gista zaczerpnąłem z innego polskiego bloga o R, pozdrawiamy].

PISA – analiza z wykorzystaniem pakietu survey

Maciej Beręsewicz

Wstęp

Poniższy wpis ma na celu przybliżenie wykorzystania pakietu survey do analizy danych pochodzących z badania PISA. W szczególności następujące cele mają zostać osiągnięte:

  • przybliżenie pakietu survey,
  • przybliżenie podejścia wykorzystanego w badaniu PISA do estymacji wariancji,
  • wykorzystanie pakietu survey w badaniu PISA.

Czytaj dalej PISA – analiza z wykorzystaniem pakietu survey

20 minut o edukacji i wnioskach z badania PISA

Czy możecie wygospodarować 20 minut wolnego czasu? Jeżeli tak to obejrzyjcie poniższego TEDa. Zaręczam że warto.

O edukacji oraz użyteczności danych w rozmowach o edukacji opowiada Andreas Schleicher, który jest kierownikiem zespołu PISA (badania umiejętności 15-latków) i kilku innych projektów edukacyjnych (badania nauczycieli TALIS / edukacja dorosłych PIAAC itp) w OECD.

Pomijając fakt, że Andreas jest charyzmatycznym statystykiem (mnie to wystarcza by go słuchać), mówi też o bardzo ciekawych tematach:
– O nierównych szansach w edukacji oraz tym jak niektóre kraje pracują nad zwiększeniem / zmniejszeniem różnic.
– O tym jak biedną Koreę stać na inwestowanie w dobrych nauczycieli (mają większe klasy co podwójnie się opłaca).
– O tym jak ważne w edukacji było odejście od rozliczania nauczycieli z realizacji podstawy programowej, do wspierania nauczycieli by rozwijali się i eksperymentowali (patrz też dyskusja o nauce w Polsce).
– O tym gdzie kierowani są najlepszy nauczyciele i dyrektorzy w Finlandii (do najtrudniejszych szkół by mogli się wykazać).
I wielu innych ciekawych tematach.

Tak więc przed wami Andreas i prezentacja ,,Use data to build better schools”.

Btw: dziś w OECD organizowanych jest TEDx, na którym również występuje Andreas. Jak tylko to nagranie znajdzie się w Internecie to o nim napiszę.

PISA 2012, occupations and the shiny app

OECD has just released a new PISA in Focus titled „Do parents’ occupations have an impact on student performance?”.

A shiny app is an add-on to this article, you can open it from this link:
http://beta.icm.edu.pl/PISAoccupations2012/.

The app allows for comparisons of average performance in mathematics/reading/science of 15-years old pupils in PISA study across different groups of parental occupations.
Are kids of Professionals ‘on average’ performing better than kids of other professions?

You can also compare countries or regions to check if spread of occupational averages is larger or smaller here or there.

The nice thing about this article and results is that they are created entirely in R (data, results and R codes are open).

R sources of this app are available on github: https://github.com/pbiecek/PISA2012lite/tree/master/ext/PisaInFocusOccupationsRegions

PISA 2012, zawód rodzica a aplikacje w Shiny

Wczoraj OECD opublikowało raport „Do parents’ occupations have an impact on student performance?”.

Do raportu dodano aplikacje, pozwalającą na porównywanie średnich wyników 15-latków z badania PISA w zależności od zawodu rodzica. Zgodnie z klasyfikacją ISCO zawody podzielone są na 10 głównych grup zgodnie z kolejnością zapotrzebowania na umiejętności (od specjalistów po najprostsze czynności).

W większości krajów, również w Polsce, dzieci, których rodzice pracują jako specjaliści lepsze wyniki niż dzieci, których rodzice nie pracują lub pracują w zawodach nie wymagających zaawansowanych umiejętności. Na to oczywiście składa się wiele rzeczy, choćby różnica w zamożności, poziomie edukacji rodziców, dostępności określonych zawodów, ale zawód rodzica jest zmienną, którą łatwo zdefiniować i zrozumieć.

Co ciekawe, gdy zestawić wyniki dla Polski i wyniki dla np. Finlandii (uważanej za europejskiego czempiona) okazuje się, że w większości grup zawodowych polscy uczniowie mają wyższe wyniki. Ostatecznie jednak średnia w Polsce jest niższa, ponieważ jest mniejszy rynek 'wyspecjalizowanych zawodów’.

Jeżeli spojrzeć na wyniki dzieci, których rodzice pracują w zawodach wymagających wyższych umiejętności, to polskie 15-latki mają jeszcze lepsze wyniki niż gdy porównywać średnie dla krajów. Dzieje się tak kosztem większego zróżnicowania wyników pomiędzy dziećmi różnych grup zawodowych.

Aplikacją można pobawić się tutaj: http://beta.icm.edu.pl/PISAoccupations2012/

Źródła tej aplikacji są dostępne na serwisie github: https://github.com/pbiecek/PISA2012lite/tree/master/ext/PisaInFocusOccupationsRegions

Wybrane fakty i mity na temat PISA 2012

Otrzymałem ostatnio link do bloga pana Ksawerego Stojdy ,,PISA 2012 – próba analizy krytycznej”, w którym autor krytykuje badanie PISA przedstawiając własne doświadczenia z analiz danych PISA 2012.

Autor tego bloga podjął się niezależnych analiz danych PISA (chwała mu za to) ale dosyć szybko się zraża i jak coś mu się nie pasuje to często używa słowa ,,manipulacja” (o badaniu) lub ,,matoły” (o niektórych uczniach).
W wielu przypadkach wnika to z nieznajomości pewnych założeń badania. A że te założenia są ciekawe stwierdziłem, że warto o nich napisać w formie polemiki z blogiem pana Ksawerego Stojdy.
Wypada zaznaczyć, że nie jestem zupełnie obiektywny. Znając analityków pracujących nad analizami danych PISA mam wysokie zdanie zarówno o wynikach jak i o tym zespole osób. Znając również metody ich pracy, uważam wszelkie pomówienia o manipulacje za wysoce kłamliwe. W badaniu tej skali pewne rzeczy mogą być niejasne lub niedoskonałe, ale można niejasności łatwo wyjaśnić mailowo z prowadzącymi badanie.

Poniżej umieszczam cytaty z w.w. bloga wraz z moimi komentarzami/sprostowaniami. Odnoszę się tylko do konkretnych zarzutów. Pomijam zdania opisujące ogólne przekonanie o manipulowaniu czymś przez kogoś bez konkretów.

Jako statystyka, bardzo cieszy mnie, gdy dyskusja przenosi się na poziom analizy danych. Mam nadzieję, że w miarę jak wiedza o konstrukcji badania PISA będzie powszechniejsza, liczba ciekawych wyników i wniosków wysnutych z tych danych będzie rosła i rosła.

Zaskakujące jednak jest przyjrzenie się liczbie pytań, na które odpowiadali poszczególni uczniowie. Drobne różnice byłyby zrozumiałe — do jednego zestawu weszło zadanie z 4 pytaniami Q1-Q4, a do drugiego takie z Q1-Q5. Tymczasem obserwowane różnice liczby pytań, za jakie oceniany był uczeń, są dramatycznie różne: od 13 do 45. Taka rozpiętość sugeruja raczej nie bałagan w tworzeniu zestawów pytań o niespójnej objętości, ale raczej usunięcie części odpowiedzi z publikowanych danych.

Jeżeli odrzucić teorie spiskowe to można łatwo znaleźć prawdziwą przyczynę takiej rozpiętości. Opisaną zresztą w dokumentacji.

Jest jeden specjalny zestaw zadań (o ile pamiętam booklet 20) który jest ,,One-hour booklet and short questionnaire (UH Booklet and UH Questionnaire) for students with special education needs”.

Ma on mniej zadań ale jest przeznaczony tylko dla uczniów ze ,,specjalnymi potrzebami”.

Zniekształcona grupa odniesienia

PISA deklaruje, że stara się z każdego kraju badać próbę uczniów tej samej wielkości (ok. 5000). Już to podejście tworzy zafałszowany obraz odniesienia populacji wszystkich badanych krajów (w domyśle całego świata) — Estonia wnosi do tej puli tyle samo co Francja, czyli estoński uczeń ponad 50 razy więcej, niż francuski. Te proporcje zotały jednak dodatkowo zniekształcone: z większości krajów próby sa wprawdzie około 5000, to kilka krajów jest bardzo silnie nadreprezentowana, nawet do liczności ponad 20,000, czyli ponad czterokrotnie. Takimi nadreprezentowanymi w tworzeniu obrazu odniesienia krajami są m.in. Emiraty Arabskie, Kanada i Finlandia.

Minimalna wielkość próby (ustawiona na około 5000) jest potrzebna by uzyskać odpowiednią dokładność oceny średnich umiejętności w kraju. Większa próba w niczym nie szkodzi.

Każdy student ma wagę opisującą jego ,,reprezentatywność”. Dlatego wszystkie analizy powinny być przeprowadzane z uwzględnieniem tych wag. W krajach gdzie wykonano ,,oversampling” wagi są niższe by uwzględnić różne wielkości próby.
Podobnie w krajach takich jak Luksemburg, gdzie w całym kraju być może nie ma 5000 15-latków, wagi są tak dobrane by uwzględnić inne reprezentatywności studentów z poszczególnych krajów.

Kraje robiły oversampling (jeżeli chciały) by się czegoś dodatkowego ciekawego dowiedzieć. O ile pamiętam Polska robiła oversampling szkół prywatnych, dzięki czemu lepiej mogła ocenić charakterystyki szkół prywatnych.
W próbie jest więc więcej uczniów ze szkół prywatnych i więcej uczniów ze szkół małych niż jest ich w całym kraju, ale po to są wagi by te różnice uwzględnić.

Aby poprawnie wykonać analizy należy te wagi uwzględnić (tak jak jest to opisane w przewodniku po metodologii).

Zastanówmy się jednak nad realnością sytuacji, że na 30% najłatwiejszych pytań potrafiło odpowiedzieć (i odpowiedziało) ponad 98% uczniów. Mamy tylko 2% matołów i olewaczy? To jest dopiero sukces polskiej szkoły!
Z drugiej strony popatrzmy na prawą stronę tego wykresu: tylko 5% uczniów (i to już tych przeselekcjonowanych manipulacją PISA…) umie odpowiedzieć na co najmniej 90% pytań — z tego, co można wnioskować po przeczytaniu tych kilku ujawnionych — pytań trywialnych i oczywistych dla każdego, kto uzyskał maturę za czasów minionego ustroju.

Konstrukcja zadań w badaniu PISA zakłada, że w kwestionariuszu są zarówno bardzo proste jak i bardzo trudne zadania. Dlatego jedynie niewielka liczba uczniów nie potrafi rozwiązać żadnego zadania lub potrafi rozwiązać wszystkie zadania.

Takie zestawienie zadań pozwala z dobrą dokładnością szacować poziom umiejętności zarówno osób słabych jak i bardzo dobrych. Jeżeli tym samym formularzem planujemy porównywać wyniki elitarnych szkół w Korei czy Singapurze ze szkołami w Meksyku czy Peru to musimy mieć formularz o szerokiej skali.

Patrząc na to, jak wygląda rozkład umiejętności 15-latków na świecie, uczniowie w Polsce mają całkiem niezłą sytuację.
Nikogo nie dziwi, że 15-latek w Polsce potrafi biegle czytać i pisać. A to umiejętności wystarczające do rozwiązania pewnych zadań i umiejętności wcale nie takie oczywiste wśród 15-latków w innych krajach.

Błędna dokumentacja

PISA opublikowała „surowe dane” jako plik tekstowy wraz z opisem jego składni (jak zapisane są informacje). Ten opis jest ewidentnie fałszywy, w szczególności według opisu każda linijka tych danych powinna zawierać 545 znaków, natomiast plik składa się z linijek o długości 541 znaków.

Nazywanie opisu ,,ewidentnie fałszywym” ponieważ brakuje nazw dla ostatnich czterech kolumn jest chyba nadużyciem.

Nie znam żadnego badania opartego o ankiety wykonanego w skali PISA (500 000 przebadanych osób w ponad 60 krajach, setki zmiennych, trzy formaty zapisu danych), które byłoby tak dobrze opisane i udokumentowane.

Jeżeli ktoś ma problemy z odczytaniem pliku tekstowego, może korzystać z gotowych danych do wczytania jednym kliknięciem w formacie programu SPSS, SAS czy R (np z pakietu PISA2012lite https://github.com/pbiecek/PISA2012lite)

Można również poprosić zespół PISA o wsparcie. W razie wątpliwości zaktualizują dane lub rozszerzą opis.
Pracując na danych z 2003 roku okazało się, że brakuje kilku kolumn, wystarczyło napisać maila i po dwóch dniach dane były uaktualnione.

Brak informacji o zadaniach

W publikowanych danych nie ma treści zadań. Nie ma też o nich tak ważnych informacji, jak to, to jakiej grupy trudności były zaliczone i jaka była ich punktacja. Jedyne, co można się dowiedzieć, to:

Część zadań jest publikowanych po badaniu. Ale większość nie.
I jest ku temu powód. Część z tych zadań jest wykorzystywana w kolejnych edycjach badania aby móc rzetelnie badać czy poziom umiejętności w rozwiązywaniu określonego zadania wzrósł czy nie.
Te pytania są silnie strzeżonym sekretem.
Takie pytania są potrzebne by można było porównywać wyniki pomiędzy różnymi edycjami (wyskalować dane do tendów).

Brakujące pytania

Na liście znajdujemy pytania o nazwach: „MATH – P2012 Chocolate Q2″, „MATH – P2012 Chocolate Q3″ i „… – Q5″. Ale o pytaniach Q1 i Q4 do tego tekstu ani widu, ani słychu. Podobnych brakujących pytań jest bardzo dużo, dotyczy to niemal połowy zadań. W najgorszym przypadku (najtrudniejsze z zadań z serii ‚Reading’: „Narcissus”) mamy Q1, Q6 i Q7, ale Q2-5 nie istnieją. Uczniowie na te pytania odpowiadali, ale oceny odpowiedzi na nie zniknęły przed opublikowaniem zbioru „surowych” danych.

Pytania są najpierw opracowane przez ekspertów a później są testowane ,,na placu boju” (w badaniach pilotowych). Jeżeli eksperci przygotują siedem podpunktów do jednego pytania (czyli to Q1 … Q7) ale część z podpunktów nie przejdzie testów neutralności, to te podpunkty są usuwane z puli pytań i nie biorą udziału w badaniach.
Ale dla czytelności nie zmienia się oznaczeń pytań.

Testy neutralności polegają na przykład na sprawdzeniu, czy określone pytanie nie jest nadzwyczaj łatwe/trudne dla określonego kraju lub określonej płci. Jeżeli na etapie testów pytanie nie jet neutralne kulturowo to będzie usunięte by nie zaburzać wyników.

Brakujące ankiety

Z ogromnym zaskoczeniem zauważyłem, że w Polsce nie zdarzył się ani jeden przypadek ucznia, który oddałby pusty formularz: nie próbując nawet odpowiedzieć na żadne z pytań. Cóż za budująca masowość zaangażowania gimnazjalistów w badania naukowe! 😉
W wielu krajach sytuacja jest podobna, w niektórych innych takie formularze zdarzają się, ale ich liczba jest nierealistycznie niska (poniżej 1%)

Nie potrafię znaleźć innego wytłumaczenia dla tego braku pustych odpowiedzi, niż usunięcie ich z pliku „surowych” danych.

No cóż, ja potrafię znaleźć inne wytłumaczenia.
Najbardziej oczywistym jest to, że wbrew powszechnym narzekaniom 15-latkom się chce.

Brak bardzo złych odpowiedzi

W całym Polskim badaniu (na 4607 formularzy uczniowskich opublikowanych w zbiorze) jest aż jeden (tak, dokładnie jeden na 4607 opublikowanych formularzy) uczeń, który nie odpowiedział poprawnie na żadne z pytań. W innych krajach jest niewiele lepiej. W Kanadzie na 21,544 opublikowanych wyników jest tylko 48 takich „zupełnych analfabetów”.

W dobrym badaniu, w którym chce testować się szeroką rozpiętość umiejętności, umieszcza się zarówno proste jak i trudne pytania.
Dlatego w puli zadań są też dla przeciętnie wyedukowanego gimnazjalisty zadania oczywiste.
Są wręcz pytania, do których rozwiązania wystarczy umiejętność czytania.
Jednym z powodów, dla którego takie zadania są potrzebne jest chociażby ocena na ile poważnie uczniowie podchodzili do badania. Do analizy rzetelności należy najpierw zbadać zaangażowanie studentów biorących udział w tym badaniu.

Identyczne odpowiedzi

Około 10% polskich formularzy (419 na 4607) odpowiedzi jest w 100% zgodne z jakimś innym formularzem. Nie jest to ani efekt typu „obaj uczniowie odpowiedzieli dobrze na wszystkie pytania”, ani „obaj nie odpowiedzieli na żadne” — dotyczy to również formularzy, gdzie poprawnie odpowiedziano na połowę czy 2/3 pytań. Przypadkowa zbiezność jest nieprawdopodobna.

To nie jest takie dziwne jeżeli uwzględnić, że część pytań jest bardzo prosta i większość uczniów je robi, część jest trudna i większość ich nie robi. Wygląda jak zwykły paradoks dnia urodzin
http://pl.wikipedia.org/wiki/Paradoks_dnia_urodzin

Nawet przyjmując za dobrą monetę rzetelność badania, należy właściwie interpretować ten „niesamowity polski sukces” — oznacza on, że jeśli uczniom dajemy 40 pytań, w większości banalnych i skrajnie oczywistych, to na całym świecie w roku 2000 średnio uczniowie odpowiadali poprawnie na 24 z nich, a w Polsce dziś aż na 25.

To niezrozumienie sposobu w jaki bada się umiejętności. Badania w kwestionariuszu nie mają takich samych poziomów trudności. Wręcz mają różną skalę trudności. Może być dużą różnicą przeskoczenie z poziomu 24 rozwiązanych zadań na 25 rozwiązanych zadań ponieważ to dodatkowe zadanie świadczy to o szerszej skali umiejętności.

Analogia ze sportu. Jeżeli mistrzowie z Jamajki biegają 100 metrów w 9.9 sekundy a mistrzowie z innych krajów biegają 100 metrów w 10 sekund, to nie mówimy że różnica jest niewielka. Ta jedna setna robi różnice, bo każda kolejna jedna setna wymaga bardzo dużego zestawu umiejętności.

Podobnie jest z rozwiązaniem średnio 24 lub 25 zadań. To są duże różnice.

Symbole krajów według prywatnej konwencji PISA (kto im bronił stosować konwencję ISO?), ale daje się domyśleć, że POL to Polska, EST – Estonia, a SWE – Szwecja. QCN to Szanghaj.

PISA używa konwencji ISO 3 (trzyliterowe skróty). Wyjątkiem są obszary, które nie są krajami i nie mają swoich kodów ISO
(np. Szanghaj).

Jeszcze jedna ciekawostka: w zbiorze „surowych” danych z całego świata są dane z tylko 43 krajów. A w PISA uczestniczy 65. Dane z pozostałych wyparowały. Według publikacji PISA badanie dotyczyło „around 510 000 students”, a w udostępnionym pliku są tylko 271,323 rekordy.

Polecam korzystanie z pakietu PISA2012lite dla programu R (darmowy open source do analiz statystycznych).
https://github.com/pbiecek/PISA2012lite
Są dane la wszystkich krajów do załadowania w kilkanaście sekund (nie licząc czasu ściągania 200MB z internetu).

Chodzą wprawdzie plotki, że w różnych krajach (w tym Polsce — ponoć uczniowie nie odpowiadali na pytania z rachunku prawdopodobieństwa) część zadań nie była oceniana, a ich wyniki byłý ekstrapolowane z wyników innych zadań.

Nie wiem gdzie takie plotki chodzą. W przypadku prawdopodobieństwa łatwo sprawdzić, że polscy uczniowie na pytania z rachunku prawdopodobieństwa odpowiadali. Jak to sprawdzić? Należy wybierając z klasyfikacji tylko zadania z prawdopodobieństwa i sprawdzać odpowiedzi dla Polski.

W ogólności jest tak, że nie wszystkie zestawy zadań były rozlosowane po wszystkich krajach. W roku 2012 zadania z matematyki były pogrupowane w 7 grup (klastrów). Przy czym grupy 6 i 7 wstępują w dwóch wariantach 6A/7A i 6B/7B. Wersja A jest trudniejsza niż B.

Dlatego w krajach w których spodziewano się niższych wyników rozlosowano więcej łatwych zadań by utrzymać dobrą rozdzielczość testu dla niższego poziomu umiejętności.

Patrząc na te liczby weźmy poprawkę na manipulację danymi (patrz niżej) — magiczne zniknięcie ankiet z bardzo złymi wynikami. Zauważmy, że na tym obrazku nie są przedstawione wyniki polskich uczniów, ani ich losowej czy reprezentatywnej próby: sa to uczniowie-aniołowie, spośród których ponad 98% odpowiada na najprostsze zadania! To tak, jakbyśmy w 30-osobowej klasie gimnazjalnej nie mieli ani jednego matoła, oddającego pustą kartkę, albo pokazującego nam gest Kozakiewicza na prośbę o wypełnienie testu.

Nie wiem po co uczniowie mieliby pokazywać ,,gest Kozakiewicza na prośbę o wypełnienie testu”. Może żyję w innej rzeczywistości, ale nie dziwi mnie to, że uczniowie otrzymując zadania próbują rozwiązać przynajmniej kilka, choćby z czystej ciekawości.

Badanie jest tak skonstruowane, że na rozwiązywanie zadań są ponad dwie godziny (dokładniej godzina przed i godzina po krótkiej przerwie). Po tych dwóch godzinach student proszony jest o wypełnienie kwestionariusza osobowego.
Dziwiłoby mnie gdyby uczniowie z czystej złośliwości oddawaliby puste arkusze bez próby rozwiązania zadań i czekali dwie godziny na wypełnienie kwestionariusza osobowego siedząc w ławce i się nudząc.

PISA 2012 a wielkość miasta, poziom edukacji rodziców czy płeć uczniów

Ostatnio wiele się mówi o wynikach z badania PISA 2012. Polscy uczniowie wypadli w tym badaniu bardo dobrze, można te wyniki wykorzystać w budowaniu marki Polski jako kraju ludzi wyedukowanych. Dla gospodarki to spora szansa – pozostaje mieć nadzieję, że będzie wykorzystana. Największe wrażenie robi tempo poprawy wyników przez naszych uczniów. Poniżej chciałbym napisać o wynikach, które nie znalazły się w raportach OECD, ale z punktu widzenia naszego kraju są bardzo ciekawe:

Wielkość miasta

Zobaczmy jak wyglądają wyniki uczniów w dużych miastach, średnich miastach i małych miasteczkach. W większości krajów uczniowie z większych miast mają lepsze wyniki. Składa się na to wiele czynników, między innymi dzieci w dużych miastach to częściej dzieci biznesmenów i specjalistów – osób zamożniejszych mających większy dostęp do zasobów edukacyjnych. W większych miastach jest też organizowanych więcej inicjatyw edukacyjnych.

Powyższy wykres przedstawia promil rozwiązanych zadań przez różne grupy uczniów. W tym przypadku te grupy odpowiadają wielkości miasta w którym zlokalizowana jest szkoła – czy to wioska, małe, średnie czy duże miasto. Każdy wiersz odpowiada grupie uczniów ze szkół zlokalizowanych w mieście o danej wielkości.

Każda szara kropka to jeden kraj, czerwona kropka to pozycja Polski. Dzięki temu możemy zobaczyć jak wygląda pozycja Polski względem innych krajów w danej wielkości miasta. Czerwony prostokąt pośrodku oznacza 50% krajów o najbardziej średnich wynikach, dzięki temu łatwiej się zorientować, czy Polska jest w górnym kwartylu, czy bliżej środka rozkładu.

Po prawej stronie zaznaczono pozycje Polski w rankingu, biorąc pod uwagę tylko daną kategorię wielkości miasta. Dla dużych miast, zamieszkałych przez ponad milion mieszkańców (w Polsce to tylko Warszawa) zajmujemy drugie miejsce na 33 kraje, w przypadku średnich miast – piąte miejsce na 41 krajów itp. Nie wszystkie kraje z badania PISA mają bardzo duże lub bardzo małe miasta, dlatego liczba krajów w rankingu jest różna w różnych wierszach. W tym podsumowaniu uwzględniono tylko kraje biorące udział w PISA 2003 i PISA 2012, a więc 44 kraje z 69 krajów które brały udział w PISA 2012.

Co widzimy? 15-latki z Warszawy mają wyniki znacznie lepsze niż 15-latki z innych ponad milionowych miast. Rozwiązali oni średnio 65% zadań z matematyki (* to ważona średnia, patrz wyjaśnienie na końcu wpisu). W mniejszych miastach ten wskaźnik wynosi około 50% rozwiązanych zadań. Średnio 15-latkowie z Polski osiągnęli bardzo dobre wyniki, a im większe miasto tym ta średnia jest (względnie) wyższa.

Powyższy wykres prezentuje wyniki dla czytania ze zrozumieniem i nauk przyrodniczych. Co ciekawe w czytaniu i przyrodzie uczniowie z Warszawy mają pierwsze miejsce w kategorii dużych miast (pierwsze na 33 kraje, tu nie ma wszystkich 69 krajów z PISA 2012). Na górze wykresu przedstawione są „gap size” – wielkości różnic w wynikach pomiędzy uczniami z dużych i małych miast. W Polsce te różnice są duże.

Wyniki a poziom edukacji rodziców

Edukacja rodziców jest przedstawiona w skali ISCED, gdzie ISCED 1 – wykształcenie podstawowe a ISCED 5 – wykształcenie wyższe, ISCED 6 – stopień doktora.

Jak widzimy dzieci rodziców o wyższym wykształceniu mają średnio wyższe wyniki. Ten „bonus” w przypadku Polski jest większy niż w innych krajach. Przy okazji można zauważyć jak te rankingi ujawniają trudności w porównywaniu wyników. Patrząc na rezultaty dzieci przez pryzmat edukacji rodziców, Polska wypada na pozycjach 7./12./15., czyli niżej, niż gdy dzieliliśmy je ze względu na wielkość miasta. Wynika to z różnych udziałów dużych i małych miast w różnych krajach.

Wyniki a płeć uczniów

Na wyniki można spojrzeć przez pryzmat podgrup określonych przez płeć. Co ciekawe, dziewczyny są w wyższym centylu, gdy porównywać je z dziewczynami z innych krajów. Bardzo pozytywny jest niski „gender gap” w przyrodzie i matematyce. O ile przewaga dziewczyn w czytaniu ze zrozumieniem jest „regułą” w każdym kraju, o tyle stereotypowe postrzeganie chłopców jako lepszych z matematyki jest prawdziwe tylko w niektórych krajach. W Polsce ta różnica jest (średnio) mała.

* Z uwagi na sposób losowania uczniów do badania PISA, struktura uczniów w badaniu może być inna niż struktura uczniów w kraju. Aby uwzględnić te różnice, każdy uczeń ma wagę opisującą na ile jest on reprezentatywny dla całej populacji. Wszelkie średnie i frakcje są liczone z uwzględnieniem tych wag.