## Gender gap and visualisation challenge @ useR!2014

7 days to go for submissions in the DataVis contest at useR!2014 (see contest webpage).
Note that the contest is open for all R users, not only conference participants.

PISA dataset allows to challenge some ,,common opinions”, like are boys or girls better in math / reading. But, how to compare differences between genders? Averages are not fancy enough 😉 Let’s use weighted quantiles calculated with function wtd.quantile() from the Hmisc package.

Below we present quantile-quantile plots for results in math and reading. Each point represents a single centile. X coordinate stands for centiles of male scores while Y coordinate correspond to female scores respectively. Black line is the diagonal, points on this line correspond to equal centiles in both distributions.
Points below black line correspond to centile for which boys are doing better than girls. Points above black line correspond to centiles for which girls are doing better. For reading the story is simple, girls are doing better for all centiles, whole distribution is shifted. But for math the story is different for different countries.

[UK – distribution of math scores for boys is shifted in comparison to females]

[Finland – distribution of math scores for boys is wider, weak boys are weaker than girls but strong one are stronger than corresponding girl’s centile]

[USA – somewhere between Finland and UK]

What is the story for your country?

And the R code.

 library(Hmisc) library(ggplot2) library(reshape2)   # read students data from PISA 2012 # directly from URL con <- url("http://beta.icm.edu.pl/PISAcontest/data/student2012.rda") load(con)   # plot quantiles for a country plotCountry <- function(cnt) { cutoffs <- seq(0,1,0.01) selected <- student2012[student2012\$CNT == cnt, ] getQuants <- function(group) { selectedG <- selected[group, ] wtd.quantile(selectedG\$PV1MATH, weights=selectedG\$W_FSTUWT, probs=cutoffs) } ecdf1 <- getQuants(selected\$ST04Q01 == "Male") ecdf2 <- getQuants(selected\$ST04Q01 == "Female") df1 <- data.frame(cutoffs, Male = ecdf1, Female = ecdf2, subject="MATH") getQuants <- function(group) { selectedG <- selected[group, ] wtd.quantile(selectedG\$PV1READ, weights=selectedG\$W_FSTUWT, probs=cutoffs) } ecdf1 <- getQuants(selected\$ST04Q01 == "Male") ecdf2 <- getQuants(selected\$ST04Q01 == "Female") df2 <- data.frame(cutoffs, Male = ecdf1, Female = ecdf2, subject="READ") df <- rbind(df1, df2) ggplot(df, aes(x = Male, y = Female, col = subject, shape = subject)) + geom_point() + xlim(350,650) + ylim(350,650) + geom_abline(intercept=0, slope=1) + ggtitle(cnt) }   # plot results for selected countries for (cnt in c("Canada", "United Kingdom","United States of America", "Finland")) ggsave(plotCountry(cnt), filename=paste0("Quant", cnt, ".png"), width=600/72, height=600/72)

## PISA 2012 a rozwiązywanie problemów

Wczoraj OECD opublikowało kolejną część wyników dotyczących badania PISA 2012 (tom 5 dostępny jest tutaj). Ten tom dotyczy badania umiejętności rozwiązywania nietypowych problemów (z oryginału: Creative Problem Solving). Po części te zadania związane są z ,,wymyśleniem” jak można użyć jakiejś technologii by rozwiązać określony problem (są też pytania ,,nietechnologiczne”), przykładowe zadania do rozwiązania przedstawione są w tej prezentacji.
Ocenia się, że umiejętności rozwiązywania nietypowych problemów będą coraz ważniejsze do rozwoju krajów rozwiniętych, więc jest to ważna składowa umiejętności.

Patrząc na pozycje w rankingu, uczniowie w Polsce wypadli na tle innych krajów słabo, inaczej niż gdy oglądaliśmy umiejętności matematyczne (gdzie wypadli dobrze).
Tak różne wyniki dla Polski w tych podskalach mogą być zaskakujące, intuicyjnie umiejętności matematyczne kojarzone są z umiejętnościami rozwiązywania problemów.

Zaskakujące czy nie, trzeba z tych wyników wyciągnąć wnioski.
Pozytywnym aspektem całej sytuacji jest to, że mamy jakoś zidentyfikowane słabe i silne strony naszej młodzieży, można więc teraz pracować nad poprawieniem słabych strona a silne wykorzystać do przyciągnięcia/rozwoju nowoczesnego przemysłu.

Poniżej zestawienie średnich wyników w obu skalach (Polska jest wysoko na skali math ale poniżej średniej na skali problem solving, średnia dla krajów OECD w obu przypadkach to 500).

Mając wyniki z badania PISA 2015 będzie można zobaczyć czy w obszarze 'problem solving’ doganiamy inne kraje OECD czy nie.

## Wybrane fakty i mity na temat PISA 2012

Otrzymałem ostatnio link do bloga pana Ksawerego Stojdy ,,PISA 2012 – próba analizy krytycznej”, w którym autor krytykuje badanie PISA przedstawiając własne doświadczenia z analiz danych PISA 2012.

Autor tego bloga podjął się niezależnych analiz danych PISA (chwała mu za to) ale dosyć szybko się zraża i jak coś mu się nie pasuje to często używa słowa ,,manipulacja” (o badaniu) lub ,,matoły” (o niektórych uczniach).
W wielu przypadkach wnika to z nieznajomości pewnych założeń badania. A że te założenia są ciekawe stwierdziłem, że warto o nich napisać w formie polemiki z blogiem pana Ksawerego Stojdy.
Wypada zaznaczyć, że nie jestem zupełnie obiektywny. Znając analityków pracujących nad analizami danych PISA mam wysokie zdanie zarówno o wynikach jak i o tym zespole osób. Znając również metody ich pracy, uważam wszelkie pomówienia o manipulacje za wysoce kłamliwe. W badaniu tej skali pewne rzeczy mogą być niejasne lub niedoskonałe, ale można niejasności łatwo wyjaśnić mailowo z prowadzącymi badanie.

Poniżej umieszczam cytaty z w.w. bloga wraz z moimi komentarzami/sprostowaniami. Odnoszę się tylko do konkretnych zarzutów. Pomijam zdania opisujące ogólne przekonanie o manipulowaniu czymś przez kogoś bez konkretów.

Jako statystyka, bardzo cieszy mnie, gdy dyskusja przenosi się na poziom analizy danych. Mam nadzieję, że w miarę jak wiedza o konstrukcji badania PISA będzie powszechniejsza, liczba ciekawych wyników i wniosków wysnutych z tych danych będzie rosła i rosła.

Zaskakujące jednak jest przyjrzenie się liczbie pytań, na które odpowiadali poszczególni uczniowie. Drobne różnice byłyby zrozumiałe — do jednego zestawu weszło zadanie z 4 pytaniami Q1-Q4, a do drugiego takie z Q1-Q5. Tymczasem obserwowane różnice liczby pytań, za jakie oceniany był uczeń, są dramatycznie różne: od 13 do 45. Taka rozpiętość sugeruja raczej nie bałagan w tworzeniu zestawów pytań o niespójnej objętości, ale raczej usunięcie części odpowiedzi z publikowanych danych.

Jeżeli odrzucić teorie spiskowe to można łatwo znaleźć prawdziwą przyczynę takiej rozpiętości. Opisaną zresztą w dokumentacji.

Jest jeden specjalny zestaw zadań (o ile pamiętam booklet 20) który jest ,,One-hour booklet and short questionnaire (UH Booklet and UH Questionnaire) for students with special education needs”.

Ma on mniej zadań ale jest przeznaczony tylko dla uczniów ze ,,specjalnymi potrzebami”.

Zniekształcona grupa odniesienia

PISA deklaruje, że stara się z każdego kraju badać próbę uczniów tej samej wielkości (ok. 5000). Już to podejście tworzy zafałszowany obraz odniesienia populacji wszystkich badanych krajów (w domyśle całego świata) — Estonia wnosi do tej puli tyle samo co Francja, czyli estoński uczeń ponad 50 razy więcej, niż francuski. Te proporcje zotały jednak dodatkowo zniekształcone: z większości krajów próby sa wprawdzie około 5000, to kilka krajów jest bardzo silnie nadreprezentowana, nawet do liczności ponad 20,000, czyli ponad czterokrotnie. Takimi nadreprezentowanymi w tworzeniu obrazu odniesienia krajami są m.in. Emiraty Arabskie, Kanada i Finlandia.

Minimalna wielkość próby (ustawiona na około 5000) jest potrzebna by uzyskać odpowiednią dokładność oceny średnich umiejętności w kraju. Większa próba w niczym nie szkodzi.

Każdy student ma wagę opisującą jego ,,reprezentatywność”. Dlatego wszystkie analizy powinny być przeprowadzane z uwzględnieniem tych wag. W krajach gdzie wykonano ,,oversampling” wagi są niższe by uwzględnić różne wielkości próby.
Podobnie w krajach takich jak Luksemburg, gdzie w całym kraju być może nie ma 5000 15-latków, wagi są tak dobrane by uwzględnić inne reprezentatywności studentów z poszczególnych krajów.

Kraje robiły oversampling (jeżeli chciały) by się czegoś dodatkowego ciekawego dowiedzieć. O ile pamiętam Polska robiła oversampling szkół prywatnych, dzięki czemu lepiej mogła ocenić charakterystyki szkół prywatnych.
W próbie jest więc więcej uczniów ze szkół prywatnych i więcej uczniów ze szkół małych niż jest ich w całym kraju, ale po to są wagi by te różnice uwzględnić.

Aby poprawnie wykonać analizy należy te wagi uwzględnić (tak jak jest to opisane w przewodniku po metodologii).

Zastanówmy się jednak nad realnością sytuacji, że na 30% najłatwiejszych pytań potrafiło odpowiedzieć (i odpowiedziało) ponad 98% uczniów. Mamy tylko 2% matołów i olewaczy? To jest dopiero sukces polskiej szkoły!
Z drugiej strony popatrzmy na prawą stronę tego wykresu: tylko 5% uczniów (i to już tych przeselekcjonowanych manipulacją PISA…) umie odpowiedzieć na co najmniej 90% pytań — z tego, co można wnioskować po przeczytaniu tych kilku ujawnionych — pytań trywialnych i oczywistych dla każdego, kto uzyskał maturę za czasów minionego ustroju.

Takie zestawienie zadań pozwala z dobrą dokładnością szacować poziom umiejętności zarówno osób słabych jak i bardzo dobrych. Jeżeli tym samym formularzem planujemy porównywać wyniki elitarnych szkół w Korei czy Singapurze ze szkołami w Meksyku czy Peru to musimy mieć formularz o szerokiej skali.

Patrząc na to, jak wygląda rozkład umiejętności 15-latków na świecie, uczniowie w Polsce mają całkiem niezłą sytuację.
Nikogo nie dziwi, że 15-latek w Polsce potrafi biegle czytać i pisać. A to umiejętności wystarczające do rozwiązania pewnych zadań i umiejętności wcale nie takie oczywiste wśród 15-latków w innych krajach.

Błędna dokumentacja

PISA opublikowała „surowe dane” jako plik tekstowy wraz z opisem jego składni (jak zapisane są informacje). Ten opis jest ewidentnie fałszywy, w szczególności według opisu każda linijka tych danych powinna zawierać 545 znaków, natomiast plik składa się z linijek o długości 541 znaków.

Nazywanie opisu ,,ewidentnie fałszywym” ponieważ brakuje nazw dla ostatnich czterech kolumn jest chyba nadużyciem.

Nie znam żadnego badania opartego o ankiety wykonanego w skali PISA (500 000 przebadanych osób w ponad 60 krajach, setki zmiennych, trzy formaty zapisu danych), które byłoby tak dobrze opisane i udokumentowane.

Jeżeli ktoś ma problemy z odczytaniem pliku tekstowego, może korzystać z gotowych danych do wczytania jednym kliknięciem w formacie programu SPSS, SAS czy R (np z pakietu PISA2012lite https://github.com/pbiecek/PISA2012lite)

Można również poprosić zespół PISA o wsparcie. W razie wątpliwości zaktualizują dane lub rozszerzą opis.
Pracując na danych z 2003 roku okazało się, że brakuje kilku kolumn, wystarczyło napisać maila i po dwóch dniach dane były uaktualnione.

W publikowanych danych nie ma treści zadań. Nie ma też o nich tak ważnych informacji, jak to, to jakiej grupy trudności były zaliczone i jaka była ich punktacja. Jedyne, co można się dowiedzieć, to:

I jest ku temu powód. Część z tych zadań jest wykorzystywana w kolejnych edycjach badania aby móc rzetelnie badać czy poziom umiejętności w rozwiązywaniu określonego zadania wzrósł czy nie.
Te pytania są silnie strzeżonym sekretem.
Takie pytania są potrzebne by można było porównywać wyniki pomiędzy różnymi edycjami (wyskalować dane do tendów).

Brakujące pytania

Na liście znajdujemy pytania o nazwach: „MATH – P2012 Chocolate Q2″, „MATH – P2012 Chocolate Q3″ i „… – Q5″. Ale o pytaniach Q1 i Q4 do tego tekstu ani widu, ani słychu. Podobnych brakujących pytań jest bardzo dużo, dotyczy to niemal połowy zadań. W najgorszym przypadku (najtrudniejsze z zadań z serii ‚Reading’: „Narcissus”) mamy Q1, Q6 i Q7, ale Q2-5 nie istnieją. Uczniowie na te pytania odpowiadali, ale oceny odpowiedzi na nie zniknęły przed opublikowaniem zbioru „surowych” danych.

Pytania są najpierw opracowane przez ekspertów a później są testowane ,,na placu boju” (w badaniach pilotowych). Jeżeli eksperci przygotują siedem podpunktów do jednego pytania (czyli to Q1 … Q7) ale część z podpunktów nie przejdzie testów neutralności, to te podpunkty są usuwane z puli pytań i nie biorą udziału w badaniach.
Ale dla czytelności nie zmienia się oznaczeń pytań.

Testy neutralności polegają na przykład na sprawdzeniu, czy określone pytanie nie jest nadzwyczaj łatwe/trudne dla określonego kraju lub określonej płci. Jeżeli na etapie testów pytanie nie jet neutralne kulturowo to będzie usunięte by nie zaburzać wyników.

Brakujące ankiety

Z ogromnym zaskoczeniem zauważyłem, że w Polsce nie zdarzył się ani jeden przypadek ucznia, który oddałby pusty formularz: nie próbując nawet odpowiedzieć na żadne z pytań. Cóż za budująca masowość zaangażowania gimnazjalistów w badania naukowe! 😉
W wielu krajach sytuacja jest podobna, w niektórych innych takie formularze zdarzają się, ale ich liczba jest nierealistycznie niska (poniżej 1%)

Nie potrafię znaleźć innego wytłumaczenia dla tego braku pustych odpowiedzi, niż usunięcie ich z pliku „surowych” danych.

No cóż, ja potrafię znaleźć inne wytłumaczenia.
Najbardziej oczywistym jest to, że wbrew powszechnym narzekaniom 15-latkom się chce.

Brak bardzo złych odpowiedzi

W całym Polskim badaniu (na 4607 formularzy uczniowskich opublikowanych w zbiorze) jest aż jeden (tak, dokładnie jeden na 4607 opublikowanych formularzy) uczeń, który nie odpowiedział poprawnie na żadne z pytań. W innych krajach jest niewiele lepiej. W Kanadzie na 21,544 opublikowanych wyników jest tylko 48 takich „zupełnych analfabetów”.

W dobrym badaniu, w którym chce testować się szeroką rozpiętość umiejętności, umieszcza się zarówno proste jak i trudne pytania.
Dlatego w puli zadań są też dla przeciętnie wyedukowanego gimnazjalisty zadania oczywiste.
Są wręcz pytania, do których rozwiązania wystarczy umiejętność czytania.
Jednym z powodów, dla którego takie zadania są potrzebne jest chociażby ocena na ile poważnie uczniowie podchodzili do badania. Do analizy rzetelności należy najpierw zbadać zaangażowanie studentów biorących udział w tym badaniu.

Identyczne odpowiedzi

Około 10% polskich formularzy (419 na 4607) odpowiedzi jest w 100% zgodne z jakimś innym formularzem. Nie jest to ani efekt typu „obaj uczniowie odpowiedzieli dobrze na wszystkie pytania”, ani „obaj nie odpowiedzieli na żadne” — dotyczy to również formularzy, gdzie poprawnie odpowiedziano na połowę czy 2/3 pytań. Przypadkowa zbiezność jest nieprawdopodobna.

To nie jest takie dziwne jeżeli uwzględnić, że część pytań jest bardzo prosta i większość uczniów je robi, część jest trudna i większość ich nie robi. Wygląda jak zwykły paradoks dnia urodzin

Nawet przyjmując za dobrą monetę rzetelność badania, należy właściwie interpretować ten „niesamowity polski sukces” — oznacza on, że jeśli uczniom dajemy 40 pytań, w większości banalnych i skrajnie oczywistych, to na całym świecie w roku 2000 średnio uczniowie odpowiadali poprawnie na 24 z nich, a w Polsce dziś aż na 25.

To niezrozumienie sposobu w jaki bada się umiejętności. Badania w kwestionariuszu nie mają takich samych poziomów trudności. Wręcz mają różną skalę trudności. Może być dużą różnicą przeskoczenie z poziomu 24 rozwiązanych zadań na 25 rozwiązanych zadań ponieważ to dodatkowe zadanie świadczy to o szerszej skali umiejętności.

Analogia ze sportu. Jeżeli mistrzowie z Jamajki biegają 100 metrów w 9.9 sekundy a mistrzowie z innych krajów biegają 100 metrów w 10 sekund, to nie mówimy że różnica jest niewielka. Ta jedna setna robi różnice, bo każda kolejna jedna setna wymaga bardzo dużego zestawu umiejętności.

Podobnie jest z rozwiązaniem średnio 24 lub 25 zadań. To są duże różnice.

Symbole krajów według prywatnej konwencji PISA (kto im bronił stosować konwencję ISO?), ale daje się domyśleć, że POL to Polska, EST – Estonia, a SWE – Szwecja. QCN to Szanghaj.

PISA używa konwencji ISO 3 (trzyliterowe skróty). Wyjątkiem są obszary, które nie są krajami i nie mają swoich kodów ISO
(np. Szanghaj).

Jeszcze jedna ciekawostka: w zbiorze „surowych” danych z całego świata są dane z tylko 43 krajów. A w PISA uczestniczy 65. Dane z pozostałych wyparowały. Według publikacji PISA badanie dotyczyło „around 510 000 students”, a w udostępnionym pliku są tylko 271,323 rekordy.

Polecam korzystanie z pakietu PISA2012lite dla programu R (darmowy open source do analiz statystycznych).
https://github.com/pbiecek/PISA2012lite
Są dane la wszystkich krajów do załadowania w kilkanaście sekund (nie licząc czasu ściągania 200MB z internetu).

Chodzą wprawdzie plotki, że w różnych krajach (w tym Polsce — ponoć uczniowie nie odpowiadali na pytania z rachunku prawdopodobieństwa) część zadań nie była oceniana, a ich wyniki byłý ekstrapolowane z wyników innych zadań.

Nie wiem gdzie takie plotki chodzą. W przypadku prawdopodobieństwa łatwo sprawdzić, że polscy uczniowie na pytania z rachunku prawdopodobieństwa odpowiadali. Jak to sprawdzić? Należy wybierając z klasyfikacji tylko zadania z prawdopodobieństwa i sprawdzać odpowiedzi dla Polski.

W ogólności jest tak, że nie wszystkie zestawy zadań były rozlosowane po wszystkich krajach. W roku 2012 zadania z matematyki były pogrupowane w 7 grup (klastrów). Przy czym grupy 6 i 7 wstępują w dwóch wariantach 6A/7A i 6B/7B. Wersja A jest trudniejsza niż B.

Dlatego w krajach w których spodziewano się niższych wyników rozlosowano więcej łatwych zadań by utrzymać dobrą rozdzielczość testu dla niższego poziomu umiejętności.

Patrząc na te liczby weźmy poprawkę na manipulację danymi (patrz niżej) — magiczne zniknięcie ankiet z bardzo złymi wynikami. Zauważmy, że na tym obrazku nie są przedstawione wyniki polskich uczniów, ani ich losowej czy reprezentatywnej próby: sa to uczniowie-aniołowie, spośród których ponad 98% odpowiada na najprostsze zadania! To tak, jakbyśmy w 30-osobowej klasie gimnazjalnej nie mieli ani jednego matoła, oddającego pustą kartkę, albo pokazującego nam gest Kozakiewicza na prośbę o wypełnienie testu.

Nie wiem po co uczniowie mieliby pokazywać ,,gest Kozakiewicza na prośbę o wypełnienie testu”. Może żyję w innej rzeczywistości, ale nie dziwi mnie to, że uczniowie otrzymując zadania próbują rozwiązać przynajmniej kilka, choćby z czystej ciekawości.

Badanie jest tak skonstruowane, że na rozwiązywanie zadań są ponad dwie godziny (dokładniej godzina przed i godzina po krótkiej przerwie). Po tych dwóch godzinach student proszony jest o wypełnienie kwestionariusza osobowego.
Dziwiłoby mnie gdyby uczniowie z czystej złośliwości oddawaliby puste arkusze bez próby rozwiązania zadań i czekali dwie godziny na wypełnienie kwestionariusza osobowego siedząc w ławce i się nudząc.