PISA 2012 – w jakich kategoriach poprawiliśmy nasze wyniki

Na początku grudnia opublikowano wyniki z badania PISA 2012, które dotyczyły umiejętności 15-latków z różnych krajów. Polscy uczniowie wypadli dobrze w tych badaniach, ale bardziej niż dobry wynik cieszy systematyczna (obserwowana przez ostatnie 12 lat) poprawa poziomu umiejętności.

Dziś napiszemy o tym w jakich obszarach umiejętności rosły najszybciej. Ale zanim napiszę o wynikach, kilka zdań o metodologii: Analizie poddamy 29 krajów które brały udział w badaniach PISA 2003 i PISA 2012. Te badania są odległe o 9 lat, oba skupione na matematyce, co znaczy że większość z pytań w tych dwóch edycjach dotyczyła matematyki.
Ponadto wybierzemy tylko te zadania, które rozwiązywano zarówno w teście z roku 2003 i z roku 2012. Czyli będziemy sprawdzać jak liczba poprawnych odpowiedzi na dokładnie to samo pytanie zwiększyła się po dziewięciu latach. Każde pytanie jest sklasyfikowane ze względu na dziedzinę wiedzy – czy pytanie dotyczy matematyki czy nauk przyrodniczych? Jeżeli matematyka, to czy to pytanie z algebry czy z rachunku prawdopodobieństwa? Jakich kompetencji to pytanie wymaga – szukania połączeń, czy reprodukcji?

Dziedziny wiedzy

Prawy wykres przedstawia promil rozwiązanych zadań w podziale na obszar zadania. Każda szara kropka to jeden kraj, czerwona kropka to pozycja Polski. Dzięki takiej prezentacji możemy zobaczyć jak wygląda pozycja Polski względem innych krajów. Kolorowy prostokąt pośrodku oznacza 50% krajów o najbardziej średnich wynikach, dzięki temu łatwiej się zorientować, czy Polska jest w górnym kwartylu, czy bliżej środka rozkładu. Lewy wykres pokazuje jak promil rozwiązanych zadań zmienił się pomiędzy rokiem 2003 a 2012.

Po prawej stronie zaznaczono pozycje Polski w rankingu, biorąc pod uwagę tylko dziedzinę wiedzy. Na 44 kraje (nie wszystkie 69 krajów z badania PISA 2012 zostało tutaj uwzględnionych) w matematyce Polska znalazła się na 14. pozycji a w czytaniu na 9. Ranking na lewym wykresie prowadzony jest tylko w grupie krajów biorących udział w obu badaniach PISA 2003 i PISA 2012 – tych krajów jest mniej – tylko 29.

Co widzimy? Historia „czytania ze zrozumieniem” jest bardzo ciekawa. W większości krajów średni poziom umiejętności czytania ze zrozumieniem spadł. Poprawę zaobserwowano w sześciu krajach (wyraźnie wyróżniająca się grupa na wykresie), w tym największą w Polsce. W przypadku matematyki również obserwujemy znaczą poprawę wyników – średnio częstość poprawnie rozwiązanych zadań wzrosła o około 60 punktów promilowych (czyli bardzo dużo).

Obszary matematyki

Powyższy wykres pokazuje wyniki w rozbiciu na obszary zadań z matematyki. Sytuacja w większości obszarów wygląda dobrze, z wyjątkiem zadań związanych z rachunkiem prawdopodobieństwa. Jak widać, zrozumienie losowości jest niskie i jest to słaba strona naszych uczniów. Znacznie lepiej wygląda sytuacja w zadaniach dotyczących znajomości z geometrii, matematyki dyskretnej czy funkcji.

Ciekawie wygląda również historia dla algebry. Jak widzimy we wszystkich krajach zadania algebraiczne są rzadko rozwiązywane poprawnie, są prawdopodobnie trudniejsze niż pozostałe zadania. Dla większości krajów średnio rozwiązało je poprawnie poniżej 12% uczniów. Podobnie polscy uczniowie mieli z tymi zadaniami problemy, ale w porównaniu z innymi krajami wypadli na 19 pozycji na 44 kraje.

Wymagane kompetencje

Jeżeli chodzi o kompetencje niezbędne do rozwiązania danego zadania, to najlepiej uczniowie radzili sobie z zadaniami wymagającymi rutynowych operacji (reproduction). Pozycja w pozostałych obszarach jest gorsza, ale szybko się poprawia (więcej o tym co oznaczają te kompetencje można przeczytać tutaj).

Podsumowując, w większości obszarów sytuacja jest albo dobra, albo się poprawia, albo jest dobra i się poprawia.
Najsłabszym punktem naszych 15-latków są zadania wymagające znajomości rachunku prawdopodobieństwa. Obserwujemy w tej grupie co prawda poprawę wyników, ale mniejszą niż w innych grupach. Mimo to, wiedząc co jest słabą stroną, możemy nad nią więcej popracować.

15 myśli na temat “PISA 2012 – w jakich kategoriach poprawiliśmy nasze wyniki”

  1. Te roczniki wchodzą już w dorosłe życie. Przewiduję wzrost w społeczeństwie trzeźwego myślenia w związku z tym. Powoli będziemy się zmieniać dzięki Bogu i myślenie smoleńskie odejdzie w niechlubną przeszłość. Nawet myślenie oparte na rachunku prawdopodobieństwa poprawiło się znacznie jak widzę (38% do 66% poprawnych odpowiedzi) . Ludzie lepiej będą rozróżniali co jest prawdopodobne, co mało prawdopodobne a co jest myśleniem magicznym lub zwyczajnym łgarstwem…Te wyniki cieszą i motywują do stałej pracy edukacyjnej która jak widać nie idzie w las.

  2. Mój komentarz będzie pośrednio związany z tematem tego wpisu.

    Może warto na blogu napisać o metodologii badania PISA? Pewne rzeczy można liczyć, wskazywać zależności… ale przydałoby się jasne przedstawienie jak to badanie zostało przeprowadzone. Czy oraz w jakim zakresie można na podstawie tego badania wnioskować?

    Mogłoby się to przydać zwłaszcza w kontekście krytyki badań próbkowych (sondażowych), których ocena wystawiana jest przez pryzmat publikowanych wyników poparcia dla partii politycznych.

    Swoją drogą ciekawe byłoby opisanie również tego jakim błędem obarczone są prezentowane wyniki (przedziały ufności czy współczynniki zmienności), moglibyśmy ocenić jakość tych danych.

  3. @Maciej, rozumiem,że chodzi o streszczenie technicznego przewodnika [http://www.oecd.org/pisa/pisaproducts/pisadataanalysismanualspssandsassecondedition.htm]?

    Na ogólnym poziomie to proste [ponieważ próba prosta jest niewykonalna, losujemy szkoły a następnie uczniów w szkole i przypisujemy uczniom wagi by odtworzyć prawdopodobieństwo ich wylosowania gdybyśmy losowali z próļy prostej].
    Schodząc niżej robi się bardziej skomplikowanie, ocenę dokładności można robić na wiele sposobów, tutaj wykorzystano wagi replicate weights.

    W piątek spotykam się ze studentami, którzy w ramach koła może zajmą się analizą danych PISA. Może (dużo tych może) przy okazji pracy nad danymi opiszą pokrótce tę metodologię.

    W porównaniu do sondaży samo losowanie jest łatwe [populację z którą losujemy łatwo zdefiniować, wylosowana próba obejmuje w Polsce około 1% wszystkich 15 letnich uczniów], ale opisywana cecha bardziej złożona (to nie poparcie ale umiejętności, które nie są jednowymiarową cechą).

  4. @smarterpoland, tak własnie o coś takiego chodzi. Można by było w ten sposób przedstawić metodologię badania jako podstawowy element oceny reprezentatywności tych danych. ;) Jak również warto zawsze podawać taką “stopkę informacyjną”. Tu dobrym przykładem jest strona http://nastrazysondazy.uw.edu.pl/ która punktuje publikacje prasowe.

  5. @Maciej

    Może, poza przedstawieniem metodologii, warto by również przeprowadzić testy równości dla średnich, aby sprawdzić czy rzeczywiście jest różnica pomiędzy np. 10 a 18 miejscem?

    1. Testy dla równości średnich nie mają tutaj raczej zastosowania (oczywiście można je zastosować, ale po co?),
      W krajach gdzie dziennikarze opanowali pojęcie przedziału ufności przedstawia się poza średnimi i rankingiem też przedziały ufności,
      które zresztą łatwo znaleźć w sieci
      https://www.acer.edu.au/documents/PISA-2012-In-Brief.pdf

      Co do metodologii, na bazie tych danych można zorganizować pełny dwusemestralny kurs statystyki, jest materiał na omówienie zmiennych losowych, miar zależności, estymacji i testowania. W dodatku z uwzględnieniem wag i projektowania eksperymentu, niestandardowe próbkowanie, analizę danych ankietowych (co przekracza program większości polskich kursów statystyki).

  6. @smarterpoland

    Dlaczego testy równości średnich nie mają tutaj zastosowania?

    W Podanym przez Ciebie linku, jak i w praktycznie wszystkich opracowaniach przygotowanych przez inne kraje, które miałem okazje przeglądać, jest podział na trzy kategorie:
    – kraje z istotnie wyższym wynikiem
    – kraje z wynikiem, który jest z grubsza “taki sam”.
    – kraje z istotnie niższym.

    Opisana wyżej prezentacja danych wydaje mi się jak najbardziej sensowna.

    Patrząc szybko na przedziały ufności dla średnich widać, że równie dobrze Polska mogłaby wylądować 5 pozycji wyżej/niżej (dla matematyki). Aż się prosi, aby zastosować test istotności dla średnich.

    1. Przedziały ufności buduje się by przedstawić niepewność dotyczącą szacowanego parametru. Z danych widzimy, że jest kilku punktowa niepewność dotycząca pomiaru średniej w Polsce, moim zdaniem to użyteczna informacja.

      Testy wykonuje się by określić czy są podstawy do stwierdzenia, że któreś średnie nie są równe. Wybór hipotezy zerowej (=średnich do porównania) powinien mieć miejsce przed zobaczeniem wyników i powinien czemuś służyć.
      Widząc wyniki może i pojawia się pokusa porównania pozycji 10. i 18. ale jaka jest testowana hipoteza/model?
      Czy naprawdę interesującym pytaniem jest porównanie pozycji 10. i 18. w losowym rankingu?

      Pytanie ,,które kraje mają średnią istotnie różną od Polski” jeszcze jestem w stanie zrozumieć. Ale porównywanie pozycji w rankingu, w którym wymieszane są kraje, miasta, regiony a nawet kilka stanów nie przemawia do mnie.

  7. @smarterpoland

    “Czy naprawdę interesującym pytaniem jest porównanie pozycji 10. i 18. w losowym rankingu?”

    Moim zdaniem tak, ponieważ pozycja w rankingu przekłada się na reale działania (bądź ich brak). Warto mieć świadomość, czy za pozycją kryje się rzeczywista różnica w rozkładach, czy też takiej różnicy nie ma.

    Banalny przykład: Polska wyprzedza Niemcy w PISA 2012: jest radość i fanfary (wg PISA 2012 Results in Foucs http://www.oecd.org/pisa/keyfindings/pisa-2012-results-overview.pdf, str. 7 różnica nie jest istotna)

    Finlandia spada w rankingu, natychmiastowa dyskusja pod wykresem zamieszczonym na The Economist (http://www.economist.com/blogs/graphicdetail/2013/12/daily-chart-1). Pierwsze komentarze: wina imigrantów.

    “Ale porównywanie pozycji w rankingu, w którym wymieszane są kraje, miasta, regiony a nawet kilka stanów nie przemawia do mnie.”

    Tutaj pełna zgoda. Niemniej jednak, skoro już taki ranking jest i jest on interpretowany, to moim zdaniem warto powiedzieć, jak nie należy go czytać.


    “Widząc wyniki może i pojawia się pokusa porównania pozycji 10. i 18. ale jaka jest testowana hipoteza/model?”

    H0: średnie krajów na 10 i 18 miejscu są równe
    H1: nie są

    ;-)

    1. @Wojciech,
      jeżeli przyjąć, że stawiamy hipotezę przed zobaczeniem danych, to testowanie 10. i 18. miejsca w rankingu jest dziwne, nie wiadomo jeszcze, które kraje są na tych miejscach.

      Ale zgadzam się, że zanim na bazie wyników podjęte będą jakieś akcje (te badanie są prowadzone by jakieś akcje podejmować) trzeba ocenić czy obserwowane zależności nie są przypadkowe.

      I jeżeli w mediach są rankingi to warto mówić jakich wniosków z rankingu nie da się wyciągnąć.
      Przykładowo średnia Polska jest istotnie lepsza niż Czech, ale czy to znaczy że mamy zdolniejsze dzieci, lepszych nauczycieli, lepszy system edukacji, szerszy dostęp do zasobów edukacyjnych, np. Internetu itp, wyższe aspiracje? Właściwie skąd ten dobry wynik?

  8. Mój komentarz trochę odbiegający od głównego tematu, ale mam nadzieję, że uda mi się uzyskać odpowiedź. Jestem nową użytkowniczką R i w ramach mojej pracy zaliczeniowej na uczelni analizuję wyniki PIAAC. Po zobaczeniu tych grafik zastanawiam się, jak można je wykonać. Dziękuję.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">