Otrzymałem ostatnio link do bloga pana Ksawerego Stojdy ,,PISA 2012 – próba analizy krytycznej”, w którym autor krytykuje badanie PISA przedstawiając własne doświadczenia z analiz danych PISA 2012.
Autor tego bloga podjął się niezależnych analiz danych PISA (chwała mu za to) ale dosyć szybko się zraża i jak coś mu się nie pasuje to często używa słowa ,,manipulacja” (o badaniu) lub ,,matoły” (o niektórych uczniach).
W wielu przypadkach wnika to z nieznajomości pewnych założeń badania. A że te założenia są ciekawe stwierdziłem, że warto o nich napisać w formie polemiki z blogiem pana Ksawerego Stojdy.
Wypada zaznaczyć, że nie jestem zupełnie obiektywny. Znając analityków pracujących nad analizami danych PISA mam wysokie zdanie zarówno o wynikach jak i o tym zespole osób. Znając również metody ich pracy, uważam wszelkie pomówienia o manipulacje za wysoce kłamliwe. W badaniu tej skali pewne rzeczy mogą być niejasne lub niedoskonałe, ale można niejasności łatwo wyjaśnić mailowo z prowadzącymi badanie.
Poniżej umieszczam cytaty z w.w. bloga wraz z moimi komentarzami/sprostowaniami. Odnoszę się tylko do konkretnych zarzutów. Pomijam zdania opisujące ogólne przekonanie o manipulowaniu czymś przez kogoś bez konkretów.
Jako statystyka, bardzo cieszy mnie, gdy dyskusja przenosi się na poziom analizy danych. Mam nadzieję, że w miarę jak wiedza o konstrukcji badania PISA będzie powszechniejsza, liczba ciekawych wyników i wniosków wysnutych z tych danych będzie rosła i rosła.
Zaskakujące jednak jest przyjrzenie się liczbie pytań, na które odpowiadali poszczególni uczniowie. Drobne różnice byłyby zrozumiałe — do jednego zestawu weszło zadanie z 4 pytaniami Q1-Q4, a do drugiego takie z Q1-Q5. Tymczasem obserwowane różnice liczby pytań, za jakie oceniany był uczeń, są dramatycznie różne: od 13 do 45. Taka rozpiętość sugeruja raczej nie bałagan w tworzeniu zestawów pytań o niespójnej objętości, ale raczej usunięcie części odpowiedzi z publikowanych danych.
Jeżeli odrzucić teorie spiskowe to można łatwo znaleźć prawdziwą przyczynę takiej rozpiętości. Opisaną zresztą w dokumentacji.
Jest jeden specjalny zestaw zadań (o ile pamiętam booklet 20) który jest ,,One-hour booklet and short questionnaire (UH Booklet and UH Questionnaire) for students with special education needs”.
Ma on mniej zadań ale jest przeznaczony tylko dla uczniów ze ,,specjalnymi potrzebami”.
Zniekształcona grupa odniesienia
PISA deklaruje, że stara się z każdego kraju badać próbę uczniów tej samej wielkości (ok. 5000). Już to podejście tworzy zafałszowany obraz odniesienia populacji wszystkich badanych krajów (w domyśle całego świata) — Estonia wnosi do tej puli tyle samo co Francja, czyli estoński uczeń ponad 50 razy więcej, niż francuski. Te proporcje zotały jednak dodatkowo zniekształcone: z większości krajów próby sa wprawdzie około 5000, to kilka krajów jest bardzo silnie nadreprezentowana, nawet do liczności ponad 20,000, czyli ponad czterokrotnie. Takimi nadreprezentowanymi w tworzeniu obrazu odniesienia krajami są m.in. Emiraty Arabskie, Kanada i Finlandia.
Minimalna wielkość próby (ustawiona na około 5000) jest potrzebna by uzyskać odpowiednią dokładność oceny średnich umiejętności w kraju. Większa próba w niczym nie szkodzi.
Każdy student ma wagę opisującą jego ,,reprezentatywność”. Dlatego wszystkie analizy powinny być przeprowadzane z uwzględnieniem tych wag. W krajach gdzie wykonano ,,oversampling” wagi są niższe by uwzględnić różne wielkości próby.
Podobnie w krajach takich jak Luksemburg, gdzie w całym kraju być może nie ma 5000 15-latków, wagi są tak dobrane by uwzględnić inne reprezentatywności studentów z poszczególnych krajów.
Kraje robiły oversampling (jeżeli chciały) by się czegoś dodatkowego ciekawego dowiedzieć. O ile pamiętam Polska robiła oversampling szkół prywatnych, dzięki czemu lepiej mogła ocenić charakterystyki szkół prywatnych.
W próbie jest więc więcej uczniów ze szkół prywatnych i więcej uczniów ze szkół małych niż jest ich w całym kraju, ale po to są wagi by te różnice uwzględnić.
Aby poprawnie wykonać analizy należy te wagi uwzględnić (tak jak jest to opisane w przewodniku po metodologii).
Zastanówmy się jednak nad realnością sytuacji, że na 30% najłatwiejszych pytań potrafiło odpowiedzieć (i odpowiedziało) ponad 98% uczniów. Mamy tylko 2% matołów i olewaczy? To jest dopiero sukces polskiej szkoły!
Z drugiej strony popatrzmy na prawą stronę tego wykresu: tylko 5% uczniów (i to już tych przeselekcjonowanych manipulacją PISA…) umie odpowiedzieć na co najmniej 90% pytań — z tego, co można wnioskować po przeczytaniu tych kilku ujawnionych — pytań trywialnych i oczywistych dla każdego, kto uzyskał maturę za czasów minionego ustroju.
Konstrukcja zadań w badaniu PISA zakłada, że w kwestionariuszu są zarówno bardzo proste jak i bardzo trudne zadania. Dlatego jedynie niewielka liczba uczniów nie potrafi rozwiązać żadnego zadania lub potrafi rozwiązać wszystkie zadania.
Takie zestawienie zadań pozwala z dobrą dokładnością szacować poziom umiejętności zarówno osób słabych jak i bardzo dobrych. Jeżeli tym samym formularzem planujemy porównywać wyniki elitarnych szkół w Korei czy Singapurze ze szkołami w Meksyku czy Peru to musimy mieć formularz o szerokiej skali.
Patrząc na to, jak wygląda rozkład umiejętności 15-latków na świecie, uczniowie w Polsce mają całkiem niezłą sytuację.
Nikogo nie dziwi, że 15-latek w Polsce potrafi biegle czytać i pisać. A to umiejętności wystarczające do rozwiązania pewnych zadań i umiejętności wcale nie takie oczywiste wśród 15-latków w innych krajach.
Błędna dokumentacja
PISA opublikowała „surowe dane” jako plik tekstowy wraz z opisem jego składni (jak zapisane są informacje). Ten opis jest ewidentnie fałszywy, w szczególności według opisu każda linijka tych danych powinna zawierać 545 znaków, natomiast plik składa się z linijek o długości 541 znaków.
Nazywanie opisu ,,ewidentnie fałszywym” ponieważ brakuje nazw dla ostatnich czterech kolumn jest chyba nadużyciem.
Nie znam żadnego badania opartego o ankiety wykonanego w skali PISA (500 000 przebadanych osób w ponad 60 krajach, setki zmiennych, trzy formaty zapisu danych), które byłoby tak dobrze opisane i udokumentowane.
Jeżeli ktoś ma problemy z odczytaniem pliku tekstowego, może korzystać z gotowych danych do wczytania jednym kliknięciem w formacie programu SPSS, SAS czy R (np z pakietu PISA2012lite https://github.com/pbiecek/PISA2012lite)
Można również poprosić zespół PISA o wsparcie. W razie wątpliwości zaktualizują dane lub rozszerzą opis.
Pracując na danych z 2003 roku okazało się, że brakuje kilku kolumn, wystarczyło napisać maila i po dwóch dniach dane były uaktualnione.
Brak informacji o zadaniach
W publikowanych danych nie ma treści zadań. Nie ma też o nich tak ważnych informacji, jak to, to jakiej grupy trudności były zaliczone i jaka była ich punktacja. Jedyne, co można się dowiedzieć, to:
Część zadań jest publikowanych po badaniu. Ale większość nie.
I jest ku temu powód. Część z tych zadań jest wykorzystywana w kolejnych edycjach badania aby móc rzetelnie badać czy poziom umiejętności w rozwiązywaniu określonego zadania wzrósł czy nie.
Te pytania są silnie strzeżonym sekretem.
Takie pytania są potrzebne by można było porównywać wyniki pomiędzy różnymi edycjami (wyskalować dane do tendów).
Brakujące pytania
Na liście znajdujemy pytania o nazwach: „MATH – P2012 Chocolate Q2″, „MATH – P2012 Chocolate Q3″ i „… – Q5″. Ale o pytaniach Q1 i Q4 do tego tekstu ani widu, ani słychu. Podobnych brakujących pytań jest bardzo dużo, dotyczy to niemal połowy zadań. W najgorszym przypadku (najtrudniejsze z zadań z serii ‚Reading’: „Narcissus”) mamy Q1, Q6 i Q7, ale Q2-5 nie istnieją. Uczniowie na te pytania odpowiadali, ale oceny odpowiedzi na nie zniknęły przed opublikowaniem zbioru „surowych” danych.
Pytania są najpierw opracowane przez ekspertów a później są testowane ,,na placu boju” (w badaniach pilotowych). Jeżeli eksperci przygotują siedem podpunktów do jednego pytania (czyli to Q1 … Q7) ale część z podpunktów nie przejdzie testów neutralności, to te podpunkty są usuwane z puli pytań i nie biorą udziału w badaniach.
Ale dla czytelności nie zmienia się oznaczeń pytań.
Testy neutralności polegają na przykład na sprawdzeniu, czy określone pytanie nie jest nadzwyczaj łatwe/trudne dla określonego kraju lub określonej płci. Jeżeli na etapie testów pytanie nie jet neutralne kulturowo to będzie usunięte by nie zaburzać wyników.
Brakujące ankiety
Z ogromnym zaskoczeniem zauważyłem, że w Polsce nie zdarzył się ani jeden przypadek ucznia, który oddałby pusty formularz: nie próbując nawet odpowiedzieć na żadne z pytań. Cóż za budująca masowość zaangażowania gimnazjalistów w badania naukowe! 😉
W wielu krajach sytuacja jest podobna, w niektórych innych takie formularze zdarzają się, ale ich liczba jest nierealistycznie niska (poniżej 1%)Nie potrafię znaleźć innego wytłumaczenia dla tego braku pustych odpowiedzi, niż usunięcie ich z pliku „surowych” danych.
No cóż, ja potrafię znaleźć inne wytłumaczenia.
Najbardziej oczywistym jest to, że wbrew powszechnym narzekaniom 15-latkom się chce.
Brak bardzo złych odpowiedzi
W całym Polskim badaniu (na 4607 formularzy uczniowskich opublikowanych w zbiorze) jest aż jeden (tak, dokładnie jeden na 4607 opublikowanych formularzy) uczeń, który nie odpowiedział poprawnie na żadne z pytań. W innych krajach jest niewiele lepiej. W Kanadzie na 21,544 opublikowanych wyników jest tylko 48 takich „zupełnych analfabetów”.
W dobrym badaniu, w którym chce testować się szeroką rozpiętość umiejętności, umieszcza się zarówno proste jak i trudne pytania.
Dlatego w puli zadań są też dla przeciętnie wyedukowanego gimnazjalisty zadania oczywiste.
Są wręcz pytania, do których rozwiązania wystarczy umiejętność czytania.
Jednym z powodów, dla którego takie zadania są potrzebne jest chociażby ocena na ile poważnie uczniowie podchodzili do badania. Do analizy rzetelności należy najpierw zbadać zaangażowanie studentów biorących udział w tym badaniu.
Identyczne odpowiedzi
Około 10% polskich formularzy (419 na 4607) odpowiedzi jest w 100% zgodne z jakimś innym formularzem. Nie jest to ani efekt typu „obaj uczniowie odpowiedzieli dobrze na wszystkie pytania”, ani „obaj nie odpowiedzieli na żadne” — dotyczy to również formularzy, gdzie poprawnie odpowiedziano na połowę czy 2/3 pytań. Przypadkowa zbiezność jest nieprawdopodobna.
To nie jest takie dziwne jeżeli uwzględnić, że część pytań jest bardzo prosta i większość uczniów je robi, część jest trudna i większość ich nie robi. Wygląda jak zwykły paradoks dnia urodzin
http://pl.wikipedia.org/wiki/Paradoks_dnia_urodzin
Nawet przyjmując za dobrą monetę rzetelność badania, należy właściwie interpretować ten „niesamowity polski sukces” — oznacza on, że jeśli uczniom dajemy 40 pytań, w większości banalnych i skrajnie oczywistych, to na całym świecie w roku 2000 średnio uczniowie odpowiadali poprawnie na 24 z nich, a w Polsce dziś aż na 25.
To niezrozumienie sposobu w jaki bada się umiejętności. Badania w kwestionariuszu nie mają takich samych poziomów trudności. Wręcz mają różną skalę trudności. Może być dużą różnicą przeskoczenie z poziomu 24 rozwiązanych zadań na 25 rozwiązanych zadań ponieważ to dodatkowe zadanie świadczy to o szerszej skali umiejętności.
Analogia ze sportu. Jeżeli mistrzowie z Jamajki biegają 100 metrów w 9.9 sekundy a mistrzowie z innych krajów biegają 100 metrów w 10 sekund, to nie mówimy że różnica jest niewielka. Ta jedna setna robi różnice, bo każda kolejna jedna setna wymaga bardzo dużego zestawu umiejętności.
Podobnie jest z rozwiązaniem średnio 24 lub 25 zadań. To są duże różnice.
Symbole krajów według prywatnej konwencji PISA (kto im bronił stosować konwencję ISO?), ale daje się domyśleć, że POL to Polska, EST – Estonia, a SWE – Szwecja. QCN to Szanghaj.
PISA używa konwencji ISO 3 (trzyliterowe skróty). Wyjątkiem są obszary, które nie są krajami i nie mają swoich kodów ISO
(np. Szanghaj).
Jeszcze jedna ciekawostka: w zbiorze „surowych” danych z całego świata są dane z tylko 43 krajów. A w PISA uczestniczy 65. Dane z pozostałych wyparowały. Według publikacji PISA badanie dotyczyło „around 510 000 students”, a w udostępnionym pliku są tylko 271,323 rekordy.
Polecam korzystanie z pakietu PISA2012lite dla programu R (darmowy open source do analiz statystycznych).
https://github.com/pbiecek/PISA2012lite
Są dane la wszystkich krajów do załadowania w kilkanaście sekund (nie licząc czasu ściągania 200MB z internetu).
Chodzą wprawdzie plotki, że w różnych krajach (w tym Polsce — ponoć uczniowie nie odpowiadali na pytania z rachunku prawdopodobieństwa) część zadań nie była oceniana, a ich wyniki byłý ekstrapolowane z wyników innych zadań.
Nie wiem gdzie takie plotki chodzą. W przypadku prawdopodobieństwa łatwo sprawdzić, że polscy uczniowie na pytania z rachunku prawdopodobieństwa odpowiadali. Jak to sprawdzić? Należy wybierając z klasyfikacji tylko zadania z prawdopodobieństwa i sprawdzać odpowiedzi dla Polski.
W ogólności jest tak, że nie wszystkie zestawy zadań były rozlosowane po wszystkich krajach. W roku 2012 zadania z matematyki były pogrupowane w 7 grup (klastrów). Przy czym grupy 6 i 7 wstępują w dwóch wariantach 6A/7A i 6B/7B. Wersja A jest trudniejsza niż B.
Dlatego w krajach w których spodziewano się niższych wyników rozlosowano więcej łatwych zadań by utrzymać dobrą rozdzielczość testu dla niższego poziomu umiejętności.
Patrząc na te liczby weźmy poprawkę na manipulację danymi (patrz niżej) — magiczne zniknięcie ankiet z bardzo złymi wynikami. Zauważmy, że na tym obrazku nie są przedstawione wyniki polskich uczniów, ani ich losowej czy reprezentatywnej próby: sa to uczniowie-aniołowie, spośród których ponad 98% odpowiada na najprostsze zadania! To tak, jakbyśmy w 30-osobowej klasie gimnazjalnej nie mieli ani jednego matoła, oddającego pustą kartkę, albo pokazującego nam gest Kozakiewicza na prośbę o wypełnienie testu.
Nie wiem po co uczniowie mieliby pokazywać ,,gest Kozakiewicza na prośbę o wypełnienie testu”. Może żyję w innej rzeczywistości, ale nie dziwi mnie to, że uczniowie otrzymując zadania próbują rozwiązać przynajmniej kilka, choćby z czystej ciekawości.
Badanie jest tak skonstruowane, że na rozwiązywanie zadań są ponad dwie godziny (dokładniej godzina przed i godzina po krótkiej przerwie). Po tych dwóch godzinach student proszony jest o wypełnienie kwestionariusza osobowego.
Dziwiłoby mnie gdyby uczniowie z czystej złośliwości oddawaliby puste arkusze bez próby rozwiązania zadań i czekali dwie godziny na wypełnienie kwestionariusza osobowego siedząc w ławce i się nudząc.
Sam dotąd przyjmowałem metodologię PISA za poprawną, usiłując dla poprzednich sprawdzić, ile tylko zdołałem, co proste nie jest. Dialog niezależnych badaczy z Konsorcjum PISA bywa wszakże burzliwy i dość jednostronny, jeśli zajrzeć np. tu:
http://www.univie.ac.at/pisaaccordingtopisa/pisazufolgepisa.pdf
Plotki, o których wspomniał Ksawery i o których Pan wspomina, rzeczywiście krążą. Nie wiem, czy akurat rachunku prawdopodobieństwa one dotyczą, czy ew. innej grupy zadań, niemniej takie są. Mówią, że w ramach rozmaitych zabiegów służących porównywaniu danych, uczniowie w kraju X rozwiązują inne zadania, niż w kraju Y i nie jest to wynik losowania pakietów, tylko świadoma decyzja badaczy. Następnie w bazie danych wyników kraju X pojawia się ekstrapolacja odpowiedzi wykonana na podstawie wyników uczniów kraju Y. Nie mam pojęcia, czy tak jest w istocie – ale dokumenty PISA opisujące metodę tego nie wykluczają. Będę zresztą chciał do tych danych uzyskać dostęp i rzeczywiście zobaczyć dane z kwestionariuszy. Mam nadzieję, że ma Pan rację i że to jest możliwe. Oraz, że po zaprzysiężeniu, czy czymkolwiek w tym rodzaju jednak da się obejrzeć treść oryginalnych zadań, bo to zwłaszcza ona moim zdaniem powoduje wątpliwości w najważniejszej kwestii – co dokładnie mierzy PISA i na jakiej podstawie twierdzi, że wyniki mają cokolwiek wspólnego z jakością szkół i da się na ich podstawie ułożyć w dodatku ranking.
Sam – korzystając z oferowanych przez PISA „multidimensional data requests” otrzymuję dane dotyczące np. uczniów klas 15-osobowych i mniejszych ze szkół położonych na wsi. W tych danych liczba kwestionariuszy bywa niecałkowita, co sugeruje, że pochodzą one nie tyle z rzeczywiście surowych rekordów bazy, ale z jakiejś procedury ekstrapolacyjnej (aproksymacyjnej?) – nie mam pojęcia. Jeśli przekrój tego rodzaju zwraca małą ilość kwestionariuszy, punktacja uczniów nie zostaje podana. Znów nie wiem – czy dlatego, że policzenie standardowej punktacji PISA wymaga większej grupy uczniów (rozwiązujących np. zadania z dużej grupy bookletów), czy dlatego, że odchylenie wyników jest zbyt duże. W każdym razie mam świadomość obcowania z danymi przetworzonymi.
W odróżnieniu od Ksawerego Stojdy przyglądam się danym PISA zakładając, że są prawdziwe – zresztą myślę, że to najbardziej prawdopodobna z wersji, choć sądzę również, że nader prawdopodobne są również te zabiegi na tematach zadań, o których mówią plotki. Niezależnie od wszystkiego dane PISA pokazują niezwykle silną zależność wyników od parametrów w rodzaju wykształcenie rodziców, pochodzenie ucznia (miasto-wieś), stopień zamożności itd., natomiast minimalny, o ile w ogóle zauważalny wpływ któregokolwiek z parametrów opisujących szkołę. To jest zrozumiałe, jeśli się spojrzy na treść zadań. Oraz na enuncjacje ekspertów np. w mediach. Pan Wiśniewski w MEN odpowiadał red. Bendykowi w Polityce, że PISA nie bada czegokolwiek wyuczonego w szkole, a tylko zdolność do rozumowania. Jeśli tak, to owa niezależność wyników od szkoły staje się najzupełniej zrozumiała – mamy po prostu do czynienia z nowym rodzajem testów IQ z ich wszystkimi zaletami i wadami. Skąd w takim razie entuzjazm i przechwałki prof. Marciniaka i min. Hall? Skąd wniosek, że to gimnazjom zawdzięczamy te fantastyczne zdolności czytelnicze i matematyczne piętnastolatków.
Interesują mnie poważne i niezależne badania na temat wyników PISA. W żadnym stopniu nie mogę uchodzić za fachowca w tej dziedzinie i szukam „kumpli” do tego zajęcia. Uważam propagandę wokół sukcesu polskiej szkoły za wysoce szkodliwą, jednak oczywiście nie oczekuję, że niezależna analiza tę szkodliwość potwierdzi – raczej, że będzie niezależna, rzetelna i spróbuje odpowiedzieć na kilka ważnych pytań. Jeśli byłby Pan skłonny pomóc, byłoby fajnie.
Cieszę się niezwykle, że podjął Pan polemikę z tą moją próbą analizy.
Pozwoliłem sobie kontrsprostować część Pańskich sprostowań:
http://osswiata.pl/stojda/2014/01/03/pisa-2012-analiza-krytyczna/#comment-2814
Nie interesuje mnie propaganda sukcesu, ale identyfikacja kierunków dzięki którym można poprawić edukację.
Stąd też we własnych analizach skupiam się bardziej na identyfikacji słabych i silnych stron, ponieważ one mogą służyć jako sugestie do rozwoju.
http://smarterpoland.pl/index.php/2013/12/pisa-2012-a-wielkosc-miasta-poziom-edukacji-rodzicow-czy-plec-uczniow/
http://smarterpoland.pl/index.php/2013/12/pisa-2012-a-tym-w-jakich-kategoriach-poprawilismy-wyniki/
W najbliższej przyszłości chciałbym zorganizować warsztaty/seminarium dotyczące analizy PISA i dyskusji tych danych.
Znalazłem kilku zainteresowanych doktorantów, ale myślę że zainteresowanie będzie większe bo to ciekawe dane i od strony wyników i metodologii.
Gdy już organizacyjnie będzie to bardziej dograne prześlę Panom kontakt, może będą Panowie zainteresowani wzięciem udziału, razem czasem łatwiej jest znaleźć rozwiązania problemów.
Gdyby Panowie (lub inni czytelnicy) chcieli pomóc w organizacji to też świetnie.
A poniżej przekopiowuję moje ,,odpowiedzi na odpowiedzi” z bloga Pana Ksawerego Stojdy.
@Paweł Kasprzak
Pozwolę sobie odpowiedzieć tylko na dwie kwestie.
1. Badanie PISA nie mierzy bezpośrednio jakości szkół. Mierzona jest sprawność indywidualnych uczniów po to by później porównywać różne przekroje uczniów [zamożni-biedniejsi, chłopcy-dziewczęta itp]. Oczywiście takim przekrojem może być szkoła, ale wtedy należy brać pod uwagę inne środowiskowe czynniki (rodzice, miasto, zamożność).
Ponieważ OECD działa na poziomie polityki edukacyjnej jednym z podstawowych zastosowań jest wykorzystanie danych do dyskusji na temat systemów edukacji (np. efekt decentralizacji podejmowania decyzji).
Moim zdaniem nieszczęśliwie się złożyło, że dyskusja na temat tych efektów została przesłonięta przez przyglądanie się rankingowi krajów.
2. Przy raportowaniu wyników przez zespół PISA jest przyjęte, że nie przedstawia się średnich wyliczonych na grupie uczniów mniejszej niż 35 uczniów i 5 szkół (oba warunki muszą być spełnione by raportować średnią).
Taki próg jest przyjęty aby uniknąć przypadkowych ”fluktuacji”. Być może dlatego niektórych przekrojów nie ma.
Liczba badanych studentów jest zawsze całkowita, ale ich wagi już nie są.
W przekrojach dotyczących udziału danej grupy w populacji (np. ile jest uczniów w szkołach prywatnych), być może są sumowane wagi co prowadzi do niecałkowitego wyniku.
@Ksawery Stojda
Ad 1.
Kolejnym powód fluktuacji długości bookletów jest taki:
Booklet składa się z czterech części, budowa bookletu polega na wybraniu odpowiednich części.
Części mają różną liczbę zadań, ale ,,stara się” utrzymać ich podobną trudność wyrażoną w czasie potrzebnym na rozwiązanie. Na każdą część student ma 30 minut. Tzn trudniejsze części mają mniej zadań a przez to booklety z trudniejszymi częściami mają mniej zadań niż booklety z łatwiejszymi częściami.
Ad 2.
Ile pytań, Pana zdaniem, jest potrzebnych aby odróżnić bardzo zdolną osobę od przeciętniaka?
To że w danych PISA pytań trudnych jest mniej niż łatwych nie oznaczy że jest ich za mało.
Każdy może zresztą zrobić własny ranking oparty wyłącznie o trudne pytania, dane są otwarte.
Ad 7. Rozwiązywanie zadań to nie są niezależne zdarzenia.
Nawet mając 10 zadań o trudności 50% to lepsi z uczniów je rozwiążą a gorsi nie, nie ma niezależnego losowania.
Zresztą jeżeli coś jest podejrzane to weryfikacja podejrzenia powinna być oparta o test statystyczny badające na ile to odstępstwo jest prawdopodobne, a nie ,,przeczucia”.
Pewnie, że jestem zainteresowany udziałem i kontaktem. Czytałem Pańską podlinkowaną tu analizę postępów w wynikach z matematyki i chcę Pana najszczerzej skomplementować, bo prosty skądinąd pomysł, by porówywać przekroje, a nie ogólne wyniki, jest dość unikalny.
Mam problem z Pańskimi wnioskami o tym, że wyniki uczniów są skutkiem edukacyjnej polityki, ponieważ moim zdaniem nic na to nie wskazuje również w danych PISA, które dość wyraźnie pokazują, jak silne są środowiskowe uwarunkowania, co Pan zresztą także zauważa. A nie udało mi się dotąd znaleźć źadnej zmiennej opisującej szkołę (np. tej o autonomii vs. centralna kontrola), która korelowałaby z wynikami. Wielkość klasy zabawnie tu wygląda, ponieważ wyniki rosną wraz nią – również w Polsce. Jeśli zajrzeć dalej, oczywiście okazuje się, że małe klasy są charakterystyczne nie tyle dla np. jakichś elitarnych szkół prywatnych (które z kolei można podejrzewać raczej o „cherrypicking”, a nie o skuteczność w tym względzie), co raczej po prostu często się zdarzają na wsiach. Okazuje się zatem, że ta zmienna nie dość, że zachowuje się paradoksalnie, to w rzeczywistości również opisuje nie to, co się nam wydaje, bo pokazuje bardziej „urbanizację” niż cokolwiek innego.
Swoją drogą mam też podstawowe trudności z czytaniem ze zrozumieniem treści zadań, a zrozumienie, którego mi brak polega na dostrzeżeniu związków pomiędzy tym, o co PISA pyta, a jakimkolwiek „wykształceniem”, z którym szkoła mogłaby mieć związek.
@Paweł Kasprzak
W takim razie będę się kontaktował gdy sprawa warsztatów się skonkretyzuje.
Jeżeli chodzi o politykę edukacyjną to nie twierdzę, że wyniki uczniów są skutkiem polityki edukacyjnej (z pewnością nie wyłącznie), ale że dane PISA pozwalają na dyskusję czy i jaki jest ten związek (bo być może jest mniejszy niż sądzimy).
Z pewnością w Polsce zmienia się jednocześnie wiele czynników i trudno ocenić, który z nich najbardziej jest związany z wynikami uczniów. Moim zdaniem rosnące aspiracje ludzi do lepszego życia i nadzieje, że da się to osiągnąć przez lepszą edukację, ale to tylko opinia a nie wynik.
Prywatnie uważam, że jakiś związek jest. Decyzjami politycznymi można zmniejszać lub zwiększać różnice pomiędzy określonymi warstwami społecznymi.
Systemowi ,,tracking” w Niemczech przypisuje się duży rozrzut wyników pomiędzy uczniami [potencjalnie wynikający ze wczesnej specjalizacji], równościowemu podejściu w Finlandii przypisuje się mały rozrzut w wynikach zamożnych i niezamożnych rodziców.
Z innej strony z badań PISA lata temu dowiedzieliśmy się, że Korea ma jedną z największych na świecie różnicę (performance gap) pomiędzy wynikami chłopców i dziewcząt. Podjęła różnorodne kroki by bardziej wspierać dziewczynki i na przestrzeni kilku lat udało się te różnice zmniejszyć. To efekt zmian w polityce edukacyjnej.
Informacji o systemach edukacyjnych nie ma w danych PISA, ale są do pobrania w raportach Education at Glance (też autorstwa OECD).
Co do zadań, nie mierzą one klasycznych umiejętności jakie są cenione w polskiej szkole. Wiele wygląda na przydatne (mnie bliska jest matematyka, przydatne są umiejętności szacowania pól, czytania wykresów, liczenia trendów) choć niektóre mogą dziwić. Ale ten zestaw zadań to wynik kompromisu zespołu ekspertów z wielu krajów z różnymi pomysłami co jest ważniejsze.
Mając klasyfikacje zadań można tworzyć własne zestawienia, np. usuwając wszystkie zadania testowe, usuwając wszystkie zadania wymagające społecznych umiejętności itp.
Co do wielkości szkoły (chciałoby się mieć wielkość klasy), nie śledzę tego tematu zbyt dokładnie, ale słyszałem o badaniach pokazujących że duże klasy są problemem jeżeli przekraczają 50 uczniów. Klasy w wielkości 30 osób są ok, jeżeli nauczyciel potrafi to wykorzystać do pracy grupowej, bo dzieci szybciej uczą się od innych dzieci. Ale pewnie są różne opinie a nie miałem jeszcze czasu by się bliżej temu tematowi przyjrzeć.
Nie mam wątpliwości co do naukowej rzetelności badań PISA, natomiast dziwi mnie waga przywiązywana do wyników tych badań. Polecam długie, ale warte lektury i zastanowienia opracowanie: http://www.nap.edu/catalog.php?record_id=12521 na tema przydatności testów do badania rzeczywistości, w tym w edukacji.
Chciałem także skomentować że duże różnice w wynikach w obrębie tego samego społeczeństwa czasem są konsekwencją przyjętego modelu. W Niemczech wcześnie dzieli się dzieci na różne kierunki, od rzemiosla po scieżkę akademicką. Przez lata to funkcjonowało bo gospodarka potrzebowała rzemieślników i wykwalifikowanych robotników, których zadowolenie z życia nie ustępowało poziomowi klasie średniej.
Podobnie Francja ze swoim wydawałoby się absurdalnym system Grand Ecoles i reszty prze dekady była wiodącym krajem świata, Minitel, TGV, energetyka jądrowa, broń atomowa, Airbus, Arianne. Mam wrażenie że system zaczął pękać ze względu na problemy z emigrantami luźno sprzężone z systemem edukacji.
Na koniec Korea Płd, lider PISA, mocno pracuje nad przebudową dotychczasowego systemu
Jestem za zachowaniem dystansu i zdrowego rozsądku, nie ma żadnych przesłanek by krytykować rzetelność analizy PISA. Błędem jest sprowadzanie tego badania do rankingu krajów.
Na początek przepraszam za automat anty-spamowy, który przesłał Pana wypowiedź do złego folderu.
Pełna zgoda do co do stwierdzenia, że ,,Błędem jest sprowadzanie tego badania do rankingu krajów”.
Ranking krajów jest silnie zależy od struktury porównywanych populacji (np. jaka część rodziców ma wyższe wykształcenie w danym kraju),
a PISA to dziesiątki znacznie ciekawszych problemów niż ranking krajów.
Nie wszystkie pytania PISA to pytania testowe w klasycznym sensie tego słowa [zaznacz poprawną odpowiedź]. Są pytania mniej i bardziej otwarte, można na przykład dostać częściowo poprawną odpowiedź ponieważ pomyliło się jednostki lub źle zaokrągliło wynik.
Aktualne narzędzie pomiarowe nie jest z pewnością doskonałe. Ale zamiast je dyskredytować [co niektórzy czynią] lepiej włożyć energię w proponowanie usprawnień. Lepiej jest moim zdaniem badania nad edukacją traktować jak dziedzinę nauki. A w nauce wnioskowanie przeprowadza się na podstawie odpowiednich danych, więc trzeba dane zbierać.
A ja nie miałem wątpliwości, że PISA w swoich założeniach ma masą błędów zarówno w zakresie metody pomiarowej jak celów. Pisałem o tym, we wrześniu 2013 r. (Od TQM do „żandarma”, czyli pod prąd”). Teraz kiedy pękła bańka, podobnie jak w 2000 r. z wynikami Austrii warto powrócić: czas wygasić MEN i powołać KEN.
Panie Doktorze,
serdecznie dziękuję za podjecie tematu w sposób wyważony, a profesjonalny. „Wiedza jest najlepszą tarcza ochronna przed głupotą. mawiał znany mi socjolog.
Z niecierpliwością czekam na informację o planowanym przez Pana seminarium – gdzie będzie można się o nim dowiedzieć? Tylko tu na blogu?
Z wyrazami najwyższego uznania i wdzięczności za „ludzkie oblicze” statystyki
Ewa Kędracka
A może seminarium na temat użyteczności testów jako narzędzia badania rzeczywistości? Jedną z lektur mogłoby być to opracowanie:
http://www.nap.edu/openbook.php?record_id=12521
Serdeczne pozdrowienia
Lech Mankiewicz
Tematyka ciekawa, ale kto to poprowadzi?
Ja czuję się na siłach prowadzenie dyskusji nad technikaliami analizy danych,
gdyby znalazł się ktoś z doświadczeniem w ,edumetrii’ by pociągnąć wskazany temat to ja chętnie pomogę w znalezieniu sali i przyjdę posłuchać.
Dziękuję,
w sprawie warsztatów: gdy już temat będzie bardziej zaawansowany wyślę maila również wszystkim osobom komentującym ten wpis.
Szanowny Panie Przemysławie!
Jestem (prawie) pewny (na cztery dziewiątki, czyli 99,99%), że podczas badania wystąpiły dwa zjawiska:
(1) automatyczne, rutynowe, nieformalne zwolnienie z lekcji kilku uczniów z każdej klasy (w celu uzyskania wysokich wyników wystarczy „dać wolne” średnio tylko jednemu uczniowi z klasy),
(2) odrzucenie pustych odpowiedzi.
Być może pojawiły się sytuację, w których do klasy piszącej test (z tego co rozumiem klasa szkolna była operatem losowania) byli dołączani inni uczniowie.
Czy istnieje możliwość dowiedzenia się w jaki sposób było przeprowadzane badanie. Czy ankiety dostały szkoły, czy też były one przewożone przez ankieterów? Kto pilnował uczniów podczas pytania? Jaka była frekwencja uczniów podczas testu?
Może mógłby Pan napisać, czy ktokolwiek, w jakimkolwiek kraju zajmował się takimi problemami.
Pozwolę sobie na komentarz Pana wpisu dotyczącego brakujących ankiet „Najbardziej oczywistym jest to, że wbrew powszechnym narzekaniom 15-latkom się chce”.
Zazdroszczę Panu wiary w piękny i dobry świat.
Z poważaniem
Piotrek
@Piotr S
Skąd ta pewność? Czy z przekonania czy wyników analiz?
Co do sposobu przeprowadzania badania,
badanie jest monitorowane przez OECD pod kątem ewentualnych oszustw,
o ile pamiętam w 2009 z tego powodu usunięto wyniki z jednego państwa bo pojawiły się podejrzenia o próby oszustwa.
Monitorowane jest ilu z uczniów wylosowanych do badania ,,nie pojawiła się”. Podobnie jak monitorowane jest jaka populacja 15-latków jest w danym kraju w systemie edukacji. Są takie przypadki, ale są też widełki określające maksymalną absencję przy której szkoła nie jest usuwana ze względu na nie reprezentatywność wyników.
Każde państwo zdaje sobie sprawę jak ważne jest to by dobrze wypaść w światowym rankingu bo tam gdzie są umiejętności inwestuje określony przemysł. Marketingowo te wyniki są niesamowicie ważne.
Nie znam szczegółów monitoringu, ale można je uzyskać kontaktując się z zespołem PISA. [zazwyczaj odpowiadają w ciągu dwóch trzech dni]
Oczywiście też proszę o podzielenie się odpowiedzią, z pewnością wiele osób ciekawi jak ten monitoring wyglądał.
Co do wiary,
po krótkiej emigracji i powrocie do kraju rzeczywiście zaskoczyło mnie jak wiele osób nie może uwierzyć,
że mamy nieźle wyedukowaną młodzież.
Oczywiście należy być krytycznym w stosunku do wyników. Ale sprawdzałem te wyniki w różnych cięciach, dla dużych miast, małych, wyedukowanych rodziców, niewyedukowanych rodziców, dziewcząt, chłopców, szkół prywatnych i publicznych.
Wyniki były zgodne ze sobą i zmiany są spójne przez te przekroje spójne z poprzednimi edycjami.
Aby sfałszować dane w sposób niewidocznych dla takich przekrojów trzeba mieć wiele szczęścia lub wiele umiejętności.
Panie Piotrze:
polecam lekturę zbioru artykułów http://www.univie.ac.at/pisaaccordingtopisa/pisazufolgepisa.pdf.
Niska frekwencja była powodem wyłączenia Anglii z tego badania (S.J.Prais: Poor Survey Response…)
Wiara w dobre chęci i zaangażowanie 15-latków: poza zdroworozsądkową obserwacją polskich gimnazjalistów, warto przeczytać komentarz Svein Sjøberg: PISA and “Real Life Challenges”: Mission Impossible?, op. cit.
W tej samej kolekcji znajdzie Pan też kilka gorzkich uwag J.Wuttke o znikających w Polsce formularzach.
Jeśli mamy się czymś szczycić, to nie tym, że polscy uczniowie są w ostatecznym rankingu PISA o 1/7 odchylenia standardowego powyżej średniej światowej, ale tym, że zaangażowanie polskich uczniów jest o 5 odchyleń standardowych lepsze, niż w innych krajach! To jest ten nasz prawdziwy polski cud edukacyjny.
Ciekawe zestawienie krytycznych artykułów.
Proszę jednak zauważyć, że te artykuły dotyczą badań PISA 2000-2006.
Jeżeli przyjąć, że wtedy wyniki były ,,podbijane” przez usuwanie uczniów z dysleksją (o czym pisze Wuttke) to wciąż pozostaje trend z którego wynika, że wyniki w Polsce w roku 2012 są wyższe niż w poprzednich edycjach.
Wyniki PISA są coraz wyższe, ale można to interpretowac równie dobrze jako „coraz lepiej uczymy dzieci” jak i jako „coraz lepiej podbijamy dane”.
Dopóki nie wyeliminuje się drugiej z tych możliwości, to jakiekolwiek wnoski z badania są próżne.
Konkluzja „podbijamy dane tak samo, jak podbijaliśmy wcześniej” sugerowałaby raczej, że z „podbitych” badań nie nalezy wyciągać żadnych wnosków — ani z podbitych dziś, ani z podbitych 6 lat temu, a komparatystyka pomiędzy produktami kolejnych „podbić” (czyli fałszerstw) nie jest specjalnie nośna poznawczo w odniesieniu do meritum.
Wuttke pisze nie tylko o wyłączeniach z racji dysleksji, ale i o magicznie znikających „złych odpowiedziach” — tym samym, na co ja zwracałem uwagę. (Pisa-acc-to-Pisa, Wuttke, p.250)
O nadużywaniu wyłączania z próby uczniów z dysleksją i pod innymi pretekstami „medycznymi” pisze w tym zbiorze Bernadette Hörmann(p.157 i następne)
Oczywiście, że to jest zestaw krytyk wobec PISA 200-2006! Nie oczekuje Pan chyba, że w ciągu miesiąca po opublikowaniu przez PISA raportu z badania PISA-2012 pojawi się kilkusetstronicowa, poważnie zredagowana książka, zbierająca artykuły kilkunastu autorów.
Warto jednak zauważyć, że nic w tych badaniach się nie zmieniło (poza, ewentulanie, pogłębiającą się banalizacją treści zadań). Choćby uwagi J.Wuttke o tym, że w Polsce jest nierealistycznie niska liczba odpowiedzi bardzo złych sa nadal aktualne — są dziś równie aktualne — sam to znalazłem w danych 2012 i wypunktowałem, zupełnie iezależnie od tej wcześniejszej krytyki Wuttkego.
Cenię bardzo krytyczne podejście do tematu.
Uwagi Pana i innych sceptyków są ciekawe i z pewnością należy je zweryfikować aby sprawdzić na ile mają one wpływ na końcowe wyniki. PISA to duże badanie i po drodze może wydarzyć się wiele ludzkich błędów. Im bardziej dane i metodyka będą otwarte tym bardziej będzie można kontrolować rzetelność całości.
W tym punkcie się chyba zgadzamy.
Różnica dotyczy w ocenie rzetelności obecnych wyników.
Czy są one wystarczająco dobre by je wykorzystywać do różnych działań (choćby ocena gender gap, nierówności społecznych na wyniki uczniów) czy też nie są wystarczająco dobre do analizy czegokolwiek.
Dla mnie argumentem za wystarczającą rzetelnością jest logiczna spójność wyników dla różnych państw. Porównując duże miasta do małych w większości państw historia jest podoba, porównując europejskie do azjatyckich, historia podobna i tak dalej. To mnie przekonuje, że nawet jeżeli wyniki obarczone są błędem to prawdopodobnie błąd ten jest mały.
Od krytyków oczekiwałbym konstruktywnych propozycji usprawnienia etapu zbierania danych lub ich analizy. Jeżeli jest podejrzenie, że znaczący wpływ na wyniki ma celowe ,,zwalnianie” słabszych uczniów to proszę zaproponować analizy odporne na ten zaburzenia (można badać kwantyle zakładając zawsze, że ci co nie przyszli mają najniższe możliwe wyniki).
Nie podoba mi się krytyka przeciwko mierzeniu umiejętności na globalnym poziomie per se. Cytując za http://asiasociety.org/
American schools were unquestionably the best in the world —
that is, until data showed otherwise in recent years.
Jest wiele szkodliwych mitów dotyczących tego co jest dobre w edukacji. Pokonać te mity można jedynie w oparciu o rzetelnie zbierane dane. Jeżeli te nie są wystarczająco dobre proszę zaproponować co można w nich zrobić lepiej. Jestem przekonany, że osoby sterujące badaniem i planujące teraz edycje 2015 i 2018 chętnie się o nich dowiedzą.
Sprawdzenie większości uwag moich, czy innych krytyków jest trywialnie proste jeśli już się przebrnęło przez odczytanie danych PISA. Proszę choćby sprawdzić samemu jak wygląda rozkład odsetka prac w zależności od odsetka poprawnie udzielonych odpowiedzi. Proszę porównać lewy ogon tego rozkładu dla Polski i dla porównania kilku innych krajów, np. Szwecji, Francji, Niemiec. Tu właśnie sam Pan zobaczy brak tej logicznej spójności pomiędzy krajami. A również brak spójności z codziennym doświadczeniem każdego nauczyciela. I brak spójności z innymi testami, jakie piszą polscy gimnazjaliści.
Sama spójność między krajami nie świadczy o rzetelności badania, a tym bardziej o ważności jego wyników. Redukując rzecz do absurdu: gdyby wynik dla każdego kraju był identyczny i w żaden sposób nie miał źródła w jakimkolwiek badaniu empirycznym, to wyniki byłyby doskonale spójne.
„Nie podoba mi się krytyka przeciwko mierzeniu umiejętności na globalnym poziomie per se”
Mierzyć można, tylko trzeba jasno określić, jakie umiejętności się mierzy. W przypadku PISA jest to nie tylko nieokreślone, ale przez utajnienie zadań zgodność badania z deklarowanymi celami pomiaru nie podlega żadnej weryfikacji. Tymczasem rozbieżność pomiędzy deklarowanym zakresem badania, a tym co wynika z ujawnionych przykładowych zadań jest dramatyczna.
Co więcej, znaczenie przykładane w wielu krajów do pozycji w rankingu PISA spowodowała, że pozycja ta stała się zastępczą, implicite wprowadzoną, definicją „dobrej edukacji”. Definicją zupełnie nieprzystającą do tego, co zdroworozsądkowo uznajemy za wartościową edukację, jakiej chcielibyśmy dla własnych dzieci.
Problem z pomiarem typu PISA (to samo dotyczy również np. TIMSS) polega między innymi na nieusuwalnym grzechu pierworodnym, czyli przyjęciu za G.Raschem założenia o istnieniu jednowymiarowej skali umiejętności, a w efekcie jednowymiarowej skali „jakości edukacji”. Zrzutowanie wszystkich aspektów edukacji na tę jedną oś nie jest procedurą obiektywną, ale wyborem aksjologicznym. Aksjologia badania nie jest jawna (poza propagandowo-fasadowymi hasłami), a to, co daje się odtworzyć z nielicznych opublikowanych zadań jest bardzo dalekie zarówno od celów deklarowanych przez PISA, jak i od celów edukacyjnych przyjętych przez poszczególne państwa.
Niestety: faktycznym celem głównym PISA jest stworzenie rankingu krajów, a do tego trzeba miary jednowymiarowej — choćby najbardziej arbitralnie i absurdalnie wybranej. PISA wybrała (inne pytanie, na ile świadomie i celowo, a na ile „tak wyszło”), a poza nielicznymi krytykami nikt nie stawia pytania o tę aksjologię stojącą za PISA, tylko wszyscy podniecają się sportową w stylu rywalizacją o kolejność na podium i liczbą punktów, których interpretacja jako miary czegokolwiek realnego jest niemożliwa.
„Jest wiele szkodliwych mitów dotyczących tego co jest dobre w edukacji. Pokonać te mity można jedynie w oparciu o rzetelnie zbierane dane.”
Nie zgodzę się. „to co jest dobre” i „rzetelne dane” leżą po przeciwnych stronach ostrza gilotyny Hume’a. Wykorzystanie jakichkolwiek danych do określenia „tego, co jest dobre” wymaga wcześniejszego przyjęcia założeń aksjologicznych i zdefiniowania celów. Pokonać te mity można wyłącznie w wyniku przeprowadzenia dyskusji na płąszczyznie aksjologicznej i zdefiniowania celów. Dane (rzetelne) mogą najwyżej stwierdzić skuteczność realizacji tych celów aksjologicznych. PISA nie bada zgodności polskiej edukacji z polskimi założeniami celów edukacyjnych, ani nawet nie z tymi celami, deklarowanymi w dokumentach PISA. Tu wraca problem porównań globalnych: różne kraje mają różnie zdefiniowane priorytety edukacyjne (aksjologię), a porównywanie krajów między sobą wymaga przyjęcia wspólnej aksjologii. Nie ma czegoś takiego, jak „obiektywne” porównanie systemów edukacji. PISA narzuca tu implicite swoją aksjologię — najdobitniej tę rozbieżność celów artykułują chyba autorzy z krajów nordyckich — w których szkoły są wyraźnie nie w stylu PISA, ale spełniają swoje cele społeczne nie gorzej, niż szkoły w pasującej do stylu PISA Finlandii — prymusa rankingów PISA.
Zarzut dotyczący tajności części zadań rozumiem, większa otwartość byłaby lepsza. Wyjaśniłem czym jest podyktowany (potrzebą porównywania wyników pomiędzy edycjami). Nawet jeżeli nie ma dostępu bezpośrednio do zadań to można o opinię na ich temat poprosić poprosić koordynatorów mających dostęp do tych zadań. Są to specjaliści z danej dziedziny z różnych krajów, potrafią tym samym opisać jaki rodzaj umiejętności jest mierzony.
W sprawie ,,jednowymiarowości” oceny. Jest to często stawiany zarzut badaniom umiejętności czy wiedzy, ale w przypadku danych PISA jest to zarzut zupełnie nietrafiony. Zadań, które rozwiązują uczniowie jest wiele, są dobrze sklasyfikowane, można na ich podstawie budować wielowymiarowe wskaźniki. W przypadku matematyki można konstruować podobszary ze względu na zawartość: Uncertainty and data, Space and shape, Quantity, Ze względu na kontekst: Societal, Scientific, Personal, ze względu na format: Simple Multiple Choice, Constructed Response Manual, Constructed Response Expert, ze względu na proces analityczny: Interpret, Formulate, Employ.
Takich podobszarów jest bardzo wiele i na każdy kraj można patrzeć w bardzo wielowymiarowy sposób.
Ponieważ zajmowałem się identyfikacją silnych i słabych stron w oparciu o podobszary planuję też o tym napisać tutaj na blogu. Ale najwcześniej pewnie w lutym. Wyprzedzając temat jako ciekawostkę napiszę tylko, że polscy uczniowie byli na podobnej pozycji we wszystkich podobszarach matematyki, nie mając jakichś wyjątkowo silnych lub słabych stron [średnio]. W innych krajach umiejętności były mniej wyważone.
”Niestety: faktycznym celem głównym PISA jest stworzenie rankingu krajów”. Trudno nazwać takie wypowiedzi inaczej niż 'farmazony’. Wystarczy zadać sobie trud przeczytania spisów treści czterech tomów analizy danych PISA 2012 opracowanych przez OECD. Treść tych tomów pokazuje co jest rzeczywistym celem tych badań i bynajmniej nie jest to robienie rankingów.
Rankingami ekscytują się media, ale we wspomnianych raportach są przedyskutowane efekty różnych akcji (np. szczegółowo omawiana jest akcja ,,Cała Polska czyta dzieciom” która jest podawana jako wzór do naśladowania dla innych krajów), problemu równości/nierówności szans edukacyjnych, wykluczenia imigrantów, postaw wobec szkoły. Wielu bardzo interesujących tematów.
Testy, które piszą polscy gimnazjaliści nie są spójne z testami, które przeprowadza PISA ponieważ różne są cele każdego z tych testów. W przypadku gimnazjalistów celem jest weryfikacja czy gimnazjalista posiada określoną wiedzę, ewentualnie ranking gimnazjalistów w rekrutacji do liceów. PISA ma szersze cele i nie ma tam miejsca na takie zjawiska jak ,,efekt sufitu” widoczny w gimnazjalnych testach.
Tematu gilotyny Hume nie będę ciągnął, pozostawię sprawę filozofom. Zaznaczę tylko, że pisałem o weryfikacji mitów, a jeżeli mit opisuje działanie i jego wynik, to mając tę parę można (mając dane) sprawdzić czy dane wspierają opisaną relację czy nie [nawet jeżeli jest to trudne i wymaga złożonych modeli]. Przykładowo mit na temat dobrej jakości szkół w USA raczej się nie broni.
„Zadań, które rozwiązują uczniowie jest wiele, są dobrze sklasyfikowane, można na ich podstawie budować wielowymiarowe wskażniki”
Zadań jest wiele, ale sa z załozenia wręcz jednowymiarowe. Gdyby takimi nie były, nie można byłoby ich wykalibrować w spójnej skali Rascha, co jest (dumnie podkreślanym w TechRep, jak to jest starannie zrobione) założeniem badania PISA.
Wielowymiarowość pytań PISA jest czysto pozorna — krótkie pytanie: czy ujawnione zadanie „Helen na rowerze” to pytanie w kontekście „societal”, „scientific”, czy „personal”? Ja nie potrafię go przypisać do żadnej z tych kategorii — a jesli badacze PISA przypisali, to był to czysto arbitralny wybór kwalifikacji, tworzący jedynie pozór wielowymiarowości.
Wielowymiarowością badania umiejętności matematycznych mogłoby być na przykład rozróżnienie pomiędzy wykonywaniem operacji arytmetycznych (np. ile jest 465*548?), a dowodzeniem twierdzeń (np. wykaż, że dla dowolnej liczby naturalnej n suma wszystkich liczb od 1 do n jest równa n(n+1)/2 ) Niczego takiego w PISA się nie doszukamy. I nic dziwnego — takie zadanie musiałyby być odrzucone, jako niespójne z resztą i niepoddające się raschowskiej kalibracji.
Zadania PISA są wielowymiarowe wyłącznie deklaratywnie. Tu nawet nie trzeba się domagać ujawnienia treści. Wynika to wprost z założenia badania, jakim jest model Rascha.
Jedynym, realnie badanym wymiarem (jak można sądzić po nielicznych ujkawnionych zadaniach) jest zdolność wyszukiwania informacji w tekście wprowadzającym, a stopień trudności sprowadza się do zawikłania tekstu.
„celem głównym PISA jest stworzenie rankingu krajów”. Trudno nazwać takie wypowiedzi inaczej niż ‘farmazony’. Wystarczy zadać sobie trud przeczytania spisów treści…”
Wystarczy zadać sobie trud (niewielki) obejrzenia sposobu prezentacji wyników w tych raportach PISA: jako tabel wyników poszczególnych krajów, uszeregowanych od najwyższej punktacji do najniższej.
Farmazony:
Pierwszą tabelą danych, jaka pojawia się w głównym raporcie PISA: „PISA 2012 Results: What Students Know and Can Do”, jeszcze przed „Readers’s guide” i omówieniem badania, jest zestawienie krajów: „SnapShot of performance in mathematics, reading and Science”, będące tabelą krajów z wynikami w poszczególnych konkurencjach, uszeregowaną od najwyższej punktacji do najgorszej, z podkolorowaniem top- and low-performers.
Pierwsze wytłuszczenie w „executive summary” tego raportu, to :
„Shanghai-China has the highest scores in mathematics, with a mean score of 613 points – 119 points above
the OECD average, or the equivalent of nearly 3 years of schooling.”
Jedyne zestawienie, jakie pokazane jest na głównej stronie PISA, to „Compare your country/economy”, a w nim klikalna mapka świata i zakładki: Overview, Compare Countries.
Nadal Pan twierdzi, że PISA nie buduje rankingów, nie ustawia krajów na podium i nie rozdaje medali według swoich niejawnych i nieweryfikowalnych kryteriów?
Na marginesie — skąd PISA badająca WYŁĄCZNIE piętnastolatków wzięła, że 119 punktów PISA to ekwiwalent 3 lat nauki?
PISA to nie tylko badania 15 latków. Kilka krajów prowadzi dodatkowe badania panelowe, nawet z kilkuletnim okresem obserwacji.
Ale każdy widzi to co chce zobaczyć.
Ja nie mam problemu z zauważeniem wyników nie związanych z rankingami.
Argumentacji co do ograniczeń związanych z modelem Rascha nie rozumiem. Ma Pan wyniki z odpowiedzi na pytania zakodowane w skali 'poprawna/częściowo poprawna/nie poprawna’, może Pan użyć innych modeli do analizy tych odpowiedzi.
Co do wielowymiarowości, podział na algebrę/geometrię/prawdopodobieństwo wydaje się całkiem wyraźny, podobnie jeżeli chodzi o format odpowiedzi i pytania testowe, wielokrotnego wyboru, otwarte. Może różnimy się co do zrozumienia terminu jedno-/wielo- wymiarowy, zdarza się.
Dyskusja zeszła jednak z pytań technicznych a zamieniła się w jakieś okładanie cytatami. Proponuję już tego nie kontynuować.
Nie mówię, że w PISA nie można doszukać się innych wyników, niż tylko rankingi. Właśnie po to, by doszukać się czegoś więcej, spróbowałem grzebania się w danych przez PISA opublikowanych.
Twierdzę tylko (co, jak Pan określa, jest farmazonami), że PISA przedstawia swoje główne raporty jako rankingi i skupia się na budowie tych rankingów, a jednocześnie metodologia jest właściwą dla tworzenia rankingów, a nie wielowymiarowych analiz.
„Argumentacji co do ograniczeń związanych z modelem Rascha nie rozumiem.”
Proszę spróbować zrozumieć założenia modelu Rascha. W szczególności najgłębsze jego założenie o tym, że skala trudności jest linearna i obiektywna. Zadania muszą być tak skonstruowane, że jeśli A jest trudniejsze od B dla Pawła, to i dla Gawła musi też A być trudniejsze. Umiejętność i trudność są mierzalne jednowymiarowo. W procesie weryfikacji i kalibracji zadań PISA wymagane jest, by ten porządek (więcej: skala przedziałowa) trudności były spełnione odpowiednio silnie wobec dominującej większości populacji. Zadania ortogonalne (czyli takie, których „trudność” wynika z przesłanek słabo korelujących ze źródłem „trudności” innych zadań) nie dadzą sie skalibrować i muszą być odrzucone na etapie weryfikacji zadań.
(Właśnie zająłem się kalibracją zadań — jeśli przebrnę przez trudności obliczeniowe, to jutro pewnie opublikuję jakieś wnioski o tym skupieniu zadań wokół wiodącej osi)
„podział na algebrę/geometrię/prawdopodobieństwo wydaje się całkiem wyraźny”
Zupełnie niewyraźny wobec tajności treści zadań, a nawet braku informacji o klasyfikacji na te grupy w opublikowanych danych.
Powtórzę jednak: analizując merytorycznie treść ujawnionych zadań, trzeba stwierdzić, że jedynym źródłem ich trudności jest doczytanie się z tekstu wstępnego o co chodzi. Wymagane wiadomości matematyczne, nawet w „najtrudniejszych” zadaniach (Helen na rowerze) nie wykraczają poza szkołę podstawową i można założyć, że dominująca większość uczniów nie ma z nimi problemu, a ci najgorsi, którzy mieliby, i tak odpadną od analizy tekstu. „Trudność” (w raschowskim sensie) jest skupiona w umiejętności doczytania w tekście, o co tak naprawdę chodzi.
Obiecuję jutro (pojutrze, jeśli utknę w programistyce..) dać analizę korelacji skupienia pytań wokół wiodącej umiejętności.
Okładanie cytatami:
proszę wybaczyć cytaty, ale poczułem się urażony przypisaniem określenia „farmazony” do moich wypowiedzi, więc zmuszony byłem zakotwiczyć te farmazony w oryginalnej publikacji PISA. Tak, zgodzę się, że pełna jest ona farmazonów, proszę jednak nie mnie, a PISIE atrybuować ich autorstwo.
Właśnie o te farmazony głoszone pzrez PISA głównie mi chodzi w mojej krytyce tego badania.
15-latki: wybaczy Pan, ale nie mogę się powstrzymać od sarkazmu: z głównych badań PISA widać, że Anglia, gdzie wiek szkolny to 5 lat, więc test piszą uczniowie po 10. klasie ma wynik o 25 punktów gorszy, niż Finlandia, gdzie piszą uczniowie po 8. klasie.
Jeśli dwa lata dłużej w szkole to -25 punktów, to trudno mi zrozumieć, skąd trzy lata miałyby prowadzić do +119. Większość „top-performers” PISA to kraje, gdzie edukacja zaczyna się późno (w tym i Polska z wiekiem szkolnym 7 lat), więc nie potrafię znaleźć argumentu za tym, że dłuższy pobyt w szkole prowadzi do podniesienia rankingu.
Postaram się zresztą w wolnej chwili znaleźć dane o wieku szkolnym w różnych krajach i zrobić wykres „wynik PISA vs. liczba lat spędzonych w szkole przed tym badaniem”
Te 119p = 3 lata, to czysty propagandowy bełkot — by nie powiedzieć, że farmazony.
Jednowymiarowość modelu Rascha: patrz mój szerszy komentarz:
http://osswiata.pl/stojda/2014/01/15/pisa-2012-proba-analizy-krytycznej-cz-ii/
pomijając PISA, poziom studentów spada. Takie jest moje zdanie. To co było kiedyś przechodzi do lamusa. Studenci stali się bardziej leniwi, bardziej roszczeniowi, mniej ambitni. Widzę to po forum statystycznym, widzę to z opowieści wykładowców na uczelniach.
Panie Doktorze, potrzebuję korepetycji. Zainstalowałem SPSS i usiłuję doń wczytać bazy PISA zakodowane jako tekst przy pomocy plików z syntaksą do SPSS-a. Czegoś banalnego nie wiem – mógłby Pan pomóc?
@Paweł Kasprzak
Pliki dla wczytywania danych do SPSS znajdują się na stronie
http://pisa2012.acer.edu.au/downloads.php
Aby wczytać dane należy zmienić drugą linię
DATA LIST FILE „C:\XXX\INT_STU12_DEC03.txt” /
na linię ze ścieżką do pliku tekstowego z danymi
Informacje o tym jak przeprowadzać analizy można znaleźć tutaj
http://www.oecd.org/pisa/pisaproducts/pisadataanalysismanualspssandsassecondedition.htm
Ja nie korzystam z SPSS ale z pakietu R,
obawiam się więc, że nie będę mógł podać dalszych informacji dotyczących SPSS
służę pomocą jeżeli chodzi o wykorzystanie R i pakietu PISA2012lite z danymi
Dzięki, próbowałem rozmaitych wariantów składni ścieżki dostępu (pracuję na macu, stąd może kłopot), ale Pańska rada sugeruje, że nie powinieniem mieć zadnych kłopotów i że wystarczy otworzyć plik syntaksy, żeby zobaczyć dane, prawda? SPSS potrzebny mi jest w zasadzie wyłącznie po to, żeby otworzyć właściwie zinterpretowane rekordy. Potem mogę to sobie wczytać, jak chcę, a do uzyskiwania przekrojów, liczenia prostych średnich, odchyleń, korelacji wystarczy mi zrozumienie znaczenia danych – jakieś spec-narzędzia nie są mi potrzebne.
Próbuję dalej.
Nie udaje się żaden wariant i ma Pan rację – chodzi o ścieżkę dostępu. W logach SPSS-a widzę albo komunikat „file not found” albo „wrong syntax”, próbując różnych wariantów. Chyba coś jest nie tak z wersją SPSS na MacOS – zdaje się, że tak nie dam rady. Liczyłem, że SPSS-a użyję po prostu do łatwego i wolnego od ew. błędów wczytania baz z badań 2000 – 2012. Nie wie Pan, czy gdzień da się znaleźć albo pliki „sav” dla SPSS-a (poza stronami IFiS PAN, gdzie te pliki są dla badań z Polski w latach 2006 i 2009)? A może gdzieś ktoś porobił eksporty do „csv” lub czegoś w tym guście?
Skrypt SPSS wczytuje dane odpowiednio zakodowane, wersja csv po zakodowaniu poziomów miałaby kilka giga.
Jak wygląda Pana linia ze ściezką do pliku? Może to problem polskich znaków lub spacji w tej ścieżce
Na danych zawartych w plikach „sav” ściągniętych z IFiS PAN robiłem eksport do csv, i spakowane wysłałem to Ksaweremu Stojdzie – zip był tylko odrobinę większy od oryginalnego pliku. Zresztą jestem nadal tak zirytowany publikowanymi w mediach okrzykami prof. Marciniaka w sprawie PISA, powierzchownością (powiedzmy) tekstów w rodzaju tego, co w Polityce napisał Bendyk, czy blogowymi wpisami min. Hall, że jestem gotów te gigabajty przepisywać ręcznie. Problem w tym, że nawet taki szał pracowitości może mnie łatwo sprowadzić na manowce, kiedy coś po prostu przeczytam nie tak. W odróżnieniu od Ksawerego wolę uwierzyć danym, jak je dostaję i na ich podstawie sprawdzić kilka rzeczy.
Nie no – polskich znaków i spacji pozbyłem się zaraz na starcie. Ścieżka dostępu u mnie wygląda np. tak: „Volumes/HD/Documents/PISA2012/Data/CBA_COG12_DEC03.txt.” Slashe w odwrotną stronę itd. Wtedy dostaję „wrong syntax”. Odwrócenie slashy – „file not found”, podobnie jak elimicacja „Volumes” próby podania relatywnej ścieżki, umieszczenia wszystkiego w domowym folderze oznaczonym tyldą – wszystko na nic. Spróbuję na PC, jak go gdzieś zdobędę.
Poza zagadnieniami technicznymi. W plikach z IFiS PAN, które zdołałem otworzyć, widziałem wagi dla uczniów (podwójny zestaw – dla Polski i międzynarodowo na użytek PISA). Nie znalazłem jednak nigdzie dokładnego opisu. Wagi wynikają oczywiście z doboru próby, a tu znowu opis wydaje mi się niewystarczający (coś pewnie przeoczyłem). Wydaje mi się, że w PISA próba bierze przede wszystkim pod uwagę charakterystykę szkoły (duża – mała; w mieście – na wsi itd.), a samych uczniów dopiero potem i w niejasny dla mnie sposób. Nie jestem pewien, czy i na ile dobór próby uwzględnia owe silnie korelujące z wynikami testów zmiennie, jak wykształcenie rodziców, zamożność rodziny itd. Czy gdzieś się da znaleźć dokłądny sposób liczenia wag i stosowanych kryteriów?
O wagach można przeczytać w czwartym rozdziale tej pozycji
http://browse.oecdbookshop.org/oecd/pdfs/free/9809031e.pdf
Co do ścieżki to sugeruję dodać / przed Volumes, może pomoże [ścieżkę do pliku można odczytać i skopiować klikając prawym przyciskiem i 'Get Info’]
Gdyby się nie udało, mogę kilka kolumn przekonwertować na postać csv, proszę podać ich nazwy.
Ale nie więcej niż 10 ponieważ te pliki strasznie szybko rosną.
pozdrawiam
Dzięki, poradziłem sobie w końcu skryptem, który robi to samo, co instrukcje składni SPSS, a moje kłopoty brały się chyba z ekstrawagacji nowego systemu na macach.
Tak, ten manual PISA oczywiście widziałem i przyswoiłem wykład o tym, czym są wagi itd. Strategia doboru próby i wyjaśnienia modelu, który stosują – ok, tylko dalej nie jest jasne, jakie to „strata” są brane pod uwagę. Rozumiem, że to się ustala na poziomie kraju albo nawet gęściej i że trzeba o to pytać lokalnie. Jak to zrobiono, chyba zobaczę po prostu w danych.
O ile wiem strata czyli warstwy ustala kraj.
Może to być związane z losowaniem dodatkowym np. uczniów ze szkół prywatnych, jeżeli kraj jest dodatkowo zainteresowany porównywaniem wyników w szkołach publicznych i prywatnych.
W takiej sytuacji w próbie PISA jest więcej uczniów ze szkół prywatnych niż wynikałoby to ze składu populacji, ale uczniowie Ci mają mniejsze wagi. Po zważeniu obserwacji wpływ uczniów ze szkół prywatnych jest proporcjonalny do udziału uczniów szkół prywatnych w kraju a nie udziału uczniów ze szkół prywatnych w badanej próbie.
Tak, to jest najzupełniej jasne. Wg codebook strata wzięte pod uwagę w Polsce, to typy szkół (gimnazja, licea, szk. zawodowe). Ale na podstawie „multi-dimensional data request” policzyłem z grubsza korelację między wykształceniem rodziców, a wynikami PISA. Wykształcenie rodziców – 5 stopni oznaczonych symbolami, w które nie wnikałem, przyjmując na wiarę, że to są rzeczy między krajami porównywalne (zresztą patrzyłem na kraje osobno) i uszeregowane wszędzie tak samo – dodałem do siebie, otrzymując wartości od 2 do 10, przy czym skala jest odwrócona, bo 1 oznacza najwyższe wykształcenie. Policzyłem korelację z wynikami z „science” w PISA. Dla Polski wyniosła -0.96. W innych krajach wypadała słabiej, ale zawsze była bardzo znaczna, a np. dla Finlandii znanej z wyrównywania różnic ta sama korelacja wyniosła -0.82, więc również nieźle. Jakkolwiek „zgrubne” są tego typu rachunki, jasne jest, że tego rodzaju zmienne mają przemożne znaczenie i interesuje mnie, czy i w jakim stopniu one są brane pod uwagę w wagach. Wygląda na to, że nie są, choć nie dam głowy, czy czegoś znów nie przegapiłem.
Właśnie sprawdzam, jak z badania na badanie zmieniały się udziały tak określonych grup uczniów – bo one z pewnością łatwiej są w stanie wyjaśnić polski sukces w PISA (jeśli się rzeczywiście zmieniają) niż zmiany podstawy programowej i inne sukcesy gimnazjów…
Podobnie jak edukacja rodziców z wynikami uczniów koreluje też zamożność (ESCS) jak i zawód rodzica (można pobawić się beta wersją aplikacji nad którą pracuję http://beta.icm.edu.pl/PISAoccupations2012/).
Oczywiście zmiany średniego wyniku PISA biorą się ze zmian w strukturze rodzin 15-latków (wyższe wykształcenie, średnio wyższa zamożność). Jaka część zmiany średniej bierze się z przemian społeczeństwa a jaka część bierze się z systemu edukacji – ciekawa łamigłówka, można ją jednak rozwiązać [choć ja nie jestem socjologiem a wolałbym by rozwiązywali ją socjolodzy].
Ciekawe porównania można uzyskać gdy sprawdza się wyniki PISA 2000-2012 w grupach uczniów o podobnej zamożności. Napiszę o tym niedługo.
Właśnie to też sprawdzam. Usiłuję wytropić również „na płasko” – w tym samym badaniu – czy w homogenicznie zdefiniowanej grupie (wielkość miejscowości, wykształcenie i zamożność rodziców) da się jakąkolwiek korelacją związać cechy szkoły (choćby styl prowadzenia lekcji, o który PISA pyta, czy słynną wielkość klasy) z wynikami PISA. Nic wynaleźć mi się nie udaje, ale wciąż patrzę. Moim zdaniem wyniki PISA nie mają i nie mogą mieć niczego wspólnego z jakością szkoły, a są wyłącznie jakąś – nawet chyba niezłą – miarą cywilizacyjnego rozwoju społeczeństw.
Rozwiązanie łamigłowki, o której Pan wspomina, nie jest jakoś specjalnie trudne. Jeśli istotnie wykształcenie rodziców koreluje z wynikami PISA uczniów na poziomie 0.96, to ew. niezależna zmienna, która również mogłaby z nimi korelować, miałaby na nie wpływ w granicach 10%. Szczerze mówiąc, nie wierzę, żeby szkoła rzeczywiście wpływała na nie w tak wielkim i w ogóle w jakimkolwiek stopniu. Prędzej uwierze w korelację odwrotną. Moje własne doświadczenia z uczniami sprowadzają się do eliminacji wyuczonej bezmyślności.
Myślę też, że w tej ostatniej fali niezbyt rozważnych politycznych i medialnych enuncjacji o sukcesie w PISA, najbliżej prawdy znalazł się premier, choć jego zdanie o młodych Polakach, którzy się okazali najzdolniejsi w Europie, brzmiało niemądrze i politycznie niepoprawnie w stylu Polak sprytny, Niemiec – głupi. Pytania w testach tworzą jakiś dziwaczny rodzaj testu inteligencji i mają podobną wartość. Obawiam się, że jakość badań ogranicza zwłaszcza treść pytań, które się w nich zadaje, a statystyczna metodologia ponad ten poziom ich nie podniesie, choćbyśmy sie wściekli.
Pozwolę sobie napisać jeszcze raz, bo nieporozumienia w tym punkcie trudno później prostować
Pytania w PISA nie weryfikują wiedzy ale weryfikują (jakoś zdefiniowane) umiejętności w obszarze interpretacji tekstu, wnioskowania matematycznego itp. [oczywiście obie rzeczy są powiązane ale akcenty są inne].
Z pewnością poziom umiejętności w społeczeństwie jest ściśle związany z miarą cywilizacyjnego rozwoju społeczeństw.
Z pewnością też można mieć dużą wiedzę ale nie potrafić jej wykorzystać i odwrotnie, można umieć wykorzystać każdy dostępny skrawek wiedzy.
Czy szkoła ma uczyć wiedzy czy umiejętności? To inne pytanie, z pewnością ciekawe, ale inne.
Czy umiejętności są powiązane z inteligencją? Pewnie tak.
Czy średni poziom umiejętności badany przez PISA w Polsce wzrósł przez ostatnie 12 lat? Tak, znacząco.
A co z umiejętnościami nie badanymi przez PISA? Nie wiadomo, będzie wiadomo gdy jakaś inna organizacja przeprowadzi podobne badanie badając inne umiejętności.
Czy szkoły uczą lepiej niż 12 lat temu? Nie wiadomo, co więcej może nigdy się nie dowiemy ponieważ teraz szkoły operują w zupełnie innej rzeczywistości niż 12 lat temu, a trudno mi uwierzyć by efekt szkoły był niezależny/nie wchodził w interakcje ze zmiennymi opisującymi rodzinę.
Pozostaje wybrać jakąś grupę bliźniaków wysłać część do dobrej szkoły część do złej i zobaczyć czy szkoła miała na nich istotny wpływ.
Tak więc zgadzam się całkowicie z Panem, że w badaniu PISA nie była oceniana szkoła ale poziom umiejętności młodzieży uczącej się w szkole. Zgadzam się, że można było zadawać młodzieży inne zadania otrzymując pewnie inne wyniki. OECD jest otwarte na rozszerzania badania [stąd nowy obszar 'financial literacy’ w roku 2012], więc można zaproponować nowy obszar do mierzenia w przyszłości. Choć z krytyki dotyczącej wyboru zadań w PISA nie wynika jak miałby ten nowy obszar wyglądać.
Temat jest wielowątkowy i ja akurat myślę, że podstawowe nieporozumienia, które potem trudno prostować, biorą się raczej z dowolności wyboru wątków. Co dotyczy – chcę wyjaśnić – medialnych enuncjacji i raczej nie tego, co pisze Pan. Proszę mi wybaczyć rozmiar poniższego, nadużywający Pańskiej gościnności.
Kiedy np. red. Bendyk w Polityce wspomina o zarzutach, że polska szkoła uczy umiejętności rozwiązywania testów, to mu odpowiada p. Jerzy Wiśniewski z MEN, nie kryjąc irytacji, mówiąc „to bzdura” (to słowo bije wszelkie rekordy frekwencji w odpowiedziach na zarzuty pod adresem PISA-manii) i podając wyjaśnienie dotyczące sprawdzanych w PISA kompetencji, które pokrywa się z tym, co i Pan wyżej napisał oraz oczywiście z tym, co PISA deklaruje. Mówił więc p. Wiśniewski o tym, że PISA sprawdza rzeczy niemające ze szkolnym programem żadnego związku. Co jednak nie przeszkadza Bendykowi opisywać wyników PISA jako efektów polskich reform edukacyjnych i co nie powoduje ani jednego pytania w całym tym artykule o związek tych reform z wynikami testów, które niczego takiego nie sprawdzają i nawet nie próbują według deklaracji autorów badań.
Weźmy jednak trzy ostatnio ujawnione zadania dotyczące jednej sytuacji z obrotowymi drzwiami. Pierwsze zadanie wymagało podzielenia 360 stopni na trzy i o nim nie mówmy, choć być może szkoła jest od tego, żeby o 360 stopniach poinformować. W każdym razie związek tego zadania ze szkolną wiedzą nie jest interesujący, ponieważ samo pytanie odsiewa raczej analfabetów. Drugie zadanie dotyczyło pytania o długość maksymalnego otworu (liczoną po łuku – choć zaliczano odpowiedzi wyliczające cięciwę), by drzwi pełniły funkcję wiatrołapu. Zaliczono je do szóstego poziomu PISA – i choć rozwiązanie było po prostu narysowane w zadaniu, to te raptem kilka procent populacji, która na to pytanie odpowiada, być może potwierdza taką kwalifikację. Choć już kwalifikacja rzeczowa – „rozumowanie i argumentacja” budzi u mnie wątpliwości, ponieważ wielokrotnie widziałem uczniów odpowiadających na takie pytania z użyciem bezmyślnie powtarzanych szkolnych schematów. Trzecie zadanie takich wątpliwości już jednak w najmniejszym stopniu nie pozostawia. IFiS PAN przedstawia je jako coś, co sprawdza umiejętność tworzenia i użycia strategii. Taką strategię, owszem, da się stworzyć i wykorzystać w tym zadaniu. Ale PISA nie o to pyta – chodzi o podstawienie podanych danych do prymitywnego i błędnego wzoru, który daje odpowiedź uznaną za poprawną. Uczeń, który by stworzył strategię, wiedziałby, że po 30 minutach dwie z owych 720 osób, o których mówi „poprawna” odpowiedź, pozostaną we wnętrzu drzwi, a zatem niezupełnie we wnętrzu budynku. Spojrzałby następnie na odpowiedzi do wyboru i natychmiast zbudowałby kolejną strategię – tym razem szkolną – uznając natychmiast, że intencją pytania jest zastosowanie w praktyce tabliczki mnożenia, a nie żadnego – Boże, uchowaj! – rozumowania.
Jak Pan wie, takie zastrzeżenia pod adresem zestawów PISA można ciągnąć bez końca i wielokrotnie to robiono. Warte przypomnienia są spostrzeżenia Bodina o zadaniu z jabłonkami otoczonymi tujami dla osłony przed wiatrem. Dotyczyły treści zadań, potrzebnych umiejętności oraz wyników. O ile w pytaniach, które wymagały zrozumienia treści i wykonania najprostszych czynności polegających na policzeniu drzewek na rysunkach, fińscy uczniowie wypadli lepiej niż francuscy (a Bodin bronił przed PISA programu francuskiej szkoły), o tyle, gdy przychodziło do sformułowania abstrakcji matematycznego modelu, sytuacja się odwracała. Bodin pytał retorycznie, które z zadań w ogóle dotyczyło matematyki. Co otwiera kolejny wątek, również przez Pana poruszony, ale o nim za chwilę, bo istotnie – o ile we wskazanym przez Bodina problemie, francuscy uczniowie mieli okazję się popisać, to było to jednak zadanie właśnie z tego powodu nieodpowiednie: to były rzeczy, których można się nauczyć w szkole.
Przy wszystkim, co PISA mówi o zdolnościach do rozumowania w realnych sytuacjach, a nie o wiedzy zdobywanej w szkole, PISA twierdzi również, że wyniki testów są miarą efektywności systemów edukacji i tę miarę poleca edukatorom w zainteresowanych krajach. Z czego polscy edukatorzy nader chętnie korzystają. Nie tylko polscy. W większości krajów w badaniach bierze się pod uwagę rozmaite typu szkół, kwestionariusze pytają o styl prowadzenia lekcji i mnóstwo rzeczy opisujących szkołę i cały system. Twierdzenia o mierze efektywności nie wytrzymują jednak krytyki zarówno ze względu na treść zadań, jak i na zebrane w PISA dane – istniejące i nieistniejące korelacje zwłaszcza. Te twierdzenia są po prostu grubym nadużyciem. Co warto stwierdzić wyraźnie, zanim przeskoczymy do następnego wątku.
Nadużycia związane z treścią zadań są zresztą wielorakie. Wiele argumentów dotyczyło możliwych i spotykanych „cultural bias” – te PISA rzeczywiście staranie eliminuje, likwidując niehomogeniczności w sensie Rascha. Przy tym jednak orientacja na „real life problems and situations” jest oksymoronem, jeśli wziąć pod uwagę, że chodzi o „real life” w Austrii, Azerbejdżanie, Albanii, Australii i Argentynie – by pozostać na samym początku listy badanych krajów, kultur i cywilizacji. Pieczołowita eliminacja „cultural bias” eliminuje w tej sytuacji wszelkie ślady „real life situations”, produkując koszmarki w stylu słynnych odcisków stóp na piasku, trywializmów z jabłonkami, czy bzdur w rodzaju obrotowych drzwi – starannie wypreparowanych z wszelkich możliwych rzeczywiście realnych kontekstów. Wspomniał Pan o otwartości PISA – nie słyszałem niczego o jakiejkolwiek reakcji na zarzuty podnoszone w stosunku do takich zadań, poza okrzykami „bzdura” i sugestiami, że krytyka podszyta jest zawiścią.
Niestety nie jest również po prostu prawdą wspomniana opinia p. Wiśniewskiego, że szkoła nie może uczyć pod testy. Z jednej strony pytania w stylu obrotowych drzwi są w szkolny sposób schematyczne i prymitywne i to właśnie szkoła do nich przygotowuje, zaś z drugiej i bardziej przykrej strony ewolucja programów i podręczników wyraźnie zmierza w stronę proponowanych w testach PISA standardów.
PISA, posługując się modelem Rascha, twierdzi przy tym, że wybór skali nie jest arbitralną decyzją, a obiektywnie zmierzoną empirią, co również jest tezą nader wątpliwą, bo nieweryfikowalną w popperowskim sensie. Po pierwsze określając skalę użyto tego zestawu pytań, którego użyto. Nie spróbowano innej rozpiętości i innych pytań. Po drugie użyto tych pytań wobec tego spektrum uczniów, z którym mieliśmy wówczas do czynienia, uznając tym samym zastaną rzeczywistość szkolnego systemu opartego o pruskie wzory za obiektywnie konieczną. Rzeczywistość rozmaitych szkół „niszowych” jest już zupełnie i jakościowo inna, a rozmaitość i skala owych „nisz” powoli zaprzecza popularnym tezom o niemożności ich istnienia w szerszej skali. Historia – zauważał niegdyś Popper – niezupełnie jest takim samym empirycznym doświadczeniem, jak z nim mamy do czynienia w laboratoriach. Najczęściej bywa jednorazowa i nie jest powtarzalna. Trudno formułować sądy ogólne na jej podstawie i orzekać o ich obiektywizmie.
W przypadku szkół jednak jest nieco inaczej. Albo może być, jeśli się chce pytać, a nie wyłącznie udzielać kategorycznych odpowiedzi. Bo z historii znamy szkoły inne niż pruska. Średniowieczne trivia (nie kojarzą się dobrze, prawda?) nie były szkołą powszechną, ale – choć kształciły przyszłych członków elit – bynajmniej nie z elit brały sobie uczniów. Jeśli w triviach uczono np. o objętości kuli, to uczniowie rozumieli skąd się bierze ta formuła, skąd bierze się niewymierność i na czym polega. Uczniowie nowoczesnej szkoły powszechnej od jej pruskiego zarania dostają ten wzór do wkucia, a gadanie o niewymiernościach nie jest, delikatnie mówiąc, zalecane. W triviach osiągano biegłość w łacinie, której w żaden sposób nie da się porównać z dzisiejszym nauczaniem języka angielskiego, uczono również logiki, której współczesna szkoła w ogóle nie podejmuje, a którą pytania PISA obracają w karykaturę – nie one jedne oczywiście, więc samo w sobie nie jest to zarzutem.
Czy szkoła ma uczyć wiedzy, czy umiejętności? Ma Pan rację – to jest osobne pytanie. Rzecz w tym, że Konsorcjum PISA na nie właśnie bardzo kategorycznie odpowiada i odpowiedzią są również zmiany w programie polskiej szkoły. Ów program natomiast dlatego tak jest przerażający, że nie jest to bynajmniej tylko kiepska intelektualnie oferta państwowego systemu, który co prawda marnuje publiczną kasę, ale z którego korzystać nie muszę. Przeciwnie – mówimy o dwunastoletnim przymusie, w którym również prywatne szkoły podlegają temu samemu praniu mózgów, bo MEN zadbał o szczelność systemu do tego stopnia skutecznie, że teraz była minister Hall zakłada szkoły, które minimum swobody zawdzięczać mają temu, że de jure nie są w ogóle szkołami – korzystając ze statusu nauczania domowego dla swoich uczniów.
W sprawie tego odrębnego pytania o wiedzę vs. umiejętności ja pozwalam sobie zauważyć, że do nowoczesnego społeczeństwa opartego na wiedzy, czy nawet do konkurencyjnej gospodarki bardziej pasuje Archimedes lub ktoś, kto jest go w stanie zrozumieć, niż dobry uczeń fińskiej szkoły. Wkuwany na pamkę wzór na kulę nie jest umiejętnością w żadnym sensie innym niż tylko dotyczącym rozwiązywania schematycznych i głupich szkolnych zadań i testów – w „real life situations” nie przydaje się wcale, nawet inżynierom. Rozumowanie wyprowadzające ten wzór jest natomiast intelektualną przygodą i sprzyja myśleniu. Ze wszech miar polecałbym każdemu nauczycielowi spróbować opowiedzieć o tym dzieciom. Absolutnie niczym nie da się uzasadnić wyborów w tej kwestii dokonywanych przez szkołę (i PISA) dzisiaj, a przeciwstawianie wiedzy umiejętnościom jest aberracją mającą źródła w fatalnej szkolnej rzeczywistości. I w pruskiej tradycji. Ona bowiem nie polega na trzcince w dłoni pruskiego belfra. Nawet niekoniecznie na bezalternatywnej jednolitości i dyscyplinie centralnego sterowania. Przede wszystkim na tym, że to jest szkoła pomyślana dla elementarnej alfabetyzacji prostaczków, którym potrzebny jest wyłącznie niezbyt trudny zestaw podstawowych i wystarczających im umiejętności właśnie. Kiedy się szkołę tak projektuje, nie należy się dziwić, że produkuje ona prostaczków właśnie.
Czy średni poziom umiejętności badanych przez PISA wzrósł w Polsce w ostatnich 12 latach? Pan uważa, że wzrósł znacząco, ja sądzę, że pytanie nie ma sensu. Wiemy obaj, że nie wiemy, czym są w rzeczywistości badane przez PISA zdolności – to jedno. Po drugie nie mamy żadnej pewności, czym powodowane są wzrosty – wiele wskazuje, że zmienia się w Polsce skład próby, co może być skutkiem zwykłych badawczych błędów, jak zmian demograficzno-cywilizacyjnych, które niemal na pewno rzeczywiście w Polsce zaszły. Warto pamiętać, że mówimy o zmianach w granicach ćwierci odchylenia standardowego i choć statystycznie polski wzrost jest wreszcie rzeczywiście znaczący, to jednak wypada znać miarę i jej ograniczenia. Po trzecie obiektywna skala Rascha jest obiektywna w ograniczonym zakresie i pomimo jednolitej skali umożliwiającej metryczne porównania rzeczy w inny sposób raczej nieporównywalnych, na ogólną punktację kraju silniej wpływają zmiany w dole skali niż te w górze lub oczywiście zwyczajnie poza mierzonym zakresem. Na początku badanego okresu mieliśmy w czytaniu więcej niż obecnie uczniów na najwyższym poziomie, a bywały okresy (2000-2009) gdzie spadki liczebności uczniów w najlepszych grupach były ponad trzykrotnie szybsze niż spadki w grupach najsłabszych, a mimo to punktacja nam rosła (czytelność danych narusza tu nieco fakt zmiany definicji progów w trakcie tego okresu). Nie jestem pewien, czy z tych wzrostów powinniśmy się cieszyć.
Umiejętności nie badane przez PISA i możliwość podjęcia innych badań. Obawiam się, że trudno się będzie przebić, skoro to PISA trafia do gazetowych nagłówków i raczej na długo tam pozostanie, niemniej jednak TIMMS/PIRLS jest przykładem. Nie jestem szczególnym fanem tych badań. Wiem, że mimo odmiennych założeń (badanie realizacji curriculum, a nie umiejętności XXI wieku) wyniki TIMMS silnie korelują z PISA, co dziwne nie jest, bo PISA rzeczywiście mierzy jakiś rodzaj inteligencji, a wszelkie zjawiska dziedziczenia kulturowego kapitału oczywiście w TIMMS muszą być również widoczne. Niemniej jednak TIMMS pozwala dociec co umieją, a czego nie umieją uczniowie i jakie mogą być tego szkolne przyczyny. Nie wiem, czy zna Pan prace dra Mirosława Dąbrowskiego, który na podstawie tych badań pokazuje mechanizmy kształtowania szkolnego bezmyślenia i to jak na nie wpływają zwłaszcza ostatnie zmiany programowe. Są jeszcze choćby badania ROSE – też z PISA współbrzmią zresztą, ale pokazują jakże odmienną rzeczywistość.
Czy szkoły uczą lepiej niż 12 lat temu? Nie sądzę. Nie przypuszczam też, że uczą o wiele gorzej, choć takie zjawiska gdzieniegdzie widać. Ma Pan rację, że również to pytanie jest źle postawione, bo sądów w tej sprawie zweryfikować już się nie da. Badania podłużne próbuje prowadzić IFiS PAN, zobaczymy, co w nich będzie.
Wie Pan, problem w tym, że OECD i PISA odpowiedzi w tych wszystkich sprawach już ustaliły, a z nimi sporo resortów edukacji, w tym ewidentnie polski. Twórca polskiej podstawy programowej, prof. Marciniak wykrzykuje więc, że, uhu! mamy twardy dowód słuszności naszych reform i nierozumnie oświadcza, że teraz ścigać będziemy się z Azjatami, bo w Europie już nie ma z kim. We własnym imieniu do wypowiadania takich głupot ma oczywiście prawo – niech się ściga. Ale on ten wyścig organizuje w imieniu moich dzieci, które są z mocy prawa poddane obowiązkom przymusowej szkoły, której program on określił w sposób, który mój akurat rozum po prostu obraża. Ja się nie zgadzam, żeby się moje dzieci ścigały z Koreańczykami. Na co mają się ścigać? Na korepetycje i kursy dokształcające? Czy może na hymn odśpiewywany przed kolejną edycją testów? Już raczej niech Marciniak sam śpiewa – po polsku, czy koreańsku, jak tam woli.
PISA wie, jak definiować szkołę, i co w niej ma rosnąć. Zna Pan z pewnością raport High Costs of Low Educational Performance. Nie dziwią Pana zawarte tam odkrycia? Że wzrosty w punktacji PISA przełożą się na miliardy zarobione w PKB? W raportach PISA mamy do czynienia z podobnie formułowaną propagandą i absurdalnym myleniem korelacji ze związkami przyczynowymi. Raport High Cost redagował Eric Hanushek (obecny wiceminister Jakubowski był jednym z uczonych autorów), a wnikliwa analiza doprowadziła go do zaiste epokowego odkrycia, że kraje bez gett analfabetyzmu są równocześnie bogatsze. Nie tylko więc model i kalibracja Rasha obiektywizuje umiejętności uczniów, ale również punkty PISA da się wprost i jednoznacznie przeliczyć na dolary PKB, a Inwestycje w PISA przełożą się wprost na zyski w PKB. Ten sam Hanushek nieco wcześniej dokonał podobnej analizy wyników amerykańskich uczniów, by stwierdzić brak związku tych wyników z rozmiarem szkolnej klasy. Sprzeciwiał się w wtedy kategorycznie projektom edukacyjnych reform podejmowanych w tym zakresie przez jeden ze stanów. Nie było jeszcze PISA. Hanushek prezentował wciąż ten sam stosunek do istniejących lub nie korelacji i tę samą troskę o budżet. Wtedy był z powodu korelacji i budżetu wrogiem społecznej inżynierii, dziś w PISA został jej entuzjastą. Ma prawo zmienić poglądy – ja jednak pozwalam sobie widzieć w tym wyłącznie koniunkturalizm i zwykłą bezmyślność zakopaną pod stertą metodologicznych frazesów.
W tego rodzaju kontekście poznawcza wartość PISA – ograniczona, ale wcale nie żadna, choć mnóstwo uruchomionego tu potencjału zmarnowano nietrafnym z badawczego punktu widzenia wyborem celów – znika wobec trudnych do pojęcia biurokratycznych mechanizmów, którym to przedsięwzięcie służy. Zna Pan jakiekolwiek sensowne rekomendacje, które by przyjęto na podstawie wyników badań PISA? Ja słyszę tylko szczęśliwe okrzyki Marciniaka i p. Hall. I wnioski o tym, że program szkoły im głupszy tym lepiej służy wzrostom PKB.
Mam nadzieję, że ta dyskusja nie przerodzi się w rozmowę pesymisty i optymisty o połowicznie napełnionej szklance. Nie uważam badania PISA za idealne (nie ma idealnych badań), ale uważam, że bilans wad i zalet jest dla tego badania bardzo korzystny i wyniki z tego badania są wartościowe, dlatego pozwoliłem sobie na komentarz w pięciu punktach.
1. Zacznę od najważniejszego pytania: o sensowne rekomendacje uczynione na bazie danych PISA.
Znam kilka ale jest ich pewnie znacznie więcej.
Jeden przykład dotyczy dużej nierówności pomiędzy wynikami chłopców i dziewczynek w Korei (o ile pamiętam to były największe nierówności ze wszystkich badanych krajów). Na bazie tych wyników uruchomiono programy w Korei wspierające dziewczynki, przez co w kolejnym badaniu okazało się, że i nierówności się zmniejszyły. Idąc tym tropem można sprawdzać w których krajach w których grupach nierówności są duże i można zastanawiać się czy warto coś z tym zrobić.
Kolejna rekomendacja skierowana jest dla rodziców w broszurce PISA ’Let’s read them a story’
gdzie pokazano jak istotne dla wyników dzieci jest wzbudzanie w nich zainteresowania czytaniem. Jako jednen z sensowniejszych programów wskazano tam polską akcję ,,Cała Polska czyta dzieciom”. Oczywiście można naśmiewać się z milionów wydanych na odkrycie, że warto czytać dzieciom, ale tak to już jest z odkryciami że jedne są zgodne z intuicją, inne nie. Ale bez badań nie wiemy kiedy intuicja nas wprowadza w błąd.
2. Uważam i chyba każdy rozsądny człowiek również tak uważa, że szkoła powinna uczyć myślenia a nie formułek. Tyle, że umiejętność myślenia nie wyklucza wcale bycia dobrym w rozwiązywaniu schematycznych i powtarzalnych zadań.
Jeżeli postawy ucznia i szanowane przez ucznia wartości są dla nas ciekawsze niż jego wyniki z zadań dotyczących umiejętności, to można na bazie kwestionariusza osobowego oceniać postawy uczniów. Albo bezpośrednio porównując odpowiedzi na pytania w stylu 'I keep studying until I understand mathematics material’ albo w bardziej wyrafinowany sposób sprawdzając jak szybko student traci zainteresowanie wypełnianiem reszty długiego formularza.
Kwestionariusz osobowy PISA mówi wiele o postawach uczniów i to kopalnia informacji dla tych, którym nie wystarcza badanie kompetencji.
3. Jeżeli chodzi o przykładowe zadania z drzwiami. W sprawie kwalifikacji się nie wypowiadam bo się na tym nie znam, zakładam że kwalifikacje do grup wykonywała osoba, która wiedziała co robi.
Zadanie to wygląda na proste, ale jak sam Pan zauważa, większości 15-latków sprawiało ono trudności. Pozostaje się cieszyć, że to co dla innych jest trudne dla nas i naszych 15-latków jest proste.
4. Zgadzam, że worek 'umiejętności przydatne w codziennym życiu’ jest szeroki i że codzienne życie wymaga innych umiejętności w różnych częściach świata. Z mojej perspektywy niezbędny w codziennym życiu jest rachunek różniczkowo-całkowy i że 15 latek powinien być w stanie go opanować, ale godzę się z myślą, że inni uważają inaczej.
Jeżeli chce się przeprowadzić porównywalne badania dla różnych krajów to jakiś zestaw umiejętności trzeba wybrać i trzeba godzić się z tym, że z uniwersalnego zestawu nikt nie będzie zadowolony.
5. O ile pytanie o przyczynę wzrostu umiejętności uważam za trudne do rozstrzygnięcia, to sam wzrost umiejętności jest dla mnie wyraźny. Zmieniła się próba, ale to nie ma znaczenia. Nie pytam bowiem jak dobrze dzisiejsza szkołą wykształciłaby 'tamte’ dzieci (sprzed 12 lat), ale pytam się jakie umiejętności ma obecne pokolenie 15-latków. W obszarze, który przez zadania jest mierzony te umiejętności są wyższe. Co więcej rosną szybciej niż w innych krajach.
Wzrost poziomu umiejętności ten jest systematyczny przez te kilkanaście lat. Jest to raczej argument dla tych, który uważają, że wynika on ze zmian aspiracji w społeczeństwie niż tych którzy chcieliby przypisać go którejś reformie (efekt reformy byłby ,,progowy”).
6. Wypowiedzi prof. Marciniaka nie komentuję, ponieważ nie słyszałem jej bezpośrednio, a doniesienia prasowe potrafią zniekształcać wypowiedzi. Sformułowanie o ,,ściganiu się” jest niefortunne, ale nie wiem w jakim kontekście padło.
O ile jedna uważam, że warto dyskutować o tym co mówią lub czego nie mówią dane/wyniki PISA
to nie uważam by to forum było dobrym miejscem na dyskusję co o badaniach PISA powiedziała ta czy inna osoba.
Panie Doktorze, oczywiście Pańskie zdanie o tym, że wypowiadane w mediach oceny badań PISA nie są odpowiednim tematem dla tego forum, jest wiążące, bo to jest Pańska strona, co mówię bez ironii, jak najbardziej szczerze przepraszając za nadużycie. Chcę się tylko wytłumaczyć, zwracając uwagę, że o rzeczywistej wartości tych badań poza ciekawymi metodami statystycznymi świadczy również zawartość pytań, o czym już wspominałem, ale także to, jak się te badania wykorzystuje. To jest trochę podobne do badań nad energią atomową, obawiam się. Konsorcjum PISA nie jest tu niewinne i nie może oświadczać, że nie ponosi odpowiedzialności za to, co ktoś zechce z ich danymi zrobić. Rankingi, na które radzi Pan – bardzo słusznie – nie zwracać uwagi, to istotny element ich pomysłu. Ma decydujące znaczenie marketingowe dla PISA, ale też i musiało to być pokusą dla zaangażowanych akademików: badania porównawcze to zawsze był ekscytujący kąsek. Kolejnym elementem istotnym jest rzekomo obiektywny charakter skali.
Ma Pan rację – sam oglądam dane PISA zainteresowany zwłaszcza pytaniami z kwestionariuszy. Sam punktowy wynik interesuje mnie o tyle tylko, że bywa ciekawy w połączeniu z tamtymi informacjami. W końcu ta punktacja o czymś świadczy w ocenie intelektualnego potencjału ucznia. Natomiast bardzo szkoda – zwłaszcza przy tej kopalni danych – że tylko ten (wg mnie wyłącznie zastany) potencjał jest obserwowany, a nie rola szkoły w jego wykorzystaniu / kształtowaniu / rozwijaniu.
Obawiam się, że zadania z drzwiami ani nie przygotowała osoba, która wiedziała, co robi, ani nikt taki nie kwalifikował jego „progowej” przynależności. Proszę do tego zadania zajrzeć: zawiera ordynarny, zawstydzający błąd. Autor bez wątpienia nie wiedział, co robi. Trzeba przyznać, że w PISA się to dotąd nie zdarzało, choć zdarza się co i raz np. w zadaniach maturalnych. Zdarzały się w PISA błędy innego rodzaju. Mniejsza o nie teraz, bo warta zastanowienia jest Pańska i moja uwaga o nikłym procencie odpowiedzi na pytanie drugie do tego zadania – sformułowane poprawnie i uznane za najtrudniejsze.
Otóż w tym właśnie rzecz. Przypomnę raz jeszcze sytuację opisywaną z kolei przez Antoine Bodina. Rzecz dotyczyła ujawnionego zadania z jabłkami i przypomnę sytuację. Farmer sadzi jabłonki i zawsze sadzi je w kwadracie rzędów i kolumn, tak, że możemy mieć jedną jabłonkę (bok = 1), cztery (2×2) itd. W pierwszym przypadku jabłonkę otacza 8 tuj (kwadrat 3×3 z dziurą w środku na jabłonkę). W drugim – 16. Nie mogę tu rysować, więc trzeba sobie wyobrazić sytuację – tuje stoją na obwodzie kwadratu i są umieszczone dwukrotnie gęściej niż jabłonki, a rządek jest odpowiednio (o jedną tuję) dłuższy, tak, żeby kwadrat tuj dał się zamknąć wokół kwadratu jabłonek. W związku z tym np. górny rząd tuj ma ich 2n+1, gdzie n jest bokiem kwadratu jabłonek. W sumie tuj jest zawsze 8n. Rysunek wprowadzający przedstawiał tę sytuację aż do n = 4.
Pierwsze zadanie polegało na wypełnieniu tabelki z ilościami jabłonek i tuj. Tabelka kończyła się na n = 5, więc – jak zauważył Bodin – zadanie w zasadzie polegało na policzeniu drzewek na rysunkach. Finowie odpowiedzieli na to zadanie w 53%, Francuzi – w 42%.
Zadanie drugie wyjaśniało, że liczbę jabłonek da się wyrazić jako n^2, a liczbę tuj jako 8n. Przy okazji – gdyby się ktoś spodziewał, że powyższe zadanie 1. wymaga odnalezienia prawidłowości w układzie, skoro sytuacja dla n = 5 nie była narysowana, byłby w błędzie, ponieważ dla znalezienia odpowiedzi wystarczy przeczytać treść zadania nr 2 i wykonać mnożenie. Pytanie w tym zadaniu dotyczyło znalezienia takiego n, dla którego liczba tuj i jabłonek byłaby równa. Procenty spadły, ale i się odwróciły – 20% Finów i 26% Francuzów, w tym 62% z tych, którzy odpowiedzieli na zadanie 1.
Trzecie zadanie pytało, która ilość rośnie szybciej – jabłonek, czy tuj i dlaczego. Tu znów Francuzi byli lepsi.
To jest moment niezwykle ważny, choć być może trudny, bo to właśnie tu pojawiają się odpowiedzi Bodina i PISA (przeciwstawne) na pytanie, które i Pan stawia, dopuszczając wiele możliwych odpowiedzi – Pana interesuje nauczanie analizy matematycznej, ale toleruje Pan inne preferencje. Ten moment pomaga nieco zrozumieć ograniczenia obiektywizmu skali PISA, albo zdać sobie sprawę z rzeczywistej niejasności jej znaczenia.
Bodin nie stwierdził, że przedstawiona sytuacja fałszuje obraz sytuacji i Francuzi są w rzeczywistości lepsi od Finów z matematyki. Przeciwnie – uznał, że są gorsi i że PISA to bez wątpliwości ujawnia, ale zwracał uwagę, że PISA nie pyta w testach o to, co jest treścią nauczania matematyki we Francji, gdzie przy okazji trywializacja matematyki przez sprowadzenie jej do codziennych kontekstów nie jest w cenie i gdzie ceni się w matematyce abstrakcję. Bodin zauważył również, że owo 1. pytanie, w którym Finowie okazali się lepsi, w ogóle nie dotyczy matematyki.
Mamy przy okazji w tym przypadku – przyznaję – do czynienia z sytuacją, w której francuskie wyniki być może ujawniły wpływ francuskiej szkoły, więc coś, co wydaje mi się niemożliwe – ja twierdzę, że wyniki PISA o szkole nie mówią niczego.
Ale marudzę o tym zadaniu tak długo, bo ono bardzo wiele mówi o obiektywizmie skali Rascha w zastosowaniu PISA i o podejmowanych w tym badaniu wyborach. Kalibracja Rascha dla Francji i Finlandii będzie co do porządku zadań ta sama: 1 < 2 < 3. Ale odległości będą już różne. Dystans między 1 i 2 jest w Finlandii większy niż we Francji. Mogłoby się przy okazji zdarzyć, że dla innych zadań o trudności pomiędzy wskazanymi tu zadaniami 1 i 3, również porządek uległby odwróceniu, choć – jak rozumiem – PISA stara się takie niehomogeniczności eliminować. Otóż oczywiście zadanie 2. nie jest obiektywnie trudniejsze o X, choć skala PISA tak to mierzy. Zaobserwowano zaledwie, że jest rzadziej rozwiązywane, a to – nie należy zapominać – bynajmniej nie jest efektem obiektywnego rachunku zdarzeń losowych, bo choć model zdarzenia losowego okazuje się tak przydatny, w rzeczywistości nie o los tutaj chodzi. Być może częstość rozwiązywania tego zadania i jego subiektywna łatwość we Francji bierze się z programu francuskiej szkoły lub z tego, że tego rodzaju umiejętność uważa się tam za ważną i że ona jest ważna również dla francuskich dzieciaków.
Za trudne da się w PISA uznać każde zadanie, które jest rozwiązywane rzadko, bo np. nikogo nie obchodzi temat, którego ono dotyczy. Znajdzie się wtedy na szczycie skali i wyznaczy marzenia edukatorów.
Pańska ulubiona analiza matematyczna niemal do szczętu zniknęła z programu polskiej szkoły. Szlachetnie deklaruje Pan, że jest w stanie szanować tego rodzaju wybory. Otóż PISA nie jest tak szlachetna. Analiza matematyczna, ale również w sporej części sama matematyka (jeśli, jak to widzi Bodin i ja sam, widzieć ją w rozumowaniach abstrakcyjnych raczej niż w rachunkach), wypada poza skalę. A to oznacza, że przestaje istnieć jako cel. Proszę na chwilę zapomnieć o ponurych realiach i wyobrazić sobie sytuację, w której PISA pyta choćby o analizę zmienności funkcji – jest dość jasne, że prof. Marciniak (proszę mi wybaczyć, że go znów przywołuję) natychmiast wrzuciłby pochodne do programu gimnazjum i ścigał się z Koreańczykami na tym polu.
Oczywiście wiemy, że rozpiętość pytań PISA była w sporej (prawdopodobnie głównej) mierze skutkiem sytuacji zastanej w pierwszym, bazowym badaniu. Że – innymi słowy – PISA mierzy zamiary na siły. Podobne wnioski da się wysnuć z analizy zmian w programie polskiej szkoły. Istotnie rezygnujemy z czegoś, czego szkoła i tak uczyć nie jest w stanie. Jeśli o program chodzi – efekty są widoczne. Nauczyciele wczoraj nie byli w stanie wyjaśnić uczniom np. indukcji matematycznej, albo niewymierności przekątnej kwadratu. Wyrzuciliśmy to z programu i dzisiaj już nauczyciele matematyki (badania TED-M) sami nie mają o tych rzeczach bladego pojęcia. Tak ta zabawa w eliminację rzeczy nierealnych będzie trwać aż do jak najbardziej realnego dna.
PISA robi to samo. PISA – innymi słowy – orzeka, że analiza oraz całe mnóstwo innych rzeczy – nie jest warta uwagi. To sytuacja, jak z budżetem dużej firmy, którą należy radykalnie restrukturyzować, ale przecież w planach na kolejny rok trzeba brać pod uwagę wydatki z lat poprzednich, bo one się powtórzą. Tak się nie da, dobrze to wiemy, a mimo to w edukacji właśnie powtarzamy ten błąd.
PISA nie mierzy zdolności matematycznych, a jedynie matematyczną „literacy”. Owszem – można to więc rozumieć tak, że jest to matematyka dla „nie-matematyków”, co jest zrozumiałe: mamy do czynienia z kształceniem ogólnym. Ja osobiście i tak protestuję, bo uważam za szkodliwe stereotypy o matematyce, która szkoła przy tej okazji wbija do głów uczniom i które potem powodują ich „wykluczenia” rozmaitego rodzaju – np. niezdolność do przyswojenia tekstu, w którym pojawiają się jakiekolwiek liczby, czy – Boże, zmiłuj się! – wzory. Niech będzie – przynajmniej z tym się zgodzę, że tych, którzy nie chcą, nie powinno się zmuszać do męki przy jakichś logarytmach, czy czymś podobnym. Gorzej dzieje się wtedy, gdy kurs matematyki tego rodzaju szkodzi rozumieniu matematyki u tych, którzy potencjalnie rozwinąć tego typu zainteresowania – a moim zdaniem tak się właśnie dzieje nie tylko w polskiej szkole.
To jeden z elementów ceny, którą – nie wiemy tego – być może płacimy za zmiany, które w PISA widoczne są jako wzrosty. O drugim wspomniałem – to są dziwne zjawiska w górze skali i poza skalą. Co zyskujemy? PISA twierdzi, że zdolność do życia w XXI wieku demonstrowaną umiejętnością stosowania wiedzy w realnych sytuacjach. Ja twierdzę, że tego rodzaju opinie są samozwańczą autopromocją i nic nie świadczy o ich prawdziwości, a treść ujawnionych zadań najmniej.
Ma Pan rację i z Koreańskimi dziewczynkami, i z czytaniem dzieciom książek w Polsce. Dość podejrzana wydaje mi się koreańska błyskawiczna skuteczność w socjoinżynierii, ale za mało wiem. Nie wiem natomiast zupełnie w jaki sposób badania PISA wskazują na potrzebę czytania przedszkolakom. Pytając o rekomendacje płynące z tych badań miałem raczej na myśli wnioski i działania typu mniejsza klasa, peer-to-peer learning, większa autonomia szkół albo może na odwrót (o jednych i drugich rekomendacjach dało się słyszeć) – coś, co dałoby się znaleźć w kwestionariuszach i wynikach.
Rasch i obiektywizm skali raz jeszcze. Powiedzmy, że A, B i C wyznaczają poziomy zdolności uczniów, że metryka jest taka, że A<B<C oraz, że AB=BC, czyli, że B dzieli na pół odległość AC. Powiedzmy, że A oznacza umiejętność składania literek, B oznacza zdolność rozumienia Sienkiewicza i dowcipów Zagłoby, a C zdolność rozumienia Joyce’a i strumienia świadomości pijanego gościa, który dostaje od zbirów po pysku i w związku z tym jego myśli stają się nieortograficzne. PISA i skala Rascha umożliwiają takie porównania, co więcej – jak wiemy – w dużej mierze zaliczenie zbioru uczniów X do poziomu B bywa możliwe nawet wtedy, kiedy żaden z x należących do X o Sienkiewiczu w życiu nie słyszał ponieważ poziom B jest tu poprawnie skonstruowaną średnią z AC. Poza wszystkimi innymi zastrzeżeniami warto wiedzieć, że ta solidnie umocowana w częstościach odpowiedzi metryka nie ma żadnego innego „fizycznego” znaczenia. Powiedzmy, że uczeń na poziomie B, który rzeczywiście właśnie przeczytał Trylogię, bawiąc się świetnie bon motami Zagłoby, osiągnął tę zdolność w wyniku 4 lat lektur zawierających 4 mln znaków. Czy należy wobec tego oczekiwać, że po kolejnych 4 latach i kolejnych 4 mln znaków, będzie w stanie przeczytać Joyce’a? A może jego wykształcenie do poziomu C będzie wymagało tych samych wydatków, co poniesione na drodze od A do B? Czy Joyce ma dwukrotnie wyższą wartość niż Sienkiewicz? Czy to w ogóle mówi cokolwiek? Nie wiemy, czy Joyce jest dwukrotnie trudniejszy od Sienkiewicza. Wiemy, że jest zdecydowanie rzadziej czytany. Pomijając fakt, że istotnie Sienkiewicza czyta się i rozumie nieporównanie łatwiej, częstotliwości, których moglibyśmy chcieć dla dzieci, powinny być może wyglądać odwrotnie.
Mówi Pan, że w obszarze umiejętności badanych w PISA polskie umiejętności wyraźnie wzrosły. Ani nie mamy pojęcia, co to za umiejętności, bo jedynie częstotliwość trafień obiektywizuje tu definicje (przy okazji – w zadaniu z jabłonkami – gdzie tu jest „real life” i stosowana w życiowych sytuacjach umiejętność?); ani nie wiemy, co znaczy „znacząco” poza statystyczną definicją każącą uznać, że wynik nie jest rezultatem przypadku lub błędu; ani nie mamy w rzeczywistości bladego pojęcia, co oznacza skala; ani wreszcie nie wiemy nawet tego, czy aby na pewno porządek na tej skali jest czymś, co chcielibyśmy akceptować.
Ten blog działa w obszarze rozumienia i poprawnego wykonywania analiz statystycznych, dlatego medialne i personalne wątki są tematem co najwyżej pobocznym.
Zadanie z jabłonkami bardzo ciekawe.
Odsuwając na bok rozważania czy bardziej Finowie czy Francuzi, to ciekawe i pozytywne jest, że zadanie można rozwiązać na kilka sposobów.
To, że wystarczy umiejętność liczenia a pomimo to wielu uczniów zadania nie rozwiązało powinno dawać do myślenia.
Koniec końców ważniejsza jest umiejętność rozwiązywania problemów niż umiejętność zapamiętywania rozwiązań.
Podobne zadania znajdują się w testach rekrutacyjnych używanych przez wielką piątkę film konsultingowych. Pewnie nie bez powodu.
Jeszcze dopisek, bo nie zauważyłem niejasności, która z pewnością się pojawi. Otóż fakt, że PISA pozwala wnioskować o zdolności do lektury Sienkiewicza na podstawie wyników również tych uczniów, którzy Sienkiewicza nie czytali, nie jest wadą tych testów, a przeciwnie – zaletą nader sprytnego modelu Rascha, który jest tu stosowany. W dodatku PISA, co wielokrotnie podkreślają autorzy i badań i wszyscy, którzy je znają, nie sprawdza wiedzy, a tylko mierzy zdolności. Może zatem być tak, że zakwalifikowanie do poziomu B ucznia, który nigdy nie czytał Sienkiewicza, będzie poprawne – gdyby przeczytał, byłby w stanie zrozumieć, ponieważ ma odpowiednie zdolności. Wszystko się zgadza i model pozostaje poprawny.
Ale wkrada się tu trudność związana z „fizyczną reprezentacją” raschowskiej skali trudności. Wszystko w rzeczywistości by się zgadzało, gdybyśmy znali znaczenie tej reprezentacji i wiedzieli na przykład, że awans na poziom B wymaga przeczytania 4 mln znaków, a awans na C – kolejnych 4 mln. Tego jednak nie wiemy, a Rasch tego problemu świadomie uniknął posługując się prawdopodobieństwami. Wszystko co o realnych trudnościach osiągnięcia poziomu B i C wiemy w rzeczywistości (pomijając poznawalność tych trudności w ogóle) to częstości, które pojawiły się w konkretnym, jednorazowym lub nawet wielokrotnym badaniu. To jednak nie jest to samo i przykład z Sienkiewiczem i Joycem miał to pokazać.
Oczywiście zadania PISA skonstruowane są inaczej i model działa tu o wiele lepiej niż działałby w takim dość absurdalnym przypadku. Niemniej:
1. Nie wiemy, na czym polega trudność i czym są mierzone zdolności;
2. Nie wiemy i nigdy nie spróbowaliśmy odpowiedzieć, jakich dokładnie zdolności oczekujemy (zastosowanie wiedzy w realnych sytuacjach raczej pozostaje sloganem, jeśli spojrzeć na treść zadań);
3. Szanse na rozwiązanie B szacowane obserwacjami A i C różnią się w danych PISA od tych mierzonych bezpośrednio w okolicach B.