Update:
Nowsze wyniki matur dostępne są tutaj
http://smarterpoland.pl/index.php/2015/09/wyniki-z-matur-z-2015/
Dzisiaj przyjrzymy się wynikom z matur z lat 2010-2012. Z wykresów opisujących wyniki z polskiego i matematyki powyciągamy kilka smaczków. Na temat zwrócił mi uwagę Marek K., za co bardzo dziękuję!
Na początek przyjrzymy się wynikom z matury z języka polskiego, poziom podstawowy.
Trzy poniższe kolejne wykresy to dane z lat 2010, 2011 i 2012.
Matura z języka polskiego, poziom podstawowy, rok 2010, dane z raportów CKE.
Matura z języka polskiego, poziom podstawowy, rok 2011, dane z raportów CKE.
Matura z języka polskiego, poziom podstawowy, rok 2012, dane z raportów CKE.
Uderzające jest, że w każdym z tych roczników widzimy ,,zakłócenie masy” rozkładu w pobliżu 30% maksymalnego wyniku. To 30% to minimalny próg kompetencji niezbędny by uznać maturę za zadaną. Jak widzimy konsekwentnie rok w rok, w okolicy tego progu obserwuje się ,,podciągnięcie” części rozkładu. Na oko ,,zaburzenie” dotyczy około 1.5% rozkładu, więc średnio w szkole w której jest 66 uczniów, w sytuacji ,,przesunięcia podprogowego” jest średnio jedna osoba.
Ta ,,średnio jedna osoba” z pewnością cieszy się, że jest nad a nie pod progiem. Ale jak dla mnie ta dziura w rozkładzie zdradza znaczną uznaniowość oceny. A uznaniowość już nie powinna [prawie]nikogo cieszyć.
A jak wygląda sprawa w przypadku matury z matematyki?
Od 2010 roku matura z matematyki jest obowiązkowa, zobaczmy więc rozkład punktów z matury z matematyki w latach 2010 – 2012.
Matura z matematyki, poziom podstawowy, rok 2010, dane z raportów CKE.
Matura z matematyki, poziom podstawowy, rok 2011, dane z raportów CKE.
Matura z matematyki, poziom podstawowy, rok 2012, dane z raportów CKE.
Oglądając powyższe rozkłady, można zauważyć, że w roku 2011 matura z matematyki była, subiektywnie, trudniejsza niż w roku 2010.
Kolejna rzecz, która rzuca się w oczy dotyczy rozkładu ocen. Niewiele ma on wspólnego z rozkładem Gaussa. Nic w tym nadzwyczajnego, wiara, że rozkład Gaussa jest ,,powszechnym prawem przyrody” utrzymuje się głównie u osób niezbyt często oglądających różne dane.
Wiele efektów może wpływać na kształt tego rozkładu, i problemy z kalibracją zadań, i niejednorodność populacji i inne czynniki.
Ale te wykresy kryją też inną, moją zdaniem ciekawą historię.
W przypadku matury z polskiego ,,maksymalny wynik” uzyskała niewielka frakcja osób. Czyli skala pomiarowa miała dużą rozdzielczość ,,w pobliżu maksimum”. Rozróżniała tych naprawdę wyjątkowych od tych po prostu bardzo, bardzo dobrych.
W przypadku matematyki rozdzielczość w okolicy maksimum jest mniejsza. Około 1.5% uczniów uzyskuje najwyższy możliwy wynik punktowy.
Skąd to się może brać?
Czy to problem z kalibracją, tzn. zadania są zbyt łatwe?
Nie wydaje mi się, by problem z kalibracją utrzymywał się przez trzy lata z rzędu.
W zespołach kalibracyjnych pracują specjaliści i zapaleńcy, którzy potrafią wymyślać interesujące zadania.
Moja hipoteza jest taka, że materiał matematyki w szkole średniej jest zbyt ubogi, zbyt wąski, by dało się na nim skonstruować pole do popisu dla bardziej uzdolnionych matematycznie nastolatków.
Stąd postulat: więcej matematyki w szkołach!
Wyniki matury z języka polskiego pokazuję też, że „podciąganie” może również dotyczyć części uczniów, którzy uzyskali najwyższy wynik
chyba nie koniecznie, ogon po prawej jest jakby krótszy z uwagi na mniej miejsca i kompresuje się na ostatnim słupku…
czyli wniosek jak przy matematyce, chociaż tu zdecydowanie mniej osób wychodzi poza skalę
Trzeba zwrócić uwagę, że brane pod uwagę były wyniki z podstawowej matury. Rozkład wyników matury rozszerzonej może być znacznie inny.
Widziałem wcześniej owe „nieciągłości maturalne” i ciekawi mnie jak je zamodelować.
Moje podejście było:
http://stats.stackexchange.com/questions/19244/how-to-formally-test-for-a-break-in-a-normal-or-other-distribution/19252#19252
Acz… czy są gdzieś surowe dane? Bo ja widzę tylko wykresy z raportu (nie wiem jak w tym roku, ale niektóre raporty były naprawdę niezłe).
[crosspost z FB]
[przekopiowuję odpowiedź z FB]
Jak dla mnie najbardziej naturalnym podejściem było uciąglenie/wygładzenie wyników w okolicy 30% maxa a następnie porównanie czy obserwowane liczebności różnią się istotnie od oczekiwanych (np. testem Pearsona/chi2). To dużo łatwiejsze niż modelowanie całego zjawiska bo można ,,badać” rozkład lokalnie.
Może te dziwne rozkłady wyników z matematyki to tak naprawdę sumy kilku rozkładów o bardziej „klasycznym” wyglądzie? Np. klas humanistycznych i biologiczno-chemicznych?
Niejednorodność populacji to jedno z możliwych wyjaśnień [problemy z kalibracją zadań to kolejne].
Słabość tego wyjaśnienia polega na tym, że w wynikach z języka polskiego niejednorodności nie widać [a przecież też są klasy ścisłe i humanistyczne].
Szkoda, że nie ma dostępu do danych oryginalnych, bo jestem bardzo ciekawy jak wygląda łączny rozkład tych dwóch cech.
Co ciekawe w danych PISA tego typu różnic w rozkładzie nie widać.
@smarterpoland
„Słabość tego wyjaśnienia polega na tym, że w wynikach z języka polskiego niejednorodności nie widać”
Wg mnie jest tak dlatego, że język polski jako przedmiot nie jest tak podatny na wyuczenie i wyćwiczenie jak matematyka. Nie mam jednak nic na podparcie tej tezy :(.
„jestem bardzo ciekawy jak wygląda łączny rozkład tych dwóch cech”
Ja też. Sądzę, że grupa, która osiągnęła dobry wynik z polskiego, a kiepski wynik z matematyki będzie liczniejsza niż grupa o kiepskim wyniku z polskiego, ale dobrym z matematyki (dobry-kiepski w sensie względnym oczywiście).
siłą tych wyjaśnień to taka jakaś bardziej humanistyczna niż ścisła…
Rozumiem, że cały arkusz należący do jednego ucznia oceniał jeden egzaminator? Ciekawe, czy gdyby dać powiedzmy trzem egzaminatorom po 1/3 arkusza do oceny to odstępstwo od rozkładu Gaussa w okolicy progu zaliczenia by zniknęło?
Egzamin pisemny z matury z j. polskiego to max. 20 punktów za test czytania ze zrozumieniem i max. 50 punktów za wypracowanie.
,,Rozproszyć” ocenę wypracowania byłoby trudno. Ale prawdopodobnie, gdyby osoba oceniająca wypracowanie nie znała punktów za test z czytania ze zrozumieniem, to nie byłoby jak zniekształcać wyników w okolicy progu zaliczenia.
„Kolejna rzecz, która rzuca się w oczy dotyczy rozkładu ocen [matymatyka, podstawowy, przyp.]. Niewiele ma on wspólnego z rozkładem Gaussa. ”
Niezupełnie – jeśli przyjrzymy się uważniej, to możemy zauważyć efekt działania CTG dla trzech różnych populacji. W takiej sytuacji rozkład powinien się prezentować jako trzy nachodzące na siebie dzwony gaussowskie. Wyjątkiem być może jest wykres przedstawiający wyniki z roku 2011; jednak nawet w tym przypadku widać charakterystyczną „górkę” w rejonie 37 punktów.
Z drugiej strony także w przypadku matur z matematyki można zauważyć charakterystyczne tąpnięcia rozkładu w rejonie progu zaliczenia.
Pozdrawiam. 🙂
@Virtuozo,
hipoteza o trzech składowych gaussowskich może i jest do obronienia dla 2012, ale nie dla wcześniejszych roczników.
Ponoć rozkłady wyników w liceach i technikach bardzo różnią się pomiędzy sobą.
Pewne jest to, że rozkłady dla języka i dla matematyki są zupełnie zupełni inne.
To może być prawdą – np. na wykresie z 2011 dostrzec można „gołym okiem” tylko dwie populacje; wypada przyznać, że hipoteza o istnieniu pewnej trzeciej, która odpowiada za małą górkę koło 37 punktu jest naciągana. Zwłaszcza, jeśli zauważymy, że w 2012 każda z trzech potencjalnie istniejących populacji jest bardzo widoczna.
Rozkład wyników 2010 wydaje mi się najbardziej interesujący: w szczególności z powodu „kulfona” w otoczeniu wysokich wyników. Gdyby nie on, to rozkład byłby zupełnie przyzwoity.
Powinienem był wcześniej podkreślić, że zdanie na temat trzech populacji to raczej tylko luźna hipoteza. 🙂 Nawet jeśli prawdziwa, to nie potrafiłbym wyjaśnić, w jaki sposób te populacje mogłyby być rozróżniane, aczkolwiek wydaje mi się, że pewnym tropem mogłoby być osobne rozważanie rozkładów wyników z zadań otwartych i zamkniętych.
Wciąż nie wyjaśniałoby to jednak, dlaczego rozkład wyników z j. polskiego jest tak piękny, że mógłby stanowić podręcznikowy przykład (oczywiście z dokładnością do fluktuacji charakterystycznej dla progu zaliczenia).
Pozdrawiam!
Może czas zacząć likwidować szkoły średnie, a nie przyjmować wszystkich jak idzie nawet z 7 punktami po egzaminie gimnazjalnym.