Matematyka, PISA, zajęcia z modeli liniowych i mieszanych

Dziś mamy kolejny gościnny wpis. Tym razem poświęcony analizie danych PISA pod kątem cech korelujących z wynikami testu z matematyki. Dane PISA to źródło wielu ciekawych informacji, pracowaliśmy z nimi podczas poprzednich wakacji z wolontariuszami i będziemy jeszcze nie raz z nimi pracować.

Zanim przejdę do gościnnego wpisu streszczę historię jego powstania. Wiem, że wśród czytelników są osoby zaangażowane/uwikłane w dydaktykę przedmiotów związanych z analizą danych. Mam nadzieję, że dla nich ten rys historyczny będzie ciekawy.

W semestrze zimowym prowadziłem przedmiot dotyczący modelowania z użyciem modeli liniowych i mieszanych. Zaliczenie można było uzyskać na podstawie pięciu projektów. Wszystkie projekty dotyczyły analizy tego samego zbioru danych PISA 2009. Najlepsze wyniki z pierwszego projektu były przedstawiane publicznie, by każdy mógł z nich skorzystać i zrobić coś lepszego na drugim projekcie. Później najlepsze wyniki z drugiego projektu były przedstawiane publicznie tak by każdy mógł z nich skorzystać i zrobić coś lepszego na trzecim projekcie, i tak dalej.
Mamy więc pięć projektów dotyczących tego samego zbioru danych. Celem każdego z projektów jest opisanie, co wpływa na wyniki uczniów z egzaminu z matematyki. Zapisanych było około 20 studentów i wszyscy oni pięciokrotnie podchodzili do tego problemu. W miarę jak na wykładzie pojawiały się coraz bardziej zaawansowane techniki, widać było co nowego dzięki nim możemy odkryć/pokazać w zbiorze danych PISA.
Ostatni projekt polegał na przygotowaniu i przedstawieniu w postaci plakatu struktury zależności pomiędzy zmiennymi.
Mòj plan był prosty. Przez cztery projekty studenci szukali interesujących zależności, a w ostatnim projekcie najciekawsze rzeczy należało podsumować na jednej kartce/plakacie. Idealnie by było, gdyby taki plakat mógł zastąpić kilkudziesięciostronicowy raport z setką wykresów.

Poniżej mam przyjemność przedstawić jeden z lepszych wyników tego eksperymentu. Projekt wykonany przez Barbarę Rubikowską, Jana Gąskę, Krzysztofa Opalskiego i Marcina Wnuka. Prezentacja plakatów była ustna, ale na potrzebę tego bloga autorzy przygotowali krótki opis wyników.

Efekt szkoły i sposobu nauki

Barbara Rubikowska, Jan Gąska, Krzysztof Opalski, Marcin Wnuk

Wersja pdf plakatu.

W badaniu PISA, poza samymi wynikami testów, zebrane są różnorodne informacje na temat ucznia, jego rodziców i szkoły, w której się uczy. Dzięki temu mogliśmy sprawdzić, jak płeć, sposób nauki oraz efekt szkoły wpływają na wynik ucznia w teście z matematyki.

Aby zbadać wyżej postawiony problem, postanowiliśmy zbudować dwa modele: liniowy i mieszany. Bazą modeli (efektami stałymi uwzględnionymi w obu modelach) są płeć oraz zmienne opisujące sposób nauki. Tych ostatnich dane PISA zawierały aż kilkanaście; my postanowiliśmy ograniczyć ich liczbę do sześciu najbardziej istotnych statystycznie. Opis tych zmiennych wraz ze statystykami odpowiedzi, wykresami pudełkowymi obrazującymi wpływ zmiennych na wynik z matematyki oraz współczynnikami i p-wartościami w obu zbudowanych modelach, znajduje się po prawej stronie plakatu.

Modele różnią się między sobą sposobem uwzględnienia efektu szkoły. W przypadku modelu liniowego jest to efekt stały – do równania modelu dodaliśmy kilka istotnych statystycznie zmiennych związanych ze szkołą, do której dany uczeń uczęszcza. Opis tych zmiennych wraz ze statystykami odpowiedzi, wykresami i współczynnikami w modelu liniowym znajduje się po lewej stronie plakatu. W modelu mieszanym szkoła jest efektem losowym.

Modele zbudowaliśmy za pomocą pakietu R. Na środku plakatu znajduje się podsumowanie modeli. P-wartości w testach, w których hipotezą zerową jest nieistotność danej zmiennej, są bliskie zeru (R sygnalizuje nam to za pomocą znaku ***), więc możemy uznać, że wszystkie zmienne uwzględnione jako efekty stałe istotnie wpływają na wynik z matematyki uzyskany przez ucznia. Również efekt losowy szkoły okazał się istotny; w modelu mieszanym odpowiada za około 1/6 zmienności wyniku.

Poniżej podsumowania każdego z modeli znajdują się wyniki testów diagnostycznych oraz wykresy diagnostyczne dla tego modelu. Wynika z nich, że zarówno założenia modelu liniowego (normalność reszt, niezależność reszt od zmiennej objaśnianej, jednorodność wariancji reszt, brak obserwacji odstających), jak i modelu mieszanego (niezależność efektów losowych od reszt oraz normalność tych dwóch wielkości) są spełnione bądź tylko nieznacznie naruszone.

Interpretacja modeli oraz możliwe wnioski z nich płynące znajdują się na dole plakatu. Ciekawą zmienną okazał się logarytm z liczby uczniów, który w miejscowościach wiejskich i w małych miastach wpływa dodatnio na wyniki uczniów, a w dużych miastach raczej ujemnie (wykres w lewym dolnym rogu). Najlepiej wypadli w teście uczniowie szkół prywatnych w dużych miastach, których rodzice wywierają presję na szkołę. Lepsze wyniki z matematyki uzyskują ogólnie chłopcy, uczniowie, którzy do nauki podchodzą rozsądnie: nie „wkuwają” materiału, tylko starają się go zrozumieć, zapamiętać najważniejsze rzeczy i odnieść to, czego się uczą, do wiedzy zdobytej wcześniej. Pamiętajmy jednak, że są to tylko ogólne tendencje – jeśli dobrze przyjrzymy się wykresom pudełkowym, zauważymy, że najlepszy wynik w Polsce (jedyny powyżej 800 punktów) uzyskał uczeń z miejscowości wiejskiej uczęszczający do szkoły publicznej, w której rodzice nie wywierają presji na placówkę.

9 thoughts on “Matematyka, PISA, zajęcia z modeli liniowych i mieszanych”

  1. Świetna robota. Czy myśleliście o rozszerzeniu analizy na status ekonomiczno-społeczny rodziców? Wiadomo, że wpływa on na wyniki PISA, ale byłoby fajnie wiedzieć jak mocno w porównaniu z innymi czynnikami.

  2. Bardzo, bardzo fajne. Ciekawe czy, gdyby przeprowadzić taką analizę dla wyników z czytania, te same zmienne okazałyby się również istotne? I co z kierunkiem ich wpływu?

    Swoją drogą, analizę danych chyba nigdy nie można uznać za całkowicie zakończoną, wyczerpującą. W zasadzie każdy wynik rodzi kolejne pytania 🙂

  3. „Najlepiej wypadli w teście uczniowie szkół prywatnych w dużych miastach, których rodzice wywierają presję na szkołę”
    Jak z powyższego plakatu odczytać wyniki dla możliwych ośmiu kombinacji (widzę tylko analizę pojedynczych zmiennych)?

    Drobna uwaga: warto by ponumerować poszczególne sekcje/wykresy na plakacie – łatwiej by było się do nich odnosić.

    1. Przekażę te uwagi autorom, mam nadzieję że odpowiedzą na nie.

      Swoją drogą na te wakacje planuję coś specjalnego, związanego z danymi PISA 2012. Ale nie zapeszajmy, napiszę o tym więcej w maju.

  4. Wyników dla wszystkich ośmiu kombinacji faktycznie nie ma na plakacie. W toku prac nad modelem analizowaliśmy interakcje, nie wykryliśmy żadnej istotnej. Co ciekawe, w modelu tylko z wielkością szkoły i miasta jest interakcja między tymi zmiennymi (generalizując: w dużych miastach małe szkoły są lepsze, na wsiach im większa szkoła tym lepiej), ale wpływ ten uwzględniają pozostałe zmienne modelu

  5. Co do statusu społeczno-ekonomicznego rodziców, to takie zagadnienie na pewno pojawiło się w analizach na tym przedmiocie. Było 5 projektów, każdy z nich robiło około 10 grup, a pracowaliśmy na jednym zbiorze danych, więc myślę, że dość dokładnie wykorzystaliśmy dostępne zmienne 🙂 W jednym z projektów razem z Jankiem Gąską zajęliśmy się modelem liniowym objaśniającym wpływ na wynik testu z matematyki zmiennych odpowiadających za szeroko pojęty stan posiadania. I tak bardzo istotne okazały się: dochód rodziców (przedziały dochodów jako zmienna liczbowa 1-6), liczba komputerów w domu, fakt posiadania przez dziecka własnego komputera i liczba telewizorów w domu. Trzy pierwsze zmienne wpływały pozytywnie na wynik, a liczba telewizorów negatywnie. Przejście do wyższego przedziału dochodów zwiększało wynik dziecka średnio o 87 punktów (to bardzo dużo przy średnim wyniku na poziomie 550 punktów), fakt posiadania własnego komputera zwiększał wynik o 39 punktów, każdy kolejny komputer w domu o 16 punktów, natomiast każdy następny telewizor zmniejszał wynik średnio o 7 punktów.

    Wyniku z czytania nie badaliśmy pod tym kątem, bo naszym zadaniem przez cały semestr było objaśnianie właśnie wyniku z matematyki, ale oba te wyniki są ze sobą silnie skorelowane, więc możliwe, że wnioski z analiz byłyby podobne. W końcu czytanie (i uczenie się) ze zrozumieniem jest ważne we wszystkich dziedzinach 🙂

  6. Nie brałem udziału w zajęciach z modeli liniowych i mieszanych, ale podoba mi się koncepcja z rozwijaniem jednego modelu z projektu na projekt. Druga rzecz to ostatnie zadanie dotyczące wizualizacji. Razem z dojściem do wyników daje to spójną całość, produkt końcowy. Miałbym pytanie odnośnie wizualizacji. Jak wykonany został plakat? W sensie czy w R, czy też przy pomocy innych narzędzi?

    1. Różne grupy używały różnych narzędzi do złożenia częściowych wyników w plakat [wykresów i kodów w R]
      Ta grupa afaik użyłą MS Puslishera

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *