Czy Jaś do Zuzi ma się tak jak John do Susan? Czyli o różnicach i brakach różnic.

 

W poniedziałkowym wpisie pisałem o tym jaki procent kobiet można spotkać w finałach OM, na wydziale MIMUW, w sejmie lub w gronie ekspertów NCN. Temat, który pojawił się w komentarzach do tego wpisu to linki do raportów o średnio równych lub lepsze wynikach kobiet w testach gimnazjalnych i średnio niższych zarobkach w branży IT (i pewnie wielu innych).

Dzisiaj napiszę kilka zdań nt. różnic pomiędzy wynikami chłopców i dziewcząt w różnych testach. Nazwa ‚efekt płci’ jest być może myląca, ponieważ nie jest oczywiste czy różnice które się pojawią są konsekwencją samej płci i związanej z nią biologii, czy też różnicom w traktowaniu, wychowaniu, motywowaniu do nauki itp.

Plan jest następujący: Pokażę wyniki z testów gimnazjalnych, ponarzekam na złą prezentacje graficzną tych wyników i nadużywanie nieszczęsnej, niczego nie mówiącej średniej. Porównam te wyniki z wynikami testu SAT, który zdaje w Ameryce wielu 17-18 latków, przetłumaczę kilka interesujących komentarzy różnych badaczy studiujących temat różnic w osiągach w edukacji. Okazuje się bowiem, że jest to bardzo gorący temat i z olbrzymiej liczby dostępnych publikacji można wyłowić czasem bardzo rozbieżne wyniki.

Testy podsumowujące gimnazjum

Zaczniemy od wyników z raportu Centralnej Komisji Egzaminacyjnej z roku 2011 podsumowującego wyniki gimnazjalistów kończących edukację w gimnazjum, a więc osób średnio w wieku 16 lat. Raport jest bardzo rozbudowany, ale na nasze potrzeby przyjrzymy się wynikom z części humanistycznej i z części matematyczno-przyrodniczej przytaczając wyniki w rozbiciu na płeć.

 

[Rysunek 1. Procent uczniów, którzy uzyskali określoną liczbę punktów z części humanistycznej w podziale na płcie. Ewidentnie dziewczęta maja średnio wyższą liczbę punktów niż chłopcy]

[Rysunek 2. Procent uczniów, którzy uzyskali określoną liczbę punktów z części matematyczno-przyrodniczej w podziale na płcie. Na pierwszy rzut oka nie widać różnic. Średni wynik dziewcząt jest wyższy niż średni wynik chłopców.]

Dodatkowo w raporcie przedstawione są średnie wyniki testu dla dziewcząt i chłopców. Średnie wyniki dla dziewczynek są wyższe w obu częsciach, dla testu humanistycznego znacząco, dla testu matematyczno-przyrodniczego nieznacznie.

Jest kilka interesujących kwestii związanych z wynikami testów gimnazjalnych, przedstawię je w punktach.

  • Rozkład ocen. W przypadku wyników z części humanistycznej rozkład dla każdej z płci przypomina krzywą Gaussa, co sugeruje jednorodną populację w której końcowy wynik to składowa wielu niezależnych czynników, które się ma lub nie ale w sumie wychodzi taki symetryczny dzwon. W części matematycznej jest inaczej. Brak Gaussowskości, brak symetrii może wynikać z tego że populacja jest niejednorodna (grupy osób w rożnym stopniu pracujących nad matematyką) albo z tego, że czynniki które się sumuje nie są niezależne. Która z tych przyczyn ma miejsce można sprawdzić jedynie mając odpowiedzi cząstkowe, więc na razie tego tematu nie będę rozwijał.
  • Sposób porównywania rozkładów. Do porównywania rozkładów wyników autorzy raportu zdecydowali się na porównywanie gęstości. Może one i ładnie wyglądają na rysunku, ale ich użyteczność jest praktycznie zerowa. W przypadku wyników z części humanistycznej przewaga dziewcząt jest tak wyraźna, że jak by jej nie przedstawić byłoby ją widać. Ale w części matematyczno-przyrodniczej sposób prezentacji uniemożliwia porównanie tego co ciekawe. I tutaj pojawia się pytanie co może być ciekawe.
    •  Jedną z ciekawych rzeczy to która płeć na częściej najgorsze wyniki. Np. spójrzmy na 5% gimnazjalistów o najgorszych wynikach – te osoby powinny nie są gotowe by żyć w świecie liczb, może koedukacja nie jest dobra, może należy te osoby inaczej uczyć – i zobaczmy która płeć tam dominuje. Dokładnie nie da się tych proporcji odczytać, ale wygląda na to, że wśród najgorszych gimnazjalistów z egzaminu matematyczno-przyrodniczego jest więcej chłopców.
    • Drugą ciekawą informacją to która płeć ma najlepsze wyniki. Spójrzmy na 5% gimnazjalistów o najlepszych wynikach – te osoby mają szansę zostać głównymi architektami, projektantami, budowniczymi itp, zobaczmy która płeć tu dominuje. Z wykresu nie da się odczytać dokładnie  tych proporcji odczytać, ale wygląda na to, że wśród najlepszych gimnazjalistów z egzaminu matematyczno-przyrodniczego jest więcej chłopców.
  • W obu powyższych przypadkach te różnice nie są duże, ale pokazują, że patrzenie na średnie albo porównywanie gęstości to nie jest najlepsze rozwiązanie. Lepiej byłoby pokazywać kwantyle lub dystrybuanty. Może dystrybuanta nie wygląda równie ładnie graficznie, ale interesujących informacji niesie więcej.

Testy SAT MATH

Zobaczmy jak wyglądają wyniki z egzaminów w Ameryce. Ameryka to dobry przykład ponieważ po pierwsze tam wszystko jest mierzone a po drugie jest tam sporo osób, które potrafią mierzyć i potrafią z pomiarów wyciągać wnioski.
Najczęściej przedstawianymi w literaturze wynikami są wyniki z egzaminów SAT (zgodnie z wikipedią ta nazwa była kiedyś skrótem ale już nie jest, jest pustym akronimem, dlatego jej nie rozwijam). Ten test robi się najczęściej w wieku 17-18 lat, nie jest obowiązkowy w skali kraju ale jest wymagany podczas przyjęcia na wiele uczelni. Dla mnie wyniki z tego testu są o tyle interesujące, że różnią się znacząco od wyników z testów gimnazjalnych w Polsce. Zobaczmy wyniki części matematycznej testu SAT
[Rysunek 3. Średnie wyniki testu SAT MATH w kolejnych latach dla kobiet i mężczyzn. Na podstawie An Empirical Analysis of the Gender Gap in Mathematics. Wybór skali jest tendencyjny, możliwe do uzyskania wartości to od 0 do 600.]
Na wynikach testu SAT MATH widać znacznie wyższe wyniki mężczyzn niż kobiet. Czym różnią się porównywane populacje polskich gimnazjalistów i amerykańska?
  • wiekiem. Gimnazjaliści robią test dwa lata wcześniej. Dwa lata to nie jest dużo dla dorosłych, ale akurat tutaj trafimy w okres dojrzewania, który u dziewczynek jest w 9-16 roku życia a u chłopców w 10-18 roku życia. Dojrzewanie może mieć to znaczący wpływ na wyniki, bez dodatkowych informacji nie jesteśmy jednak go w stanie uwzględnić.
  • powszechnością wykonywania testu. Test gimnazjalny zdają wszyscy gimnazjaliści, więc praktycznie cała młodzież. Test SAT wykonują osoby planujące dalszą edukację, co w stanach oznacza, osoby bardzo dobre albo mające pieniądze na dalszą edukację.
  • jednorodnością populacji. Populacja w Polsce jest bardziej jednorodna genetycznie niż w populacja w Ameryce.
  • kultura, klimat itp.
Ciekawą dyskusję przeprowadzono tutaj na temat efektu powszechności testu. Tzn. część badaczy uważała, że wyniki pomiędzy kobietami a mężczyznami w teście SAT można wyjaśnić tym, że mniej kobiet ten test zdaje. Tymczasem jest odwrotnie. Tz kiedyś proporcje kobiet do mężczyzn zdających test SAT były bardziej równe niż teraz ale też średnie różnice w wynikach były kiedyś bardziej różne niż są teraz.
Narzekałem sporo na średnie, później chwaliłem ludzi zza oceany, że potrafią oni liczyć a tym czasem prezentuję średnie dla wyniku SAT MATH. Ok, czas na poprawę.
W artykule The Gender Gap in Secondary School Mathematics at High Achievement Levels porównywane są wyniki testu SAT z wynikami bardziej wymagających testów, mianowicie konkursów matematycznych organizowanych przez ACM. Po drugie, zamiast patrzeć na średnie, porównuje się udział kobiet w grupie osób mających x% najlepszych wyników.
Tak się to robi!
Zobaczmy wykres
[Rysunek 4. Udział kobiet (os OY) w grupie osób o x% najlepszych wyników (oś OX). Na podstawie artykułu tutaj]
Z rysunku 4 można odczytać trend im wyżej odcinamy tym więcej mężczyzn będzie w odciętej grupie. Czy taki podobny trend obserwuje się w wynikach z gimnazjów nie wiadomo, ponieważ tam badacze zdecydowali się na pokazywanie gęstości.

Podsumowanie

Chciałbym dostać się jakoś do wyników z gimnazjum i z matur, może jesteście w stanie jakoś mi pomóc?
Ciekawe byłoby porównanie wyników z testu gimnazjalnego i wyników z matur.
Ciekawe byłoby też określenie jak motywacja do nauki wpływa na wyniki, i czy można zidentyfikować efekt motywowania dziecka do nauki.

Ważny komentarz

Porównywanie rozkładów wyników to ciekawe zadanie dotyczące dużych populacji. Może być użyteczne w planowaniu systemu edukacji (np. zasadności koedukacji). Nie należy jednak przeceniać tych efektów gdy mówi się o jednostkach. To, że jest większa obecność mężczyzn w grupie osób, które mają wysokie wyniki SAT MATH nie miało wpływu na fakt, że jedyną osoba z dwoma nagrodami Nobla w dwóch różnych dziedzinach nauk przyrodniczych jest kobieta Maria Skłodowska-Curie. To, że kobiety mają więcej punktów z części humanistycznej nie miało wpływu na fakt, że najlepszym polskim poetą jest mężczyzna Zbigniew Herbert*.

 

* Oczywiście w przypadku poetów jest to zupełnie subiektywne odczucie.

11 thoughts on “Czy Jaś do Zuzi ma się tak jak John do Susan? Czyli o różnicach i brakach różnic.”

  1. Myślę, że zamiast porównywać SAT (płatny, dobrowolny) do testów kompetencji (bezpłatny, obowiązkowy) lepiej spróbować dotrzeć do danych PISA z Instytutu Socjologii PAN. PISA to ustandaryzowane, międzynarodowe badanie odpowiadające na Twoje pytania dużo lepiej.

    W momencie, gdy trzeba zapłacić 50 USD za egzamin na wyniki dość mocno wpływa problem płci (wydatki na edukację dziewcząt nie muszą być równe wydatkom na edukację chłopców).

    Trochę na temat podziału na płcie (niestety tylko średnie) było w raporcie IBE na temat nauczania matematyki:
    http://eduentuzjasci.pl/pl/raport-o-stanie-edukacji-2010.html?showall=&start=11

    Na stronach CKE są raporty z matur, ale bez kryterium płci.

  2. btw: w raporcie o którym piszesz jest informacja o częstości wybierania matematyki na maturze. Dla chłopców jest ta częstość dwukrotnie wyższa niż dla dziewcząt.

  3. Zastanawiam się, czy „słabość” zróżnicowania „płciowego” w polskim gimnazjalnym teście mat-przyrodniczym (w porównaniu z siłą różnicującą testów amerykańskich) nie wynika także z samego charakteru testu gimnazjalnego, oprócz innych, wskazanych przyczyn. Test gimnazjalny, mat-przyrodniczy, w dużej mierze opiera się na „zdolnościach” werbalnych (pytania z geografii, przyrody itp), a tylko w części na czysto „matematycznych”. Jak wiadomo (a wiadomo), kobiety (z powodów biologicznego rozwoju struktur i funkcji mózgowia oraz z powodów zapewne kulturowych (?) dysponują PRZECIĘTNIE większymi „zdolnościami” werbalnymi). Gdyby gimnazjalny test humanistyczny (a więc czysto werbalny) zawierał taką samą część „matematyczną” jak matematyczny zawiera „werbalną”, wyniki mogłyby być w nim równie „niezróżnicowane płciowo” jak w teście mat-przyr.
    Mimo to, jestem pewien, że można odpowiedzieć na tytułowe pytanie twierdząco. Mimo poważnych wad zastosowania w porównaniu testu gimnazjalnego (poor validity).
    P.S. Oczywiście, że ekstrema są bardziej „miarodajne” niż średnie (z definicji). Im bardziej „jednolity” test, tym bardziej widać przewagę mężczyzn po obu stronach rozkładu (kobiety okupują „środek”. W testach amerykańskich mamy oczywiście tylko „prawe” ekstremum (silne), dlatego że „lewa” strona (słaba) do nich nie przystępuje, odmiennie niż w testach gimnazjalnych, dla całej populacji)

  4. Może tak być. Wyniki z matur mogą rzucić dodatkowe światło na hipotezę o tym, że chłopcy mają bardziej skrajne wyniki z matematyki, a dziewczęta bardziej ,,środkowe”. Matura z matematyki była ostatnimi laty wybieralna co z punktu widzenia takiej analizy jest bardzo na rękę.
    Tak czy inaczej wysłałem zapytania o dostęp do danych z matur i dostęp do danych z testu PISA, zobaczymy czy uda się je uzyskać.

  5. Tak! Koniecznie przeanalizuj testy PISA. Ja przeglądałam wydanie 2007 i pobieżnie porównałam wyniki dziewcząt i chłopców z matematyki w Niemczech oraz w Polsce. Wyszło, że w obu krajach chłopcy są średnio trochę lepsi, ale w Polsce różnica pomiędzy płciami jest mniejsza.

    W dyskusjach internetowych czasem podaję ten przykład, gdy ktoś mówi o „naturalnych” predyspozycjach mężczyzn – ach, te germańskie geny, widać Niemcy to prawdziwsi mężczyźni ;-).

    Tak serio, interesowało mnie to, bo siedziałam wtedy w Niemczech i zauważyłam, że wbrew pozorom to jest bardziej patriarchalny kraj niż Polska.

  6. @smarterpoland:

    Podejrzewam (ale na dowód też musiałbym mieć wyniki testów), że nie tylko w matematyce mężczyźni mają bardziej „skrajne”wyniki niż kobiety, ale i w testach werbalnych (humanistycznych) też. Tyle że tu należałoby większą uwagę poświęcić kwestii wieku: testy humanistyczne badają zdolności werbalne, znacznie wcześniej zależne od wpływów kulturowych (w naszej, zachodniej, kulturze) niż zdolności „matematyczne”. Gdyby porównać testy humanistyczne u chłopców dwa lata starszych niż dziewczęta, podejrzewam, że i tu kobiety byłyby bardziej skupione wokół środka, a u mężczyzn byłoby więcej najsłabszych i najsilniejszych wyników. To, oczywiście, nie tylko kwestia kulturowa; wynika też ze specyfiki rozwoju napędu psychoruchowego, częstości występowania autyzmu, przewagi prawej półkuli i leworęczności, a nawet cech asocjalnych itp. u mężczyzn, związanych z obecnością u nich chromosomu Y (nieobecnego u kobiet).

    1. @mw z tym chromosomem Y to trochę przesadziłeś, Y to taki mały, zdegenerowany X
      Co do wpływu wieku, to niestety najczesciej testy sa normalizowane do oczekiwanego rozwoju dziecka w danym wieku.
      Ale ciekawe byloby zobaczyc czy jest inna dynamika zmian u chlopcow niz u dziewczat.

      Zaczne od badania PISA wspominanego przez @anuszke, choc jest ono dla osob po 15 roku zycia,
      Ale najbardziej interesuje mnie temat niekoedukacyjnych klas dla najmlodszych. U 6-latkow idacych do szkoly roznice w rozwoju pomiedzy chlopcami a dziewczynkami moga byc wieksze niz u starszych dzieci.

  7. Proponuję raczej badanie z 2009, wnioski są bardziej aktualne niż z 2006 roku. Jeśli sięgamy po starsze, to lepiej z 2003 roku, gdzie ewaluacja matematyczna była priorytetem. PISA – chociaż bada wszystkie elementy edukacji – ma różne elementy wiodące. Matematyka była na topie w 2003 roku, będzie też szczególnie wnikliwie badana w 2012 roku (wyniki dopiero w 2013, sniff).

    Rola wychowania przedszkolnego była akcentowana w komentarzach do wyników PISA 2009 (np. http://oecdeducationtoday.blogspot.com/2012/01/early-childhood-education-and-care.html)

    Alternatywą w skali globu jest TIMSS (badanie dziesięcio- i czternastolatków, jest matematyka i treści przyrodnicze). Ma ono lepszy wywiad środowiskowy niż PISA, ale niestety Polska nie bierze w nim udziału.

  8. @smarterpoland;

    Normalizacja testów – normalizacją, ale nie to miałem na myśli, pisząc o porównaniu testów „werbalnych” (czy „werbalnej” części testów mat.-przyr.) u dziewcząt i dwa lata starszych chłopców (właśnie ze względu na „normalizację” testów, opartą przecież na kodzie kulturowym; weź choćby pod uwagę nieadekwatność kulturową testów inteligencji).

    Co do chromosomu Y: nie chodziło mi o „małego, zdegenerowanego” (hahaha….) tylko o brak drugiego X, warunkujący tak ogromną odmienność biologiczną samców i samic naszego gatunku.

  9. @MarcinZarod, niestety w miejsce gdzie aktualnie przebywam nie mam dostępu do raportu o wczesnej edukacji (chyba trzeba mieć wykupiony jakiś dostęp dla organizacji).
    Ale w pobliżu tej strony znalazłem do ściągnięcia dane z badań PISA, dosyć długo się ściągają ale wygląda na to, że będzie materiał do dobrej zabawy.

    Link do baz danych PISA 2009 jest tutaj: http://pisa2009.acer.edu.au/downloads.php

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *