Czy studenci wolą prowadzącego czy przedmiot, który on wykłada? Czyli graficzna analiza wariancji na przykładzie danych USOS

Od czego zacząć? Dzisiejszy wpis powstał przez złożenie się trzech zdarzeń.

– Przygotowuję artykuł popularnonaukowy do Delty przedstawiający co ciekawego dzięki statystyce można dowiedzieć się z danych USOSa [Uniwersytecki System Obsługi Studiów]. Załóżmy, że mamy wszystkie dane z USOSa i co teraz, co ciekawego potrafimy z nimi zrobić? Może macie jakieś pomysły?

– Interesuję się różnymi metodami przedstawiania danych graficznie, niekoniecznie ,,najlepiej” po prostu ,,różnymi”. A na konferencji use!R 2013 usłyszałem o pakietach granova i granovaGG, które pozwalają na graficzne przedstawienie modeli analizy wariancji jedno, dwu kierunkowej, z kontrastami i dla danych zależnych.

– Kolekcjonuję przykłady analizy wariancji, modeli liniowych i mieszanych na poczet trzeciego wydania [uwaga autoreklama] ,,Analizy danych z programem R” (tak, wiem, nie ukazało się jeszcze drugie wydanie ;-), ale zanim to wszystko zbiorę …).

Dziś używając danych z USOSa odpowiemy na jedno z szalenie ciekawych pytań:
Czy studenci bardziej lubią prowadzących, czy bardziej lubią przedmioty prowadzone przez tych prowadzących?

[na wydziale MIMUW w ankietach są dwa pytania 'Ogólna ocena opiniowanych zajęć’ i 'Ogólna ocena prowadzącego te zajęcia’].

Pakiety i funkcje

Pakiety granova i granovaGG mają bardzo podobną funkcjonalność. Różnią się tym, że pierwszy rysuje wykresy używając biblioteki graphics a drugi ggplot2. Oba pozwalają na graficzne przestawienie jedno- i dwuwymiarowej analizy wariancji, analizy z kontrastami i danych zależnych.

Robią to w bardzo niestandardowy sposób. Przyjrzymy się im na przykładzie analizy wariancji dla danych sparowanych.

Dane

Z bazy danych ankiet studenckich dla każdej pary przedmiot / prowadzący liczymy średnią ocenę z ankiet z odpowiedzi 'Ogólna ocena opiniowanych zajęć’ i 'Ogólna ocena prowadzącego te zajęcia’. W sumie ponad 1000 średnich, po dwie dla każdej pary prowadzący / przedmiot.
Wykorzystajmy graficzną analizę wariancji dla danych sparowanych by pokazać te dane.
Poniżej wykres, komentarz i kod.

Wykres
[Jeżeli lubisz zagadki spróbuj odgadnąć co pokazuje]

Każda kropka to para kurs-prowadzący, na osi ox przedstawiona jest średnia ocena prowadzącego na postawie ankiet, na osi oy średnia ocena ankiet.

Hipoteza, którą testujemy, to czy te średnie się różnią [tak naprawdę to czy różnią się średnie tych średnich]. A więc czy punkty te są bardziej nad czy pod prostą y=x. W lewym dolnym rogu przedstawiony jest rzut wszystkich punktów na prostą y=-x, ten rzut pokazuje jakie są różnice pomiędzy ocenami prowadzącego i kursu.
[Widzimy, że są pojedyncze pary prowadzący-kurs bardzo źle oceniane, w większości oceny są jednak dobre [skala 0-7] czasem lepiej wypada prowadzący czasem kurs].

Zieloną przerywaną linią zaznaczona jest średnia różnica pomiędzy ocenami prowadzącego i kursu, oraz przedział ufności. Z uwagi na liczbę obserwacji p-wartość jest bliska absolutnego zera, czyli NIESAMOWICIE ISTOTNIE STATYSTYCZNIE [* tak to żart, dostaję maile bym wyraźnie zaznaczał kiedy żartuję, więc zaznaczam] prowadzący są lepiej oceniani niż zajęcia, które prowadzą.
Może powinniśmy więc zmienić ofertę dydaktyczną by dogonić poziom prowadzących [* j.w.]?

Kod w R

oceny <- cbind(sredniaProwadzacy, sredniaZajecia)
library(granovaGG)
granovagg.ds(oceny, 
             main = "Analiza wariancji dla prób zależnych / sparowanych",
             xlab = "Średnia ocena prowadzącego",
             ylab = "Średnia ocena zajęć")
                                             Summary Statistics
sredniaProwadzacy mean                                    5.809
sredniaZajecia mean                                       5.536
mean(D = sredniaProwadzacy - sredniaZajecia)              0.273
SD(D)                                                     0.376
Effect Size                                               0.727
r(sredniaProwadzacy, sredniaZajecia)                      0.907
r(sredniaProwadzacy + sredniaZajecia, D)                 -0.013
Lower 95% Confidence Interval                             0.239
Upper 95% Confidence Interval                             0.307
t (D-bar)                                                15.647
df.t                                                    462.000
p-value (t-statistic)                                     0.000

Komentarz. Nie widać na tym wykresie różnicy w średnich prawda? W tym przypadku to jednak wina wykresu i tego, że różnic trzeba szukać nie w pionie czy poziomie, ale w skosie [w innych przypadkach ten typ wykresu sprawdza się bardziej]. Analizując te dane dokładniej, okazuje się, że w ponad 85% przypadków lepiej oceniany jest prowadzący niż prowadzony przez niego kurs.

2 thoughts on “Czy studenci wolą prowadzącego czy przedmiot, który on wykłada? Czyli graficzna analiza wariancji na przykładzie danych USOS”

  1. Problem tkwi w średniej ocenie prowadzącego. Ocena ze względu na co? Na sympatycznie prowadzone zajęcia, urok osobisty, łatwość zdobycia zaliczenia ? Jak była skonstruowana ankieta ?
    Ocena zajęć w znacznej mierze musi być wyjaśniona przez ocenę prowadzącego.

    Pozdrawiam,
    Krzysiek

  2. Ankieta jest tak skonstruowana, że jest w niej pytanie 'Ogólna ocena opiniowanych zajęć’ i 'Ogólna ocena prowadzącego te zajęcia’.
    Odpowiedzi w skali 0-7.

    Osobiście uważam, że rzeczywista użyteczność tego typu ankiet jest niewielka [nie bardzo wiadomo co od niej zależy], słyszałem że dla osób odpowiedzialnych za program najcenniejsze są otwarte odpowiedzi.
    Ale widząc słabości tej ankiety może uda się ułożyć lepszą.
    Jest na to kilka pomysłów i napiszę o tym jak tylko znajdzie się trochę czasu [wielu socjologów na UW nad tym pracuje i mają ciekawe pomysły].

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *