Narodowe Centrum Nauki udostępniło wyniki badania ankietowego wnioskodawców pierwszych konkursów NCN z 2011 r.
OPUS 1, PRELUDIUM 1, SONATA 1, HARMONIA 1 (link do prezentacji).
Jest w tej prezentacji kilka ciekawych wyników, jest też jeden ciekawy błąd/usterka. Dzisiaj więc będzie wpis na temat zgubnego wpływu używania odchylenia standardowego dla zmiennych nominalnych. Swoją drogą NCN na swoich stronach umieszcza wiele zestawień minionych konkursów. Np pod tym linkiem znajdują się ciekawe informacje o tym kim są kierownicy zwycięskich projektów.
Spójrzmy na poniższy wykres. Ciekawy przykład do dyskusji na zajęcia o uogólnionych modeli liniowych.
W skali 'bardzo negatywnie’, 'negatywnie’, 'pozytywnie’, 'bardzo pozytywnie’ oceniano różne elementy systemu grantowego.
Aby przedstawić wyniki na jednym wykresie zamieniono te cztery wartości skali na liczby 1, 2, 3 i 4 a następnie policzono średnią i odchylenie standardowe. To oczywiście błąd, ponieważ nie ma (a przynajmniej nie przedstawiono) żadnego uzasadnienia by wartości ze skali uporządkowanej zamieniać na liczby. Można było je znaczenie zgrabniej przedstawić dane porządkowej.
Ale ta zamiana na liczby doprowadziła do ciekawej usterki.
Jakiej? Zobaczmy.

Na osi poziomej zaznaczono średnie odczucia, im dalej w prawo tym pozytywniej. Na osi pionowej odchylenie standardowe, im wyżej tym odpowiedzi są bardziej rozrzucone wokół średniej.
Czy pionowa oś ma sens? Zobaczmy do czego będzie wykorzystywana. Przyjrzyjmy się punktowi 'parametrów bibliometrycznych’.

Napisano, że jest to mechanizm oceniany 'niskom ale niejednolicie’. Zielone punkty są podpisane 'wysoko i jednolicie’.
Problem polega na tym, że ta 'jednolitość’ to pułapka. Jeżeli maksymalna ocena to 4 a średnia wynosi 3.6 to rozkład z konieczności jest skupiony wokół średniej bo średnia jest bliska granicy (intuicje można czerpać z rozkładu dwumianowego gdzie ta zależność opisuje się wzorem sqrt(p(1-p))).
Więc naturalnie zmienność/odchylenie standardowe zależy od średniej!
Kiedy zmienność będzie największa? Dla rozkładu dwumianowego gdy średnia wypada w połowie skali. Czyli w przypadku tej ankiety oceny są ze skali 1 do 4, a więc dla średnich 2.5 spodziewamy się największej zmienności. I to nie jest zmienność wynikająca z tego, że są jakieś dwie grupy osób, które różnie odpowiadają. To zmienność wynikająca z 'mechaniki’ zmiennych losowych mierzonych w skali 1, 2, 3 i 4!
Zależność z powyższego wykresu pomiędzy średnią a odchyleniem standardowym to artefakt rozkładu a nie informacja, którą można interpretować.
Pointa jest taka, że analizowanie odchylenia standardowego nie ma sensu a wnioskowanie typu 'jednorodne’ czy 'niejednorodne’ jest niewłaściwe.

Czy to znaczy, że nie jesteśmy w stanie mówić o jednorodności odpowiedzi?
Moglibyśmy ten problem inaczej postawić, np. można porównać czy rozkład odpowiedzi w grupie tych co otrzymali grant i tych co nie otrzymali grantu różni się istotnie. Czyli porównywanie rozkładów w dwóch warstwach i sprawdzanie czy jest jednorodność pomiędzy warstwami.
A na koniec mała zagadka.
Kto potrafi wyjaśnić dlaczego na poniższym slajdzie pojawia się liczba 70%?
Mamy dwie grupy, w których w jednej na pytanie otwarte odpowiedziało 67% osób, drugą grupę w której na pytanie otwarte odpowiedziało 33% osób. Jak to możliwe, że w całej próbie na pytanie otwarte odpowiedziało 70% osób?

Obawiam się, że procenty 67 oraz 33 nie odnoszą się do liczby osób, które udzieliły odpowiedzi na pytanie w poszczególnych grupach (czyli tzw. zwrot ankiet) a jedynie jest to obliczenie proporcji osób, które udzieliły odpowiedzi na to pytanie. Czyli 298 osób to 67% a 147 to 33% z 445 osób, które udzieliły odpowiedzi.
Można by obliczyć liczność badanej próby: 445/70% = 636 osób zapytanych, a przy założeniu, że chęć udzielania odpowiedzi rozłożyła się po równo w obu grupach ankietowanych, możemy obliczyć liczebność poszczególnych grup. 298/70% = 426 osób, które nie otrzymały grantu i 147/70% = 210 osób, których projekty otrzymały finansowanie.
Stosunek prawie jak 2:1. Pytanie teraz: czy faktycznie NCN odrzuca (jedynie) 2 na 3 granty (co trzeci przyjmuje)? Czyli inaczej: czy próba jest reprezentatywna?
Z procentami prawdopodobnie rzeczywiście tak jest, ale wydaje mi się że to dosyć mało intuicyjne procenty.
Co do pytania o reprezentatywność próby, to wygląda na to, że NCN zgodzi się udostępnić dane, więc będzie można sprawdzić.
Problem polega na tym, że ta ‘jednolitość’ to pułapka. Jeżeli maksymalna ocena to 4 a średnia wynosi 3.6 to rozkład z konieczności jest skupiony wokół średniej bo średnia jest bliska granicy
Coś mi tu nie gra.
Ty mówisz: średnia jest blisko granicy => rozkład musi być skupiony wokół średniej
Ale tak naprawdę trzeba na to patrzeć odwrotnie: rozkład jest skupiony wokół wysokiej oceny, bo tak głosowali ludzie => skoro skupiony, to i wąski.
Niepotrzebnie zakładasz, że kształt rozkładu jest z góry założony. Np. że musi on być dwumianowy i tylko ta górna granica w czwórce go obcina.
Zakładasz, że gdyby były jeszcze wyższe oceny w skali (5=super dobra, 6=mega dobra, 7=ultra dobra), to ludzie głosowaliby „szerzej”. Ale my tego nie wiemy. Może głosowaliby wciąż jak jeden mąż na czwórkę.
W tym przypadku rozklad jest okreslony na czterech wartosciach, od 1 do 4. Tak dane były zbierane.
Mozna teraz rozważyć skrajny przypadek że średnia to 4, to wymusza odchylenie równe 0 ponieważ żeby średnia była równa zero wszystkie oceny muszą być równe 4.
Teraz można rozważyć średnią 3.99 i już nie wszystkie oceny muszą być równe 4 ale zdecydowana większość, wiec odchylenie standardowe będzie nieznacznie większe od zera.
To jeden z powodów dla którego odchylenie standardowe zależy od średniej i na brzegach musi być mniejsze i w sposób ciągły zbiegać do zera.
Dla rozkladu określonego na cztarech wartościach nie jest to tak widoczne jak dla rozkładu dwumianowego, stąd mój przykład dla rozkładu dwumianowego. Ale mechanizm jest podobny i na wykreśie z raportu NCN nie sposób odróżnić jaka część tej obserwowanej krzywizny bierze się z tego artefaktu jak ograniczony nośnik.
Bardzo mi się podoba ten artykuł!
Dodam jeszcze tylko dla ilustracji, że przy tej samej kafeterii zamiast wartości 1,2,3,4 można by przyporządkować odpowiedziom na przykład wartości -10,-6,6,10 i od razu odchylenie standardowe byłoby inne, a kto powiedział, że odległość między „zdecydowanie pozytywnie” i „raczej pozytywnie” jest taka sama jak między „raczej negatywnie” i „raczej pozytywnie”?
@smarterpoland
Mozna teraz rozważyć skrajny przypadek że średnia to 4, to wymusza odchylenie równe 0 ponieważ żeby średnia była równa zero wszystkie oceny muszą być równe 4.
Teraz można rozważyć średnią 3.99 i już nie wszystkie oceny muszą być równe 4 ale zdecydowana większość, wiec odchylenie standardowe będzie nieznacznie większe od zera.
Nie rozumiesz.
Ja właśnie krytykuję to, że myślisz od strony matematyki:
mamy zadaną średnią => zadana średnia wymusza odchylenie standardowe.
Tymczasem trzeba myśleć od strony badanego zjawiska:
mamy z badania określony rozrzut ocen => wychodzi określona średnia
Badani wiedzą, że mają do wyboru oceny od 1 do 4, które zdefiniowane są: „bardzo negatywnie, raczej negatywnie, raczej pozytywnie, bardzo pozytywnie”.
Jeśli prawie wszyscy decydują się głosować na „4=bardzo pozytywnie”, to nie możesz powiedzieć, że mały rozrzut ocen wynika z tego, iż nie mieli do wyboru jeszcze ocen 5, 6, 7, itd. (super pozytywnie? hiper pozytywnie? mega pozytywnie?)
Rozumiesz teraz, o co mi chodzi?
@anuszka, nie wiem czy rozumiem o co Ci chodzi, ale myślę że konkluzje są takie same
Moja jest taka, że nie można wnioskować z tak liczonego odchylenia standardowego.
Zauważ, że nawet dla średniej odpowiedzi 3 jest możliwe odchylenie standardowe 0 ale dla średniej 2.5 lub 3.5 już takie odchylenie nie jest możliwe.
Wydaje mi się, że Twój sposób rozumowania opiera się na istnieniu uniwersalnej interpretacji skali bardzo pozytywne -> bardzo negatywne. Ale takiej uniwersalnej skali nie ma gdy pytasz ludzi o opinie. Dla każdego 'raczej pozytywne’ znaczy coś innego, stąd też to ,,matematyczne” podejście.
To zupełnie inna sytuacja niż w fizyce lub inżynierii gdzie istnieją (lub ludzie wierzą, że istnieją) uniwersalne wzorce ile to metr itp. i można mówić o jednorodości w oparciu o sd.
Żeby było do końca jasne: Ja rozumiem, o co ci chodzi z ograniczonym nośnikiem. Ale ważna jest też definicja poszczególnych wartości na tym nośniku, jaką dostali badani.
Gdy dostali definicję, że 4=bardzo pozytywnie, to wiedzą, że jest to wartość skrajna i nie może być wyższej. Bo widać różnicę między bardzo negatywnym, raczej negatywnym, raczej pozytywnym i bardzo pozytywnym. Natomiast każda inna kategoria powyżej „bardzo pozytywnego” byłaby sztuczna. Nie możesz zatem domniemywać, co by było, gdyby nośnik zawierał jeszcze jakąś ocenę powyżej „bardzo pozytywnej”.
Ty mówisz, że gdyby granicę nośnika przesunąć gdzieś dalej, to wokół oceny „bardzo pozytywne” zrobiłby się podobny rozrzut jak wokół „raczej pozytywne”. Tymczasem niekoniecznie tak by było. Np. badani mogliby uznać, że super pozytywne, hiper pozytywne, mega pozytywne to już przesadne słodzenie i w ogóle nie głosowaliby na takie oceny. Wówczas rozrzut wokół 4 pozostałby mały. Albo mogliby ich w ogóle nie rozróżniać i oceniając jakieś zjawisko pozytywnie na każdą z ocen od 4 do 7 głosowaliby po równo. Nie wiemy tego.
To jest kwestia nie matematyczna, lecz semantyczna. Gdy oceny mają określone znaczenie dla badanych, to nie można domniemywać, co działoby się powyżej najwyższej oceny.
To co napisałam to jest właściwie wersja argumentu @agaty, przedstawionego kawałek wyżej.
Jeszcze jedno: Piszesz, że dla każdego ‘raczej pozytywne’ znaczy coś innego. Ba, ale dla każdego „bardzo pozytywne” znaczy już to samo. O to właśnie chodzi. Te skrajne oceny są uniwersalne. Więc nie bardzo da się coś umieścić poza nimi.
@anuszka,
Ok, teraz chyba rozumiem o co Ci chodzi.
Zgadzam się, że ograniczony nośnik to nie jest jedyny problem i nawet gdyby był szerszy to wciąż użycie sd nie byłoby ok.
Nie jestem pewien czy różnica pomiędzy ,,bardzo pozytywnie” i ,,raczej pozytywnie” jest tak samo oczywista dla każdego. Jak dla mnie oceny uniwersalne nie istnieją w danych ankietowych.
Pewnie jednak dalej jest ,,bardzo pozytywnej” ocenie do ,,raczej pozytywna” niż ,,raczej pozytywna” do ,,raczej negatywna” (i to rodzi problemy o których pisała @agata).
Miłe jest to, że prawdopodobnie te dane będą udostępnione i będzie można ekspermentować.
Zgadzam się, że ograniczony nośnik to nie jest jedyny problem
Ograniczony nośnik to NIE jest problem tutaj.
Zobacz, przetłumaczę twój argument na ludzki język i okaże się, że przestanie on mieć sens:
„Gdy rozrzut wokół oceny 'bardzo pozytywna’ jest mały, nie oznacza to wcale, że badani niemal jednogłośnie oceniali zjawisko jako bardzo pozytywne.
…Bo gdyby mogli zagłosować na ocenę wyższą niż 'bardzo pozytywna’, to rozrzut byłby większy.”
Twój argument ma sens matematyczny, ale przestaje mieć sens fizyczny w odniesieniu do badanego układu. Fizycznym ograniczeniem tego układu jest, że dla samych badanych i dla badaczy nie istnieje ocena wyższa niż 'bardzo pozytywna’. Nie miałoby tutaj sensu stwierdzenie:
„Nieprawda, że jednogłośnie oceniono zjawisko bardzo pozytywnie! Przecież część badanych oceniało zjawisko mega pozytywnie!”
Bo językowo, pojęciowo, 'mega pozytywnie’ czy 'giga pozytywnie’ zalicza się do 'bardzo pozytywnego’.
@anuszka
> Ograniczony nośnik to NIE jest problem tutaj.
> Zobacz, przetłumaczę twój argument na ludzki język i okaże się, że przestanie on mieć sens:
> “Gdy rozrzut wokół oceny ‘bardzo pozytywna’ jest mały, nie oznacza to wcale, że badani niemal jednogłośnie oceniali zjawisko jako bardzo pozytywne.
Ja używam implikacji a Ty piszesz, że równoważność nie jest prawdziwa.
Ja piszę: Ponieważ średnia jest blisko maksymalnej wartości to odchylenie standardowe musi być małe.
a Ty piszesz: Nie jest prawdą, że małe odchylenie standardowe oznacza wysoką średnią.
Oba zdania są prawdziwe,
przy czym pierwsze jest konstruktywne bo jasno pokazuje, że nie można tak samo traktować odchylenia standardowego dla dużych, średnich i małych średnich
(właśnie z powodu ,,efektu brzegowego”).
a Ty piszesz: Nie jest prawdą, że małe odchylenie standardowe oznacza wysoką średnią.
Nie, nic takiego nie napisałam.
Ok, może źle zrozumiałem Twój poprzedni komentarz,
W każdym razie, przynajmniej w sprawie odchylenia standardowego rozwinęła się dyskusja.
Więcej takich dyskusji!
Problem polega na tym, że skala „bardzo pozytywna” , „pozytywna” itd NIE jest skalą liczbową, a tylko do takiej można stosować podsumowania typu średnia, odchylenie standardowe,…. Narzucenie przez badacza skali liczbowej (bardzo pozytywna=4, pozytywna=3, …). już jest wymuszeniem a priori interpretacji wyników. Relacje między przypisanymi wartościami liczbowymi (patrz @agata) wpływają istotnie na średnią i odchylenie standardowe.
Powszechne u nas liczenie średniej ocen (ciekawe dlaczego nie idzie się za ciosem i nie liczy odchylenia standardowego ocen?) postuluje, że uczeń, którego wiedza jest oceniona na „dobry” (=4) ma DOKŁADNIE dwa razy więcej wiedzy niż uczeń oceniony na „niedostateczny” (=2). Oczekuję uzasadnienia tego fenomenu. W bardzo wielu krajach nie wodzi się nauczycieli na pokuszenie i system ocen jest inny, uniemożliwiający liczenie średniej (np w USA od A do F czy w bratniej Słowacji od A do E).
Zamiana skali nieliczbowej na liczbową nie może być, moim zdaniem dowolna. Powinna wynikać z danych i być podporządkowana jakiemuś celowi (np umożliwiać efektywna dyskryminację). Pewne wskazówki może tu dać użycie metod analizy korespondencji (która daje sensowną propozycje skalowania danych jakościowych) czy skalowania (SIC!) wielowymiarowego.
Liczenie średniej ocen to niesamowite kuriozum, tak bardzo upowszechnione, że zdecydowana większość osób nie widzi w nim błędnego.
Ale jeszcze ciekawszym przypadkiem jest średnia ze studiów, która np. u mnie na wydziale liczy się jako ważona średnia ze średnich ocen, z prezentacji pracy dyplomowej i z egzaminu dyplomowego.
W przypadku ankiety NCN nie było żadnej potrzeby liczenia średnich. Gdy uwzględnić jeszcze odpowiedź ,,nie mam zdania” byłaby pełna skala Likerta i można by te dane wizualizować tak jak się przedstawia dane ze skali Likerta, bez dziwnych zabiegów obliczeniowych.
@Ludwik, @all
wydaje mi się, że dr Biecek nadwyraz łagodnie potraktował NCN, nazywając „błędem/usterką” beztroskie przekształcenie pomiaru porządkowego w interwałowy/ilorazowy. Toż to przecież *bardzo* poważny błąd, na krawędzi manipulowania odbiorcami. Gdy popełnia go instytucja finansująca badania naukowe…
Może trochę przesadzam, ale zbyt często spotykam się takimi praktykami w moim środowisku. Takimi, czyli „zbierzmy sobie jakieś tam dane, zobaczmy czy coś fajnego wyszło, zróbmy fajny wykresik, dodajmy fajowe słownictwo i wyciągnijmy WIELKIE wnioski. Dziennikarze i tak się nie zorientują”.
Podziękowanie dla Autora bloga, że takie sprawy nagłaśnia.
Niestety spotykam się czasem z większym przyzwoleniem na manipulację analizami statystycznymi niż na ściąganie podczas egzaminów.
W przypadku NCN wątpię by chodziło o manipulację, koniec końców oni nic nie muszą udowadniać. Raczej zwykła pomyłka.
Ale nawet takie rzeczy warto piętnować. Bez rzetelnych analiz utoniemy w tandecie.