Raport ,,Obiegi kultury”

Na dziś zaplanowany był przemiły raport o badaniach klinicznych. Ale ponieważ od kilku osób dostałem informację o raporcie ,,Obiegi Kultury” wykonanym przez CentrmCyfrowe.pl z środków Narodowego Centrum Kultury więc stwierdziłem, że badania kliniczne mogą poczekać.

Wspomniany raport ,,Obiegi Kultury” w kilku wersjach i z oryginalnymi danymi znaleźć można pod adresem http://obiegikultury.centrumcyfrowe.pl/. Raport opisuje wyniki z badania, które poświęcone było obiegowi formalnemu i nieformalnemu (czy też legalnemu i nielegalnemu) treści takich jak książki, muzyka i filmy. Słowo ,,formalny” używane jest w słownikowym znaczeniu ,,zgodny z przepisami”, ale wygląda łagodniej niż słowo ,,legalny”. Badanie przeprowadzono w dwóch fazach, pilotażowej i właściwej. W drugiej fazie przebadano 1284 osób opisujących się jako aktywni internauci. W raporcie podejmowana jest próba charakterystyki kim są Ci aktywni internauci i jak mają się oni do całego społeczeństwa. Jednym z najbardziej znanych wniosków z raportu, jest ocena, że Intrenauci co prawda konsumują bardzo wiele treści nieformalnych/nielegalnych ale też konsumują bardzo wiele treści formalnych/legalnych, znacznie więcej niż średnia w społeczeństwie. Przyjrzymy się temu fenomenowi bliżej. A zaczniemy od krótkiej charakterystyki mocnych stron badania i raportu.

Co mi się podobało

  • Bardzo podoba mi się przejrzystość sposobu przeprowadzenia badania. Zarówno daty przeprowadzenia badania, postawione cele, użyte w badaniu formularze oraz surowe wyniki z ankiet są dostępne na wymienionej już stronie www raportu. Jeżeli więc nie zgadzamy się z jakimś wnioskiem możemy sami sprawdzić jak sprawa wygląda.
  • Bardzo podoba mi się streszczenie raportu przygotowane w atrakcyjnej graficznie formie na stronie http://obiegikultury.centrumcyfrowe.pl/mashup/. Sam raport ma 100 stron, jeżeli więc nie mamy czasu na czytanie całej książeczki to możemy poświęcić kwadrans na zapoznanie się ze streszczeniem, które bardzo przyjemnie się czyta/ogląda. Wielkie brawa, wreszcie streszczenie, które zachęca do czytania/oglądania.
  • W raporcie przedstawione są wyniki z badania Internatutów a następnie te wyniki są komentowane, rozszerzane przez badaczy prowadzących badania o zbliżonej tematyce. Np. przez Dominika Batorskiego (m.in. badanie Diagnoza Społeczna), Piotr Toczyski (m.in. World Internet Project), Przemysław Zieliński (m.in. Obserwatorium Żywej Kultury). Czytając ,,Obiegi kultury” co jakiś czas zadawałem sobie pytanie, a jak to wygląda w Diagnozie Społecznej, a jak to wyglądało w raporcie Młodzi 2011. Dodanie komentarzy innych badaczy w dużej części pozwalają na odniesienie się do innych badań.

Były też rzeczy , które mi się nie podobają. Jak np. poniższy rysunek, na którym długości słupków NIE odpowiadają prezentowanym liczbom.

[Rysunek 1. Z jakiegoś powodu długość słupka 14% jest większa w stosunku do długości słupka 81% niż by to wynikało z ilorazu tych dwóch procentów]

 Ale nie chciałbym tutaj krytykować drobiazgów, bo mam ciekawszy temat.

Jak już wspomniałem, jedna z głównych obserwacji dotyczy dużego zaangażowania w kulturę ,,formalną” osób, które intensywnie korzystają z kultury ,,nieformalnie”. A dokładniej to co się obserwuje, to że osoby intensywnie korzystające z Internetu częściej ,,nieformalnie” ściągają książki, muzykę i filmy (to nas nie dziwi) i te osoby też czytają więcej książek niż średnia w społeczeństwie.

Zobaczmy więc bliżej, kim są osoby uczestniczące w badaniu. Zacznijmy od przyjrzenia się strukturze wykształcenia.

[Rysunek 2. Struktura wykształcenia osób ankietowanych w drugiej fazie badania ,,Obiegi kultury”] .

Zauważmy jak wiele osób wśród aktywnych internautów to osoby z wykształceniem wyższym lub średnim. Prawie 90%. Zapala się pierwsza lampka ostrzegawcza, grupa II (intensywnych internautów) nie ma tej samej struktury wykształcenia co całe społeczeństwo, są to osoby lepiej wykształcone, nie dziwi więc że więcej czytają niż średnia.

Zobaczmy jak wygląda wiek ankietowanych w podziale na grupy wykształcenia.

[Rysunek 3. Rozkład wieku w grupach wykształcenia. Szerokość ,,bączka” jest proporcjonalna do liczby osób w danym wieku. Im szerszy bączek w danym miejscu tym więcej osób jest w takim wieku, wiek jest na osi pionowej].

Sprawa z książkami wygląda na coraz mniej oczywistą. W grupie osób z wykształceniem podstawowym większość to osoby w wieku 17-19 lat, które jeszcze nie zdobyły wykształcenia średniego, prawdopodobnie uczą się jeszcze w szkole średniej i nie dziwi, że czytają książki.

W grupie osób z wykształceniem średnim znaczna część osób ma blisko 20 lat. To prawdopodobnie studenci, nie powinniśmy dziwić się, że czytają książki.

W grupie osób z wykształceniem wyższym najwięcej jest osób świeżo po studiach lub jeszcze na drugim lub trzecim etapie studiów. Ponownie to, że doszkalają się, co wymaga czytania, też nas nie dziwi. Przekornie można by zapytać czy to, że tylko 89% z nich przeczytało przynajmniej jedną książkę czy to nie za mało ;-)

Co to oznacza? Że jeżeli chcemy uczciwie porównać ,,oczytanie” naszych II należały je porównać względem grupy o podobnej strukturze wykształcenia i wieku. Wtedy moglibyśmy zastanawiać się czy osoby z wykształceniem wyższym w wiek 30 lat więcej czytają książek gdy intensywnie korzystają z internetu czy też gdy nie robią tego aż tak intensywnie.

 

W formularzu ankiety znalazło się bardzo ciekawe pytanie mające ocenić, czy niechęć do zakupów oryginalnych utworów wiąże się z ich ceną (blok psychograficzny, pytanie ,,Ceny muzyki i filmów, są w Polsce tak wysokie, że trudno się dziwić ludziom, którzy pozyskują takie rzeczy za darmo z Internetu”). Zestawmy odpowiedzi na to pytanie z deklarowanymi przychodami gospodarstwa domowego.

 [Rysunek 4. Zależności pomiędzy dochodem gospodarstwa domowego a oceną, że filmy i muzyka są drogie i dlatego nie dziwi, że ludzie je ściągają. Wysokość poziomego paska jest proporcjonalna do liczby gospodarstw o danym dochodzie. Szerokość paska o jednym kolorze odpowiada frakcji osób o danym zdaniu n.t. ściągania w danej grupie dochodów. Czyli np. szerokości czerwonych pasków odpowiadają % osób które nie zgadzają się, że ceny muzyki i filmów uzasadniają ich nieformalne ściąganie.]

Na rysunku 4. Kolorem czerwonym i pomarańczowym zaznaczono procent osób, które nie zgadzają się, że cena uzasadnia ,,nieformalność”. Kolorem seledynowym i niebieskim oznaczono frakcje osób, które uważają że cena jest uzasadnieniem ,,nieformalności”. Pytanie nie wprost ,,czy uważasz, że ludziom trudno się dziwić” zamiast wprost ,,czy dla ciebie cena jest argumentem” wciąż bada tak naprawdę preferencje ankietowanego.  (To zdanie wykreslilem uwzgledniajac komentarze i to, ze nie wynika one z danych a bylo wylacznie moim ,,gdybaniem”).

Co jest bardzo ciekawe to, że frakcja osób uważających, że cena jest uzasadnieniem do ściągania nie zależy od dochodu gospodarstwa. Wręcz w grupie o najwyższych dochodach najwięcej osób podaje kwestię ceny jako usprawiedliwienie ,,ludzi” dla nieformalnego źródła muzyki czy filmów.

 

Ostatni rysunek dotyczy struktury oryginalnych książek, płyt z muzyką, płyt z filmami na stanie posiadania.

 [Rysunek 5. Kolory odpowiadają osobom odpowiadającym, że mają w swojej kolekcji od 0% (ceglasty) do 100% oryginalnych produktów.]

Spójrzmy na te wyniki z perspektywy wypowiedzi, które można znaleźć w sieci ,,Oglądam na próbę, ale jak mi się spodoba to kupuję”. Nie wygląda na to. Mimo, że żyjemy w czasach streamingu, gdy nie ma potrzeby ,,składowania” filmów czy muzyki z nieformalnych źródeł, to wciąż około 50% osób ma ponad połowę nieoryginalnych kopii.

 

Ok, to na tyle jeżeli chodzi o moją naturę człowieka, który na każdy temat ma zawsze ,,przeciwną opinię”. Ale aby być czegoś pewien należy wykluczyć wszelkie inne możliwości. Myślę, że kolejnym krokiem, powinno być spojrzenie na wyniki z raportu i odniesienie ich do grupy osób o tej samej strukturze wieku i wykształcenia. Dzięki temu będzie można wykluczyć lub potwierdzić kontropinię, że większa ilość przeczytanych książek przez II wynika z aktu że znaczna część z nich jest jeszcze w szkole lub uczy się nowych technologii do pracy.

 

Ankiety a manipulacja

Następne kilka wpisów poświęconych będzie różnym raportom ,,o stanie Świata”’. Będzie technicznie więc na rozluźnienie dziś coś lekkiego.
Jakiś czas temu miałem przyjemność poprowadzić krótki ,Lunch & Learn’ dla zainteresowanych pracowników Netezza R&D IBM Polska (z którymi czasem coś robię). Prezentacja dotyczyła zagadnień związanych z wizalizacją danych, kilka typowych przykładów np. opisywanych przez Tufte’go jak i kilka lokalnych przykładów z naszego podwórka. Ponieważ uważam, że wizualizacje tworzy sie przede wszystkim po to by przedstawić  zależności, które są w danych, bez przekłamań i zniekształceń (estetyka jest ważna ale nie może być argumentem w zniekształcaniu zależności) to staram się też przekonywać, że błędy w wizualizacjach wynikają częściej z niewiedzy niż świadomej manipulacji.

Manipulacja wykresem ma tę ,,wadę’’, że osoby znające techniki manipulacji zauważą i zdemaskują próbę manipulacji. Więc przekornie można powiedzieć, że jeżeli już ktoś bardzo chce manipulować wynikami to znacznie lepiej manipulować danymi niż sposobem ich prezentacji (btw: Oczywiście nie na leży manipulować ani jednym ani drugim).

Wczoraj kolega przesłał mi link do artykułu pokazujący przykład maniplacji na etapie przygotowanie formlarza dla ankiet.
Link do artykułu znajduje się tutaj.
W artykule pokazywany jest przykład jak dobierając listę odpowiedzi w ankietach ,,zaprojektować’’ wynik.

Celem ankiety miało być określenie jaki procent Polaków ogląda telewizję powyżej 4 godzin. Odpowiadając ankietowani mieli kilka opcji do wyboru. W zależności od wyboru listy możliwych odpowiedzi uzyskuje się różne wyniki.

z11022341x

W cytowanym artykule jest sporo wody na ten temat, ale w skrócie różnice wynikach wynikały stąd, że pytanie było niejasne, pytano o rzecz o kórej większośc pytanych nie wiedziała (skąd mają wiedzieć jaka jest średnia danej cechy w populacji, wiedzą ile oni oglądają telewizji) lub której nie potrafi precyzyjnie ocenić (trudno precyzyjnie ocenić ile się czasu przeznacza na pewną aktywność, chyba że chodzi o godziny w pracy). Dlatego też część osób wybierała mniej lub bardziej losową odpowiedź. Projektując formularz możemy tą część losowych odpowiedzi przenieść tam gdzie chcemy np. w celu uzyskania oczekiwanych wyników.

Ok, nie jest celem tego wpisu szerzenie klimatów ,,statystycy nas okłamują, strzeżcie się’’. Celem jest pokazanie jak ważna jest dostępność surowych danych a nawet informacji jak wyglądały formlarze używane do zbierania danych. Celem jest pokazanie, że ilość czasu czy pieniędzy przeznaczona na analizy czy na szukanie i pytanie ankietowanych nie przekłada się na jakość wyników.

Aby mieć wyniki wysokiej jakości trzeba dbać o możliwie największą przejrzystość procesu projektowania, przeprowadzania i analizy.

 

zanuRkuj w R

Zostałem zaproszony do wygłoszenia referatu na seminarium poświęconym analizie danych. A ponieważ zapraszającym był sam Paweł Cichosz więc nie sposób było odmówić.

Seminarium odbędzie sie dziś o 12:15 (Gmach Elektroniki PW, sala 229 II piętro). Przy okazji powstała prezentacja, która może zaciekawi szersze grono odbiorców.

 

Slajdy są dostępne tutaj, kod w programie R jest dostępny tutaj.

Prezentacja miała nie być o statystyce, ale o języku R. Na omówienie języka jedno seminarium nie wystarczy, dlatego wybrałem siedem ciekawszych i bardziej zaawansowanych mechanizmów języka R. Dotyczą one takich aspektów jak waga atrybutów, funkcyjność, leniwa ewaluacja, przestrzenie nazw, profilowanie kod, automatyczne generowanie raportów z użyciem Sweave. Napisałem ,,zaawansowanych'; ponieważ nie są one omawiane w większości opracowań dotyczących R, a są moim zdaniem ciekawe i warto być ich świadomym.

 

Projekty, studenci, plagiaty, wizualizacje i R

Miało być o wizualizacji danych o diagnozie społecznej, ale będzie reklama pakietu nad którym pracuję.

Ale od początku. Co jakiś czas, średnio co semestr jakaś grupa moich studentów dostaje projekt polegający na wykonaniu wizualizacji wybranego zbioru danych w R. Jak dotąd pośród takich prezentacji można było znaleźć kilka rodzynków, czasami zaprezentowane są dosyć trafnie naprawdę ciekawe zależności. Wyniki z najnowszej wersji tego projektu niestety nie były tak rewelacyjne jak wyniki poprzednich roczników. Dlatego zamiast pokazać tutaj najlepsze z wykresów moich studentów, pokażę pakiet do wyszukiwania plagiatów który napisałem w poczekalni na lotnisku (ok, można było napisać kilka rzeczy efektywniej, nie jestem z aktualnej wersji zadowolony, po to ta wymówka).

 

Do rzeczy. Zadanie jest następujące. K zespołów studentów przygotowało wizualizacje i przesłała skrypty R generujące te wizualizacje. Studenci mogli pisać projekt w parach, dzięki temu poprawi się umiejętność współpracy wewnątrz zespołu i zmniejszy się liczba niechcianych współprac pomiędzy zespołami (niechcianych = nieudokumentowanych, o których prowadzący nie wie).

Wiele rzeczy można w R zrobić w jednej linii, ale nie wizualizacje. Bez względu na to jakiego pakietu używamy wykonanie dobrej wizualizacji oznacza dużo kodu i dużo czasu. Nie chodzi o to by jak najszybciej wygenerować wykres, ale żeby pokazać coś czego bez naszej wizualizacji nie widać na pierwszy rzut oka. Zazwyczaj nie mam problemu z plagiatami, szczęśliwie większość studentów jest bardzo samodzielna lub sprytniejsza niż ja. Ale w tym roku było inaczje.

Napisałem pakiet plagiat, który jest jeszcze w bardzo wczesnej wersji, ale można go ściągnąć ze tej strony. Można go też rozwinąć, gorąco do tego zapraszam. Funkcja parseAndPlot() z tego pakietu przyjmuje za argument listę plików tekstowych, dla każdej pary plików liczy długość najdłuższej wspólnej podsekwencji (bardzo prymitywnie, w gołym R, usprawnienie jest niewątpliwie potrzebne) a następnie graficznie przedstawia podobieństwa między plikami.

Miało być o wizualizacji, więc zobaczmy wynik tej funkcji dla przykładowych danych z ostatniego projektu.

 

 

[Rys 1. Wynik funkcji parseAndPlot() na zbiorze danych skryptów z 3 projektu. Wierzchołki oznaczają pliki z rozwiązaniami. Wielkość punktu jest wprost proporcjonalna do wielkości pliku R, krawędź jest zaznaczona jeżeli długość wspólnej podsekwencji przekracza 5% wielkości obu plików, w tym przypadku na krawędzi jest też wypisywany procentowy udział długości wspólnej sekwencji. Rozłożenie punktów jest automatyczne, dlatego nie wygląda na zbyt uporządkowane.]

Nazwy plików skróciłem do pierwszej litery, nie jest specjalnie ważne czyj jest który plik. Można dyskutować czy 16.8% (ponad 1200 znaków po usunięciu komentarzy) najdłuższego fragmentu przeklejonego kodu to dużo czy mało.

Różne osoby czytają ten blog, dla osób pracujących z R może będzie to zachęta by pomóc mi w rozwinięciu pakietu plagiat, pewnie jest masa bibliotek, które można by użyć a o których nie wiem. Dla prowadzących zajęcia w R, może pakiet plagiat będzie przydatnym narzędziem, dzięki któremu można szybko zobaczyć czy otrzymane pliki z rozwiązaniem nie są do siebie zbyt podobne. Aktualnie do wygenerowania takiego obrazka wystarczą następujące komendy

Dla studentów może będzie to zachęta do pracy w grupie ale w sposób przejrzysty, tak by prowadzący wiedział kogo za co ocenia a student korzystał z zalet wspólnego uczenia się.

Howgh.

 

Ankiety studenckie a Wstęp do programowania, podejście imperatywne

Nawiązując do wczorańszego wpisu, zobaczmy jak wygląda rozkład wyników ankiet z ćwiczeń i laboratoriów z kursu ,,Wstęp do programowania”. Wybrałem ten kurs ponieważ miał on najwięcej krup ćwiczeniowych, uniknę w ten sposób spekulacji który ćwiczeniowiec jest którą kropką.

Co też z takiego wykresu można odczytać?

  1. Generalnie żadna z grup nie została źle oceniona, prawie wszystkie średnie powyżej 5.
  2. Zaskoczeniem dla mnie jest to, że zajęcia są tak różnie oceniane, wydawałoby się że skoro to ten sam kurs to ocena zajęć powinna być bardziej podobna. Wygląda jednak na to, że ocena zajęć mimo wszystko bardzo zależy od oceny prowadzącego.
  3.  Będąc studentem chciałbym zobaczyć nazwiska przynajmniej tych trzech najwyżej ocenionych prowadzących (czyli jednak top 25%). Te osoby jak widać naprawdę wykonały dobra pracę skoro ten sam kurs prowadziły wyraźnie lepiej niż inne.
Czy waszym zdaniem taki wykres z nazwiskami pierwszej trójki byłby użyteczny? Czy są jakieś powody dla których takich wykresów lepiej nie pokazywać?

Ankiety studenckie a głaski dla pracowników dydaktycznych

W poprzednim wpisie dotyczącym wyników z ankiet studenckich zauważyliśmy, że w percepcji studenta (ocenianej przez korelację reszt) pytanie o ocenę przedmiotu jest czymś innym niż pozostałe pytania, dotyczące raczej sposobu prowadzenia zajęć.
Zamiast więc pokazywać wyniki ankiet we wszystkich ocenianych 11 wymiarach, skupię się na razie na dwóch, mianowicie ogólnej ocenie zajęć i ogólnej ocenie prowadzącego.

Jak juz pisałem, raporty opracowane przez studentów (patrz tutaj) są bardzo miłe dla oka, ale mam z nimi jeden szkopuł.
Mianowicie znaczna część tych raportów skupia się na pokazaniu par prowadzący-przedmiot, których oceniło przynajmniej 5 osób i który mieli ogólną ocenę w najwyższym kwartylu (takie top 25%).

Poniżej będę argumentował, że zarówno kryterium wyboru tych par do pokazania jak i sposób ich pokazania nie jest najlepszy.

Co jest złego w kryterium top 25% najlepszych z ocenionych przez przynajmniej 5 osób?

  1. Po co przyjmować próg 5 osób? Jeżeli para prowadzący/przedmiot  był oceniony przez mniej niż 5 osób to można argumentować, że taka ocena jest przypadkowa i nie jest reprezentatywna dla tego przedmiotu. Ten argument jednak ciężko obronić jeżeli mamy specjalistyczny kurs na który zapisało się tylko 4 osoby i wszystkie wypełniły ankiety.Można argumentować, że mała próbka spowoduje, że dobry prowadzący zostanie źle oceniony przypadkowo bo wypowie się tylko niewielka (niereprezentatywna) część studentów. Nie chcemy krzywdzić prowadzących przypadkowo złymi ocenami. Ale ten argument się też nie broni ponieważ pokazywanych jest tych 25% najlepszych. Nie znajduję uzasadnienia dla progu przynajmniej pięciu ankiet. Jestem może mało obiektywny, ponieważ prowadzę często przedmioty specjalistyczne (inna nazwa na niepopularne) na których liczba zapisanych osób waha się od 4 do 8 ;-).
  2. Po co przyjmować próg top 25%? Jak rozumiem celem ankiety jest możliwość wskazania (choć nie jest jasne jeszcze komu, ale o tym później) dobrych dydaktyków. Ale i w grupie samych wybitnych dydaktyków i w grupie samych beznadziejnych zawsze da się wskazać top 25%. Lepszy wydaje się być bezwzględny próg. Jeżeli uznać średnią ocenę 5,5 albo 6 jako wynik ponadprzeciętny (w skali 1-7) to sensowniejsze było by pokazywanie wszystkich ponadprzeciętnych dydaktyków.
  3. Dlaczego nie pokazywać wyników w rozbiciu na kursy. Wracamy do pytania, że nie jest jasne dla kogo przygotowane są te wyniki ankiet. Gdy byłem studentem, chciałem by ankiety były przeprowadzane po to by ułatwić studentom wybór ćwiczeniowca lub prowadzącego laboratorium. Jeżeli tak to dla każdego kursu chciałbym mieć wskazane kto jest najlepszym ćwiczeniowcem/laborantem i czy są pomiędzy ćwiczeniowcami duże różnice. Będąc prowadzącym uważam, że takie ankiety mogłyby mi pomóc ocenić, z drugiej strony barykad,y jakie są prowadzone przeze mnie zajęcia. Jak to jednak zrobić kiedy prowadząc ćwiczenia ze statystyki mogę moją średnia z ankiet mogę porównać ze średnią z wszystkich kursów. Wolałabym już porównanie ze średnią z wszystkich prowadzących statystykę.

Tak więc aktualny sposób prezentacji wyników wygląda trochę jak sposób w jaki firmy motywują sprzedawców, pokazując top 25% osób mających największe obroty w każdej kategorii sprzedawanych przedmiotów. I jest to raczej bonus łechczący ego osób, które znalazły się na tej liście, ale bonus z którego trudno wyciągnąć użyteczne informacje. (Oczywiście taki bonus jest bardzo ważny. Na niewiele więcej może liczyć starający się dydaktyk jak na wysokie miejsce w rankingach popularności ankietowanych studentów, ale to inna historia.)

 

Ok, ponarzekałem, czas na częśc konstruktywną.
Pierwszy pomysł to pokazanie każdej pary przedmiot-prowadzący na osi średnia ocena przedmiotu/średnia ocena prowadzącego. Dodatkowo zaznaczmy wielskością punktu jak duża jest grupa studentów daną parę oceniała. Po prawej stronie i u góry wykresu zaznaczyłem dodatkowo decyle (dziesiątki centyli) rozkładu tych ocen, aby łatwiej można było odczytać jaka część kurso/prowadzących miała wyniki lepsze niż k.

Ponieważ nie mam zgody na prezentowanie nazwisk prowadzących więc na poniższych wykresach jedyny punkt oznaczony czerwonym kolorem to wyniki ankiet z mojego kursu ,,Modele liniowe i mieszane”, który prowadziłem w semestrze zimowym 2010 (to jedyny kurs który prowadziłem w tamtym semestrze). Cytując za Maciejem Stuhrem ,,wstydu nie ma”, od siebie mogę dodać że szału też, ale czerwoną kropkę dorysowałem.

Nawet bez nazwisk prowadzących z takiego wykresu można odczytać kilka informacji. (Samorządzie, zdobądź zgode na pokazanie nazwisk dydaktyków o najlepszych ocenach)

  1. Prowadzący są zazwyczaj lepiej oceniani niż przedmioty które prowadzą (cóż, dla mnie to zaskoczenie, właściwie jak to czytać, czy studenci chcieliby innych przedmiotów?).
  2. Zdecydowana większość prowadzących/przedmiotów jest dobrze oceniana (na użytek tego postu uważam, że dobrze to średnia ocena 5 lub więcej).
  3. Będąc prowadzącym i widząc oceny moich kursów moge sobie z tego wykresu odczytać gdzie się znajduję w rozkładzie wszystkich ocenianych przedmioto-prowadzących. Wciąż wolałbym taki wykres w rozbiciu na kursy, ale przynajmniej mogę więcej porównać niż tylko średnie moją i globalną.

 

 

 

Wszelkie uwagi co pokazać dodatkowo/inaczej mile widziane.

 

 

 

Ankiety studenckie, stratyfikacja a macierze korelacji

Dzisiejszy wpis jest pierwszym z serii wpisem dotyczącym wizualizacji i analizy danych zbieranych w procesie nauczania w szkołach wyższych. Rok temu mój magistrant, Filip Grotkowski, w ramach pracy magisterskiej wykonał szkielet oprogramowania pozwalający na automatyczne generowanie raportów na podstawie danych z systemów: Uniwersytecki System Obsługi Studentów (USOS) i Internetowa Rejestracja Kandydatów (IRKA). Więcej o systemie USOS przeczytać można np. tutaj.

Kolejni magistranci kontynuują rozwój tego systemu. Celem jest opracowanie systemu raportów, który będzie prezentował ciekawe informacje dla studentów i nauczycieli akademickich. Aktualnie kilkanaście uczelni używa tego systemu i teoretycznie raz opracowany zestaw raportów będzie można uruchomić na każdej z tych uczleni. Tak więc ten i kolejne wpisy w tle mają pytanie, jakie informacje użyteczne dla studentów i nauczycieli akademickich można wyłowić z baz danych o procesie studiowania i mam nadzieję, że czytelnicy tego bloga swoimi uwagami pomogą w znalezieniu sposobów znajdowania odpowiedzi na najciekawsze pytania.

 

Dziś będzie o liczeniu korelacji pomiędzy wynikami z ankiet studenckich.

Na wydziale MIM Uniwersytetu Warszawskiego przeprowadzane są ankiety wśród studentów. O ile wiem ankiety są organizowane przez Samorząd Studencki.
Studenci odpowiadają na 11 pytań opisujących ich zadowolenie z każdego z wybranych przedmiotów. Między innymi oceniają przygotowanie prowadzącego, dostępność materiałów, dostępność prowadzącego, ogólną ocenę zajęć, ogólna oceną prowadzącego itp.

Wielki plus dla samorządu za zorganizowanie tego systemu i aktywne motywowanie studentów do wypełniania ankiet, dzięki czemu wypełnianych jest kilka tysięcy ankiet na semestr. Plus za pytanie o 11 aspektów dotyczących przeżytego kursu, ułatwia to zrozumienie co się podobało a co nie w danym kursie. Minus za brak pomysłu na przedstawienie wyników dla tych 11 aspektów.

 

Wyniki ankiet dla kierunku Matematyka dla semestru zimowego 2010 opracowane przez studentów wydziału MIM zostały umieszczone pod tym adresem. Raport jest miły dla oka, znajduje się tam wiele wykresów i liczb. Brawa dla autorów za jego wykonanie, ale jak zwykle nawet w najlepszym raporcie znajdzie się coś do czego  można mieć uwagę. A moja jest taka, że mam wrażenie, że z takich ankiet można wyciągnąć więcej informacji. I to jest temat kilku najbliższych wpisów.

Ten wpis poświęcę dyskusji nt. macierzy korelacji pomiędzy odpowiedziami na pytania z ankiet.
Jest ona przedstawiona w wymienionym wyżej raporcie w części ‘Korelacja pomiędzy wynikami z pytań’.
Pamiętajmy, że te wyniki są prezentowane dla studentów i pracowników wydziału informatyki i matematyki, więc można wybaczyć zalew liczb i prezentowanie korelacji z dokładnością do trzech cyfr po przecinku (co sam też będę czynił poniżej).

Problem z tą macierzą korelacji polega na tym, że nie wiadomo co ona pokazuje.

Dlaczego?
Przypomnijmy jak była ona konstruowana.
Studenci dla każdego odbytego kursu odpowiadali na 11 pytań w skali od 1 do 7. Puryści stwierdzą, że ta skala przypomina bardziej skalę Likerta niż dane ilościowe więc liczenie z odpowiedzi średniej a co dopiero korelacji nie ma sensu. Ale przymknijemy na razie na to oko.
Skupmy się na razie na tym jak policzyć korelację pomiędzy dwoma pytaniami, np. ogólną oceną z zajęć a ogólną oceną prowadzącego.
Problem z liczeniem korelacji zilustrujemy takim przykładem. Przypuśćmy, że poniższa tabela opisuje wyniki z czterech ankiet.

Korelacja próbkowa dla odpowiedzi na te pytania to 0,8. Ale jest ona pochodną tego, że jeden prowadzący został wysoko oceniony a drugi nisko. Mamy bowiem do czynienia z grupami odpowiedzi o potencjalnie różnych rozkładach (średnich) i obserwujemy mieszaninę takich grup. Spróbujmy oddzielić wpływ prowadzącego na ocenę i wpływ rozumienia pytania 1 i 2 przez oceniającego studenta.

Licząc średnie w kolumnach, możemy każdemu prowadzącemu przypisać średnią ocenę na zadane pytanie.

Jeżeli teraz policzymy korelację pomiędzy takimi średnimi otrzymamy korelację równą 1. Ta korelacja opisuje jak bardzo podobne są charakterystyki 1 i 2 prowadzących. Wysoka korelacja świadczy o tym, że prowadzący wysokich odpowiedziach na jedno pytanie mają też wysokie odpowiedzi na drugie pytanie.

Zobaczmy teraz jak wyglądają różnice pomiędzy wynikami z ankiet a średnimi wynikami prowadzących (będę je poniżej nazywał resztami)

To oczywiście skrajny przykład, ale ma na celu pokazanie, że licząc korelację na średnich lub na resztach można nadać interpretację takich korelacji. Liczenie korelacji z pominięciem informajcie o ,,efekcie prowadzącego” utrudnia lub uniemożliwia określenie co dokładnie ta korelacja mierzy. Liczba jakaś zawsze wyjdzie, ale co ona znaczy?
Tego typu problem polegający na obserwowaniu wartości z grupy niejednorodnych podpopulacji jest w analizie danych dosyć częsty, warto więc być na niego wyczulonym.

Ok, a jak to wygląda dla naszych danych, tj wyników ankiety dotyczacych semestru zimowego 2010?
Dostęp mam tylko do odpowiedzi na 8 z wymienionych 11 pytań, dlatego poniżej pokazuję macierz korelacji tylko dla tych 8 pytań.
Pierwsza macierz pokazuje korelację pomiędzy średnimi dla prowadzących, druga to korelacja pomiędzy resztami.
Jak widzimy te macierze dosyć się różnią.

Macierz korelacji dla średnich ocen prowadzących.

Macierz korelacji dla różnic pomiędzy ocenami prowadzących a wynikami ankiet.

Powyższe macierze różnią się. Najbardziej różnią się korelacje pomiędzy oceną opiniowanych zajęć a pozostałymi odpowiedziami. Patrząc na korelacje liczone na średnich dla prowadzących mamy wysoka korelację, która świadczy o tym, że jeżeli prowadzący jest wysoko oceniany to i zajęcia są wysoko oceniane (i symetrycznie, korelacja jest symetryczną miarą).
Porównując korelacje liczone na resztach, widzimy brak istotnych korelacji. Co znaczy, że studenci inaczej interepretują ocenę prowadzącego i ocenę przedmiotu. Uwzględniwszy ,,efekt prowadzącego” odpowiedzi na te pytania są nieskorelowane. Pozostałe pytania są skorelowane w podobnym stopniu, co można interpretować tak, że wszystkie pytania poza siódmym oceniają różne cechy prowadzącego, sposobu przekazywania wiedzy, uporządkowania, charyzmy itp. Pytanie 7 w percepcji studentów dotyczy wyłącznie oceny przedmiotu.

Dociekliwi zauważą, że podobnie jak braliśmy pod uwage ,,efekt prowadzącego” tak i powinniśmy brać pod uwage ,,efekt studenta”. Nie jesteśmy jednak w stanie tego zrobić, ponieważ ankiety są anonimowe i nie ma jak policzyć średniej odpowiedzi na wybranego studenta. Ponieważ jednak liczba ankiet na studenta jest mnijesza niż liczba ankiet na przedmiot więc można mieć nadzieję, że efekt studenta jest znacznie mniejszy.

Pointa?
Przedstawianie różnych charakterystyk danych z ankiet to świetny pomysł ale trzeba zastanowić się co prezentuje dana charakterystyka i czy przypadkiem nie jest ona obciążona jakimś innym efektem.
Licząc korelację na danych, które agregują wyniki z kilku grup należy wziąć pod uwage różnice pomiędzy grupami. Dzięki temu będzie można wskazać na jakim etapie korelacja/podobieństwo jest istotne.
Pytanie z którym należy się jeszcze zmierzyć to w jaki sposób pokazać macierz korelacji tak by dało się ją całą ogarnąć percepcją.

 

Po co używać wykresów kołowych, czyli raporty znanej fundacji a ,,lie factor”

Zacznę od tego, że FNP stara się czytelnie prezentować wyniki swoich konkursów. Z ostatniego konkursu START dla przejrzystości upubliczniono wnioski laureatów, a więc jest tutaj duża przejrzystość. NCN mógłby się dużo nauczyć (sposób ich publikacji wyników pierwszego konkursu pozostawia wiele pytań). Pisząc kolokwialnie, FNP robi świetną robotę (tzn. ludzie pracujący w tej fundacji).
Niemniej FNP też zdarzają się wpadki.

Na tej stronie przedstawiono raport z rekrutacji różnych programów prowadzonych przez Fundację.

Z jakiegoś powodu uznano, że trójwymiarowe wykresy kołowe nadadzą się do czegokolwiek. Tymczasem dwie pierwsze reguły wizualizacji danych to: nie uzywaj pseudo-trójwymiarowych wykresów jeżeli nie trzeba i nie uzywaj wykresów kołowych. Nie jest tylko jasne która z tych reguł jest pierwsza a która drugą. Pseudo-trzeci wymiar na wykresach oszukuje percepcję i nie pozwala na poprawną ocenę długości/szerokości itp. Wykresy kołowe sa niedobre ponieważ nie potrafimy dobrze porównywać kątów.

Zobaczmy przykładowy wykres prezentowany ww raporcie na stronie 2.

Co jest dziwnego w tym wykresie? Są dwa kawałki, które opisują po 5% i dwa opisujące po 11%, ale coś jest z nimi nie tak. Zmierzmy długości odpowiednich cięciw.

Długości tych cięciw w pixelach to odpowiednio 116, 211, 126, 46 pixeli.

Edward Tufte zdefiniował kiedyś współczynnik ,,lie-factor”, który liczony jest jako iloraz efektu widocznego na wykresie do efektu w danych.

Stosunek długości cięciw A:D to 116/46 = 2.6 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Stosunek długości cięciw B:C to 211/126 = 1.7 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Czy trzeba więcej argumentów przeciwko wykresom kołowym 3D?

W ogóle ilość danych przedstawionych w powyższym raporcie do jego objętości jest dosyć mizerna. Całą stronę 2 mozna by przedstawić za pomocą jednego wykresu na którym jest więcej informacji. Kod do wygenerowania tego wykresu znajduje się tutaj. A wykres poniżej (trochę lepiej wygląda dla innych progrmów gdzie było więcej lauretów)

Krytykując wykresy 3D spójrzmy jeszcze na poniższy z tego samego raportu. Pierwszy słupek ma wysokość 15% ale jest znacznie poniżej linii siatki oznaczającej 15%. Pewnie da się to jakoś wytłumaczyć, ale i tak dosyć dziwnie to wygląda.

 

Liczba publikacji i liczba cytowań w Biologii Strukturalnej

Dwa tygodnie temu w Warszawie odbyła się konferencja Multi-Pole Approach to Structural Biology (patrz http://genesilico.pl/MultiPole/). Nie byłem na niej, ale wiele można było o niej usłyszeć. Jedną z takich rzeczy było zaprezentowanie raportu dotyczącego postrzegania pracy w Polsce przez naukowców z zagranicy (zobacz np artykuł To nie jest kraj dla naukowców?.
Inna ciekawostka związana z tą konferencją to umieszczanie krótkich informacji o zaproszonych prezenterach. W tych informacjach podawano między innymi liczbę publikacji i sumaryczna liczbę cytowań. Trzeba przyznać, że nazwiska zaproszonych prelegentów pojawiają się bardzo często w literaturze naukowej.

Liczby zostały rzucone, poniżej mała ilustracja tych liczb. Każda kropka to jeden prelegent. U osób o liczbie publikacji >=200 lub cytowań >=5000 zaznaczono imię i nazwisko.

 

Steve Jobs, stan nauki w Polsce i niezgoda na uliniawianie zależności

Ok, dzisiaj będzie ponownie o raporcie opracowanym w ramach programu Sprawne Państwo prowadzonego przez Ernst & Young. Odnosniki do raportu podalismy wczoraj. Dziś chciałbym przyjrzeć się wspólnie dwóm wykresom porównującym produktywność naukową w Polsce i w innych krajach.

Zacznę od jednego z moich ulubionych cytatów Steva Jobsa. Cytat dotyczy innowacyjności a innowacyjność kadry to moim zdaniem lepszy współczynnik oceny jakości uczelni niż produktywność liczona liczbą publikacji na nauczyciela akademickiego.

Innovation has nothing to do with how many R&D dollars you have. … It’s not about money. It’s about the people you have, how you’re led, and how much you get it.

Cytat ten nasunął mi się na myśl gdy zobaczyłem rysunek 11 w wspomnianym raporcie.

Dlaczego? Na tym wykresie (co za dobór państw do porównania?) Polska charakteryzuje się naniższymi rocznymi przychodami na pracownika. Na stronie 67 wspomnianego raportu napisano niebacznie ,,Wyniki estymacji ekonometrycznej wskazują w przypadku polskich uczelni wzrost finansowania na pracownika o 1% może być powiązany ze wzrostem efektywności badawczej aż o 4%”. Więc zwiększenie finansowania o 100% (co łatwo uzyskać zwalniając połowe pracowników) spowoduje wzrost efektywności o 400% (a tym samym przeskoczymy Finlandię i Niemcy, najbardziej zaawansowane technologiczie gospodarki w Europie).

Nie chciałbym tu romantycznie wieścić, że gdyby tylko Polska nauka była lepiej finansowana to stalibyśmy się liderem w Europie. Bo to nieprawda. Wcale nie chodzi tylko o ilość pieniędzy wpompowywanych (czy też w przypadku Polski, przesiąkających) w naukę. Chodzi o to czy naukowcy potrafią tę naukę uprawiać, czy potrafią współpracować, publikować, zarządzać zespołem itp. Moim zdaniem brak tych umiejętności to jeszcze większa bolączka niż problemy finansowe. Przygotowuję w wolnych chwilach esej ,,Fabryka i Świątynia”, szerzej tam ten temat rozwinę.

Ale na razie chciałbym porzestać na zakwestionowaniu sensowności dodawania linii trendu liniowego na powyższym wykresie.

Rozumiem, że gdy ma się młotek wszystko wygląda jak gwóźdź. Ale nawet w Excelu można dopasowywac inną krzywę trendu!
Model w którym średnia liczba publikacji zależy liniowo od rocznych przychodów na pracownika jest wysoce wątpliwy. Sama Polska na tym wykresie wygląda bardziej jak wartość odstająca, niż jak przypadek potwierdzający liniowość.

Drugi wykres w którym autorki wsadziły linie trendu liniowego jest na stronie 70 (wykres 14). Jest całkiem dobrą ilustracją paradoksu Simpsona.

 

Ta pseudoliniowość, która jest zaznaczona linią regresji wyliczona jest na bazie pięciu widocznych gołym okiem podpopulacji (nisko-publikujące uczelnie w UK, wysoko publikujące uczelnie w UK, uczelnie w Finlandii, Polsce i Szwajcarii, każde z nich tworząca osobne skupisko punktów na wykresie).

Co więcej w żadnej z tych podpopulacji trend nie jest podobny do wyrysowanego trendu liniowego. W Szwajcarii żaden trend liniowy nie jest widoczny, w dobrze publikujących uczelniach z UK krzywa trendu jest znacznie ostrzejsza, w słabo publikujaych uczelniach z UK jest znacznie słabsza.

Jedyny wniosek jest taki, że nie ma żadnego sensu liczyć pseudo trendu agregując uczelnie z czeterech państw razem.
Nie szukajmy liniowości na siłę tam gdzie ich nie ma a tym bardziej nie twórzmy wykresów, które sugerują tą zależność.