Ankiety a manipulacja

Następne kilka wpisów poświęconych będzie różnym raportom ,,o stanie Świata”'. Będzie technicznie więc na rozluźnienie dziś coś lekkiego.
Jakiś czas temu miałem przyjemność poprowadzić krótki ,Lunch & Learn’ dla zainteresowanych pracowników Netezza R&D IBM Polska (z którymi czasem coś robię). Prezentacja dotyczyła zagadnień związanych z wizalizacją danych, kilka typowych przykładów np. opisywanych przez Tufte’go jak i kilka lokalnych przykładów z naszego podwórka. Ponieważ uważam, że wizualizacje tworzy sie przede wszystkim po to by przedstawić  zależności, które są w danych, bez przekłamań i zniekształceń (estetyka jest ważna ale nie może być argumentem w zniekształcaniu zależności) to staram się też przekonywać, że błędy w wizualizacjach wynikają częściej z niewiedzy niż świadomej manipulacji.

Manipulacja wykresem ma tę ,,wadę’’, że osoby znające techniki manipulacji zauważą i zdemaskują próbę manipulacji. Więc przekornie można powiedzieć, że jeżeli już ktoś bardzo chce manipulować wynikami to znacznie lepiej manipulować danymi niż sposobem ich prezentacji (btw: Oczywiście nie na leży manipulować ani jednym ani drugim).

Wczoraj kolega przesłał mi link do artykułu pokazujący przykład maniplacji na etapie przygotowanie formlarza dla ankiet.
Link do artykułu znajduje się tutaj.
W artykule pokazywany jest przykład jak dobierając listę odpowiedzi w ankietach ,,zaprojektować’’ wynik.

Celem ankiety miało być określenie jaki procent Polaków ogląda telewizję powyżej 4 godzin. Odpowiadając ankietowani mieli kilka opcji do wyboru. W zależności od wyboru listy możliwych odpowiedzi uzyskuje się różne wyniki.

z11022341x

W cytowanym artykule jest sporo wody na ten temat, ale w skrócie różnice wynikach wynikały stąd, że pytanie było niejasne, pytano o rzecz o kórej większośc pytanych nie wiedziała (skąd mają wiedzieć jaka jest średnia danej cechy w populacji, wiedzą ile oni oglądają telewizji) lub której nie potrafi precyzyjnie ocenić (trudno precyzyjnie ocenić ile się czasu przeznacza na pewną aktywność, chyba że chodzi o godziny w pracy). Dlatego też część osób wybierała mniej lub bardziej losową odpowiedź. Projektując formularz możemy tą część losowych odpowiedzi przenieść tam gdzie chcemy np. w celu uzyskania oczekiwanych wyników.

Ok, nie jest celem tego wpisu szerzenie klimatów ,,statystycy nas okłamują, strzeżcie się’’. Celem jest pokazanie jak ważna jest dostępność surowych danych a nawet informacji jak wyglądały formlarze używane do zbierania danych. Celem jest pokazanie, że ilość czasu czy pieniędzy przeznaczona na analizy czy na szukanie i pytanie ankietowanych nie przekłada się na jakość wyników.

Aby mieć wyniki wysokiej jakości trzeba dbać o możliwie największą przejrzystość procesu projektowania, przeprowadzania i analizy.

 

The New York Times, data journalism, R i wynagrodzenia

Na blogu firmy RevolutionAnalytics znalazłem ciekawy wpis o tym jak edytor z NYT użył pakietu maptools dla R aby przedstawić graficznie mapę 99% centyla dochodów w poszczególnych rejonach stanów zjednoczonych. Innymi słowy mapę mówiącą ile trzeba zarabiać by być w lokalnej grupie 1% najbogatszych (co kraj to problem).

Wspomniany edytor prowadzi bloga (link tutaj) i na tym blogu opisał jak poniższa infografika powstawała.

 

Nauka spod znaku kultu cargo, a liczenie średniej i odchylenia standardowego

Jakiś czas temu współpracujący doktorant przypomniał mi o terminie ,,nauka spod znaku cargo’’ powtarzjąc to wyrażenie w odniesieniu do polskiej nauki kilkanaście razy w ciągu tygodnia. ,,Nauka spod znaku cargo’’ to nazwa rozdziału z biografii Richarda Feymana ,,Pan raczy żartować, panie Feyman’’ (rewelacyjna książka) nawiązującego do kulty cargo, bardzo interesującego zjawiska (zobacz więcej np. tutaj http://en.wikipedia.org/wiki/Cargo_cult). We wspomnianym rozdziale Feyman piętnuje pseudonaukowe zachowania polegające na powtarzaniu pewnych czynności, które wykonują naukowcy, bez zrozumienia po co sie je wykonuje. W przypadku przedstawionym w książce zabrakło krytycznego spojrzenia na wyniki eksperymentu i dryfowanie publikowanych wyników w kierunku błędnej ale ,,powszechnie uznanej za prawdziwą’’ wartości.

Zastanawiałem się czy można na poletku statystyki znaleźć przykład nauki spod znaku cargo. Okazuje się, że przykładów jest co nie miara. Cała statystyka jest traktowana przez pewne środowiska jak zbiór rytuałów w wyniku których bogowie zsyłają odpowiedź: ,,statystycznie istotne (publikować)” lub ,,nie istotne statystycznie (nie publikować)”. W tej religii czci się liczbę 0.05, współczynnik korelacji Pearsona a starsi szamani przekazują sobie wiedzę jak wywołać, przepraszam, wykonać regresję logistyczną. W tych zaklęciach nie ma nic złego o ile stosuje się świadomie. Złe jest jedynie używanie tych zaklęć bezkrytycznie. Łatwo kwestionować sensowność używania korelacji Pearsona lub poziomu istotności 0.05, więcej frajdy będzie jeżeli zmierzymy się z rytuałem tak podstawowym jak opisywanie danych poprzez podanie średniej i ochylenia standardowego, czyli charakterystyk zakorzenionych bardzo bardzo głęboko.

 

Jakiś czas temu na seminarium licencjackim omawialiśmy raport dotyczacy związków pomiędzy paleniem papierosów a alergiami, a dokładniej artykuł ,,Problem inhalacji dymu tytoniowego w badaniach ECAP jako zagadnienie zdrowia publicznego’’ z ktróry można znaleźć pod adresem https://ckp.wum.edu.pl/sites/ckp.wum.edu.pl/files/periodyk_nr_1-2011_0.pdf.

W tym artykule znaleźć można zdanie ,,Palenie tytoniu w Polsce wśród osób, które zadeklarowały palenie przynajmniej przez rok, zwykle rozpoczyna się około 18. roku życia (m = 17,77 +- 3,06).‘’

Odgadnąć można, że w nawiasach podano średnią i odchylenie standardowe. Reszta tego wpisu ma na celu uzasadnienie dlaczego liczenie i prezentowanie średniej i odchylenia standardowego dzisiaj to zły pomysł choć kiedyś było dobrym pomysłem.

Dlaczego liczenie średniej to zły pomysł?

Zacznijmy od tego co czytelnik chciałby zobaczyć w nawiasie. Poszukiwany jest liczbowy opis przeciętnego wieku w którym rozpoczyna się palenie (o ile się pali) wraz z informacją jak bardzo wiek rozpoczęcia palenia różni się od wielu przeciętnego. Liczy się tylko to by ten opis był zrozumiały dla czytelnika i by pozwalał na zrozumienie kiedy ludzie zaczynają palić.

  •  Najczęściej średnią pokazuje się wierząc, że przedstawia ona wartość najbardziej typową. W pewnych sytuacjach to jest prawda, ale nie zawsze. Jeżeli analizowana cecha ma rozkład niesymetryczny, np. można spodziewać się wartości znacznie większych od przeciętnych, to średnia zamiast wskazywać na wartości typowe będzie przesunięta w kierunku wartości nietypowych (bardziej niz np. mediana). W przypadku wieku rozpoczęcia palenia mamy do czynienia z potencjalnie niesymetrycznym, prawostronnie skośnym rozkładem. Przykładowo, mając grupę czterech osób, które zaczeły palić w wieku 12 lat i jednej, która zaczeła palić w wieku 52 lat, średnia wychodzi 20 lat. W żaden sposób nie opisuje ona wartości typowej.
  • Kolejna kwestia dotyczy grupy na której liczy sie średni wiek. W opisywanym przykładzie średnia liczona jest tylko dla osób, które palą. Ale ankietowane są osoby w różnym wieku. W przedstawianym badaniu wywiad przeprowadzany w grupie osób dorosłych, w grupie nastolatków i w grupie dzieci. Zróbmy mały eksperyment myślowy. Zapytajmy tysiąc 6latków w jakim wieku zaczęły palić papierosy. Ponieważ (mam nadzieję) 6latki nie palą zazwyczaj papierosów, np. tylko dwójka z nich odpowiedziała by, że juz pali papierosy. Po uśrednieniu ich odpowiedzi okazałoby się, że średnio dzieci palą przed 6 rokiem życia. Ok, czyli średni wiek rozpoczęcia palenia zależeć będzie od tego jaka jest struktura wiekowa grupy którą pytamy. Liczenie średniej tak po prostu z wszystkich ankietowanych osób nie ma sensu.
  • I jeszcze dochodzi kwestia tego jak zmienia się wiek rozpoczynania palenia z czasem. Może tak być, że osoby urodzone w latach czterdziestych zaczynały palić w innym wieku niż osoby urodzone w latach sześciesiątych czy osiemdziesiątych. Obserwując reakcję osób referujacych ten artykuł łatwo zauważyć, że średnią 18 lat odnoszą do obecnego pokolenia młodych palaczy, odczytują ją błędnie jak stwierdzenie, że teraz młodzi rozpocznie palenie w wieku 18 lat. Tymczasem jeżeli wrzucimy wszystkich ankietowanych do jednego worka to średniej nie można nijak przypisać do aktualnego młodego pokolenia.

Po co więc liczono średnią dla wszystkich badanych? Czyżby z przekonania, że w prawdziwych aktykułach naukowych podawane są średnie więc i w tym tak być powinno?

 

Dlaczego liczenie odchylenia standardowego to zły pomysł?

To zaskakujące jak często w artykułach podawane jest odchylenie standardowe, choć wzór na policzenie odchylenia standardowego jest wyjątkowo trudny w interpretacji (pierwiastek, kwadraty, iloraz itp). Ok, odchylenie to jakaś ocena parametru skali, im większe odchylenie standardowe tym większe różnice pomiędzy średnią a wartościami. Ale poza takimi mglistymi intuicjami mało kto potrafi powiedzieć co to znaczy odchylenie standardowe=3. W artykułach podaje się więc współczynniki, których interpretacja jest niejasna, tylko dlatego, że kiedyś tak robiono. Są oczywiście znacznie lepsze oceny parametru skali, takie jak rozstęp międzykwartylowy i kwartyle, które mają łatwą do wyjaśnienia interpretację (o tym za chwilę). Odchylenie standardowe nie ma jasnej interpretacji więc trudno znaleźć powód by je podawać opisując wiek rozpoczęcia palenia.

 

Dlaczego kiedś to był dobry pomysł?

W kulcie cargo kluczowym problemem jest kopiowanie wzorców, które w pewnym kontekście mają sens. Ale są kopiowane w miejsce / czas gdzie sensu nie mają. Powyżej napisałem dlaczego liczenie średniej i odchylenia standardowego nie mają sensu. W przypadku odchylenia standardowego ta krytyka dotyczy praktycznie wszystkich cech. Pytanie więc zostaje kiedy te parametry miały sens, skoro były używane na tyle często, że stały się utrwalonym rytułałem.

(Dawno dawno temu) Około 80 lat temu, gdy na świecie nie istniały jeszcze komputery, aby porównywać grupy obiektów używało się testu t-studenta i/lub analizy wariancji. Mając kartkę i długopis można nawet dla dużego zbioru danych łatwo policzyć średnią i odchylenie standardowe w grupach. Mając te dwie wartości i tablice statystyczne można użyć testu t-studenta by ocenić czy różnica pomiędzy średnimi jest duża czy nie. Nie było to doskonałe narzędzie, ale nie było innego. Statystycy byli wyedukowani i wiedzieli kiedy jest sens pokazywać odchylenie standardowe a kiedy nie. Ponieważ test t-studenta był w pewnych kręgach bardzo często wykonywany, dlatego rzucając okiem na średnie i odchylenia standardowe można na pierwszy rzut oka ocenić na ile grupy się od siebie różnia i wyrobić sobie orientację jak wygląda rozkład zmiennej w grupach. Ale 80 lat to szmat czasu. Dzisiaj mamy wiele narzędzi do opisu rozkładu interesujących nas zmiennych. Nie ma więc żadnego uzasadnienia by wpisywać do tabelek opisujących rozkład zmiennej odchlenie standardowe.

Wracając do zdania od tórego zaczeliśmy ten wpis, to co jest ciekawe to kiedy zaczyna się palić. Czy to jest tak, że nastolatki sa podatne na wpadnięcie w nałóg i jak już przekroczy barierę, powiedzmy 22 lat to już się nie zaczyna palić, czy też można zacząć palić w każdym wieku. Aby spróbować odpowiedzieć na to pytanie zobaczymy jak rozkład wieku w którym zaczyna się palenie zależy od wieku osoby którą pytamy.

[Rys 1] Na osi OX zaznaczono rok urodzenia ankietowanej osoby, dla każdej grupy rowieśników wyznaczono wartość minimalną i maksymalną (jasne małe kropki), medianę a więc wiek przed którym rozpoczyna palenie 50% osób, które będą palić, kwantyle 10% i 90%, a więc przedział czasu w którym rozpoczyna palenie 80% pytanych. Czarna linia pokazuje maksymalny wiek ankietowanych w chwili badania. Gdy pytamy wśród osób młodych nie dziwi nas (już), że mediana i kwantyle są niżej, ale co ciekawe w grupie osób powyżej 30 roku życia kwantyle się stabilizują. 80% osób zaczyna palić pomiędzy 15 a 22-23 rokiem życia. Zdarzają się też bardzo wczesne albo bardzo późne początki.

 

Na koniec należy uczciwie podważyć sensowność używania danych o wieku rozpoczęcia palenia na podstawie ankiet. Przyjmując, że fakt palenia albo wieku rozpoczęcia palenia może być wstydliwy dla pewnych osób należy spodziewać się pewnej liczby nieprawdziwych odpowiedzi. Aby mieć wartościowe dane tego typu zmienne należy zbierać inaczej niż w postaci ankiety. Ale to temat na inny wpis.

Pointa.

Cytując Franka Harella, można zebrać dane w eksperymencie za 10 milionów dolarów, ale jeżeli na statystykę przeznaczy się 1000 dolarów to otrzyma się wyniki warte 1000 dolarów.

Jeżeli jakieś zależności nie są oczywiste to nalezy przyznaczyć więcej czasu i środków by wyjasnić zleżności które są w danych.

 

Polska Grupa Użytkowników programu R

Kilka dni temu założyłem na google groups Polską Grupę Użytkowników R.

Grupa jest otwarta, nie ma moderacji, każdy może się zapisać i wysłać wiadomość do pozostałych zapisanych.

Link do grupy

http://groups.google.com/group/polska-grupa-uzytkownikow-r

W założeniu grupa miała ułatwić mi informowanie uczestników poprzednich WZURów o kolejnych spotkaniach tego typu. Ale jak dotąd na grupie pojawiły się już dwa wpisy, żaden z nich nie jest mój, oba są ciekawe, jest więc szansa, że grupa będzie miejscem wymiany ciekawych opinii pomiędzy osobami pracującymi w R.

Zapraszam do dołączenia do grupy a co się na niej będzie działo? Czas pokaże.

Czy dwie zmienne mogą jednocześnie być dodatnio i ujemnie skorelowane?

Dzisiejszy wpis wynika z dyskusji ze studentami z seminarium licencjackiego, ciekawej dyskusji, mam też nadzieję że będzie ciekawa dla szerszego grona.

Zastanowimy się dzisiaj czy potwierdzone klinicznie problemy z nieżytem nosa są skorelowane z zanieczyszczeniem powietrza. Nawet bez żadnych twardych danych spodziewamy się, że jakaś dodatnia zależność może być, i raczej im bardziej zanieczyszczone powietrze tym gorzej a więc i więcej problemów z nieżytem nosa.

Jeżeli jednak przed zobaczeniem danych wiemy jakiego wyniku oczekujemy to lepiej byśmy tych analiz nie robili. I tak trudno będzie nam utrzymać obiektywizm i raczej będziemy szukać metody, która potwierdzi nasze oczekiwania.

Na podstawie badania ECAP, największego w Polsce badania dotyczącego alergii, postaramy się odpowiedzieć na postawione powyżej badanie dotyczące zależności pomiędzy wymienionymi zmiennymi. Wyniki takiego badania sa przedstawione w periodyku ,,Kształcenie podyplomowe’’.

Spójrzmy na artykuł ,,Stan środowiska przyrodniczego a choroby alergiczne’’ strona 30, a w szczególności na wyniki ze strony 33-34.

W tabeli 2 użyto testu niezależności by zbadać czy jest zależność pomiędzy zanieczyszczeniem powietrza a potwierdzonym klinicznie nieżytem nosa. Zanieczyszczenie było badane w subiektywnej 11 stopniowej skali (0-10). Następnie testami sprawdza się czy osoby mieszkające w miejscach bez zanieczyszczenia powietrza (zanieczyszczenie=0) mają mniej potwierdzonych nieżytów nosa niż osoby mieszkające w miejscach słabo zanieczyszczonych (zanieczyszczenie=1-3) średnio zanieczyszczonych (zanieczyszczenie =4-7) czy bardzo zanieczyszczonych (zanieczyszczenie=8-10). W dwóch na trzy porównania otrzymuje się istotnie statystycznie więcej zachorowań w miejscach o większym zanieczyszczeniu. Wydaje się więc, że jest zależność dodatnia, tam gdzie jest zanieczyszczenie jest więcej nieżytów nosa.

Problem pojawia się jedynie jeżeli spojrzymy na rycinę 2

Pokazuje ona jaki był procent osób z nieżytem nosa dla każdej z 11 grup zanieczyszczeń powietrza. Wykres ten nie jest czytelny, ale jeżeli informację o procencie osób z nieżytem przedstawić na wykresie punktowym to otrzymamy następujący (moim zdaniem czytelniejszy) wykres

 

Zielona przerywana linia to regresja liniowa. Jak by nie liczyć korelacji pomiędzy procentem nieżytów  a poziomem zanieczyszczenia (czy współczynnikiem Perasona, czy Spearmana czy Kendalla, za każdym razem korelacja jest ujemna) to otrzymujemy ujemną zależność. Czyli wręcz im bardziej zanieczyszczone powietrze, tym średnio mniej osób z nieżytem nosa.

 

Ok, te same dane, to samo pytanie, dwie różne odpowiedzi. Różnica jest taka, że za pierwszym razem pogrupowano zanieczyszczenie do 4 grup i za referencyjną wybrano brak zanieczyszczenia, czyli zanieczyszczenie =0. W drugim przypadku nie było agregacji ale zignorowano liczbę osób w każdej z 11 grup zanieczyszczenia powietrza.

Statystyka daje jednoznaczne odpowiedzi, przy czym często ta odpowiedź brzmi ,,o co Ci tak naprawdę chodzi, co chcesz sprawdzić?”.

 

Kim są eksperci z Narodowego Centrum Nauki? Część 4

Ostatnie dwa wpisy pokazywały dorobek ekspertów oceniających wnioski w NCN w rozbiciu na dziedziny. Rozbicie było potrzebne, ponieważ w różnych dziedzinach spodziewać się można różnej liczby publikacji i pochodnych współczynników.

Dzisiaj krótko scharakteryzuję same dziedziny. Dla każdej z dziedzin liczyliśmy medianę liczby cytowań/publikacji/h-indeksu/liczby autorów na pracę. Pokażemy teraz te współczynniki na wspólnym wykresie.
Oglądając poniższe wykresy proszę pamiętać że dziedziny są reprezentowane najczęściej przez jedynie kilka osób – ekspertów NCN.

[Update: poniższe wykresy są w formacie png, po kliknięciu otworzy się wersja wektorowa]


Dla mnie dużym zaskoczeniem jest pozycja matematyki. Słyszałem dotąd, że matematycy mniej publikują, są rzadziej cytowani niż przedstawiciele nauk stosowanych np. biologii (tak, wiem jak to brzmi). Tymczasem na tym wykresie jest inaczej. Przyglądając się bliżej matematykom okazuje się, że dwóch o największym dorobku pracują w dziedzinie matematyka (zgodnie z klasyfikacją KBN) ale najpopularniejsze prace dotyczą raczej informatyki. niemniej jak widać nic nie stoi na przeszkodzie by matematyk robiący coś ciekawego dużo publikował i był cytowany.

Innych zaskoczeń nie było, proszę tylko zwrócić uwagę, że pierwszy wykres ma osie w skali logarytmicznej.

Kim są eksperci z Narodowego Centrum Nauki? Część 3

Wczoraj przedstawiłem rozkłady liczby cytowań i liczby publikacji dla ekspertów NCN z różnych dziedzin. Aplikacja ,,Publish or Perish” liczy wiele różnych interesujących współczynników. Dziś pokażę rozkłady dwóch popularnych współczynników, czyli h-indeks oraz średniej liczby autorów na publikację dla ekspertów.

 
Lista dziedzin w porządku określonym przez liczbę ekspertów (linki do poniższych wykresów):
biologia, nauki chemiczne, fizyka, medycyna, informatyka, ekonomia, nauki weterynaryjne, nauki historyczne, automatyka i robotyka, nauki prawne, nauki filologiczne, mechanika, matematyka, biologia medyczna, nauki medyczne, geografia, geologia, nauki filozoficzne, nauki farmaceutyczne, socjologia, inzynieria materialowa, technologia chemiczna, nauki o sztukach pieknych, zootechnika, psychologia, pedagogika, naukiopolityce, inzynieria i ochrona srodowiska, budowa i eksploatacja maszyn, organizacja i zarzadzanie, agronomia, telekomunikacja, technologia zywnosci i zywienia, astronomia, nauki teologiczne.

Kim są eksperci z Narodowego Centrum Nauki? Część 2

Dwa dni temu w tym wpisie opisałem zbiór danych który zebrałem by zobaczyć kim są eksperci oceniający wnioski w ramach konkursu NCN z roku 2011. Dzisiaj na wykresach pokażę liczby publikacji i liczby cytowań w podziale na dziedziny.

Każdy z poniższych wykresów odpowiada jednej dziedzinie wymienionej w bazie danych Ludzie Nauki. Na wykresie przedstawiono charakterystyki ekspertów z danej dziedziny. Każdy punkt odpowiada jednemu ekspertowi, punkty mogą mieć różne kształty oraz różne kolory.

Kształt punktu zależy od tego czy ekspert jest inżynierem czy nie, inżynierów oznaczyłem trójkątami, nie inżynierów kołami.

Kolor punktu odpowiada identyfikowalności eksperta. Problemy z identyfikacją mogą mieć dwa źródła. Pierwsze poważniejsze, dotyczy około 4% przypadków, gdy istnieją przynajmniej dwa różne wpisy w bazie danych Ludzie Nauki wskazujące na osoby o tym samym imieniu, nazwisku i stopniu/tytule naukowym. Nie sposób odgadnąć która z tych osób jest naszym ekspertem, więc do analiz włączone są wszystkie ,,możliwe osoby”. Zwiększa to liczbę osób nieznacznie. Drugi problem dotyczy bazy danych ,,Publish or Perish”. Jeżeli istnieją przynajmniej dwie osoby o tym samym imieniu i nazwisku to niesposób automatycznie rozróżnić ich dorobków. Dla takiej grupy osób policzyć można jedynie sumę wszystkich publikacji i sumę wszystkich cytowań. Bardzo często zdarza się, że eksperta udało się dokładnie zidentyfikować po stopniu/tytule naukowym ale nie udało się oddzielić publikacji imienników. Na czarno i jasno-czerwono zaznaczeni są eksperci, którzy na podstawie bazy Ludzie Nauki mają unikatową kombinację imienia i nazwiska. Na szaro i ciemno-czerwono eksperci dla których jest więcej niż jeden wpis, przez co potencjalnie ich charakterystyki zostały błędnie zawyżone przez połączenie wyników różnych osób.

Kolorem jasno/ciemno-czerwonym zaznaczono kobiety, kolorem czarnym/szarym mężczyzn. W przypadku kobiet, wiele z nich ma podwójne nazwisko, co też może wpłynąć na statystyki cytowań i publikacji, dane te należy traktować poglądowo.

Zielonymi przerywanymi liniami zaznaczam mediany dorobku ekspertów, których udało się jednoznacznie zidentyfikować.

Update: ponieważ otrzymałem informacje, że rysunki w formacie svg nie u wszystkich poprawnie się wyświetlają, więc zamieniłem je na png, po kliknięciu otworzą się rysunki w postaci wektorowej.

 
Lista dziedzin w porządku określonym przez liczbę ekspertów (linki do poniższych wykresów):
biologia, nauki chemiczne, fizyka, medycyna, informatyka, ekonomia, nauki weterynaryjne, nauki historyczne, automatyka i robotyka, nauki prawne, nauki filologiczne, mechanika, matematyka, biologia medyczna, nauki medyczne, geografia, geologia, nauki filozoficzne, nauki farmaceutyczne, socjologia, inzynieria materialowa, technologia chemiczna, nauki o sztukach pieknych, zootechnika, psychologia, pedagogika, nauki o polityce, inzynieria i ochrona srodowiska, budowa i eksploatacja maszyn, organizacja i zarzadzanie, agronomia, telekomunikacja, technologia zywnosci i zywienia, astronomia, nauki teologiczne.

Kim są eksperci Narodowego Centrum Nauki?

Pieniędzy na naukę w Polsce jest mało (jeżeli porównać z zachodnimi sąsiadami), dlatego dzielenie tych pieniędzy budzi zazwyczaj emocje i burzliwe dyskusje. W przypadku pierwszego konkursu grantowego organizowanego przez NCN (Narodowe Centrum Nauki) tych emocji było sporo, krytykowano miedzy innymi wybór recenzentów i ekspertów. Tak się złożyło, że NCN nie ujawniło listy recenzentów ale ,,prawie” ujawniło listę ekspertów. Piszę ,,prawie” ponieważ lista ekspertów przedstawiona na tej stronie jest bez podziału na panele, przez co mało użyteczna. W prasie znaleźć można pojedyncze głosy (jak np ten) przekonujące czytelnika, że eksperci mają znaczący dorobek, ale te informacje dotyczą jednego panelu i bez nazwisk trudno je zweryfikować.

Więc plan na ten tydzień to przyjrzenie się bliżej ekspertom NCN. Nie mam zamiaru oceniać osób, ponieważ w wielu przypadkach ich dorobek jest o rząd lub rzędy wielkości większy niż mój, chciałbym jedynie pokazać jak wygląda dorobek ekspertów z rożnych dziedzinach. Ponieważ dane zbierane były automatycznie więc podczas zbierania zdarzyć się mogło, że komuś niedoszacowano albo przeszacowano. Dlatego nie ma sensu oceniać jednostek, ale można przyjrzeć się całej populacji. Mam nadzieję, że informacje o dorobku ekspertów będą użyteczne nie tylko w kontekście konkursów NCN, ale też młodym ludziom dadzą wyobrażenie jak wyglądają dorobki osób w kraju uznanych. Koniec końców, do wykonania tych wizualizacji użyłem danych z trzech źródeł, z których każde starało się dostęp do danych ograniczyć, więc samo wyciąganie danych było dobrą zabawą.

Skąd są dane ?

Informacje o imionach i nazwiskach ekspertów wyciągnięte są z tego dokumentu.

Aby nie analizować ekspertów z różnych dziedzin w jednym worku z bazy danych Ludzie Nauki OPI wyciągnąłem informację o dziedzinie w której pracują eksperci (około 4% osób nie udało mi się jednoznacznie zidentyfikować ponieważ kilka osób ma identyczne imię, nazwisko i tytuł). Należy podkreślić, że dziedzina wskazana w bazie OPI nie musi mieć nic wspólnego z panelem w którym ekspert zasiadał. Dzięki podziałowi na dziedziny unikniemy mieszania humanistów ze ścisłowcami.

Mała modyfikacja programu Publish or Perish (zobacz tutaj) pozwoliła na ściągnięcie informacji o g-liczbie cytowań, g-liczbie publikacji i g-h-indeksie oszacowanych na bazie Google Scholar. Piszę g-* ponieważ ta wyszukiwarka ma tendencje do zawyżania wskaźników. Jest jednak łatwym do weryfikacji punktem odniesienia.

Co w danych piszczy?

Dzisiejszy wpis to rozgrzewka opisująca jakie dane są zebrane. Dzisiaj będzie mnie interesowało to jaki stopień naukowy i jakie dziedziny znajdziemy wśród ekspertów. Przyszłe analizy liczby cytowań i h-indeksu będziemy przeprowadzać osobno dla każdej z dziedzin.

Rozkład stopni naukowych wśród ekspertów jest następujący:
prof. dr hab. (298), dr hab. (87), prof. dr hab. inz. (76), dr hab. inz. (26), dr (13), ks. dr hab. (3), dr inz. (3), prof. (2), ks. prof. dr hab. (2), przew. kwal. II (1), prof. przew. kwal. II (1), prof. dr inz. (1), prof. dr hab. przew. kwal. I (1), o. prof. dr hab. 1.
Zobaczmy jak te liczby wyglądają w rozbiciu na dziedziny.

[Update: Przedstawiona jest poniżej wersja rastrowa, po kliknięciu na wykres otworzy się wersja wektorowa, skalowalna, znacznie lepiej wyglądająca.]

Rysunek 1. Dziedziny w których pracują eksperci NCN. W kolejnych wierszach przedstawiono dziedziny KBN w których pracują eksperci. Ponieważ są eksperci pracujący w kilku dziedzinach, więc suma wszystkich liczb w nawiasach jest większa niż liczba ekspertów. Najczęściej współwystępujące pary dziedzin połączone są linią po prawej stronie. Po lewej stronie kolorami oznaczono skład tytułów i stopni ekspertów z danej dziedziny. Jaśniejsze kolory odpowiadają osobom bez inżyniera, ciemniejsze osobom z inżynierem. Osoby ,,tylko” z habilitacją są zaznaczane na zielono, profesorowie na niebiesko.

Wszystkich dziedzin jest sporo, ale dla części jest niewielu reprezentantów, przez co w dalszych analizach skoncentrujemy się na najliczniejszych dziedzinach do socjologi włącznie.

Dziś pokażę jeszcze rozkład płci ekspertów w każdej z dyscyplin.

Rysunek 2. Rozkład płci ekspertów NCN w rozbiciu na dziedziny.

 

Informacje o wynagrodzeniach, jak je pokazywać i jak tego nie robić

Informacje o wynagrodzeniach z pewnością są interesujące dla bardzo wielu osób. Tym bardziej zaskakujące jest jak trudno dostać wiarygodne informacje na ten temat. A nawet jak już się uda komuś je zebrać to zaskakujące jest jak nieudolnie te cenne dane są prezentowane.

Jakiś czas temu na portalu gazetapraca znalazłem artykuł o zarobkach w dziale logistyki i transportu (link do artykułu).

Pierwszy wykres z artykułu prezentuje medianę i kwartyle i daje nadzieję, na to że czegoś będzie można się o wynagrodzeniach w tym sektorze dowiedzieć.

Niestety drugi wykres nadaje się jedynie jako przykład na zajęcia z wizualizacji pokazujący jak przedstawiać danych.

[Rys 1. Wykres z przytaczanego artykułu porównujący zarobki na różnych stanowiskach w firmach z kapitałem polskim vs. zagranicznym]

 

Pomijam sam fakt, że trudno odgadnąć czy wysokość słupka odpowiada medianie, czy średniej (btw: odpowiada medianie), bo to jest przesłonięte przez pytanie po co wykres został pokazany pod jakimś dziwnym kątem. Dlaczego zarobki 3100 specjalisty wglądają na mniejsze niż 2888 pracownika szeregowego? Czemu służy oś OY skoro w żaden sposób nie da się jej zastosować do odczytywania wysokości słupków? Jak zmieniłby się nasz odbiór tego wykresu gdyby zamienić kolejnością słupki niebieskie i czerwone?

Zobaczmy ten sam wykres w standardowych osiach współrzędnych.

[Rys21. Wykres słupkowy, dane jak powyżej, ale bez trzeciego wymiaru i obrotów.]

Pierwszą rzeczą, która rzuca się teraz w oczy to jak bardzo zarobki zarządu odstają od zarobków na innych stanowiskach. Drugą jest to, że można teraz odczytać proporcje nie patrząc na liczby a jedynie z wysokości słupków i lokalizacji pomocniczych linii.

Dla osób nieprzekonanych, proponuję mały eksperyment. Usuńmy liczby opisujące wysokości słupków i zobaczmy czy uda się odtworzyć zarobki na stanowisku kierowniczym lub starszego specjalisty (czy uda się zejść z błędem predykcji poniżej 20%). To ciekawy eksperyment do przeprowadzenia np. na wspomnianym  wykładzie z wizualizacji.

Poniżej wykres do eksperymentowania (proszę odgadnąć poziom słupków dla stanowiska kierowniczego lub starszego specjalisty).