Zdarzało mi się na ramach tego bloga czepiać wykresów, że czegoś nie widać lub że widać coś czego nie ma. Dziś będę czepiał się wypowiedzi, które sugerują że pewien wniosek został wysnuty na podstawie wnioskowania statystycznego, ale gdy się zastanowić nad tym co to za wnioskowanie to pojawia się więcej pytań niż odpowiedzi.
Takie problemy są powszechne w gazetach skierowanych do szerokiego grona odbiorców. W tym przypadku jednak rzecz dotyczy zdania z ramki na 9 stronie rocznego raportu działania Fundacji na rzecz Nauki Polskiej (a więc największej w Polsce pozarządowej organizacji wspierającej Polską Naukę). FNP to organizacja od kórej można wymagać więcej, a mam też nadzieję, że wybaczy mi czepialstwo.
Chodzi o zdanie
,,Z badania karier laureatów programu START przeznaczonego dla najmłodszych uczonych, który fundacja realizuje od 1993r., wynika, że uzyskuja oni habilitację średnio o 9-10 lat wcześniej niż osoby niekorzystające z tego programu stypendialnego”.
Ok, co jest nie tak z tym zdaniem?
1. brak odnośnika do danych lub raportu na którym się opierano. Od innych organizacji bym tego nie oczekiwał ale FNP powinno wytyczać kierunki, a tym samym mogłoby udostępniać dane na podstawie których wnioskują.
2. Nie jest jasne jaką relację to zdanie ma pokazać. Czy to, że ci młodzi uczeni szybciej zrobili habilitację dzięki stypendium FNP, czy też czy fundacja umiejętnie odnajduje osoby które szybko zrobią habilitację (zgodnie z dewizą fundacji ,,wspierać najlepszych, aby mogli stać się jeszcze lepsi”)
3. Nie jest jasne kim są ci ,,niekorzystający z tego programu”.
Czy to rówieśnicy osób korzystajacych z programu, o podobnym potencjalne. Taka grupa kontrolna? Raczej nie. Bezsensowne byłoby losowe nieprzydzielanie stypendiów tylko po do by zbadać efekt programu.
Czy to rówieśnicy osób korzystających z programu, którzy nie aplikowali lub aplikowli ale nie otrzymali stypendium.
Czy tez wszyscy naukowcy bez wzgledu na wiek. To ostatnie rozwiązanie byłoby niedobre. Kiedys habilitacje i doktoraty robilo sie dłużej, nie bylo cztero czy trzyletnich studiow doktoranckich ale doktoraty i habilitacje robili asystenci/adiunkci laczac prace naukowa z innymi obowiazkami bez presji ze po ośmiu latach zatrudnienia będą wyrzuceni jeżeli habilitacji nie zrobią.
4. Najlepszą grupa kontrolną byliby rówieśnicy, ale wiele wskazuje że tak nie było.
Jeżeli program realizowany jest od 1993 roku a raport dotyczy roku 2010 to najstarsi stypendyści są 17 lat po otrzymaniu stypendium. Przyjmijmy uproszczenie, ze co roku podobna liczba osob otrzymuje stypendium START, wiec stypendyści są średnio 8.5 roku po otrzymaniu sypendium.
Stypendium START jest dla osob mlodych (do 30 roku zycia) najczesciej swieżo po doktoracie.
Trudno odgadnąć w ile lat robi sie szybko habilitaję, ale mysle ze srednio 6 lat w grupie stypendystow to bylby dobry wynik.
W grupie niestypendystow musialoby to być wiec 15-16 lat lub więcej po doktoracie. Ale program stypendialny nie jest tak długo prowadzony by mieć rówieśników robiących habilitację w takim wieku.
Ok, czyli wybór grupy kontrolnej jest niejasny, teraz zastanówmy się co z metodologią.
Do porównania obu grup uzyto średnich liczby lat do habilitacji.
Ale liczba lat do habilitacji to zmienna cenzurowana. W badanej grupie z pewnoscia sa osoby ktore jeszcze nie zrobiły habilitacji i pracuja w nauce oraz osoby ktore zrezygnowały ze ścieżki naukowej i nie beda robily habilitacji.
Liczenie średniej z tylko tych osób które zrobiły habilitacje jest błędem, poniewaz gubi informację jaka frakcja osób zrobiła habilitacje. Nawet pomijając te problemy to dla wielu rozkładów średnia nie jest dobrym miernikiem czegokolwiek.
Ok, sposób porównywani grup pozostawia wiele do zyczenia, ale takich porównań będzie coraz więcej, więc warto się zastanowić jak je robić. Np. czy czas do habilitacji różni sie i jak pomiędzy róznymi jednostkami naukowymi.
Odpowiednie byłyby narzędzia z analizy przyżycia, np. krzywa Kaplana Meiera pokazujące jaka frakcja osób zrobila habilitacje do k-tego roku. Lub funkcja intensywnosci / funkcja hazardu pokazujaca jaka jest częstość robienia habilitacji w k-tym roku.
Z krzywych Kaplana Meiera mozna by zobaczyć w jakim wieku najczęściej robiona jest habilitacja.
Ok, ale aby zrobić taka analizą trzeba mieć dane. Najlepiej w postaci wektora danych dla osob z informacja w jakim wieku dana osoba zrobila doktorat / habilitacje / czy otrzymala stypendium FNP i np gdzie teraz pracuje.
Ale skad takie dane wziac?
Tu prosba do Was, ktokolwiek widział, ktokolwiek wie o miejscu z ktorego mozna takie dane dostac prosze o informacje.
Próbowałem serwisu http://nauka-polska.pl, niestety jest tam limit na liczbe zapytań do bazy danych które mozna wykonac z jednego adresu IP w jednostce czasu. Ten limit można by obejsc ale sam fakt ze go ustawiono oznacza, ze twórcom nie spodobaloby sie twórcom gdyby ich dane ściągnąć i upublicznić. Ale może są jakies inne źródła publicznie dostepnych danych?
Podsyłam nowiutki przykład nierzetelnego przedstawiania danych statystycznych, tak żeby nie zastanawiający się czytelnik zinterpretował je zgodnie z tezą:
http://forum.gazeta.pl/forum/w,904,131004002,131025115,To_jest_nierzetelne_przedstawianie_danych_.html
Dodaję link do bloga, który podjął próbę zbadania kto dostaje stypendia z programu FNP START oraz co się dalej dzieje z tymi osobami. Nie ma odnośnika do danych źródłowych, metodologii statystycznej można by się czepiać (zabrakło diagnostyki). Ale pomijając te szczegóły bardzo cieszą próby zaatakowania tematu rozwoju naukowców i wpływu na ten rozwój takich zdarzeń jak stypendia. http://zmihor.blogspot.com/2011/04/stypendia-fnp-start-czy-falstart.html
Jeżeli ktoś ma doświadczenie z API do google scholar to może mógłby pomóc w dostaniu się do danych o publikacjach wszystkich naukowców w Polsce w podziale na dziedziny?
I jeszcze jedno skojarzenie, dotyczące tego wpisu
http://flowingdata.com/2011/11/23/statisticians-and-significant-digits/
Pokombinuj ze Scopusem, UW zapewnia do niego dostęp. Jest tam możliwość wyeksportowania danych, a wydaje się to być źródło wielu ciekawych danych na temat nauki, naukowców.
Spróbuję, choć wolałbym Google Scholar.
Google jest znane z elastycznego podejścia do prawa własności do danych które da się skopiować (przynajmniej oni się tymi prawami nie przejmują kopiując dane innych).
Elsevier (właściciel Scopusa) może być mniej elastyczny. Poza tym trzeba by korzystać z licencji UW więc jakiekolwiek problemy związane z udostępnianiem tych danych uwikłają jeszcze UW.