Inny świat, czyli krótki komentarz dot. systemu granowego FNP i NCN

Dziś krótki osobisty komentarz dotyczący systemu grantowego FNP i NCN. Funkcjonując w pewnym systemie, człowiek czasem podświadomie usprawiedliwia różne dziwne reguły. A gdy zobaczy, że może być inaczej, może być zaskoczony jak bardzo był wcześniej ,,zafiksowany”. Ponieważ przeżyłem coś takiego kilka dni temu, dotyczy to jakoś nauki w Polsce, więc o tym napiszę.

Mniej więcej rok temu zdarzyło mi się przygotować wniosek grantowy do NCN. Przygotowanie wniosku zajęło kilka tygodni mojej pracy, oraz sporo pracy innych osób związanych z projektem. Do tego standardowa ścieżka zdobywania podpisów w kwesturze, dziekana, rektora i grant gotowy, został wysłany pocztą itp. Niestety kilka dni po terminie zakończenia naboru wniosków uświadomiłem sobie ze zgrozą, że nie kliknąłem przycisku ,,wyślij” w systemie internetowym. A aby wniosek został uznany za wysłany musi być wysłany i w postaci papierowej z wszystkimi podpisami i w postaci elektronicznej. Niestety kilka dni ,,po” było już za późno. Napisałem jeszcze odwołanie do dyrektora NCN, które zostało odrzucone z odpowiedzią dającą się skrócić do ,,spróbuj w następnym konkursie”.

Szkoda, ale widać tak ten system musi działać, nie można się zagapiać, NCN stawia jasne i sztywne reguły. Maszyna musi działać sprawnie. Walory naukowe wniosek musi mieć, ale primo wniosek musi być wysłany w terminie, wszystkimi kanałami z wszystkimi podpisami itp. W ,,biznesie” daty są święte, w ,,urzędach” daty są święte, dlaczego inaczej ma być w ,,nauce”?

Wyobraźcie sobie więc moje zaskoczenie gdy ostatnio zobaczyłem, że jednak może być inaczej. Biorę sobie udział w programie grantowym FNP INTER. Złożyłem wniosek na którym wystarczyły tylko trzy podpisy (mój, współpracownika i dziekana), wysłałem wniosek drogą elektroniczną, z uwagi na mój wyjazd zgodzono się bym postać papierową dosłał kilka dni później (!!!). Co więcej, kilka dni temu otrzymałem informacje, że są błędy formalne, zamiast podpisu dziekana powinien być podpis rektora, i mam miesiąc czasu by dostarczyć wniosek z poprawnym podpisem.

Byłem zaszokowany.

Nie odrzucili wniosku tylko dlatego, że był nieprawidłowy podpis kierownika jednostki.

Nie przekreślili oceny merytorycznej wniosku z powodu ,,uchybień formalnych”, które można skorygować.

Jeszcze bardziej zaszokowany byłem gdy uświadomiłem sobie, że w pierwszej kolejności zaszokowało mnie normalne podejście do oceny grantów.

Mały plusik dla FNP.

Po co używać wykresów kołowych, czyli raporty znanej fundacji a ,,lie factor”

Zacznę od tego, że FNP stara się czytelnie prezentować wyniki swoich konkursów. Z ostatniego konkursu START dla przejrzystości upubliczniono wnioski laureatów, a więc jest tutaj duża przejrzystość. NCN mógłby się dużo nauczyć (sposób ich publikacji wyników pierwszego konkursu pozostawia wiele pytań). Pisząc kolokwialnie, FNP robi świetną robotę (tzn. ludzie pracujący w tej fundacji).
Niemniej FNP też zdarzają się wpadki.

Na tej stronie przedstawiono raport z rekrutacji różnych programów prowadzonych przez Fundację.

Z jakiegoś powodu uznano, że trójwymiarowe wykresy kołowe nadadzą się do czegokolwiek. Tymczasem dwie pierwsze reguły wizualizacji danych to: nie uzywaj pseudo-trójwymiarowych wykresów jeżeli nie trzeba i nie uzywaj wykresów kołowych. Nie jest tylko jasne która z tych reguł jest pierwsza a która drugą. Pseudo-trzeci wymiar na wykresach oszukuje percepcję i nie pozwala na poprawną ocenę długości/szerokości itp. Wykresy kołowe sa niedobre ponieważ nie potrafimy dobrze porównywać kątów.

Zobaczmy przykładowy wykres prezentowany ww raporcie na stronie 2.

Co jest dziwnego w tym wykresie? Są dwa kawałki, które opisują po 5% i dwa opisujące po 11%, ale coś jest z nimi nie tak. Zmierzmy długości odpowiednich cięciw.

Długości tych cięciw w pixelach to odpowiednio 116, 211, 126, 46 pixeli.

Edward Tufte zdefiniował kiedyś współczynnik ,,lie-factor”, który liczony jest jako iloraz efektu widocznego na wykresie do efektu w danych.

Stosunek długości cięciw A:D to 116/46 = 2.6 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Stosunek długości cięciw B:C to 211/126 = 1.7 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Czy trzeba więcej argumentów przeciwko wykresom kołowym 3D?

W ogóle ilość danych przedstawionych w powyższym raporcie do jego objętości jest dosyć mizerna. Całą stronę 2 mozna by przedstawić za pomocą jednego wykresu na którym jest więcej informacji. Kod do wygenerowania tego wykresu znajduje się tutaj. A wykres poniżej (trochę lepiej wygląda dla innych progrmów gdzie było więcej lauretów)

Krytykując wykresy 3D spójrzmy jeszcze na poniższy z tego samego raportu. Pierwszy słupek ma wysokość 15% ale jest znacznie poniżej linii siatki oznaczającej 15%. Pewnie da się to jakoś wytłumaczyć, ale i tak dosyć dziwnie to wygląda.

 

Fundacja Nauki Polskiej, analiza przeżycia, wiek habilitacji i apel w sprawie danych

Zdarzało mi się na ramach tego bloga czepiać wykresów, że czegoś nie widać lub że widać coś czego nie ma. Dziś będę czepiał się wypowiedzi, które sugerują że pewien wniosek został wysnuty na podstawie wnioskowania statystycznego, ale gdy się zastanowić nad tym co to za wnioskowanie to pojawia się więcej pytań niż odpowiedzi.

Takie problemy są powszechne w gazetach skierowanych do szerokiego grona odbiorców. W tym przypadku jednak rzecz dotyczy zdania z ramki na 9 stronie rocznego raportu działania Fundacji na rzecz Nauki Polskiej (a więc największej w Polsce pozarządowej organizacji wspierającej Polską Naukę). FNP to organizacja od kórej można wymagać więcej, a mam też nadzieję, że wybaczy mi czepialstwo.

Chodzi o zdanie
,,Z badania karier laureatów programu START przeznaczonego dla najmłodszych uczonych, który fundacja realizuje od 1993r., wynika, że uzyskuja oni habilitację średnio o 9-10 lat wcześniej niż osoby niekorzystające z tego programu stypendialnego”.

Ok, co jest nie tak z tym zdaniem?

1. brak odnośnika do danych lub raportu na którym się opierano. Od innych organizacji bym tego nie oczekiwał ale FNP powinno wytyczać kierunki, a tym samym mogłoby udostępniać dane na podstawie których wnioskują.

2. Nie jest jasne jaką relację to zdanie ma pokazać. Czy to, że ci młodzi uczeni szybciej zrobili habilitację dzięki stypendium FNP, czy też czy fundacja umiejętnie odnajduje osoby które szybko zrobią habilitację (zgodnie z dewizą fundacji ,,wspierać najlepszych, aby mogli stać się jeszcze lepsi”)

3. Nie jest jasne kim są ci ,,niekorzystający z tego programu”.
Czy to rówieśnicy osób korzystajacych z programu, o podobnym potencjalne. Taka grupa kontrolna? Raczej nie. Bezsensowne byłoby losowe nieprzydzielanie stypendiów tylko po do by zbadać efekt programu.
Czy to rówieśnicy osób korzystających z programu, którzy nie aplikowali lub aplikowli ale nie otrzymali stypendium.
Czy tez wszyscy naukowcy bez wzgledu na wiek. To ostatnie rozwiązanie byłoby niedobre. Kiedys habilitacje i doktoraty robilo sie dłużej, nie bylo cztero czy trzyletnich studiow doktoranckich ale doktoraty i habilitacje robili asystenci/adiunkci laczac prace naukowa z innymi obowiazkami bez presji ze po ośmiu latach zatrudnienia będą wyrzuceni jeżeli habilitacji nie zrobią.

4. Najlepszą grupa kontrolną byliby rówieśnicy, ale wiele wskazuje że tak nie było.
Jeżeli program realizowany jest od 1993 roku a raport dotyczy roku 2010 to najstarsi stypendyści są 17 lat po otrzymaniu stypendium. Przyjmijmy uproszczenie, ze co roku podobna liczba osob otrzymuje stypendium START, wiec stypendyści są średnio 8.5 roku po otrzymaniu sypendium.
Stypendium START jest dla osob mlodych (do 30 roku zycia) najczesciej swieżo po doktoracie.
Trudno odgadnąć w ile lat robi sie szybko habilitaję, ale mysle ze srednio 6 lat w grupie stypendystow to bylby dobry wynik.
W grupie niestypendystow musialoby to być wiec 15-16 lat lub więcej po doktoracie. Ale program stypendialny nie jest tak długo prowadzony by mieć rówieśników robiących habilitację w takim wieku.

Ok, czyli wybór grupy kontrolnej jest niejasny, teraz zastanówmy się co z metodologią.
Do porównania obu grup uzyto średnich liczby lat do habilitacji.
Ale liczba lat do habilitacji to zmienna cenzurowana. W badanej grupie z pewnoscia sa osoby ktore jeszcze nie zrobiły habilitacji i pracuja w nauce oraz osoby ktore zrezygnowały ze ścieżki naukowej i nie beda robily habilitacji.
Liczenie średniej z tylko tych osób które zrobiły habilitacje jest błędem, poniewaz gubi informację jaka frakcja osób zrobiła habilitacje. Nawet pomijając te problemy to dla wielu rozkładów średnia nie jest dobrym miernikiem czegokolwiek.

Ok, sposób porównywani grup pozostawia wiele do zyczenia, ale takich porównań będzie coraz więcej, więc warto się zastanowić jak je robić. Np. czy czas do habilitacji różni sie i jak pomiędzy róznymi jednostkami naukowymi.

Odpowiednie byłyby narzędzia z analizy przyżycia, np. krzywa Kaplana Meiera pokazujące jaka frakcja osób zrobila habilitacje do k-tego roku. Lub funkcja intensywnosci / funkcja hazardu pokazujaca jaka jest częstość robienia habilitacji w k-tym roku.
Z krzywych Kaplana Meiera mozna by zobaczyć w jakim wieku najczęściej robiona jest habilitacja.

Ok, ale aby zrobić taka analizą trzeba mieć dane. Najlepiej w postaci wektora danych dla osob z informacja w jakim wieku dana osoba zrobila doktorat / habilitacje / czy otrzymala stypendium FNP i np gdzie teraz pracuje.

Ale skad takie dane wziac?

Tu prosba do Was, ktokolwiek widział, ktokolwiek wie o miejscu z ktorego mozna takie dane dostac prosze o informacje.

Próbowałem serwisu http://nauka-polska.pl, niestety jest tam limit na liczbe zapytań do bazy danych które mozna wykonac z jednego adresu IP w jednostce czasu. Ten limit można by obejsc ale sam fakt ze go ustawiono oznacza, ze twórcom nie spodobaloby sie twórcom gdyby ich dane ściągnąć i upublicznić. Ale może są jakies inne źródła publicznie dostepnych danych?