Kim są eksperci z Narodowego Centrum Nauki? Część 2

Dwa dni temu w tym wpisie opisałem zbiór danych który zebrałem by zobaczyć kim są eksperci oceniający wnioski w ramach konkursu NCN z roku 2011. Dzisiaj na wykresach pokażę liczby publikacji i liczby cytowań w podziale na dziedziny.

Każdy z poniższych wykresów odpowiada jednej dziedzinie wymienionej w bazie danych Ludzie Nauki. Na wykresie przedstawiono charakterystyki ekspertów z danej dziedziny. Każdy punkt odpowiada jednemu ekspertowi, punkty mogą mieć różne kształty oraz różne kolory.

Kształt punktu zależy od tego czy ekspert jest inżynierem czy nie, inżynierów oznaczyłem trójkątami, nie inżynierów kołami.

Kolor punktu odpowiada identyfikowalności eksperta. Problemy z identyfikacją mogą mieć dwa źródła. Pierwsze poważniejsze, dotyczy około 4% przypadków, gdy istnieją przynajmniej dwa różne wpisy w bazie danych Ludzie Nauki wskazujące na osoby o tym samym imieniu, nazwisku i stopniu/tytule naukowym. Nie sposób odgadnąć która z tych osób jest naszym ekspertem, więc do analiz włączone są wszystkie ,,możliwe osoby”. Zwiększa to liczbę osób nieznacznie. Drugi problem dotyczy bazy danych ,,Publish or Perish”. Jeżeli istnieją przynajmniej dwie osoby o tym samym imieniu i nazwisku to niesposób automatycznie rozróżnić ich dorobków. Dla takiej grupy osób policzyć można jedynie sumę wszystkich publikacji i sumę wszystkich cytowań. Bardzo często zdarza się, że eksperta udało się dokładnie zidentyfikować po stopniu/tytule naukowym ale nie udało się oddzielić publikacji imienników. Na czarno i jasno-czerwono zaznaczeni są eksperci, którzy na podstawie bazy Ludzie Nauki mają unikatową kombinację imienia i nazwiska. Na szaro i ciemno-czerwono eksperci dla których jest więcej niż jeden wpis, przez co potencjalnie ich charakterystyki zostały błędnie zawyżone przez połączenie wyników różnych osób.

Kolorem jasno/ciemno-czerwonym zaznaczono kobiety, kolorem czarnym/szarym mężczyzn. W przypadku kobiet, wiele z nich ma podwójne nazwisko, co też może wpłynąć na statystyki cytowań i publikacji, dane te należy traktować poglądowo.

Zielonymi przerywanymi liniami zaznaczam mediany dorobku ekspertów, których udało się jednoznacznie zidentyfikować.

Update: ponieważ otrzymałem informacje, że rysunki w formacie svg nie u wszystkich poprawnie się wyświetlają, więc zamieniłem je na png, po kliknięciu otworzą się rysunki w postaci wektorowej.

 
Lista dziedzin w porządku określonym przez liczbę ekspertów (linki do poniższych wykresów):
biologia, nauki chemiczne, fizyka, medycyna, informatyka, ekonomia, nauki weterynaryjne, nauki historyczne, automatyka i robotyka, nauki prawne, nauki filologiczne, mechanika, matematyka, biologia medyczna, nauki medyczne, geografia, geologia, nauki filozoficzne, nauki farmaceutyczne, socjologia, inzynieria materialowa, technologia chemiczna, nauki o sztukach pieknych, zootechnika, psychologia, pedagogika, nauki o polityce, inzynieria i ochrona srodowiska, budowa i eksploatacja maszyn, organizacja i zarzadzanie, agronomia, telekomunikacja, technologia zywnosci i zywienia, astronomia, nauki teologiczne.

I żyli długo i szczęśliwie…

Kilka dni temu popełniłem wpis opisujący prawdopodobieństwo dożycia wieku emerytalnego. Przy okazji pojawiła się dyskusja nt. tego czy oczekiwana długość życia będzie się w Polsce wydłużała czy nie (zobacz ten wpis).
Łatwo być adwokatem optymistycznych jak i pesymistycznych scenariuszy, gdy opiera się wyłącznie na przypuszczeniach. Temat nie dawał mi spokoju, więc znalazłem dane na podstawie których zobaczmy jak wygląda  oczekiwana długość życia w Polsce i w innych krajach. Może zobaczymy czy istnieje i czy dotarliśmy do maksymalnej średniej życia a jeżeli tak to gdzie ona jest.

Dane z których korzystam pochodzą z bazy danych http://www.mortality.org/. W tej bazie danych dostępne są tablice życia i inne pochodne miary zebrane dla 37 krajów. Tablice życia są dostępne dla pewnej liczby ostatnich lat, dla różnych krajów długość tej historii jest różna. Najdłuższa historia jest dla Szwecji i sięga ponad 200 lat, dla Polski mniej więcej 50 lat.

Mając te dane zobaczmy co się dzieje z oczekiwaną długością życia w różnych krajach w ostatnich 50 latach (zbiór danych life expectancy). Zobaczmy wykres poniżej. W tym zestawieniu Polska charakteryzuje się najniższą oczekiwaną długością życia. Oczywiście są kraje w których żyje się krócej, ale nie znalazły się w tym zestawieniu. Ma to tę zaletę, że przed nami prawdopodobnie wydłużająca się średnia długość życia, nie widać na razie w tych prognozach sufitu. W większości krajów współczynnik wzrostu wynosi około 3 lat średniej życia na dekadę.

[Wersja png rysunku. Rys 1. Oczekiwane średnie życia mężczyzn dla wybranych 11 krajów w ostatnich 50 latach. ]
Dla niektórych krajów mamy dane ze znacznie większej liczby lat. Zobaczmy dla mniejszej grupy krajów jak wygląda zmiana oczekiwanej długości życia w szerszym przedziale czasu. Dynamika zmian długości życia jest różna w różnych krajach, w Szwajcarii czy Szwecji widać mniej więcej stały wzrost oczekiwanej długości życia.


[Wersja png rysunku. Rys 2. Oczekiwane średnie życia mężczyzn dla wybranych 5 krajów w ostatnich 140 latach. Kolory jak na Rys 1.]

Nie jestem zwolennikiem średnich i pracowania na wartościach oczekiwanych. Najchętniej zobaczyłbym do jakiego wieku dożywa 50% mężczyzn. To znacznie ciekawszy współczynnik, który można łatwiej zinterpretować. Problem jest tylko taki, że ponieważ taki ,,połowiczny rozpad’’ dla mężczyzn będzie wynosił około 70 lat więc by go policzyć dokładnie potrzebujemy danych z tablic życia wstecz o ponad 70 lat. Dla Polski takich danych nie mam, ale mam dla Szwajcarii. Na poniższym rysunku porównuję trzy współczynniki, mogące opisywać długość życia:

  1. Wiek jakiego dożywa 50% mężczyzn urodzonych w roku X
  2. Średni czas życia chłopców urodzonych w roku X

Co ciekawe jednak, współczynnik 1 jest wyższy niż pozostałe dwa. Dlaczego? Argument, który przychodzi do głowy jest taki, że długość życia to zmienna lewostronnie skośna. Tz. jest okres w którym najwięcej osób umiera (okolice 70 roku), ale znacznie więcej jest osób które umarło 65 lat wcześniej, niż 65 lat później. Dla skośnych rozkładów średnia nie pokrywa się z medianą, a w tym przypadku co jest ciekawe wiek którego dożyje 50% mężczyzn jest wyższy niż oczekiwany czas życia w chwili narodzin. Oczywiście w międzyczasie wydarzyły się dwie wojny światowe, które jakoś wpłynęły na skośność rozkładu czasu życia. Dla Szwajcarii jednak w mniejszym stopniu niż dla sąsiednich krajów. Do tego dochodzi wysoka śmiertelność najmłodszych. W prezentowanym okresie czasu w pierwszych dwóch latach życia umierało około 15% chłopców.

Pointa.: Nie dość że średnia życia rośnie, to ponad połowa mężczyzn będzie żyła dłużej niż ich oczekiwana długość życia.

Wreszcie coś optymistycznego na święta.


[Wersja png rysunku. Rys 3. Oczekiwany lub połówkowy czas życia mężczyzn w Szwajcarii. Na osi OX przedstawiłem dane dla których połówkowy czas życia czy średni czas życia mogłem policzyć na podstawie danych historycznych a nie szacować. Dlatego oś OX kończy się w okolicach roku 1920.]

 

Ankiety studenckie a Wstęp do programowania, podejście imperatywne

Nawiązując do wczorańszego wpisu, zobaczmy jak wygląda rozkład wyników ankiet z ćwiczeń i laboratoriów z kursu ,,Wstęp do programowania”. Wybrałem ten kurs ponieważ miał on najwięcej krup ćwiczeniowych, uniknę w ten sposób spekulacji który ćwiczeniowiec jest którą kropką.

Co też z takiego wykresu można odczytać?

  1. Generalnie żadna z grup nie została źle oceniona, prawie wszystkie średnie powyżej 5.
  2. Zaskoczeniem dla mnie jest to, że zajęcia są tak różnie oceniane, wydawałoby się że skoro to ten sam kurs to ocena zajęć powinna być bardziej podobna. Wygląda jednak na to, że ocena zajęć mimo wszystko bardzo zależy od oceny prowadzącego.
  3.  Będąc studentem chciałbym zobaczyć nazwiska przynajmniej tych trzech najwyżej ocenionych prowadzących (czyli jednak top 25%). Te osoby jak widać naprawdę wykonały dobra pracę skoro ten sam kurs prowadziły wyraźnie lepiej niż inne.
Czy waszym zdaniem taki wykres z nazwiskami pierwszej trójki byłby użyteczny? Czy są jakieś powody dla których takich wykresów lepiej nie pokazywać?

Kobieta menedżer a szansa na sukces

Andrzej P. podesłał mi artykuł zatytułowany ,,Kobieta menedżer ma mniejsze szanse na awans” (artykuł tutaj). Artykuł ten jest wyjątkowo ciekawym przykładem jak nie pokazywać danych. W artykule autorka stara się nas przekonać, że kobiety menedżerki (to słowo jest już nawet w SJP) mają mniejsze szanse na awans. Przekonać ma nas o tym niezbicie pierwszy wykres.

Już nawet nie czepiam się wykresu kołowego, ani tego że jest on 3D, ani że odpowiedź która ma się najbardziej rzucać w oczy jest na czerwono. Najbardziej zdziwiony jestem, że pytanie które zostało zadane to ,,czy szanse na awans są TAKIE SAME?”. To już autorka zadecydowała że nierówność musi oznaczać faworyzowanie mężczyzn.

 

Ciekawy jest też drugi wykres prezentowany w tym artykule.

Teoretycznie z takich danych można by się dowiedzieć, które elementy są częściej wskazywane przez mężczyzn a które przez kobiety. Teoretycznie, ponieważ sposób prezentacji to uniemożliwia, trudno porównywać iloczyny długości słupków pomiędzy sobą.

Również teoretycznie można by odczytać z takich danych które elementy są uznawane za najważniejsze w sumie. Ale ponownie tylko teoretycznie, ponieważ pochyłość słupków utrudnia określenie który słupek jest dłuższy. A liczby odpowiedzi nie są podane w sumie, więc by dowiedzieć się ile osób wybrało daną odpowiedź trzeba szybko dodawać trzycyfrowe liczby.

 

Postarajmy się jednak być konstruktywni w tej krytyce. Czy można inaczej przedstawić te dane? Kod w programie R użyty do wygenerowania poniższego wykresu znajduje się tutaj.

I ten sam obrazek obrócony o 45 stopni.

Używając wykresu punktowego/rozrzutu przedstawiliśmy te same liczby, ale tym razem odczytując położenie punktów możemy porównać elementy decydujące o awansie pomiędzy sobą. Im wyżej jest kropka (dotyczy drugiego wykresu) tym częściej ten element jest wskazywany przez mężczyzn, im niżej tym częściej przez kobiety. Im bardziej na prawo jest kropka tym więcej osób w sumie uznało dany element za istotny.

 

Sugerując się komentarzami dodałem kolory. Wrzosowy i piaskowy kolor oznaczają obszary na którym jedna płeć wybiera określone elementy o ponad 20% częściej niż druga płeć. Mam nadzieję, że dzięki temu widać że niektóre elementy są preferowane przez jedną z płci.

Liczba publikacji i liczba cytowań w Biologii Strukturalnej

Dwa tygodnie temu w Warszawie odbyła się konferencja Multi-Pole Approach to Structural Biology (patrz http://genesilico.pl/MultiPole/). Nie byłem na niej, ale wiele można było o niej usłyszeć. Jedną z takich rzeczy było zaprezentowanie raportu dotyczącego postrzegania pracy w Polsce przez naukowców z zagranicy (zobacz np artykuł To nie jest kraj dla naukowców?.
Inna ciekawostka związana z tą konferencją to umieszczanie krótkich informacji o zaproszonych prezenterach. W tych informacjach podawano między innymi liczbę publikacji i sumaryczna liczbę cytowań. Trzeba przyznać, że nazwiska zaproszonych prelegentów pojawiają się bardzo często w literaturze naukowej.

Liczby zostały rzucone, poniżej mała ilustracja tych liczb. Każda kropka to jeden prelegent. U osób o liczbie publikacji >=200 lub cytowań >=5000 zaznaczono imię i nazwisko.

 

Ernst & Young, Sprawne Państwo a paradoksy w ocenie uczelni w Polsce

Dzisiaj podzielę się moim zaskoczeniem, gdy próbując odtworzyć wykres z raportu na podstawie danych z tego samego raporu otrzymałem zupełnie inne wyniki.

Kilka dni temu zgłosiłem apel o pomoc w zdobyciu danych dotyczących rozwoju pracowników naukowych. W ciągu tych kilku dni otrzymałem kilka listów z sugestiami ciekawych raportów dotyczący stanu nauki w Polsce. Między innymi od Krzysztofa T. dostałem namiar na raport ,,Produktywność naukowa wyższych szkół publicznych w Polsce” opracowany w ramach programu Sprawne Panstwo (program firmy Ernst & Young). Raport dostępny jest w postaci elektronicznej tutaj.

Po raporcie widać, że przygotowano go przez profesjonalistów. Ładnie dobrane odcienie szarości i pojawiające się łacińskie wtącenia sprawiają wrażenie rzetelności i profesjonalizmu. Jest też dużo tabelek z danymi (to na plus), odnośników do źródeł danych (to też na plus).

Niestety od strony statystycznej można się przyczepiać. Ponieważ generalnie cieszę się ze taki raport powstał, więc nie będę się czepiał bardzo, tylko na dwóch wpisach, tym i kolejnym ;-).

Zaczęło się od rysunku 12 ze strony strony 68 (patrz niżej) gdzie przedstawiona jest zależnośc pomiędzy przychodem na pracownika uczelni a liczbą publikacji na Nauczyciela Akademickiego (oznaczanego w całym raporcie konsekwentnie NA).

Pechowo na wykresie nie zaznaczono, która kropka to która uczelnia. Zaciekawiony która to kropka odpowiada najbardziej na prawo wysuniętej politechnice zacząłem przeglądać tabelę z danymi. Tabele 11 i 12 wydawały się pasować. W odpowiednich kolumnach przedstawiano i liczbę publikacji na NA i przychód na pracownika. Zrobiłem więc wykres o podobnych oznaczeniach jak ten prezentowany w raporcie, bazując na danych które przedstawiono w tymże raporcie i ze zdziwieniem zobaczyłem zupełnie inny obraz politechnik i uniwersytetów.

  • Z wykresu prezentowanego w raporcie wynika, że dwie uczelnie o najwyższych wskaźnikach publikacja na NA to uniwersytety.
  • Za to z wykresu prezentowanego na bazie danych które sa w raporcie wynika że w ścisłej czołówce uczleni o najwyższych wskaźnikach publikacja na nauczyciela akademickiego jest więcej politechnik.
  • Z wykresu prezentowanego w raporcie wynika, że przy tym samym przychodzie na uniwersytetach jest średnio więcej publikacji na PA niż na politechnikach (ciągła linia nad przerywaną)
  • Tymczasem z wykresu na bazie danych z raportu wynika rzecz zupełnie odwrotna, mianowicie że przy tym samym przychodzie na uniwersytetach jest średnio mniej publikacji na PA (ciągła linia pod przerywaną).

Przy okazji wyjasnijmy fenomen Uniwersytetu Jagielońskiego. Odstaje on znacząco od pozostałych uniwersytetów, tak bardzo że to aż zastanawia. Więc postawmy zagadkę dla czytelników, co ma UJ czego nie ma żadna duża z prezentowanych uczelni publicznych? Poniżej wykres tej samej zależności ale po usunięciu UJ. Pod wykresem znajduje sie odpowiedź na powyższą zagadkę.

UJ ma wydział lekarski i farmaceutyczny. We Wrocławiu, Warszawie czy Katowicach wydziały lekarski jest na Uniwersytecie Medycznym. Jeżeli chcieć uczciwie porównać różne uniwersytety to trzeba uwzględnić różną czestość publikowania w różnych dziedzinach. Umieszczanie UJ z wydziałem lekarskim w tej samej kategorii co pozostałe uniwersytety to błąd.

 

Różnica pomiędzy danymi a wykresami bieże się stąd, że dane przedstawiono dla jednego roku (2007/2008) podczas gdy na wykresach prezentowane są wskaźniki uśrednione z 10 lat, same wskaźniki nie sa jednak w raporcie prezentowane. Dziwne to.