Dwa dni temu w tym wpisie opisałem zbiór danych który zebrałem by zobaczyć kim są eksperci oceniający wnioski w ramach konkursu NCN z roku 2011. Dzisiaj na wykresach pokażę liczby publikacji i liczby cytowań w podziale na dziedziny.
Każdy z poniższych wykresów odpowiada jednej dziedzinie wymienionej w bazie danych Ludzie Nauki. Na wykresie przedstawiono charakterystyki ekspertów z danej dziedziny. Każdy punkt odpowiada jednemu ekspertowi, punkty mogą mieć różne kształty oraz różne kolory.
Kształt punktu zależy od tego czy ekspert jest inżynierem czy nie, inżynierów oznaczyłem trójkątami, nie inżynierów kołami.
Kolor punktu odpowiada identyfikowalności eksperta. Problemy z identyfikacją mogą mieć dwa źródła. Pierwsze poważniejsze, dotyczy około 4% przypadków, gdy istnieją przynajmniej dwa różne wpisy w bazie danych Ludzie Nauki wskazujące na osoby o tym samym imieniu, nazwisku i stopniu/tytule naukowym. Nie sposób odgadnąć która z tych osób jest naszym ekspertem, więc do analiz włączone są wszystkie ,,możliwe osoby”. Zwiększa to liczbę osób nieznacznie. Drugi problem dotyczy bazy danych ,,Publish or Perish”. Jeżeli istnieją przynajmniej dwie osoby o tym samym imieniu i nazwisku to niesposób automatycznie rozróżnić ich dorobków. Dla takiej grupy osób policzyć można jedynie sumę wszystkich publikacji i sumę wszystkich cytowań. Bardzo często zdarza się, że eksperta udało się dokładnie zidentyfikować po stopniu/tytule naukowym ale nie udało się oddzielić publikacji imienników. Na czarno i jasno-czerwono zaznaczeni są eksperci, którzy na podstawie bazy Ludzie Nauki mają unikatową kombinację imienia i nazwiska. Na szaro i ciemno-czerwono eksperci dla których jest więcej niż jeden wpis, przez co potencjalnie ich charakterystyki zostały błędnie zawyżone przez połączenie wyników różnych osób.
Kolorem jasno/ciemno-czerwonym zaznaczono kobiety, kolorem czarnym/szarym mężczyzn. W przypadku kobiet, wiele z nich ma podwójne nazwisko, co też może wpłynąć na statystyki cytowań i publikacji, dane te należy traktować poglądowo.
Zielonymi przerywanymi liniami zaznaczam mediany dorobku ekspertów, których udało się jednoznacznie zidentyfikować.
Update: ponieważ otrzymałem informacje, że rysunki w formacie svg nie u wszystkich poprawnie się wyświetlają, więc zamieniłem je na png, po kliknięciu otworzą się rysunki w postaci wektorowej.
Lista dziedzin w porządku określonym przez liczbę ekspertów (linki do poniższych wykresów):
biologia, nauki chemiczne, fizyka, medycyna, informatyka, ekonomia, nauki weterynaryjne, nauki historyczne, automatyka i robotyka, nauki prawne, nauki filologiczne, mechanika, matematyka, biologia medyczna, nauki medyczne, geografia, geologia, nauki filozoficzne, nauki farmaceutyczne, socjologia, inzynieria materialowa, technologia chemiczna, nauki o sztukach pieknych, zootechnika, psychologia, pedagogika, nauki o polityce, inzynieria i ochrona srodowiska, budowa i eksploatacja maszyn, organizacja i zarzadzanie, agronomia, telekomunikacja, technologia zywnosci i zywienia, astronomia, nauki teologiczne.
Chciałabym podsunąć temat:
http://centrumcyfrowe.pl/2012/protest-w-sprawie-acta-to-walka-mlodych-o-wolnosc-w-internecie-potwierdzaja-wyniki-badan/
Bardzo ciekawe badanie i są do ściągnięcia surowe dane.
Dzięki,
ale z tymi surowymi danymi to przesada 😉 W podlinkowanym Excelu są jedynie tablice dwudzielcze. Ale i takie agregaty są ciekawe, przyjrzę się im bliżej.
Centrumcyfrowe brało udział w przygotowaniu raportu ,,Obiegi kultury” o podobnej tematyce. Jutro pojawi się wpis na ten temat.
W R pojawił się ostatnio pakiet do zasysania danych o cytowaniach i indeksach z Google Scholar – może jakoś dałoby się go wykorzystać w ocenie ekspertów?
pozdrowienia
Wciąż potrzebna jest baza polskich naukowców do analiz
Problem polega na tym, że nie ma pewności ilu jest naukowców o tym samym imieniu i nazwisku.
Rok temu sprawdzałem w bazie 'ludzie nauki’ i gdy okazało się że są dwie lub więcej osób o tym samym imieniu i nazwisku to wykluczałem z analiz jako nieokreślone. Nie sposób automatycznie odróżnić czyje to publikacje.
,,Problem” takich ,,duplikatów” dotyczył kilkunastu procent ekspertów.
Druga sprawa to przypisanie do dyscyplin.
Mając bazę ludzie nauki można zgadywać z jakiej dyscypliny są eksperci, na podstawie google scholar jest to trudniejsze.
Mam nadzieje, że dane z systemu POLon będą łatwo dostępne, w przypadku ludzi nauki trzeba je było wydzierać.