Gdzie dziś uprawia się naukę? Krótka analiza najlepszych prac z 'Computer Science’

Dostałem dziś od znajomego link do strony podsumowującej listę prac, które otrzymały nagrody ,,Best Paper Awards’’ w ostatnich latach na czternastu międzynarodowych konferencjach związanych z informatyką. Link do strony z tym podsumowaniem znajduje się tutaj.

Ostatnimi czasy spotykam się z opiniami różnych osób, jakoby nauka w takich dziedzinach jak statystyka obliczeniowa, masywne przetwarzanie danych, inżynieria oprogramowania, bazy danych, była rozwijana już nie na uczelniach (jak kiedyś) ale w dużych firmach, które mają dostęp do dużych zbiorów danych.

Postaram się przedstawić graficznie wyniki z wymienionej wyżej strony z rankingami, tak by można było pokusić się o odpowiedź na pytanie czy najwyższej próby  ‘Computer Science’ (nie znam dobrego polskiego tłumaczenia, słowo informatyka wydaje się mi uboższe) uprawia się bardziej na uczelniach czy w firmach. Oczywiście badanie najlepszych prac z konferencji nie da wyczerpującej odpowiedzi na pytanie gdzie nauka się najszybciej/najbardziej rozwija, ale może zbliży nas o jeden krok do tej odpowiedzi.

Dane z wymienionej strony zostały automatycznie przetworzone. Skrypt w programie R użyty do przetworzenia danych i wygenerowania wykresów znajduje się tutaj. Interesować będą mnie jednostki w których, afiliowani są autorzy najlepszych prac. Wkład jednostki w naukę będę mierzył zliczając punkty zebrane przez pracowników tych jednostek. Punkty unormowałem, tak że na każdy rok i na każdą konferencję do rozdania jest równo po 1 punkt. Jeżeli więc w danym roku na danej konferencji wygrały 2 prace, w każdej po 3 autorów, to każdy autor do swojej jednostki wniesie po 1/6 punktu. Jest to więc inna miara niż opisana w  oryginalnym podsumowaniu.

Dzielę teraz wszystkie jednostki na akademickie (Politechniki, Uniwersytety, Akademie Nauk) i nie akademickie (wszystkie pozostałe). Zdaję sobie sprawę, że ten podział nie zawsze jest oczywisty, ale taki został wykonany. Dla każdej jednostki i dla każdego roku liczę liczbę uzbieranych punktów.

Na poniższych wykresach na czarno zaznaczam jednostki akademickie, na czerwono pozostałe. Wszystkich jednostek jest ponad 200, więc nazwy podaję jedynie dla tych, które uzbierały 1 lub więcej punktu. Wśród wszystkich autorów jest jeden z polska afiliacją, który wniósł dla UW 0.2 punktu (Mikołaj Bojańczyk, gratulujemy). To jednak nie wystarczyło by UW był oznaczony również z nazwy.

Na poniższych wykresach osie są w skali pierwiastkowej, po to by uzyskać większą rozdzielczość tam gdzie jednostek jest dużo.

 

Rysunek 1. Z konieczności nazwy jednostek są małe, warto więc otworzyć ten obrazek na osobnej zakładce i powiększyć.  Na osi OX znajduje się liczba punktów uzbierana w latach 1996-2006, na osi OY w latach 2007-2011. Nie wszystkie konferencje mają tak długą historię, dlatego na osi OX punktów do zdobycia było mniej.

Z rysunku 1 możemy odczytać, które jednostki zdobywały więcej punktów kiedyś a które zdobywają więcej punktów teraz. Uniwersytet Carmegie Mellon czy Washington utrzymują stałe tempo zbierania punktów, Uniwersytet w Toronto czy IBM Research zbierało więcej punktów kiedyś, a w ostatnich latach wysoko oceniane są prace osób pracujących w Yahoo Research czy Microsoft Research.

Ale pytanie od którego zaczęliśmy dotyczyło zmiany trendu. Z powyższego rysunku trudno tę zmianę trendu odczytać, zbyt wiele punktów jest narysowanych. Policzmy więc jaki procent punktów zebranych w roku X został zebranych przez jednostki akademickie.

 

Rysunek 2. Na osi OY zaznaczono jaki procent punktów do zdobycia w danym roku otrzymały jednostki akademickie.

Na rysunku 2 przedstawiony jest udział jednostek akademickich w afiliacjach autorów najlepszych prac. Na tym wykresie nie widać trwałego trendu. Są pewne fluktuacje, ale nie można powiedzieć by to artykuły powstające w przemyśle wypierały prace akademickie (w kategorii najlepsza praca).

Ostatni wykres jest prawdopodobnie najmniej czytelny, ale bardzo chciałem go zobaczyć więc tez go tu umieścić. Poniżej jest przedstawiona skumulowana liczba punktów zebrana przez pracowników ze wskazanej jednostki.

 

Rysunek 3. Aby odczytać etykiety należy otworzyć ten rysunek na osobnej karcie i powiększyć. Na osi OX znajdują się lata a na osi OY skumulowana liczba punktów zdobyta do danego roku. Na czarno jednostki akademickie, nazwa jednostek znajduje się po prawej stronie.

 

Przyznam, że dla mnie zaskoczeniem był brak widocznego trendu w zwiększaniu się udziału oddziałów badawczych z przemysłu w afiliacjach autorów najlepszych prac. Być może śledzenie tylko najlepszych prac nie jest dobrą miarą. Być może te naprawdę najlepsze wyniki są patentowane a nie prezentowane jako publikacje. A być może ‘Computer Science’ jest wciąż rozwijana i jednostkach akademickich i w przemyśle i dostęp do dużych danych można uzyskać nawet będąc akademikiem, jeżeli tylko się chce.