Dostałem dziś od znajomego link do strony podsumowującej listę prac, które otrzymały nagrody ,,Best Paper Awards’’ w ostatnich latach na czternastu międzynarodowych konferencjach związanych z informatyką. Link do strony z tym podsumowaniem znajduje się tutaj.
Ostatnimi czasy spotykam się z opiniami różnych osób, jakoby nauka w takich dziedzinach jak statystyka obliczeniowa, masywne przetwarzanie danych, inżynieria oprogramowania, bazy danych, była rozwijana już nie na uczelniach (jak kiedyś) ale w dużych firmach, które mają dostęp do dużych zbiorów danych.
Postaram się przedstawić graficznie wyniki z wymienionej wyżej strony z rankingami, tak by można było pokusić się o odpowiedź na pytanie czy najwyższej próby ‘Computer Science’ (nie znam dobrego polskiego tłumaczenia, słowo informatyka wydaje się mi uboższe) uprawia się bardziej na uczelniach czy w firmach. Oczywiście badanie najlepszych prac z konferencji nie da wyczerpującej odpowiedzi na pytanie gdzie nauka się najszybciej/najbardziej rozwija, ale może zbliży nas o jeden krok do tej odpowiedzi.
Dane z wymienionej strony zostały automatycznie przetworzone. Skrypt w programie R użyty do przetworzenia danych i wygenerowania wykresów znajduje się tutaj. Interesować będą mnie jednostki w których, afiliowani są autorzy najlepszych prac. Wkład jednostki w naukę będę mierzył zliczając punkty zebrane przez pracowników tych jednostek. Punkty unormowałem, tak że na każdy rok i na każdą konferencję do rozdania jest równo po 1 punkt. Jeżeli więc w danym roku na danej konferencji wygrały 2 prace, w każdej po 3 autorów, to każdy autor do swojej jednostki wniesie po 1/6 punktu. Jest to więc inna miara niż opisana w oryginalnym podsumowaniu.
Dzielę teraz wszystkie jednostki na akademickie (Politechniki, Uniwersytety, Akademie Nauk) i nie akademickie (wszystkie pozostałe). Zdaję sobie sprawę, że ten podział nie zawsze jest oczywisty, ale taki został wykonany. Dla każdej jednostki i dla każdego roku liczę liczbę uzbieranych punktów.
Na poniższych wykresach na czarno zaznaczam jednostki akademickie, na czerwono pozostałe. Wszystkich jednostek jest ponad 200, więc nazwy podaję jedynie dla tych, które uzbierały 1 lub więcej punktu. Wśród wszystkich autorów jest jeden z polska afiliacją, który wniósł dla UW 0.2 punktu (Mikołaj Bojańczyk, gratulujemy). To jednak nie wystarczyło by UW był oznaczony również z nazwy.
Na poniższych wykresach osie są w skali pierwiastkowej, po to by uzyskać większą rozdzielczość tam gdzie jednostek jest dużo.
Rysunek 1. Z konieczności nazwy jednostek są małe, warto więc otworzyć ten obrazek na osobnej zakładce i powiększyć. Na osi OX znajduje się liczba punktów uzbierana w latach 1996-2006, na osi OY w latach 2007-2011. Nie wszystkie konferencje mają tak długą historię, dlatego na osi OX punktów do zdobycia było mniej.
Z rysunku 1 możemy odczytać, które jednostki zdobywały więcej punktów kiedyś a które zdobywają więcej punktów teraz. Uniwersytet Carmegie Mellon czy Washington utrzymują stałe tempo zbierania punktów, Uniwersytet w Toronto czy IBM Research zbierało więcej punktów kiedyś, a w ostatnich latach wysoko oceniane są prace osób pracujących w Yahoo Research czy Microsoft Research.
Ale pytanie od którego zaczęliśmy dotyczyło zmiany trendu. Z powyższego rysunku trudno tę zmianę trendu odczytać, zbyt wiele punktów jest narysowanych. Policzmy więc jaki procent punktów zebranych w roku X został zebranych przez jednostki akademickie.
Rysunek 2. Na osi OY zaznaczono jaki procent punktów do zdobycia w danym roku otrzymały jednostki akademickie.
Na rysunku 2 przedstawiony jest udział jednostek akademickich w afiliacjach autorów najlepszych prac. Na tym wykresie nie widać trwałego trendu. Są pewne fluktuacje, ale nie można powiedzieć by to artykuły powstające w przemyśle wypierały prace akademickie (w kategorii najlepsza praca).
Ostatni wykres jest prawdopodobnie najmniej czytelny, ale bardzo chciałem go zobaczyć więc tez go tu umieścić. Poniżej jest przedstawiona skumulowana liczba punktów zebrana przez pracowników ze wskazanej jednostki.
Rysunek 3. Aby odczytać etykiety należy otworzyć ten rysunek na osobnej karcie i powiększyć. Na osi OX znajdują się lata a na osi OY skumulowana liczba punktów zdobyta do danego roku. Na czarno jednostki akademickie, nazwa jednostek znajduje się po prawej stronie.
Przyznam, że dla mnie zaskoczeniem był brak widocznego trendu w zwiększaniu się udziału oddziałów badawczych z przemysłu w afiliacjach autorów najlepszych prac. Być może śledzenie tylko najlepszych prac nie jest dobrą miarą. Być może te naprawdę najlepsze wyniki są patentowane a nie prezentowane jako publikacje. A być może ‘Computer Science’ jest wciąż rozwijana i jednostkach akademickich i w przemyśle i dostęp do dużych danych można uzyskać nawet będąc akademikiem, jeżeli tylko się chce.
Interesujące. Ja myślę, że to jest w ogóle trudny temat. Sam w końcu się nauką zajmuję i myślę w związku z tym dużo o tym czy nie lepiej się człowiek może przysłużyć światu w przemyśle, ale nie jestem pewien czy liczba artykułów (nawet tych z nagrodami) jest dobrą miarą istotności wyników. Jeszcze trudniej myślę ocenić wartość patentów, bo ich liczba jest raczej pochodną polityki firmy niż faktycznej kreatywności. Za to na pewno warto popatrzeć na dane, bo obiegowe opinie dobrze jest jakoś (choćby w niedoskonały sposób) weryfikować.
Liczba artykułów uznanych za ,,best papers” nie jest może najlepszym wskaźnikiem, ale traktowałem ją jako wskazaniem jakie tematy są aktualnie najciekawsze i gdzie się nad ciekawymi (w opinii komitetu przyznającego nagrody) rzeczami pracuje.
Dla mnie zaskoczeniem był zarówno brak trendu (z jakiegoś powodu wydawało mi się, że kiedyś rozwojem najciekawszych wyników zajmowali się pracownicy jednostek akademickich a teraz piłeczka przechodzi na stronę przemysłu) jak i dosyć wysoki udział jednostek nieakademickich.
Zaskoczeniem dla mnie jest też pozycja Googla, który jest postrzegany jako gigantyczny inkubator nowych pomysłów, ale to nie przekłada się na punkciki za najlepsze prace na konferencjach.
Kolejna hipoteza do sprawdzenia to hasło S. Jobsa ,,Innovation has nothing to do with how many R&D dollars you have”
Dziwię się Twojemu zaskoczeniu, @smarterpoland…. Brak widocznego trendu???? Przecież jak byk go widać (na rys. 3) – jednostki komercyjne mają o wiele bardziej strome wykresy niż te akademickie! Szczególnie te wiodące (tzn. NAJBOGATSZE). Co zresztą potwierdza rys. 2, z płaskim wykresem prac akademickich. To kwestia jeszcze tylko paru lat, gdy prace z ośrodków komercyjnych odskoczą tym akademickim o lata świetlne. Myślę, że tylko polityczna poprawność i swego rodzaju hipokryzja (naiwność????) kazały Steve’owi Jobsowi powiedzieć to, co powiedział. W końcu sam chyba wie….
Na rysunku 3 jest ponad 200 krzywych. Nie łudziłbym się, że można z niego odczytać jakiekolwiek globalne trendy. Percepcja zawężona jest do kilku jednostek Więc jakiekolwiek wrażenie przewagi stromych krzywych pozostaje jedynie wrażeniem. Wykres 2 pokazuje procentowy udział jednostek akademickich, mniej więcej stały poziom przeczy temu jakoby bardziej stromy przyrost był w firmach.
Co do S Jobsa, nie wiem czy znasz kontekst jest wypowiedzi. Nie chodzi o to, że biedne jednostki mogą konkurować z bogatymi, ale o to, że sto milionów dolarów można wykorzystać sensownie, mało sensownie albo bezsensownie. Giganty o największym budżecie (Google, IBM Research zatrudniający ponoć 10tys doktorów) wypadają w tym zestawieniu przeciętnie. Pytanie, które jest interesujące (dla mnie) to czy korporacyjny reżim zarzyna kreatywność potrzebną do rozwijania nowych interesujących dziedzin czy nie.
Przyjrzałem się bliżej temu wykresowi (nr 3). Hmmm… Rzeczywiście, trudno powiedzieć, czy korporacyjny reżim zarzyna czy nie. Raczej widać coś innego: reżim nie-USA zarzyna (a może raczej reżim USA stymuluje). Tak czy inaczej – forsa. Dlatego, że ją tam mają, czy dlatego że ją tam sensownie wykorzystują? Szkoda, że Steve Jobs nie zdążył nam tego wyjaśnić…