Ernst & Young, Sprawne Państwo a paradoksy w ocenie uczelni w Polsce

Dzisiaj podzielę się moim zaskoczeniem, gdy próbując odtworzyć wykres z raportu na podstawie danych z tego samego raporu otrzymałem zupełnie inne wyniki.

Kilka dni temu zgłosiłem apel o pomoc w zdobyciu danych dotyczących rozwoju pracowników naukowych. W ciągu tych kilku dni otrzymałem kilka listów z sugestiami ciekawych raportów dotyczący stanu nauki w Polsce. Między innymi od Krzysztofa T. dostałem namiar na raport ,,Produktywność naukowa wyższych szkół publicznych w Polsce” opracowany w ramach programu Sprawne Panstwo (program firmy Ernst & Young). Raport dostępny jest w postaci elektronicznej tutaj.

Po raporcie widać, że przygotowano go przez profesjonalistów. Ładnie dobrane odcienie szarości i pojawiające się łacińskie wtącenia sprawiają wrażenie rzetelności i profesjonalizmu. Jest też dużo tabelek z danymi (to na plus), odnośników do źródeł danych (to też na plus).

Niestety od strony statystycznej można się przyczepiać. Ponieważ generalnie cieszę się ze taki raport powstał, więc nie będę się czepiał bardzo, tylko na dwóch wpisach, tym i kolejnym ;-).

Zaczęło się od rysunku 12 ze strony strony 68 (patrz niżej) gdzie przedstawiona jest zależnośc pomiędzy przychodem na pracownika uczelni a liczbą publikacji na Nauczyciela Akademickiego (oznaczanego w całym raporcie konsekwentnie NA).

Pechowo na wykresie nie zaznaczono, która kropka to która uczelnia. Zaciekawiony która to kropka odpowiada najbardziej na prawo wysuniętej politechnice zacząłem przeglądać tabelę z danymi. Tabele 11 i 12 wydawały się pasować. W odpowiednich kolumnach przedstawiano i liczbę publikacji na NA i przychód na pracownika. Zrobiłem więc wykres o podobnych oznaczeniach jak ten prezentowany w raporcie, bazując na danych które przedstawiono w tymże raporcie i ze zdziwieniem zobaczyłem zupełnie inny obraz politechnik i uniwersytetów.

  • Z wykresu prezentowanego w raporcie wynika, że dwie uczelnie o najwyższych wskaźnikach publikacja na NA to uniwersytety.
  • Za to z wykresu prezentowanego na bazie danych które sa w raporcie wynika że w ścisłej czołówce uczleni o najwyższych wskaźnikach publikacja na nauczyciela akademickiego jest więcej politechnik.
  • Z wykresu prezentowanego w raporcie wynika, że przy tym samym przychodzie na uniwersytetach jest średnio więcej publikacji na PA niż na politechnikach (ciągła linia nad przerywaną)
  • Tymczasem z wykresu na bazie danych z raportu wynika rzecz zupełnie odwrotna, mianowicie że przy tym samym przychodzie na uniwersytetach jest średnio mniej publikacji na PA (ciągła linia pod przerywaną).

Przy okazji wyjasnijmy fenomen Uniwersytetu Jagielońskiego. Odstaje on znacząco od pozostałych uniwersytetów, tak bardzo że to aż zastanawia. Więc postawmy zagadkę dla czytelników, co ma UJ czego nie ma żadna duża z prezentowanych uczelni publicznych? Poniżej wykres tej samej zależności ale po usunięciu UJ. Pod wykresem znajduje sie odpowiedź na powyższą zagadkę.

UJ ma wydział lekarski i farmaceutyczny. We Wrocławiu, Warszawie czy Katowicach wydziały lekarski jest na Uniwersytecie Medycznym. Jeżeli chcieć uczciwie porównać różne uniwersytety to trzeba uwzględnić różną czestość publikowania w różnych dziedzinach. Umieszczanie UJ z wydziałem lekarskim w tej samej kategorii co pozostałe uniwersytety to błąd.

 

Różnica pomiędzy danymi a wykresami bieże się stąd, że dane przedstawiono dla jednego roku (2007/2008) podczas gdy na wykresach prezentowane są wskaźniki uśrednione z 10 lat, same wskaźniki nie sa jednak w raporcie prezentowane. Dziwne to.

 

Ranking uczelni i paretooptymalność

Paretooptymalność oznacza, że nie ma innych obiektów lepszych w każdym rozważanym sensie. Poza tym to ładne słowo, jedno z niewielu których jeszcze nie zapomniałem ze wstępu do teorii gier. Front paretooptymalny to zbiór obiektów, takich że od żadnego z nich nie istnieje obiekt jednostajnie lepszy. Obiekty z frontu są nieporównywalne.

Tak tez pewnie jest z uczelniami, jedne są lepsze jeżeli chodzi o współpracę z przemysłem, inne mogą mieć więcej publikacji, jeszcze inne mogą mieć lepszy PR. Na kilku rysunkach będę chciał pokazać w jakich kategoriach które uczelnie są wysoko. W zbiorze danych o rankingu z Rzeczpospolitej mamy 32 atrybuty, to za dużo a techniki skalowania nie doprowadziły do niczego co byłoby łatwe w interpretowaniu. Dlatego poniżej te 32 atrybuty zamieniłem w 6 atrybutów odpowiadających 6 grupom atrybutów z oryginalnego rankingu. Nowy atrybut to suma punktów z atrybutów dla danej grupy, tz. atrybut prestiż to suma punktów za preferencje pracodawców, ocenę kadry akademickiej, uznanie międzynarodowe i wybór olimpijczyków. Reszta podobnie. Na każdym z poniższych wykresów pokazywane jest 90 uczelni w układzie opisanym przez dwa atrybuty. Każdy punkt odpowiada jednej uczelni. 10 uczelni które mają najwyższą sumę atrybutów jest oznaczonych przez nazwy a kropki odpowiadające tym uczelnią maja ciemniejsze kolory. Kolory oznaczają typ uczelni (wyróżniłem 6 typów, w tym uniwersytety, politechniki itp). Jasny pomarańcz to politechnika która nie jest jedną z 10 najlepszych uczelni w danym zestawieniu, ciemno pomarańczowy to politechnika która znalazła się w 10 najlepszych w danym zestawieniu. Obie osie są w skali pierwiastkowej bo tak lepiej wyglądają.

Jeżeli mamy 6 atrybutów to wszystkich par jest 30 (kolejność ma znaczenie bo mózg inaczej interpretuje składowa pozioma a inaczej pionową). Wykresy dla wszystkich par są w katalogu tutaj. Poniżej przedstawiam 6 wybranych najciekawszych wykresów. Skrypt użyty do wygenerowania tych wykresów jest tutaj. Informacja, które charakterystyki agregują poszczególne grupy można odczytać też z tego wykresu.

Efektywność naukowa a innowacyjność.

 

Żółte kropki na tym wykresie oznaczają uniwersytety medyczne. Są one oznaczone jako uczelnie o bardzo wysokiej efektywności naukowej ale bardzo niskiej innowacyjności. Liter rankingu Rzeczpospolitej (uniwersytet Warszawski) nie jest najlepszy ani pod względem efektywności naukowej ani pod względem innowacyjności. UJ bije go w obu przypadkach. Jeżeli chodzi o innowacyjność to najlepsze są politechniki (Wroclawska, Warszawska, Gdanska, Poznanska) stojące tuz za AGH. Ale do tego jeszcze wrócimy.

Umiędzynarodowienie a potencjał naukowy.

 

Umiędzynarodowienie nie jest jakoś szczególnie silnie skorelowane z potencjałem naukowym. Czołówka najbardziej umiędzynarodowionych uczelni zawiera i te o wysokim potencjale naukowym (UW, UJ, swoją drogą termin potencjał naukowy brzmi podejrzanie) i te o wynikach gorszych niż średnia w tej kategorii (Akademia Koźmińskiego).

 

Warunki studiowania a potencjał naukowy

Zależność pomiędzy warunkami studiowania a potencjałem naukowym jest ciekawa. Te dwie cechy wydają się ze sobą korelować, ale jest to wynikiem obecności dwóch skupisk (paradoks Simpsona). Uczelnie o przeciętnych lub niskich warunkach studiowania i przeciętnym lub niskim potencjale naukowym (w tej grupie nie widać korelacji) i grupie kilku uczelnie w którym oba te współczynniki są wysokie.

Btw: W kategorii warunki studiowania wygrywa UAM. Tam jeszcze nie pracowałem, ale proszę śmiało o przesyłanie ofert na gmaila.

Potencjał naukowy a prestiż

Słowo prestiż jest już tak nadużywane, że trudno nawet powiedzieć co to oznacza w kontekście uczelni wyższej. Jest to jeden z najbardziej skośnych charakterystyk, tylko 7 uczelni ma ten współczynnik powyżej 100 a zdecydowana większość ma ten współczynnik poniżej 50.

Ciekawym eksperymentem będzie poprowadzić linię regresji na powyższym rysunku i zobaczyć prestiż których uczelni przewyższa ,,rzeczywisty” potencjał naukowy (PR robi swoje) a dla których uczelni jest on zaniżony.

Innowacyjność a potencjał naukowy

 

Podobnie wracamy do innowacyjności. Moim zdaniem jest to jedna z ważniejszych wartości wartych promowania. Potrzebujemy jak ryba wody kreatywnych rozwiązań, pomysłów, odważnych działań, zamiast walenia pałkami po łapach lub głowach tych co się wychylają.

Na tym wykresie ciekawie rozkładają się trzy grupy punktów. Niebieskie kropki oznaczają akademie (wojskowe, rolnicze, humanistyczne), za wyjątkiem AGH wszystkie pozostałe akademie mają niską innowacyjność i niski potencjał naukowy. Pomarańczowe kropki to politechniki. Większość z nich cechuje się wysoką innowacyjnością i potencjałem naukowym średnio trochę lepszym niż średnia (Maturzyści, idźcie studiować na Politechniki, potrzebujemy w kraju więcej inżynierów). Fioletowe kropki to uniwersytety, te charakteryzują się wysokim potencjałem naukowym ale innowacyjność jest tylko trochę lepsza niż średnia.

 

Podobieństwo pomiędzy kryteriami oceny uczelni wyższych w rankingu Rzeczpospolitej

Ten post to przymiarka do kolejnego, jest to więc wpis roboczy. Celem tego wpisu jest przyjrzenie się jak mają się do siebie 32 kategorie, charakterystyki, którymi w rankingu Rzeczpospolitej opisane są uczelnie wyższe.

Zaczniemy od korelogramu (przypominam że kodu do programu R, którymi wygenerowano poniższe wykresy znajdują się tutaj). Na korelogramie przedstawiono jakie sa korelacje pomiędzy róznymi kategoriami (w podziale na 6 wyróżninych grup kategorii). Im bardizej czerwona elipsa tym większa korelacja dodatnia, im bardziej niebieska tym silniejsza korelacja ujemna. Ponieważ rozkłady tych współczynników sa wyjątkowo skośne, na wykresie przedstawiane sa korelacje rangowe Spearmana.

Komentownaie zacznijmy od najsilniejszej ujemnej korelacji, dotyczy ona pary kategorii ‘Nasycenie kadrą profesorską’ i ‘osiągnięcia sportowe’. Hmm, można by się pokusić o kilka złośliwych komentarzy co do stanu kadry profesorskiej. Co ciekawe kategoria ,Nasycenie kadrą profesorską’ koreluje ujemnie z prawie wszystkimi innymi kategoriami (również z liczbą cytowań i publikacji, hmm, może więc przekonam dyrekcję mojego instytutu, żeby zamiast zatrudniać jednego profesora zatrudnili kilku energicznych doktorów).

Gdybym był młodym człowiekiem (tutaj wstaw kropkę) po maturze, wybierającym uczelnie wyższą, najbardziej interesowałaby mnie kategoria ‘Preferencje pracodawców’. Kategoria ta słabo koreluje z liczbą publikacji czy cytowań. Pełen korelogram w formacie pdf można znaleźć tutaj).

 

Jako uzupełnienie powyzszego korelogramu dodajmy jeszcze dendrogram dla charakterystyk oraz wynik skalowania wielowymiarowego charakterystyk na dwuwymiarowa płaszczyznę.

 

 Wniosek, który chcę obronić jest taki, że pogrupowanie 32 kategorie w 6 grup nie zostało wykonane tak by kategorie wewnątrz grupy były najbardziej do siebie podobne. Są podobne, ale w wielu przypadkach nie bardziej niż kategorie z innych grup. W kolejnym wpisie na blogu będę zamiast wszystkich 32 charakterystyk operował na grupach kategorii, sumując punkty z kategorii wewnątrz każdej z 6 grup. Wniosek jest więc taki, że być może te 32 charakterystyki da się lepiej podzielić na grupy, a mając lepszy podział i kolejne obliczenia można powtórzyć by dostać ciekawsze/czytelniejsze wyniki.

 

 

Podobieństwa pomiędzy uczelniami wyższymi w Polsce

Kilka dni temu dodalem do listy zbiorow danych wyniki rankingu szkół wyższych wykonanegp przez Gazetę Rzeczpospolita.

Redaktrzy gazety wykonali świetną pracę wyznaczając wartości 32 charakterystyk podzielonych na 6 grup (prestiż, innowacyjność, potencjał naukowy, efektywność naukowa, warunki studiowania i umiędzynarodowienie) dla 90 uczelni wyższych. Niestety plan zrobienia rankingu nie jest zbyt trafiony, trudno uporządkować jakkolwiek sensownie 90 uczelni z których większość ma różne profile kształcenia.

Naszym celem na dziś jest przyjrzenie się bliżej tym danym, może uda się znaleźć coś ciekawego w danych a może przynajmniej poćwiczymy wizualizacja wielowymiarowych danych.

Zacznijmy od wykonania hierarchicznej analizy skupień dla uczelni. Krótkie eksperymenty z odległością i metoda łączenia doprowadziły do wyboru odległości euklidesowej i metody lączenia średniego. Dla 90 uczelni zbudowano poniższy dendrogram (wersję pdf tego rysunku znaleźc można tutaj).

Co ciekawego zobaczyć można na tym dendrogramie? W grupach sa ucezlnie o podobnym profilu. Przy każdej uczelni zaznaczono tez pozycje tej uczelni w rankingu Rzeczpospolitej z roku 2011. Pierwsza szóstka uczelni znalazła się w osobnym poddrzewie dobrze separowanym od pozostałych, nie jest to jednak nic szczególnie ciekawego, pewnie we wszystkich kryteriach te uczelnie wypadają wysoko. Ciekawe pozycje to np. małe poddrzewo zawierające SGH i Akademię Leona Koźmińskiego. Te uczelnie znalazły się na różnych miejscach w rankingu Rzeczpospolitej (odpowiednio 9 i 25) a jednak jeżeli chodzi o profile sa bardzo podobne. Inna podobna para to Wojskowa Akademia Techniczna w Warszawie (pozycja 34 w rankingu) i Szkoła Główna Służby Pożarniczej (pozycja 86), mimo iż w rankingu znajdują się bardzo daleko od siebie, to jeżeli chodzi o profil kształcenia i nacisk na różne aspekty kształcenia wypadają podobnie.

Dlaczego taki dendrogram może być użyteczny? Załóżmy, że ktoś aplikował na SGH bo miał tam brata i brat twierdzi, że dobrze mu się tam studiowało. Załóżmy tez, że się nie dostał i szuka alternatywy. Alternatywą będzie raczej Akademia Koźmińskiego niż Uniwersyte Medyczny w Poznaniu (który w Rankingu jest na kolejnej, 10. pozycji za SGH).

 

 

 

Zbiór danych opisujący jakość uczelni wyższych w Polsce

Kilka dni temu rzeczpospolita umieściła bardzo ciekawy ranking uczelni wyższych w Polsce. Oryginalny zbiór danych znajduje się tutaj. Dużo pracy włożono by zebrać te 3330 liczb które przedstawiono w tym rankingu, szkoda tylko, że jedyne co z nimi zrobiono to konstrukcja rankingu który z założenia nie ma sensu. Jak można w porządku liniowym ułożyć Uniwersytet i Wyższą szkołę Pożarnictwa albo Akademię Medyczną?

Nie można.

Nie można też (o ile się nie jest chory na autyzm) objąć umysłem wszystkich 3330 liczb. Można za to wykorzystać ten zbiór danych do wizualizacji, redukcji wymiarowości, i analizy składowych głównych. Zapowiada się więc świetna zabawa, znaleźć regułę tworzenia rankingu by uczelnia na której się studiuje/pracuje była pierwsza.

Link do katalogu z danymi znajduje się tutaj. Skrypt R wczytujący dane bezpośrednio z internetu znajduje się tutaj. Dane w formacie CSV znajdują się tutaj.