Podobieństwo pomiędzy kryteriami oceny uczelni wyższych w rankingu Rzeczpospolitej

Ten post to przymiarka do kolejnego, jest to więc wpis roboczy. Celem tego wpisu jest przyjrzenie się jak mają się do siebie 32 kategorie, charakterystyki, którymi w rankingu Rzeczpospolitej opisane są uczelnie wyższe.

Zaczniemy od korelogramu (przypominam że kodu do programu R, którymi wygenerowano poniższe wykresy znajdują się tutaj). Na korelogramie przedstawiono jakie sa korelacje pomiędzy róznymi kategoriami (w podziale na 6 wyróżninych grup kategorii). Im bardizej czerwona elipsa tym większa korelacja dodatnia, im bardziej niebieska tym silniejsza korelacja ujemna. Ponieważ rozkłady tych współczynników sa wyjątkowo skośne, na wykresie przedstawiane sa korelacje rangowe Spearmana.

Komentownaie zacznijmy od najsilniejszej ujemnej korelacji, dotyczy ona pary kategorii ‘Nasycenie kadrą profesorską’ i ‘osiągnięcia sportowe’. Hmm, można by się pokusić o kilka złośliwych komentarzy co do stanu kadry profesorskiej. Co ciekawe kategoria ,Nasycenie kadrą profesorską’ koreluje ujemnie z prawie wszystkimi innymi kategoriami (również z liczbą cytowań i publikacji, hmm, może więc przekonam dyrekcję mojego instytutu, żeby zamiast zatrudniać jednego profesora zatrudnili kilku energicznych doktorów).

Gdybym był młodym człowiekiem (tutaj wstaw kropkę) po maturze, wybierającym uczelnie wyższą, najbardziej interesowałaby mnie kategoria ‘Preferencje pracodawców’. Kategoria ta słabo koreluje z liczbą publikacji czy cytowań. Pełen korelogram w formacie pdf można znaleźć tutaj).

 

Jako uzupełnienie powyzszego korelogramu dodajmy jeszcze dendrogram dla charakterystyk oraz wynik skalowania wielowymiarowego charakterystyk na dwuwymiarowa płaszczyznę.

 

 Wniosek, który chcę obronić jest taki, że pogrupowanie 32 kategorie w 6 grup nie zostało wykonane tak by kategorie wewnątrz grupy były najbardziej do siebie podobne. Są podobne, ale w wielu przypadkach nie bardziej niż kategorie z innych grup. W kolejnym wpisie na blogu będę zamiast wszystkich 32 charakterystyk operował na grupach kategorii, sumując punkty z kategorii wewnątrz każdej z 6 grup. Wniosek jest więc taki, że być może te 32 charakterystyki da się lepiej podzielić na grupy, a mając lepszy podział i kolejne obliczenia można powtórzyć by dostać ciekawsze/czytelniejsze wyniki.

 

 

Podobieństwa pomiędzy uczelniami wyższymi w Polsce

Kilka dni temu dodalem do listy zbiorow danych wyniki rankingu szkół wyższych wykonanegp przez Gazetę Rzeczpospolita.

Redaktrzy gazety wykonali świetną pracę wyznaczając wartości 32 charakterystyk podzielonych na 6 grup (prestiż, innowacyjność, potencjał naukowy, efektywność naukowa, warunki studiowania i umiędzynarodowienie) dla 90 uczelni wyższych. Niestety plan zrobienia rankingu nie jest zbyt trafiony, trudno uporządkować jakkolwiek sensownie 90 uczelni z których większość ma różne profile kształcenia.

Naszym celem na dziś jest przyjrzenie się bliżej tym danym, może uda się znaleźć coś ciekawego w danych a może przynajmniej poćwiczymy wizualizacja wielowymiarowych danych.

Zacznijmy od wykonania hierarchicznej analizy skupień dla uczelni. Krótkie eksperymenty z odległością i metoda łączenia doprowadziły do wyboru odległości euklidesowej i metody lączenia średniego. Dla 90 uczelni zbudowano poniższy dendrogram (wersję pdf tego rysunku znaleźc można tutaj).

Co ciekawego zobaczyć można na tym dendrogramie? W grupach sa ucezlnie o podobnym profilu. Przy każdej uczelni zaznaczono tez pozycje tej uczelni w rankingu Rzeczpospolitej z roku 2011. Pierwsza szóstka uczelni znalazła się w osobnym poddrzewie dobrze separowanym od pozostałych, nie jest to jednak nic szczególnie ciekawego, pewnie we wszystkich kryteriach te uczelnie wypadają wysoko. Ciekawe pozycje to np. małe poddrzewo zawierające SGH i Akademię Leona Koźmińskiego. Te uczelnie znalazły się na różnych miejscach w rankingu Rzeczpospolitej (odpowiednio 9 i 25) a jednak jeżeli chodzi o profile sa bardzo podobne. Inna podobna para to Wojskowa Akademia Techniczna w Warszawie (pozycja 34 w rankingu) i Szkoła Główna Służby Pożarniczej (pozycja 86), mimo iż w rankingu znajdują się bardzo daleko od siebie, to jeżeli chodzi o profil kształcenia i nacisk na różne aspekty kształcenia wypadają podobnie.

Dlaczego taki dendrogram może być użyteczny? Załóżmy, że ktoś aplikował na SGH bo miał tam brata i brat twierdzi, że dobrze mu się tam studiowało. Załóżmy tez, że się nie dostał i szuka alternatywy. Alternatywą będzie raczej Akademia Koźmińskiego niż Uniwersyte Medyczny w Poznaniu (który w Rankingu jest na kolejnej, 10. pozycji za SGH).

 

 

 

Zbiór danych opisujący jakość uczelni wyższych w Polsce

Kilka dni temu rzeczpospolita umieściła bardzo ciekawy ranking uczelni wyższych w Polsce. Oryginalny zbiór danych znajduje się tutaj. Dużo pracy włożono by zebrać te 3330 liczb które przedstawiono w tym rankingu, szkoda tylko, że jedyne co z nimi zrobiono to konstrukcja rankingu który z założenia nie ma sensu. Jak można w porządku liniowym ułożyć Uniwersytet i Wyższą szkołę Pożarnictwa albo Akademię Medyczną?

Nie można.

Nie można też (o ile się nie jest chory na autyzm) objąć umysłem wszystkich 3330 liczb. Można za to wykorzystać ten zbiór danych do wizualizacji, redukcji wymiarowości, i analizy składowych głównych. Zapowiada się więc świetna zabawa, znaleźć regułę tworzenia rankingu by uczelnia na której się studiuje/pracuje była pierwsza.

Link do katalogu z danymi znajduje się tutaj. Skrypt R wczytujący dane bezpośrednio z internetu znajduje się tutaj. Dane w formacie CSV znajdują się tutaj.

Ceny metra kwadratowego we Wrocławiu

Kilka dni temu dodałem do repozytorium zbiór danych dotyczących cen ofertowych mieszkań z serwisu oferty.net (patrz: http://smarterpoland.pl/?p=60). Teraz przyszedł czas na przyjrzenie się bliżej tym danym.

Ponieważ większość z przeprowadzonych analiz uwzględniała zrożnicowanie pomiędzy dzielnicami to, aby nie zamazywać wyników efektami 40 różnych dzielnic, pokażę kilka analiz wykonanych wyłącznie dla Wrocławia. Administracyjnie Wrocław ma 5 dzielnic, w danych jest jeszcze szósty poziom ‘inne’ oznaczający brak lub niejednoznaczne przypisanie dzielnicy do oferty sprzedaży mieszkania. Oczywiście wszystkie analizy są generyczne i można je powtórzyć dla innych miast.

Przyjrzę się bliżej efektom wpływającym na cenę metra kwadratowego we Wrocławiu. Mieszkania podzilimy na cztery grupy, tzw. kawalerki (jeden pokój powierzchnia 20-35 m2), dla młodego małżeństwa (dwa pokoje 40-55 m2) i dla rodziny z dziećmi (3-4 pokoje 60-80 m2), inne, wybór całkowicie arbitralny. Zobaczmy jak rozkładają się ceny metra kwadratowego dla różnej wielkości mieszkań w różnych dzielnicach. Aby pracować z bardziej jednorodną grupą bierzemy na razie pod uwagę tylko rok 2011. Szerokość pudełka odpowiada liczbie ofert z danej dzielnicy. Interpretacja tak jak wykresu pudełkowego (boxplot). Zaskoczenia nie ma, im wieksze mieszkanie tym m2 tańszy, ceny w centrum sa wyższe niż poza, Śródmieście i Krzyki jako popularniejsze dzielnice sa tez droższe niż Psie Pole czy Fabryczna (każda z tych dzielnic jest bardzo duża, więc uśrednianie cen po całej dzielnicy to bardzo duże uproszczenie). Kod programu R użyty do wygenerowania tego rysunku znajduje się tutaj [http://tofesi.mimuw.edu.pl/~cogito/smarterpoland/mieszkaniaKWW2011/Wroclaw/rysunki.r]

 

 

Prosty model regresji liniowej pokazuje że na cene m2 wpływa istotnie kilka zmiennych, w tym: dzielnica, powierzchnia, data złożenia oferty. Przyjrzymy się każdej z tych zmiennych, zaczniemy od powierzchni. Najprostszą charakterystyką do przedstawienia będzie średnia cena m2, później przyjrzymy się innym charakterystykom. Zobaczmy jak średnia cena m2 rozkłada się dla mieszkań o różnej powierzchni w rozbiciu na dzielnice. Kod programu R użyty do wygenerowania tego rysunku znajduje się tutaj [http://tofesi.mimuw.edu.pl/~cogito/smarterpoland/mieszkaniaKWW2011/Wroclaw/rysunki.r]


Ograniczyliśmy się do przedziały powierzchni 20-100 m2, mieszkań spoza tego przedziału jest dosyć mało, więc wyniki byłyby mało wiarygodne. Obrazki mówią same za siebie, zatem darujemy sobie interpretacje powyższego wykresu. Kolejnym efektem, który będzie nas interesował, to zmiana ceny mieszkania w czasie. Skoro cena metra kwadratowego zależy od powierzchni to do kolejnej analizy zostały one skorygowane, tzn. zastąpione ceną metra kwadratowego odpowiadającą powierzchni 50m2.


Gorąca dyskusja na różnych forach nt. czy mieszkania drożeją czy tanieją wydaje się być łatwa do rozstrzygnięcia na podstawie powyższego wykresu. Ceny spokojnie i powoli sobie spadały w większości dzielnic do marca tego roku, gdy zaczeły spadać szybciej. Troche to zaskakujące, można jednak sprawdzić że podobny efekt utrzymuje się też w innych miastach. Optymiści (niepoprawni) mogą stwierdzić, że w Śródmieściu ceny rosły. Powyższy wykres dla Warszawy byłby ciekawszy, ponieważ mamy ceny z ostatnich pięciu lat, więc ciekawszy horyzont czasowy. Oczywiście powyższy trend dotyczy mieszkań z naszego zbioru danych, niekoniecznie jest on reprezentatywny, zatem i powyższe wyniki należy czytac krytycznie (jak wszystko). Zobaczmy jeszcze, ile ogłoszeń mamy z różnych okresów czasu.


Czy to nasze źródło danych jest coraz popularniejsze, czy też coraz więcej mieszkań się sprzedaje, trudno te dwa efekty rozwikłać.

Powyżej oglądaliśmy średnią cenę metra kwadratowego. Jasne jest, że rozkład cen jest silnie skośny, zdarzają się pojedyńcze bardzo drogie mieszkania i te pojedyncze obserwacje odstające wpływają silnie na średnią, więc wypadałoby porównać średnią z medianą albo inną bardzej odporną charakterystyką. Wykorzystamy regresję kwantylową i krzywe sklejane kubiczne, aby zamodelować zmienę mediany ceny metra kwadratowego w czasie. Wyniki poniżej, linia ciągła to wspomniana mediana, linia kropkowana odpowiada średniej.


Zgodnie z oczekiwaniami mediany sa poniżej średnich, trendy dla obu charakterystyk sa podobne. Kod programu R użyty do wygenerowania tego rysunku znajduje się tutaj [http://tofesi.mimuw.edu.pl/~cogito/smarterpoland/mieszkaniaKWW2011/Wroclaw/rysunki.r]

Podsumowując, modelowanie cen mieszkań to ciekawy temat, za jakiś czas zajmiemy się cenami w Warszawie i Krakowie.

Wykresy i kody programu R wykorzystane w tym wpisue znajdują się w katalogu http://tofesi.mimuw.edu.pl/~cogito/smarterpoland/mieszkaniaKWW2011/Wroclaw/.

 

Zbiór danych o cenach ofertowych mieszkań z Warszawy, Wrocławia i Krakowa z lat 2006-2011

Ok, zaczynamy od zbioru danych. W pakiecie PBImisc umiesciłem kiedyś zbiór danych o 973 transakcjach dotyczących mieszkań z Warszawy. Mieszkań nie było zbyt dużo a transakcje dotyczyły tylko z Warszawy ale był to miły zbiór danych do ćwiczeń z R czy modelami liniowymi. Po dwóch latach nadszedł czas na aktualizację tego zbioru danych. Nowy zbior danych, który dzisiaj dodałem jest większy, dotyczy 188 884 ofert sprzedaży mieszkań zebranych dla miast Kraków, Warszawa i Wrocław z lat 2006-2011. Dane pochodzą z serwisu ogłoszeniowego http://oferty.net.

W tym miejscu: Wczytaj dane znajduje się skrypt R wczytujący dane bezpośrednio z internetu. Dane w postaci binarnej i tekstowej znajdują się w tym katalogu: Katalog z danymi.

Niebawem dodam kilka wizualizacji ilustrujących jak zmienia się cena mieszkań w czasie.