Kategoryzacja jednostek, aplikcja dla NZ / SI / HS

Problem z hobby polega na tym, że trudno się od niego oderwać.
A na temat:
Z uwagi na zainteresowanie wizualizacją różnych kryteriów oceny jednostek naukowych zrobiłem aplikację, pozwalającą na przeglądanie wyników jednostek dla trzech dziedzin.

Pod adresem http://glimmer.rstudio.com/sondaze/parametryzacja/ znajduje się taka aplikacja:

Ponieważ na serwerze glimmer działa wiele aplikacji (to darmowy hosting), więc po jakimś czasie bezczynności ta apliakcja jest zabijana (okno aplikacji zrobi się szare) i trzeba odświeżyć stronę aplikacji.

Aplikacja ta pozwala na wybranie dziedziny (Nauki o życiu, Ścisłe, Humanistyczne) oraz dwóch kryteriów. Dla takiej kombinacji dostępne mamy trzy zakładki.

Pierwsza przedstawia wykres interaktywny. Przedstawia ona wszystkie jednostki z możliwością podejrzenia nazwy wskazanej jednostki przez najechanie na nią myszką.
Druga zakładka pozwala na pobranie wykresu w formacie pdf.
Trzecia zakładka pozwala na pobranie danych w formacie csv. Gdyby ktoś chciał liczyć korelacje czy coś innego to nie ma sensu by na nowo wyciągał te dane z pdf’a. Skoro już raz ktoś przez to przeszedł. Niepotrzebnie, takie dane od początku w cywilizowanym kraju powinny być publikowane w formacie pozwalającym na ich przetwarzanie.

Kody źródłowe dla tej aplikacji i wszystkie wykresy można pobrać z mojego konta na github, czyli tutaj.

Kategoryzacja jednostek, nauki humanistyczne i społeczne

Wczoraj przedstawialiśmy ocenę parametryczną jednostek w kategorii nauk ścisłych, dziś przyjrzymy się naukom humanistycznym i społecznym.

Poniżej przedstawiamy wykresy punktowe przedstawiające po dwa z czterech kryteriów oceny. Gdyby te wykresy się nie wyświetlały, to można je zobaczyć bezpośrednio pod tym adresem i tym adresemchrome wystarczy odświeżyć stronę, w feedly trzeba przejść na stronę bloga).

Oglądając wyniki dla osiągnięć naukowych i potencjału naukowego jednostek widzimy, że potencjał naukowy miał znacznie mniejszy wpływ na ocenę niż osiągnięcia. W przeciwieństwie jednak do nauk ścisłych, gdzie kolory kropek a tym samym kategorie były wymieszane, w tym przypadku wyraźnie końcowa ocena zależy głównie od osiągnięć naukowych.

Przesunięcie kursora nad punktem wyświetli nazwę jednostki.

Porównując materialne efekty działalności i pozostałe efekty działalności rzuca się w oczy pozycja IBE, która deklasuje konkurencję.

Przesunięcie kursora nad punktem wyświetli nazwę jednostki.

Dwie zmienne, które najczęściej ważyły na końcowej ocenie to osiągnięcia naukowe oraz pozostałe efekty.

Co ciekawe, w tym przypadku widzimy jak kroki wyraźnie układają się w cztery warstwy. Zupełnie inaczej wyglądała sytuacja w naukach ścisłych.

W tym przypadku oceny wydają się być bardziej ,,jednowymiarowe”. Wyżej oceniane jednostki mają wyższe średnie oceny niż niżej oceniane. Jak wczoraj widzieliśmy, dla nauk ścisłych sytuacja jest zupełnie inna.

Kategoryzacja jednostek naukowych

Ten wpis dotyczy wyłącznie nauk ścisłych, osoby zainteresowane też naukami przyrodniczymi czy humanistycznymi zapraszam do zapoznania się z tym wpisem.

Kilka dni temu, pod hasłem ,,Wizytówki polskiej nauki” ministerstwo opublikowało ocenę parametryczną jednostek naukowych. Każda z jednostek trafiła do jednej z czterech kategorii A+ (czyli elita, cytując ministerstwo), A, B i C (czyli ,,silne ostrzeżenie”). Od kategorii zależy wysokość dofinansowania ze strony ministerstwa, które otrzyma jednostka.

Na zaklasyfikowanie jednostki do kategorii wpływ miały cztery kryteria:
** Kryterium I – Osiągnięcia naukowe i twórcze
** Kryterium II – Potencjał naukowy
** Kryterium III – Materialne efekty działalności naukowej
** Kryterium IV – Pozostałe efekty działalności naukowej

Z plików pdf opublikowanych przez ministerstwo (dobrze, że nie zdjęcia wydrukowanych kartek, też cyfrowy format) udało się wyciągnąć dane. Poniżej przedstawię graficznie dane dla kategorii ,,Nauki ścisłe i inżynierskie”. Kody, wykresy i pliki źródłowe użyte do wykonania tych wizualizacji dostępne są tutaj, więc jeżeli kogoś interesują inne kategorie i lubi wyciągać dane z pdfów, zapraszam.

Zanim pokażemy surowe dane, przedstawimy problem odwrotny.

Podczas oceny jednostek na podstawie ocen cząstkowych przypisywano jednostki do czterech kategorii. Problemem odwrotnym będzie użycie algorytmu klasyfikacji (tutaj drzew klasyfikacyjnych) aby zobaczyć, które czynniki były decydujące w ,,przypisaniu” jednostki do określonej kategorii.

Poniższe drzewo decyzyjne (celowo obcięte do trzech poziomów) pokazuje czym charakteryzują się jednostki wysoko i nisko oceniane.

Czytaj dalej Kategoryzacja jednostek naukowych

Kto bierze korepetycje z matmy? – jak to zrobić w R?

W poprzednim wpisie pokazywaliśmy, którzy z uczniów w Polsce mają częściej zajęcia dodatkowe z matematyki.

A dziś pokażemy jak taki obrazek zrobić samodzielnie! Wystarczy przekopiować kilka linii kodu do R i mamy wykres dla Polski lub innego, wybranego kraju.

Zrobimy to w czterech krokach.

Czytaj dalej Kto bierze korepetycje z matmy? – jak to zrobić w R?

Kto bierze korepetycje z matmy?

Dziś sprawdzimy, kto bierze dodatkowe godziny korepetycji z matmy. Czy uczniowie, którzy są słabi, czy ci, którzy są dobrzy. Rynek korepetycji w Polsce ponoć szybko się rozwija, więc i temat na czasie.

W dzisiejszym wpisie będzie mowa o trzech państwach: Polska (około 40% uczniów deklaruje, że ma pozalekcyjne dodatkowe zajęcia z matematyki), Szwajcaria (około 22% uczniów ma zajęcia dodatkowe, w Europie mniej ma tylko Finlandia), Korea (razem z Japonią przodują w rankingach zajęć dodatkowych, około 75% uczniów deklaruje, że takie zajęcia ma)

Aby odpowiedzieć na to pytanie użyjemy zbioru danych PISA 2009. Mamy w nim informację (dla ponad 5 tysięcy uczniów z Polski) o tym czy biorą pozalekcyjne zajęcia z matematyki, jakie ci uczniowie mają ma wyniki z matematyki oraz jakie są średnie wyniki z matematyki w ich szkołach.

Zanim zobaczymy jak jest, musimy przyzwyczaić się do pewnego układu współrzędnych. Na jednej osi chcemy zobaczyć jak dobry jest student (jego wynik z testu z matematyki) a na drugiej jak jest dobry w porównaniu do innych uczniów w jego szkole (względne poczucie jak jest dobry). Może być przecież tak, że dobry uczeń trafia do bardzo dobrej szkoły i jest w ogonie klasy, a może być odwrotnie, można być najlepszym uczniem w klasie ale być poniżej średniej w kraju.

Na poniższym wykresie każda z 5000 kropek to jeden uczeń.

Na osi poziomej jest przedstawiony wynik ucznia z matematyki. Im bardziej na prawo tym uczeń lepszy, na lewo gorszy w skali kraju.

Na osi pionowej jest przedstawiony wynik ucznia minus średnia szkoły. Im wyżej tym uczeń jest lepszy na tle swojej szkoły, im niżej jest gorszy na tle swojej szkoły.

Oswoiliśmy się z tym wykresem? To idziemy dalej.
Zaznaczmy teraz którzy z tych uczniów biorą zajęcia dodatkowe.

Czytaj dalej Kto bierze korepetycje z matmy?

The Future of Programming

Całkiem przypadkiem trafiłem na prezentację ,,The Future of Programming” przedstawioną przez Breta Victora. Link do prezentacji znajduje się tutaj.

Prezentacja jest ciekawa i ze względu na formę i ze względu treść. Główne przesłanie jest takie, że często wpada się w pułapkę szablonu ,,wiem co robię i wiem jak to powinno być robione”. Autor ładnie ilustruje tę pułapkę na przykładzie ewolucji języków programowania czy architektury komputerów. Ale oczywiście ta pułapka pojawia się w wielu miejscach, ,,wiem, że uprawiam naukę, przecież właśnie to jest nauka [=publikowanie w czasopismach]” lub ,,wiem, że analizuję dane, przecież właśnie tak się analizuje dane [=używam regresji i testów t-studenta]”. [notka dla szybko czytających konserwatystów: NIE uważam, że nie należy publikować czy używać regresji czy testu t].

Bret Victor – The Future of Programming from Bret Victor on Vimeo.

[Jeżeli poniżej nic się nie pojawia to dwudziestokilkuminutowe wideo można znaleźć tutaj]

Jak porównać dwie grupy, useR 2013, Propensity Scores a badania obserwacyjne

Jutro zaczyna się useR!2013, czyli coroczna międzynarodowa konferencja użytkowników R [przyjeżdżam na nią od sześciu lat i nie znalazłem jeszcze innej tak wciągającej konferencji]. Tym razem w Albacete w Hiszpanii.

Dziś miejsce mają tutoriale. Zakończyłem właśnie jeden poświęcony Propensity Scores [analizie z uwzględnieniem efektu predyspozycji / skłonności / prawdopodobieństwa nominacji ?] i poniżej mam zamiar o nim napisać. Pytanie na które będziemy chcieli odpowiedzieć, to jak porównać dwie [potencjalnie niejednorodne] grupy.

Ale najpierw wkleję logo tegorocznej konferencji [czyż nie jest rewelacyjne?].

Czytaj dalej Jak porównać dwie grupy, useR 2013, Propensity Scores a badania obserwacyjne

The PISA2009lite package is released

This post introduces a new R package named PISA2009lite. I will show how to install this package, what is inside and how to use it.

Introduction

PISA (Programme for International Student Assessment) is a worldwide study focused on measuring performance of 15-year-old school pupils. More precisely, scholastic performance on mathematics, science and reading is measured in more than 500 000 pupils from 65 countries.

First PISA study was performed in 2000, second in 2003, and then in 2006, 2009 and the last one in 2012. Data from the last study will be made public on December 2013. Data from previous studies are accessible through the PISA website http://www.oecd.org/pisa/.
Note that this data set is quite large. This is why the PISA2009lite package will use more than 220MB of your disk [data sets are compressed on disk] and much more RAM [data sets will be decompressed after [lazy]loading to R].

Let's see some numbers. In PISA 2009 study, number of examined pupils: 515 958 (437 variables for each pupil), number of examined parents: 106 287 (no, their questions are not related to scholastic performance), number of schools from which pupils were sampled: 18 641. Pretty large, complex and interesting dataset!

On the official PISA webpage there are instructions how to read data from 2000-2009 studies into SAS and SPSS statistical packages. I am transforming these dataset to R packags, to make them easier to use for R users.
Right now, PISA2009lite is mature enough to share it. There are still many things to correct/improve/add. Fell free to point them [or fix them].

This is not the first attempt to get the PISA data available for R users. On the github you can find 'pisa' package maintained by Jason Bryer (https://github.com/jbryer/pisa) with data from PISA 2009 study.
But since I need data from all PISA editions, namely 2000, 2003, 2006, 2009 and 2012 I've decided to create few new packages, that will support consistent way to access data from different PISA studies.

Open the R session

The package is on github, so in order to install it you need just

now PISA2009lite is ready to be loaded

You will find five data sets in this package [actually ten, I will explain this later]. These are: data from student questionnaire, school questionnaire, parent questionnaire, cognitive items and scored cognitive items.

You can do a lot of things with these data sets. And I am going to show some examples in next posts.

Country ranking in just few lines of code

But as a warmer let's use it to calculate average performance in mathematics for each country.

Note that student2009$W_FSTUWT stands for sampling weights, student2009$PV1MATH stands for first plausible value from MATH scale while student2009$CNT stands for country

And plot it.

plot of chunk unnamed-chunk-6

Naukowy ranking uczelni

Zbliża się sesja, okres wytężonej pracy dla nauczycieli akademickich [ech te wszystkie egzaminy], dziś więc coś na wesoło.

Kilka dni temu na stronach Polityki opublikowano ,,Naukowy ranking uczelni POLITYKI” [ranking i artykuł tutaj]. Pierwsze dwa zdania tego artykułu wyglądają bardzo zachęcająco.

Wśród rankingów polskich uczelni oceniających różne aspekty ich działalności brakowało rankingu porównującego wszystkie polskie uczelnie akademickie pod względem jakości uprawianej w nich nauki. Oto taka próba.

Jeżeli w tym miejscu czytając o ,,rankingu jakości uprawianej nauki” już spodziewasz się, że będą porównywane indeksy Hirscha dla uczelni, to wiedz że masz racje. Choć powinno Cię to zaniepokoić.

Co ciekawego można znaleźć w tym rankingu?

Jest przepaść pomiędzy pierwszymi dwoma uczelniami a resztą [odpowiednio: UW: 187, UJ: 153 trzecia PW: 115]. Czyli w przypadku UW liczyły się tyko publikacje o 187 cytowaniach i tych publikacji zebrało się 187 od końca drugiej wojny światowej. Dla pozostałych uczelni nie wiadomo ile tak poczytnych publikacji napisano, wiadomo że mniej poczytnych jest jeszcze mniej. Ta przepaść natychmiast rodzi naturalne pytanie: które prace wykonane w okresie ostatnich 55 lat przez tysiące naukowców na Uniwersytecie Warszawskim były tymi najczęściej cytowanymi? Czy te najbardziej poczytne publikacje pochodzą z jakiejś określonej dziedziny [może bio-info-tech a może medycyna], czy określonego okresu czasu [czy starsze uczelnie mają przewagę, czy też te poczytne publikacje to raczej ostatnie dekady], ilu uczonych z UW wyprodukowało te 187 prac.
To ciekawe pytania, odpowiedzi na nie pomogłyby zrozumieć jakie wyniki wyprodukowane przez naukowców afiliowanych w Polsce są dostrzegane na świecie.
Mam nadzieję, że naukowcy z UZ [to oni opracowali ten ranking i wykonali dużo pracy przy czyszczeniu i uzgadnianiu danych] w przyszłości odpowiedzą na to pytanie. Lub udostępnią zebrane dane, by każdy mógł sobie w nich pogrzebać.

Można na jego bazie tego rankingu zbudować nowy współczynnik dla naukowców.
Nazwijmy go roboczo CWSP [cyniczny współczynnik SmarterPoland], określający ile polskich uczelni akademickich ma niższy lub równy indeks H niż dany naukowiec.
A ponieważ jedna z polskich uczelni akademickich ma indeks H równy zero, każdy polski naukowiec będzie miał indeks CWSP przynajmniej równy 1.

Indeks H ma tą wspaniałą zaletę, że można go policzyć dla każdego zbioru publikacji.
Możemy więc policzyć i porównać indeks H dla kobiet vs. mężczyzn, albo wysokich vs. niskich, praworęcznych vs. leworęcznych, albo naukowców z okularami i tymi bez [czy nauka będzie szła, gdy na nosie noszę szkła?].

Disclaimer: Autor nosi okulary i pracuje na UW, pisząc o swoim pracodawcy może być więc stronniczy 😉

EDU-akcja już w tą niedzielę

Czy warto zderzać naukowców/nauczycieli akademickich z nauczycielami ze szkół średnich?
Tak! Ci pierwsi żyją na co dzień tym co się dzieje dziś w nauce. Ci drudzy mają olbrzymi doświadczenie dydaktyczne [mówimy tu wyłącznie o dobrych naukowcach i nauczycielach].

A czy warto zderzać nauczycieli/naukowców z różnych dziedzin? Historyków z genetykami czy statystykami?
Tak! Rodzą się z tego ciekawe pomysły.

Miejscem gdzie do takich zderzeń dochodzi jest np. EDU-akcja. Inicjatywa w której nauczyciele [głównie historii i WOS] spotykają się z naukowcami i rozmawiają o interesujących projektach.
Takich jak np. wieloaspektowe uczenie w szkole średniej. Wyobraźmy sobie analizę kopalnego DNA w celu badania wędrówek ludów. Taki projekt może być przedstawiany na różnych przedmiotach w szkole równolegle. Na historii przedstawiona będzie perspektywa historyka, na biolgii perspektywa genetyka badającego DNA, na matematyce perspektywa statystyka badającego istotność różnych sygnałów. Te pozornie odległe światy różnych przedmiotów polączone będą przez jeden projekt, prawdziwy, współczesny, zajmujący. Pozwoli to też na zrozumienie skali złożoności aktualnie prowadzonych badań bez [czasem sztucznego] podziału na dyscypliny.
Brzmi jak utopia? Nie, to przyszłość edukacji 😉

Najbliższa EDUakcja ma miejsce w Warszawie 19 maja, start o godzinie 9.
Jeśli ktoś chciałby wziąć udział to należy się skontaktować z Moniką Koblak, email: monikakoblak na serwerze gmail.com.

Miałem przyjemność być na kwietniowym spotkaniu, bardzo interesującym. Szczególnie spodobał mi się pomysł na prezentowanie złożonych projektów warstwa po warstwie na różnych przedmiotach. Co pokazuje przy okazji jak bardzo różne aspekty tego samego problemu mogą zajmować/pasjonować różne osoby. I jak bardzo w pracy nad złożonymi projektami jest ważna interdyscyplinarna współpraca.

Relacje z poprzednich spotkań i kilka zdjęć można znaleźć tutaj:
http://obywatelenauki.pl/2013/03/edu-akcja-obywatele-nauki-dla-nauczycieli-i-wykladowcow/, http://obywatelenauki.pl/2013/04/edu-akcja-kolejna-odslona/.