Żyj marzeniem…

W poprzednie wakacje Fundacja prowadziła projekt dotyczący eksploracji danych z badania PISA (Program Międzynarodowej Oceny Umiejętności Uczniów) prowadzonego przez OECD (Organizacja Współpracy Gospodarczej i Rozwoju). Do projektu zgłosiło się kilku wolontariuszy i w wyniku prowadzonych prac powstało kilka ciekawych grafik i projektów [np. tutaj Tomasz Owczarek pisze jak użyć Tableau do eksploracji tych danych, a tutaj pokazujemy jak wykształcenie rodziców koreluje z wynikami dzieci].

Temat porwał mnie na tyle, by wykorzystywać te dane na zajęciach z modeli liniowych i mieszanych. Praca na ciekawych i dużych danych była bardzo stymulująca dla studentów, w wyniku czego wykonali sporo interesujących analiz [oczywiście o nich pisaliśmy, np. tutaj].

Z tych wszystkich działań jednak pozostało we mnie wrażenie, że nie rozumiemy zbyt dobrze złożoności danych z badania PISA. Potrafimy tworzyć rankingi krajów w oparciu o pewne współczynniki, potrafimy przedstawiać zależności pomiędzy parami, trójkami, czwórkami zmiennych, ale nie ogarniamy całości. Raporty n.t. danych PISA mają po kilkaset stron z których zrozumieć można na raz może kilka. Tych informacji jest zbyt dużo a historia w nich ukryta jest niezbyt jasna.

OECD ma program grantowy Thomasa Alexandra, którego celem jest zbieranie naukowców z różnych dziedzin by testować różne techniki eksploracji danych PISA. Mile widziani są ludzie ,,spoza dziedziny”, i jak się okazało jest to na tyle szeroka definicja że obejmuje nawet takich biostatystyków medycznych jak ja. W ramach tego programu, wraz z grupką studentów, chcących nauczyć się R i eksploracji danych w R, będziemy szukać interesujących historii w danych PISA. A przede wszystkim będziemy szukać sposobu by te historie przedstawić graficznie, w zrozumiały sposób.

Dane z badania PISA 2012 będą udostępnione w poniedziałek 3 czerwca. Na początku będziemy szukać historii związanych z różnicami w wynikach pomiędzy płciami i jakie czynniki wpływają na to że te różnicę są w jednych szkołach/miastach/krajach duże a w innych małe. Kolejnym tematem będzie zagadnienie segregacji uczniów w szkołach w zależności od statusu majątkowego lub kulturowego rodziców czy też wyników dzieci.

Masa interesujących pytań.
Postaram się publikować wyniki na blogu na bieżąco, być może w niedopracowanej/otwartej formie. Zapraszam też do zadawania pytań, kwestionowania wyników, sugerowania alternatywnych rozwiązań.
Może razem uda nam się na jakiś ciekawe zależności natrafić.

Fascynującą cechą badania PISA jest zakres. Co trzy lata badanych jest 500 tysięcy 15latków z kilkudziesięciu krajów. Dzięki temu z tych danych można wyciągać mniej przypadkowe wnioski niż ,,Zagraniczni uczeni na próbie 20 osób odkryli, że jedzenie marchewki wieczorem ułatwia czytanie tekstu ze zrozumieniem”.

Ale czy uda się nam znaleźć interesujące historie w danych PISA 2012?
Już niebawem zobaczymy!

Naukowy ranking uczelni

Zbliża się sesja, okres wytężonej pracy dla nauczycieli akademickich [ech te wszystkie egzaminy], dziś więc coś na wesoło.

Kilka dni temu na stronach Polityki opublikowano ,,Naukowy ranking uczelni POLITYKI” [ranking i artykuł tutaj]. Pierwsze dwa zdania tego artykułu wyglądają bardzo zachęcająco.

Wśród rankingów polskich uczelni oceniających różne aspekty ich działalności brakowało rankingu porównującego wszystkie polskie uczelnie akademickie pod względem jakości uprawianej w nich nauki. Oto taka próba.

Jeżeli w tym miejscu czytając o ,,rankingu jakości uprawianej nauki” już spodziewasz się, że będą porównywane indeksy Hirscha dla uczelni, to wiedz że masz racje. Choć powinno Cię to zaniepokoić.

Co ciekawego można znaleźć w tym rankingu?

Jest przepaść pomiędzy pierwszymi dwoma uczelniami a resztą [odpowiednio: UW: 187, UJ: 153 trzecia PW: 115]. Czyli w przypadku UW liczyły się tyko publikacje o 187 cytowaniach i tych publikacji zebrało się 187 od końca drugiej wojny światowej. Dla pozostałych uczelni nie wiadomo ile tak poczytnych publikacji napisano, wiadomo że mniej poczytnych jest jeszcze mniej. Ta przepaść natychmiast rodzi naturalne pytanie: które prace wykonane w okresie ostatnich 55 lat przez tysiące naukowców na Uniwersytecie Warszawskim były tymi najczęściej cytowanymi? Czy te najbardziej poczytne publikacje pochodzą z jakiejś określonej dziedziny [może bio-info-tech a może medycyna], czy określonego okresu czasu [czy starsze uczelnie mają przewagę, czy też te poczytne publikacje to raczej ostatnie dekady], ilu uczonych z UW wyprodukowało te 187 prac.
To ciekawe pytania, odpowiedzi na nie pomogłyby zrozumieć jakie wyniki wyprodukowane przez naukowców afiliowanych w Polsce są dostrzegane na świecie.
Mam nadzieję, że naukowcy z UZ [to oni opracowali ten ranking i wykonali dużo pracy przy czyszczeniu i uzgadnianiu danych] w przyszłości odpowiedzą na to pytanie. Lub udostępnią zebrane dane, by każdy mógł sobie w nich pogrzebać.

Można na jego bazie tego rankingu zbudować nowy współczynnik dla naukowców.
Nazwijmy go roboczo CWSP [cyniczny współczynnik SmarterPoland], określający ile polskich uczelni akademickich ma niższy lub równy indeks H niż dany naukowiec.
A ponieważ jedna z polskich uczelni akademickich ma indeks H równy zero, każdy polski naukowiec będzie miał indeks CWSP przynajmniej równy 1.

Indeks H ma tą wspaniałą zaletę, że można go policzyć dla każdego zbioru publikacji.
Możemy więc policzyć i porównać indeks H dla kobiet vs. mężczyzn, albo wysokich vs. niskich, praworęcznych vs. leworęcznych, albo naukowców z okularami i tymi bez [czy nauka będzie szła, gdy na nosie noszę szkła?].

Disclaimer: Autor nosi okulary i pracuje na UW, pisząc o swoim pracodawcy może być więc stronniczy ;-)

Jak (nie)pokazywać bilansu urodzin, zgonów i migracji

Co jakiś czas dostaję od czytelników interesujące sugestie dotyczące raportów / wizualizacji / tematów. Bardzo mnie one cieszą. Mam nadzieję, że kiedyś blog fundacji będzie prowadzony przez więcej osób, a to podsyłanie materiałów jest krokiem w tym kierunku.

Dziś będzie o wykresie z raportu ,,Huszlew Strategia Rozwiązywania Problemów Społecznych”, na który uwagę zwróciła mi Natalia J.

Czytaj dalej Jak (nie)pokazywać bilansu urodzin, zgonów i migracji

Ponieważ możemy! czyli o mapie na której widać 38 511 800 Polaków

Czy chcielibyście zobaczyć mapę Polski, na której zaznaczony jest każdy Polak? Wizualizację ponad 38 milionów osób rozrzuconych mniej lub bardziej losowo na obszarze ponad 300 tysięcy km^2? Jeżeli w tej chwili w waszych głowach zapala się pytanie ‘po co?’, nie czytajcie dalej. Jeżeli zaś już widzicie taką mapę oczami wyobraźni, poniższy wpis bardzo Wam się spodoba.

Celem tego projektu było pokazanie w interesujący sposób informacji z Narodowego Spisu Powszechnego 2011. Jedną z inspiracji była interaktywna mapa przedstawiająca spis powszechny w Stanach Zjednoczonych o której przeczytać można tutaj. W ramach dzisiaj opisywanego projektu opracowano mapę Polski składającą się z ponad 38 milionów punktów, każdy punkt odpowiadający jednej osobie, rozmieszczenie punktów odpowiadające rzeczywistej gęstości zaludnienia.

Ten wpis jak i cały projekt został wykonany przez Pawła Wiechuckiego w ramach wolontariatu dla naszej fundacji.
Kiedyś podczas jakiejś prezentacji usłyszałem, że organizacje non-profit to ciekawe miejsca, ponieważ przyciągają osoby, które za darmo tworzą rzeczy bezcenne, dlatego że chcą by te rzeczy powstały. Projekt Pawła Wiechuckiego jest świetnym przykładem takiej aktywności. Nie było łatwo, trzeba było pokonać wiele trudności, których nie widać przy bardziej standardowych zastosowaniach [np. R nie potrafi wygenerować w formacie wektorowym kwadratu o boku mniejszym niż pół punktu tzn. 1/144 cala, nie można też wygenerować dowolnie dużego rysunku, a przynajmniej 100GB RAM to za mało, sama mapa to połowa sukcesu, bufor drukarki może być niewystarczający by taką mapę wydrukować itp], ale się udało.

Przy okazji dziękuję też firmie Iqor Polska za udostępnienie plotera drukującego na 42 calowej rolce, dzięki temu udało się wydrukować mapę na połączonych arkuszach o łącznej powierzchni ponad 6 metrów kwadratowych, powiesić na ścianie i zrobić zdjęcie młodej wskazującej kropkę przedstawiającą babcię.

Nieszablonowa mapa Polski

Paweł Wiechucki

Czytaj dalej Ponieważ możemy! czyli o mapie na której widać 38 511 800 Polaków

Którędy wracać do domu?

Coraz więcej serwisów z mapami pozwala na odczytanie informacji o natężeniu ruchu samochodowego, oraz używa jej do oceny szacowanego czasu przejazdu z punktu A do punktu B w godzinie C. Zobaczmy jaki użytek można zrobić z takiej informacji.

Ostatnio z powodu awarii roweru zostałem zmuszony do przerzucenia się na samochód. Niestety, jazda samochodem po mieście kojarzy się z korkami. Na szczęście, mam dużą swobodę wyboru godziny rozpoczęcia i zakończenia pracy o ile w danym dniu nie mam zajęć dydaktycznych. Więc pojawiło się naturalne pytanie o jakiej godzinie rozpocząć powrót do domu, by uniknąć korków.

Google maps przedstawia szacowane czasy przejazdu dla trzech alternatywnych tras. Zobaczmy jak te szacunki czasu jazdy zmieniają się w zależności od godziny wyjazdu i wybranej trasu przejazdu. Wersja Google maps biznes pozwala na automatyzację takich zapytań, ale odrobina cierpliwości pozwala na ręczne zebranie wystarczającej liczby danych by przygotować poniższy wykres.

Poniżej zaznaczono czasy przejazdu trzema alternatywnymi trasami [różne kolory], z zaznaczonymi przedziałami ufności dla średniej [przedziały ufności dla czasu przejazdu są szersze].
Co ciekawe okazuje się, że krótsza trasa [Górczewską] jest najszybsza gdy wyjeżdża się z pracy pomiędzy 17 a 19, przed 17 lepiej wybrać dłuższą trasę wzdłuż Łopuszańskiej.

Po zebraniu danych, skrypt R do wygenerowania wykresu znajduje się poniżej.

[technicznie wyniki dla połączeń z mojej pracy są nudne, jest jedna sensowna trasa, pozostałe są zawsze wolniejsze, więc powyżej przedstawione są połączenia na trochę ciekawszej trasie Mokotów – Bemowo]

EDU-akcja już w tą niedzielę

Czy warto zderzać naukowców/nauczycieli akademickich z nauczycielami ze szkół średnich?
Tak! Ci pierwsi żyją na co dzień tym co się dzieje dziś w nauce. Ci drudzy mają olbrzymi doświadczenie dydaktyczne [mówimy tu wyłącznie o dobrych naukowcach i nauczycielach].

A czy warto zderzać nauczycieli/naukowców z różnych dziedzin? Historyków z genetykami czy statystykami?
Tak! Rodzą się z tego ciekawe pomysły.

Miejscem gdzie do takich zderzeń dochodzi jest np. EDU-akcja. Inicjatywa w której nauczyciele [głównie historii i WOS] spotykają się z naukowcami i rozmawiają o interesujących projektach.
Takich jak np. wieloaspektowe uczenie w szkole średniej. Wyobraźmy sobie analizę kopalnego DNA w celu badania wędrówek ludów. Taki projekt może być przedstawiany na różnych przedmiotach w szkole równolegle. Na historii przedstawiona będzie perspektywa historyka, na biolgii perspektywa genetyka badającego DNA, na matematyce perspektywa statystyka badającego istotność różnych sygnałów. Te pozornie odległe światy różnych przedmiotów polączone będą przez jeden projekt, prawdziwy, współczesny, zajmujący. Pozwoli to też na zrozumienie skali złożoności aktualnie prowadzonych badań bez [czasem sztucznego] podziału na dyscypliny.
Brzmi jak utopia? Nie, to przyszłość edukacji ;-)

Najbliższa EDUakcja ma miejsce w Warszawie 19 maja, start o godzinie 9.
Jeśli ktoś chciałby wziąć udział to należy się skontaktować z Moniką Koblak, email: monikakoblak na serwerze gmail.com.

Miałem przyjemność być na kwietniowym spotkaniu, bardzo interesującym. Szczególnie spodobał mi się pomysł na prezentowanie złożonych projektów warstwa po warstwie na różnych przedmiotach. Co pokazuje przy okazji jak bardzo różne aspekty tego samego problemu mogą zajmować/pasjonować różne osoby. I jak bardzo w pracy nad złożonymi projektami jest ważna interdyscyplinarna współpraca.

Relacje z poprzednich spotkań i kilka zdjęć można znaleźć tutaj:
http://obywatelenauki.pl/2013/03/edu-akcja-obywatele-nauki-dla-nauczycieli-i-wykladowcow/, http://obywatelenauki.pl/2013/04/edu-akcja-kolejna-odslona/.

Orange

Jakiś czas temu Mateusz Kula napisał mi o bibliotece Orange [http://orange.biolab.si/open-source/], narzędzie do ,visual programming’ na licencji GPL. Nie jestem fanem programowania wizualnego [R rulez], ale warto wiedzieć co w trawie piszczy. Graficzny edytor przepływu przetwarzania dostępny w Orange robi zresztą pozytywne wrażenie.

Mateusz napisał dłuższe wprowadzenie na temat Orange, wklejone poniżej. Można na jego podstawie zorientować się o co chodzi z tą pomarańczą.
Miłego czytania.

Mateusz Kula

Czytaj dalej Orange

Wybrane pakiety do analizy finansowych szeregów czasowych w R

Jakiś czas temu pisałem o zestawie dokumentów przygotowanych przez Krzyśka Trajkowskiego. Zastanawiałem się później, w jaki sposób na dostępność materiałów wpływa format np. pdf czy html. Można się zastanawiać, można sprawdzić. Gdy Krzysiek przygotował kolejny dokument skonwertowałem go do html’a i … dodałem do listy gościnnych wpisów.
Konwersja została wykonana z użyciem konwertera pandoc i była ‘prawie’ bezbolesna, tzn te same źródła, które były użyte do kompilacji do pdf’a, po drobnych zmianach posłużyły do kompilacji do html’a. Jedna z niewielu zmian to zastąpienie środowiska lstlisting tagiem <pre lang=”rsplus”>

Tak więc, dziś będzie gościnny wpis Krzysztofa Trajkowskiego, dotyczący wybranych narzędzi dostępnych w R pozwalających na analizę pewnych szeregów czasowych w finansach.
Zapraszamy!

Wersja pdf znajduje się tutaj, wersja HTML poniżej.

Czytaj dalej Wybrane pakiety do analizy finansowych szeregów czasowych w R