Dziś kontynuujemy temat ,,informacja jest piękna”.
Joshua Katz używając R i biblioteki Shiny przedstawił graficznie zróżnicowanie dialektów w Stanach Zjednoczonych.
Przykładowo mapa poniżej pokazuje obszary, w których na określenie gazowanego, słodzonego napoju używa się częściej słowa ‘soda’ (czerwony) ‘pop’ (niebieski) lub ‘coke’ (zielony) [pytanie 105].

Po raz kolejny gościmy na blogu wpis Krzyśka Trajkowskiego [wielkie dzięki za wsparcie!!!]. Tym razem napisze on o teście Cressie-Read oraz przedstawi przykłady wywołania tego testu z pakietu CressieReadTest dla programu R. Warto zaznaczyć, że Krzysiek jest autorem tego pakietu.
Pakiet CressieReadTest można pobrać z tej strony.
Poniżej przedstawiony jest opis testu w formie strony html. Można też ten opis pobrać jako plik pdf z tej strony.
Statystyka Cressie-Read jest uogólnieniem kilku innych statystyk, popularnie wykorzystywanych w badaniu tablic kontyngencji dla dwóch zmiennych ilościowych. Warto więc się z nią zaznajomić.
Krzysztof Trajkowski
Zespół wizualizacji Twittera posiada fantastyczne dane do wizualizacji, więc robi tę wizualizację w fantastyczny sposób.
Na tej stronie przeczytacie o tym jak powstała poniższa mapa tweetów.
Informacja jest piękna, czyż nie?

Program R aspiruje do miana lidera zarówno jeżeli chodzi o statystyczną analizę danych jak i wizualizację danych.
Ale nie tylko R, podobne ambicje ma SAS [który zresztą przez długi czas był liderem jeżeli chodzi o analizy statystyczne], Stata, SPSS, Statistica, toolboxy Pythona, Matlaba, Mathematica, Gretla, Weki, Orange, Java, Julia, biblioteka D3 i dziesiątek innych większych i mniejszych pakietów czy bibliotek.
Które z tych narzędzi jest prawdziwym liderem?
Za miesiąc, 10 lipca, w Hiszpanii będzie miała miejsce kolejna coroczna konferencja użytkowników R o nazwie useR!
W tym roku podczas konferencji organizowane są dwa konkursy, na najlepszą wizualizację danych i najtrafniejsze analizy danych wykonane z użyciem programu R.
Co będzie wynikiem tego konkursu? Otóż zobaczymy czy pasjonaci R stworzą wizualizacje i analizy danych, które rzucą użytkowników innych pakietów na kolana.
Więcej o regułach konkursu przeczytać można tutaj lub tutaj.
Analizy i wizualizacja powinny dotyczyć jednego lub dwóch zbiorów danych przygotowanych przez organizatorów. Jeden dotyczy trzech sezonów formuły 1. Drugi zbiór danych dotyczy pięciu sezonów ligi piłki nożnej w Hiszpanii.

Kilka dni temu Alek J. podesłał mi ciekawy projekt wykonany przez MIT media lab (link do media labu, tak, MIT, jedna z najlepszych na świecie uczelni technicznych, ma media lab pracujący nad technikami wizualizacji danych. Co więcej to w MIT powstał pierwszy media lab).
Projekt nazywa się ,,The Observatory of Economic Complexity”, pozwala na przedstawienie wymiany produktów pomiędzy państwami, przedstawienie w bardzo prosty i interesujący sposób.

Ten portal pozwala na zobaczenie jak wygląda struktura importu, eksportu rozmaitych krajów w różnych latach.
Świetnie przygotowana praca magisterska [!!!] udostępniona na wolnej licencji.
W poprzednie wakacje Fundacja prowadziła projekt dotyczący eksploracji danych z badania PISA (Program Międzynarodowej Oceny Umiejętności Uczniów) prowadzonego przez OECD (Organizacja Współpracy Gospodarczej i Rozwoju). Do projektu zgłosiło się kilku wolontariuszy i w wyniku prowadzonych prac powstało kilka ciekawych grafik i projektów [np. tutaj Tomasz Owczarek pisze jak użyć Tableau do eksploracji tych danych, a tutaj pokazujemy jak wykształcenie rodziców koreluje z wynikami dzieci].
Temat porwał mnie na tyle, by wykorzystywać te dane na zajęciach z modeli liniowych i mieszanych. Praca na ciekawych i dużych danych była bardzo stymulująca dla studentów, w wyniku czego wykonali sporo interesujących analiz [oczywiście o nich pisaliśmy, np. tutaj].
Z tych wszystkich działań jednak pozostało we mnie wrażenie, że nie rozumiemy zbyt dobrze złożoności danych z badania PISA. Potrafimy tworzyć rankingi krajów w oparciu o pewne współczynniki, potrafimy przedstawiać zależności pomiędzy parami, trójkami, czwórkami zmiennych, ale nie ogarniamy całości. Raporty n.t. danych PISA mają po kilkaset stron z których zrozumieć można na raz może kilka. Tych informacji jest zbyt dużo a historia w nich ukryta jest niezbyt jasna.
OECD ma program grantowy Thomasa Alexandra, którego celem jest zbieranie naukowców z różnych dziedzin by testować różne techniki eksploracji danych PISA. Mile widziani są ludzie ,,spoza dziedziny”, i jak się okazało jest to na tyle szeroka definicja że obejmuje nawet takich biostatystyków medycznych jak ja. W ramach tego programu, wraz z grupką studentów, chcących nauczyć się R i eksploracji danych w R, będziemy szukać interesujących historii w danych PISA. A przede wszystkim będziemy szukać sposobu by te historie przedstawić graficznie, w zrozumiały sposób.
Dane z badania PISA 2012 będą udostępnione w poniedziałek 3 czerwca. Na początku będziemy szukać historii związanych z różnicami w wynikach pomiędzy płciami i jakie czynniki wpływają na to że te różnicę są w jednych szkołach/miastach/krajach duże a w innych małe. Kolejnym tematem będzie zagadnienie segregacji uczniów w szkołach w zależności od statusu majątkowego lub kulturowego rodziców czy też wyników dzieci.
Masa interesujących pytań.
Postaram się publikować wyniki na blogu na bieżąco, być może w niedopracowanej/otwartej formie. Zapraszam też do zadawania pytań, kwestionowania wyników, sugerowania alternatywnych rozwiązań.
Może razem uda nam się na jakiś ciekawe zależności natrafić.
Fascynującą cechą badania PISA jest zakres. Co trzy lata badanych jest 500 tysięcy 15latków z kilkudziesięciu krajów. Dzięki temu z tych danych można wyciągać mniej przypadkowe wnioski niż ,,Zagraniczni uczeni na próbie 20 osób odkryli, że jedzenie marchewki wieczorem ułatwia czytanie tekstu ze zrozumieniem”.
Ale czy uda się nam znaleźć interesujące historie w danych PISA 2012?
Już niebawem zobaczymy!
Zbliża się sesja, okres wytężonej pracy dla nauczycieli akademickich [ech te wszystkie egzaminy], dziś więc coś na wesoło.
Kilka dni temu na stronach Polityki opublikowano ,,Naukowy ranking uczelni POLITYKI” [ranking i artykuł tutaj]. Pierwsze dwa zdania tego artykułu wyglądają bardzo zachęcająco.
Wśród rankingów polskich uczelni oceniających różne aspekty ich działalności brakowało rankingu porównującego wszystkie polskie uczelnie akademickie pod względem jakości uprawianej w nich nauki. Oto taka próba.
Jeżeli w tym miejscu czytając o ,,rankingu jakości uprawianej nauki” już spodziewasz się, że będą porównywane indeksy Hirscha dla uczelni, to wiedz że masz racje. Choć powinno Cię to zaniepokoić.
Co ciekawego można znaleźć w tym rankingu?
Jest przepaść pomiędzy pierwszymi dwoma uczelniami a resztą [odpowiednio: UW: 187, UJ: 153 trzecia PW: 115]. Czyli w przypadku UW liczyły się tyko publikacje o 187 cytowaniach i tych publikacji zebrało się 187 od końca drugiej wojny światowej. Dla pozostałych uczelni nie wiadomo ile tak poczytnych publikacji napisano, wiadomo że mniej poczytnych jest jeszcze mniej. Ta przepaść natychmiast rodzi naturalne pytanie: które prace wykonane w okresie ostatnich 55 lat przez tysiące naukowców na Uniwersytecie Warszawskim były tymi najczęściej cytowanymi? Czy te najbardziej poczytne publikacje pochodzą z jakiejś określonej dziedziny [może bio-info-tech a może medycyna], czy określonego okresu czasu [czy starsze uczelnie mają przewagę, czy też te poczytne publikacje to raczej ostatnie dekady], ilu uczonych z UW wyprodukowało te 187 prac.
To ciekawe pytania, odpowiedzi na nie pomogłyby zrozumieć jakie wyniki wyprodukowane przez naukowców afiliowanych w Polsce są dostrzegane na świecie.
Mam nadzieję, że naukowcy z UZ [to oni opracowali ten ranking i wykonali dużo pracy przy czyszczeniu i uzgadnianiu danych] w przyszłości odpowiedzą na to pytanie. Lub udostępnią zebrane dane, by każdy mógł sobie w nich pogrzebać.
Można na jego bazie tego rankingu zbudować nowy współczynnik dla naukowców.
Nazwijmy go roboczo CWSP [cyniczny współczynnik SmarterPoland], określający ile polskich uczelni akademickich ma niższy lub równy indeks H niż dany naukowiec.
A ponieważ jedna z polskich uczelni akademickich ma indeks H równy zero, każdy polski naukowiec będzie miał indeks CWSP przynajmniej równy 1.
Indeks H ma tą wspaniałą zaletę, że można go policzyć dla każdego zbioru publikacji.
Możemy więc policzyć i porównać indeks H dla kobiet vs. mężczyzn, albo wysokich vs. niskich, praworęcznych vs. leworęcznych, albo naukowców z okularami i tymi bez [czy nauka będzie szła, gdy na nosie noszę szkła?].
Disclaimer: Autor nosi okulary i pracuje na UW, pisząc o swoim pracodawcy może być więc stronniczy
Co jakiś czas dostaję od czytelników interesujące sugestie dotyczące raportów / wizualizacji / tematów. Bardzo mnie one cieszą. Mam nadzieję, że kiedyś blog fundacji będzie prowadzony przez więcej osób, a to podsyłanie materiałów jest krokiem w tym kierunku.
Dziś będzie o wykresie z raportu ,,Huszlew Strategia Rozwiązywania Problemów Społecznych”, na który uwagę zwróciła mi Natalia J.
Czy chcielibyście zobaczyć mapę Polski, na której zaznaczony jest każdy Polak? Wizualizację ponad 38 milionów osób rozrzuconych mniej lub bardziej losowo na obszarze ponad 300 tysięcy km^2? Jeżeli w tej chwili w waszych głowach zapala się pytanie ‘po co?’, nie czytajcie dalej. Jeżeli zaś już widzicie taką mapę oczami wyobraźni, poniższy wpis bardzo Wam się spodoba.
Celem tego projektu było pokazanie w interesujący sposób informacji z Narodowego Spisu Powszechnego 2011. Jedną z inspiracji była interaktywna mapa przedstawiająca spis powszechny w Stanach Zjednoczonych o której przeczytać można tutaj. W ramach dzisiaj opisywanego projektu opracowano mapę Polski składającą się z ponad 38 milionów punktów, każdy punkt odpowiadający jednej osobie, rozmieszczenie punktów odpowiadające rzeczywistej gęstości zaludnienia.

Ten wpis jak i cały projekt został wykonany przez Pawła Wiechuckiego w ramach wolontariatu dla naszej fundacji.
Kiedyś podczas jakiejś prezentacji usłyszałem, że organizacje non-profit to ciekawe miejsca, ponieważ przyciągają osoby, które za darmo tworzą rzeczy bezcenne, dlatego że chcą by te rzeczy powstały. Projekt Pawła Wiechuckiego jest świetnym przykładem takiej aktywności. Nie było łatwo, trzeba było pokonać wiele trudności, których nie widać przy bardziej standardowych zastosowaniach [np. R nie potrafi wygenerować w formacie wektorowym kwadratu o boku mniejszym niż pół punktu tzn. 1/144 cala, nie można też wygenerować dowolnie dużego rysunku, a przynajmniej 100GB RAM to za mało, sama mapa to połowa sukcesu, bufor drukarki może być niewystarczający by taką mapę wydrukować itp], ale się udało.
Przy okazji dziękuję też firmie Iqor Polska za udostępnienie plotera drukującego na 42 calowej rolce, dzięki temu udało się wydrukować mapę na połączonych arkuszach o łącznej powierzchni ponad 6 metrów kwadratowych, powiesić na ścianie i zrobić zdjęcie młodej wskazującej kropkę przedstawiającą babcię.
Najnowsze komentarze