Olimpiada, Twitter a geolokalizacja*

Dzisiaj przedstawię wizualizację danych dotyczących letnich igrzysk olimpijskich w Londynie pobranych publicznie dostępnym API Twittera. Jest to trzecia wizualizacja prezentowana na tym blogu, która powstała na bazie Twittera i dotyczy sportu. Poprzednie dwie były o Premier League i Euro 2012. Podobnie jak poprzednie, również ta została wykonana w oddziale Netezza IBM Polska i jest ze szczegółami opisana na blogu petascale analytics.

Ta wizualizacja jest wyjątkowa z uwagi na charakterystykę użytych danych. Zbierane wiadomości zawierały informację o lokalizacji/położeniu geograficznym. Wiadomości z informacją o lokalizacji jest jedynie kilka procent, ale wystarczą one do wykonania interesujących grafik. Połączenie informacji o użytkowniku, treści wiadomości, czasie wysłania wiadomości i położenia daje wiele interesujące możliwości. Jeżeli macie pomysły co nowego, ciekawego można zrobić z informacją o położeniu geograficznym – śmiało podzielcie się pomysłami w komentarzach.

Ok, więc czas na pięć historii zbudowanych wokół pięciu wizualizacji.

Na początek zobaczmy gdzie znajdują się osoby piszące wiadomości na Twitterze. Informacja o lokalizacji jest tak dokładna, że prawie można rozróżnić w którym rzędzie na stadionie siedział wysyłający wiadomość. Na poniższej mapie łatwo zlokalizować stadion olimpijski, hale koszykówki i basen na którym przeprowadzane były zawody pływackie. Z okolic tych miejsc pochodziło najwięcej komentarzy.

Dodajmy do informacji o położeniu informację o nastawieniu osoby piszącej wiadomość. Zobaczmy teraz na mapie Londynu gdzie pisano dobrze a gdzie pisano źle o organizacji igrzysk. Okolice stadionu olimpijskiego i hal w których odbywały się zawody w podnoszeniu ciężarów zielenią się od pozytywnych opinii, za to w London City dominują negatywne komentarze.

Osoby piszące dużo wiadomości udostępniają tyle informacji o sobie, że można odtworzyć gdzie przebywały podczas dnia. Ups, problem z prywatnością? Może warto sprawdzić ile z informacji o nas udostępniamy już nie tylko wielkim korporacjom, ale wręcz każdemu internaucie?

Zobaczmy teraz gdzie i ile mówi się o różnych dyscyplinach olimpijskich. Poniżej prezentowanych jest sześć ciekawszych przykładów. O piłce nożnej mówiło się dużo i wszędzie (choć najwięcej na Wembley), zawody zapaśnicze czy taekwondo były rzadziej komentowane i raczej tylko przez osoby śledzące zawody w halach sportowych.

A na koniec, zobaczmy o kim mówiono najwięcej podczas igrzysk olimpijskich? Okazuje się, że po raz kolejny Usain Bolt wyprzedził pozostałych sportowców. Nie jest to dużym zaskoczeniem, a czy w poniższej liście top 200 jest jakieś zaskakujące nazwisko?

 

 

PS: Oczywiście wszystkie wizualizacje wykonano w R.

* słowo geolokalizacja jest niedopuszczalne w grach, ale na tyle się upowszechniło, że pozostawiam je bez dalszego spolszczenia.

Czy wiecie w jakim kraju Facebook jest najpopularniejszy?

Po kilku trudniejszych wpisach poświęconych badaniom PISA czas na coś lżejszego (akurat piątek) i zabawniejszego. Coś w sam raz nadesłał mi kilka dni temu Bartosz Hołówko.

Czy wiecie jaki kraj ma największy odsetek użytkowników Facebooka?

Zgodnie z tym artykułem Monako.

Aż 124,31% (38 tys użytkowników na 30.5 tys mieszkańców)!

Zobaczcie zresztą sami na poniższym wykresie.

Osoba przygotowująca tę grafikę musi mieć stalowe nerwy.

Swoją drogą pomysł użycia pól okręgów do przedstawienia liczby użytkowników daje wiele możliwości konkursowych, np. spróbujcie bez patrzenia na liczby ocenić gdzie jest więcej użytkowników w UK czy Meksyku? A może we Francji lub w Niemczech? Czy uwierzycie, że pole koła ,,niemieckiego” jest o ponad 30% mniejsze niż ,,meksykańskie”?.

No i do tego pomysł by kolorem niebieskim zaznaczyć państwa dla których są dane a białym dla których danych nie ma. Bardzo informatywne.

Taki hat-trick na piątek.

Zamożność czy wykształcenie, czyli o efekcie rodzica w wynikach klasówek z matematyki

Kilka dni temu w tym wpisie pisałem o efekcie szkoły (a dokładniej ,,lokalizacji” i ,,prywatności szkoły”), który obserwuje się w wynikach testu matematycznego z badania PISA. Temat bardzo ciekawy, a wyniki to kamyczek do dyskusji n.t. różnic w poziomie szkół w Polsce.
Dziś będzie jeszcze ciekawej, zobaczymy jakie ,,charakterystyki” rodzica korelują z wynikami testu matematycznego.

Podobnie jak poprzednio, opieramy się tutaj na danych z badania PISA 2009. W ramach tego badania mierzono poziom umiejętności 15-latków w rozwiązywaniu zadań matematycznych. Zbierano również ankiety od rodziców egzaminowanych uczniów. Wśród pytań zadanych rodzicom było pytanie o wykształcenie, dochody rodziny i ,,aktywności edukacyjne” takie jak czytanie dzieciom książek, śpiewanie piosenek itp. Zobaczmy które z odpowiedzi korelują z wynikami testu matematycznego. Prezentowane poniżej wyniki zostały zainspirowane wynikami Tomasza Owczarka opracowanymi w Tableau (link do tych oryginalnych wyników poniżej).

Zacznijmy od ilustracji sytuacji w Polsce. Poniższy wykres przedstawia średnie i przedziały ufności dla średnich (95%) w grupach gimnazjalistów w zależności od wykształcenia bardziej wykształconego rodzica i od dochodu rodziny. W danych wykształcenie rodziców opisane jest w skali ISCED (3A, 4, 5B, 5A i 6), na wykresie przedstawiłem ich polskie odpowiedniki. Przychód rodziny jest określony na podstawie ankiety, do wyboru był jeden z 6 przedziałów. W każdym państwie przedziały dochodu były standaryzowane medianą dochodów na rodzinę w danym kraju.



Zgodnie z przypuszczeniami im bardziej wykształceni rodzice tym dzieci lepiej sobie radzą z matematyką (prawdopodobnie efekt obserwowanych w domu wzorców). Również im zamożniejsi rodzice tym dzieci sobie lepiej radzą z matematyką (prawdopodobnie efekt lepszej/uzupełnianej edukacji). Dzieci wykształconych i zamożnych rodziców mają średnio najlepsze wyniki.

Jak myślicie, która z tych dwóch cech jest istotniejsza? Okazuje się, że efekt wyedukowanych rodziców jest większy.

Widzieliśmy na poprzednim wpisie, że istotnymi efektami był też efekt szkoły. Używając modelu regresji można uwzględnić dodatkowo efekt szkoły i porównać wyniki ,,wewnątrz-szkole” uczniów różniących się zamożnością/wykształceniem rodziców ale uczęszczających do tych samych szkół. Okazuje się, że oba efekty, i zamożności i wykształcenia, pozostają. Czyli nawet po unormowaniu wyników w ramach szkoły, dzieci zamożniejszych lub lepiej wykształconych rodziców radzą sobie średnie lepiej z matematyką. Kod w programie R użyty do tych analiz znajduje się tutaj.

Efekt czytania książek dzieciom.

W ankiecie pytano też rodziców czy czytali książki dzieciom, czy śpiewali piosenki lub opowiadali historie. Niestety ta część wyników nie jest dostępna dla Polski, pozostaje nam tylko zmierzyć efekt tych aktywności na danych z innych państw. Najistotniejszym z efektów okazuje się czytanie książek dzieciom. Obserwuje się znacznie lepsze wyniki z matematyki u dzieci, którym czytano książki (największy u dzieci, którym czytano bajki codziennie lub prawie codziennie). Zakończmy więc apelem do rodziców ,,Czy jesteś zamożny czy biedny, czy jesteś profesorem czy nie dostałeś się do szkoły średniej, czytaj dzieciom książki”.

Polska a inne kraje.

A jak ta sytuacja wygląda w innych państwach? Okazuje się że bardzo podobnie, ale najlepiej będzie to sprawdzić samodzielnie bawiąc się interaktywnymi wykresami Tableau dostępnymi tutaj (strona z komentarzem Tomka jest tutaj).

Alternatywny ranking państw pod kątem liczby zdobytych medali.

Dziennik The New York Times opracował interesującą infografikę przedstawiającą liczbę zdobytych medali przez różne państwa na olimpiadzie w Londynie.

Wizualizacja o tyle ciekawa, że ranking państw można różnie ustawiać, w zależności od różnic w traktowaniu medali złotych i brązowych. Zamiast więc pokazywać obok siebie kilka różnych rankingów pokazano graf opisujący częściowy porządek pomiędzy państwami.

Wizualizację można zobaczyć pod tym linkiem. Ciekaw opcją jest ,,adjust for population”. Jakby jednak tych wyników nie korygować pozycja naszego kraju nie będzie najwyższa. Jako kraj lepiej wypadamy w olimpiadach matematycznych i informatycznych.

Poziom umiejętności matematycznych w szkołach prywatnych a państwowych, w miastach małych i dużych

Jakiś czas temu pisałem (tutaj) o tym jak w prosty sposób wczytać do programu R dane z badania PISA przeprowadzonego w roku 2009. Pisałem również, że w te wakacje kilku wolontariuszy pomaga Fundacji w analizie tych danych. Czasem zdarzają się ciekawe obserwacje i o jednej z nich będzie dzisiaj.
Autorem przedstawionych poniżej wyników/wizualizacji jest Tomasz Owczarek.

Egzaminy w ramach badania PISA przeprowadzano w szkołach tak prywatnych jak i publicznych, tak z dużych jak i z małych miast. Mając to na uwadze można postawić takie pytanie: jak wygląda zróżnicowanie wyników uczniów w zależności od tego czy szkoła jest prywatna czy nie, czy jest w dużym mieście czy małym? Jak się zaraz okaże w przypadku polskich szkół różnice w średnich wynikach z testu matematycznego są duże, szkoły w większych miastach mają uczniów z lepszymi wynikami, szkoły prywatne mają średnio lepsze wyniki niż publiczne (chodzi o szkoły dla 15latków). Nie oznacza to, że poziom nauczania jest lepszy (to mierzyłaby edukacyjna wartość dodana), ale że w szkole są średnio lepsi uczniowie (a to może być efektem wielu czynników).

Temat ciekawy, ponieważ jeżeli różnica w wynikach bierze się stąd, że w dużych miastach i szkołach prywatnych edukacja jest na wyższym poziomie, to być może da się tych dobrych nauczycieli ,,udostępnić online” w ramach inicjatyw typu Khan Academy. Ale być może różnica w wynikach bierze się wyłącznie z tendencji ,,lepsi przyszli, lepsi wyszli”?

Na pytanie skąd biorą się różnice w wynikach postaramy się odpowiedzieć później (sami jeszcze nie wiemy, pracujemy nad tym). A poniżej kilka obserwacji przedstawiających różnice w wynikach dla różnych szkół.

Poniższe wykresy są zrzutami ekranu z interaktywnej wizualizacji wykonanej z użyciem programu Tableau (dostępnej tutaj).

Rysunek 1. Wyniki dla wybranych polskich szkół, na niebiesko wyniki dla szkół publicznych, na pomarańczowo dla szkół prywatnych. Im większe miasto tym lesze wyniki, systematycznie w szkołach prywatnych wyniki są średnio wyższe.

Rysunek 2. Dodajmy kilka innych krajów do porównania. Okazuje się że tylko w USA i Chile (korekta, było Chinach) ,,efekt szkoły prywatnej” (mówimy o szkołach dla 15latków) jest podobnej wielkości. Co ciekawe dla większości krajów nie widać zależności pomiędzy wynikami a wielkością miasta w którym jest szkoła (a więc Polska jest tu wyjątkiem).

Zachęcam do ,,pobawienia” się interaktywną mapą dostępną (dostępnej tutaj) i do dzielenia się obserwacjami.

Widać różnice…

Mały ,,off-topic” na początek. Dawno, dawno temu, gdy po raz pierwszy prowadziłem laboratorium dla studentów studiów inżynierskich, zgodnie z wolą wykładowcy zaliczenie otrzymywało się na podstawie wykonanego projektu, który oddawało się w formie sprawozdania. Wykonanie dobrego sprawozdanie było czasochłonne, mniej więcej 20 godzin pracy, ale dawało studentowi sporo satysfakcji. Zdarzały się sprawozdania bardzo dobre, ale najbardziej utkwiło mi w pamięci najkrótsze sprawozdanie jakie kiedykolwiek widziałem. Pewien osobnik wysłał spakowany zbiór plików graficznych opatrując je jednozdaniowym, krótkim komentarzem w mailu ,,widać różnice” (lub ,,widać rużnice”, wydaje mi się, że były w tym sprawozdaniu/zdaniu błędy językowe, ale nie dam za to głowy). Wraca do mnie to wspomnienie za każdym razem gdy widzę wykresy w sprawozdaniach bez komentarza lub z bardzo skąpym komentarzem.

Jednak artykuły w gazetach to nie sprawozdania z wykonania projektu. Nadmierna zwięzłość, będąca wadą sprawozdania, może być zaletą artykułu.

Oglądałem ostatnio dwie dosyć interesujące infografiki (podesłane przez Andrzeja D.). Jedna w interesujący sposób pokazuje historię zadłużenia Grecji (link), druga lepiej wykonana graficznie ale mniej interesująca merytorycznie pokazuje rozwój e-learningu (link). Pierwszą szczególnie polecam Waszej uwadze, zbiór wykresów z jednozdaniowymi komentarzami ale łatwiej przyswajalny i z większą ilością informacji niż niejeden artykuł na temat historii problemów Grecji.

Nawet najlepszą jednak infografikę można zrobić jeszcze lepiej. Poniżej wklejam cztery wycinki z powyższych infografik, każdy kryje jakiś feler, który utrudnia poprawne odczytanie wykresu.

Zadanie na dziś: Znajdź feler na każdym wycinku! (i podziel się swoim znaleziskiem w komentarzach)


 

Inny świat, czyli krótki komentarz dot. systemu granowego FNP i NCN

Dziś krótki osobisty komentarz dotyczący systemu grantowego FNP i NCN. Funkcjonując w pewnym systemie, człowiek czasem podświadomie usprawiedliwia różne dziwne reguły. A gdy zobaczy, że może być inaczej, może być zaskoczony jak bardzo był wcześniej ,,zafiksowany”. Ponieważ przeżyłem coś takiego kilka dni temu, dotyczy to jakoś nauki w Polsce, więc o tym napiszę.

Mniej więcej rok temu zdarzyło mi się przygotować wniosek grantowy do NCN. Przygotowanie wniosku zajęło kilka tygodni mojej pracy, oraz sporo pracy innych osób związanych z projektem. Do tego standardowa ścieżka zdobywania podpisów w kwesturze, dziekana, rektora i grant gotowy, został wysłany pocztą itp. Niestety kilka dni po terminie zakończenia naboru wniosków uświadomiłem sobie ze zgrozą, że nie kliknąłem przycisku ,,wyślij” w systemie internetowym. A aby wniosek został uznany za wysłany musi być wysłany i w postaci papierowej z wszystkimi podpisami i w postaci elektronicznej. Niestety kilka dni ,,po” było już za późno. Napisałem jeszcze odwołanie do dyrektora NCN, które zostało odrzucone z odpowiedzią dającą się skrócić do ,,spróbuj w następnym konkursie”.

Szkoda, ale widać tak ten system musi działać, nie można się zagapiać, NCN stawia jasne i sztywne reguły. Maszyna musi działać sprawnie. Walory naukowe wniosek musi mieć, ale primo wniosek musi być wysłany w terminie, wszystkimi kanałami z wszystkimi podpisami itp. W ,,biznesie” daty są święte, w ,,urzędach” daty są święte, dlaczego inaczej ma być w ,,nauce”?

Wyobraźcie sobie więc moje zaskoczenie gdy ostatnio zobaczyłem, że jednak może być inaczej. Biorę sobie udział w programie grantowym FNP INTER. Złożyłem wniosek na którym wystarczyły tylko trzy podpisy (mój, współpracownika i dziekana), wysłałem wniosek drogą elektroniczną, z uwagi na mój wyjazd zgodzono się bym postać papierową dosłał kilka dni później (!!!). Co więcej, kilka dni temu otrzymałem informacje, że są błędy formalne, zamiast podpisu dziekana powinien być podpis rektora, i mam miesiąc czasu by dostarczyć wniosek z poprawnym podpisem.

Byłem zaszokowany.

Nie odrzucili wniosku tylko dlatego, że był nieprawidłowy podpis kierownika jednostki.

Nie przekreślili oceny merytorycznej wniosku z powodu ,,uchybień formalnych”, które można skorygować.

Jeszcze bardziej zaszokowany byłem gdy uświadomiłem sobie, że w pierwszej kolejności zaszokowało mnie normalne podejście do oceny grantów.

Mały plusik dla FNP.