Zrób to sam – PISA 2009 DIY, czyli łatwe w użyciu narzędzie do eksploracji danych

Dzisiaj na blogu pierwszy gościnny wpis. Pierwszy, ponieważ mam nadzieję, że ciekawych gościnnych wpisów z czasem będzie więcej. Autorem tego jest Tomasz Owczarek. Przedstawi on wrażenia z organizowanego przez fundację projektu wakacyjnego związanego z analizą danych PISA 2009. A również, a może przede wszystkim, przedstawi narzędzie, które wykonał, a które pozwala na eksplorację przez niespecjalistę danych z badania PISA. Świetne narzędzie, które można użyć do zaspokojenia własnej ciekawości, ale również można je wykorzystać do zainteresowania innych analizą danych, np na wprowadzających zajęciach z analizy danych. Tak proste w użyciu że można użyć nawet w gimnazjum, tak ciekawe, że nadaje się do pokazywania studentom na uczelniach wyższych.


Kliknij by otworzyć narzędzie.

Zostałem poproszony przez Przemysława Biecka o napisanie dwóch gościnnych wpisów na blogu. To dla mnie duży zaszczyt, ale i spora odpowiedzialność. Liczę na wyrozumiałość stałych czytelników 🙂

Wpisy te poświęcone będą narzędziu – wizualizacji, które jest jednym z efektów wakacyjnego projektu Fundacji SmarterPoland.pl. W dzisiejszym postaram się przedstawić ogólny opis przygotowanej wizualizacji oraz zachęcić do zabawy, interakcji i dzielenia się swoim uwagami. W następnym – zgodnie z założeniami bloga, nieco bardziej technicznym – pokażę, w jaki sposób dokonywać w niej prostych modyfikacji.

Przygotowana wizualizacja opiera się na danych z badania PISA 2009, których analiza stanowiła cel wspomnianego projektu. Zanim jednak przejdę do opisu samego narzędzia, chciałbym podzielić się kilkoma wrażeniami z „pola walki” (skoro to notka na blogu, to niech będzie choć trochę osobista 😉 ).

Praca nad tak olbrzymim zbiorem danych, przynajmniej z punktu widzenia osoby bez wcześniejszych wprawek w tego typu operacjach, była niezwykle ciekawym doświadczeniem. Początkowy etap najkrócej określiłbym chyba jako „rozwiązywanie problemów”. Poczynając od tych najbardziej trywialnych (jak otworzyć ważący 900MB plik tekstowy?), poprzez trudniejsze i wymagające więcej czasu i wysiłku (tysiące wywołań skrótu CTRL+F w dokumentacji, niech będzie błogosławiony jego pomysłodawca, i mozolne poznawanie znaczenia poszczególnych cyferek w tym ważącym 900MB pliku, który szczęśliwie udało się otworzyć), aż po końcowy wybór narzędzia do analizy i odpowiedni sposób przygotowania danych (okazuje się, że arkusz kalkulacyjny nie jest dobry do wszystkiego). Znajdowanie rozwiązań tego typu problemów dawało całkiem sporą satysfakcję, choć stanowiło też pewne wyzwanie. Jak się okazało, wcale nie największe.
(W tym miejscu chciałbym podkreślić, że wobec olbrzymiej skali i stopnia skomplikowania tego przedsięwzięcia, organizatorom PISA należą się brawa za sposób dokumentacji wyników. Wprawdzie w miarę ich analizy dawało się zauważyć pewne mankamenty, ale generalnie można było to zrobić dużo, dużo gorzej.)



Życie piętnastoletnich Irlandczyków ukryte w liczbach (kliknij aby powiększyć)

Problem był teraz następujący: dysponując wartościami kilkuset zmiennych opisującymi wybrane aspekty życia tysięcy piętnastolatków z całego świata oraz narzędziem, za pomocą którego jesteś w stanie przekształcić te wartości w praktycznie dowolny wykres, znajdź coś „ciekawego” i zaprezentuj w przystępny sposób. Jak to zrobić? 🙂

Jak widać, to już problem innej kategorii. Nie jesteśmy oczywiście zupełnie sami na placu boju, możemy korzystać z wielu cennych porad, wskazówek i inspiracji. Nie ma co liczyć jednak na jakiś jedyny słuszny sposób postępowania. Pozostaje żmudne testowanie różnych wariantów, przy wykorzystaniu kombinacji wiedzy, intuicji i doświadczenia. I niejednokrotnie szczęścia. Czytelnicy bloga mieli już okazję zobaczyć we wcześniejszych wpisach najciekawsze „znaleziska” wydobyte z danych PISA 2009. Możecie być pewni, że niemal za każdym opublikowanym wykresem stało z dziesięć innych, nie tak dobrych albo po prostu niedopracowanych, porzuconych w połowie jako mało obiecujące. Negatywna selekcja nie może zagwarantować, ze znalezione rozwiązanie będzie najlepsze. Czasami uwzględnienie jednej dodatkowej zmiennej całkowicie zmienia wymowę prezentowanych danych. Brak pewności – czy to, co właśnie zrobiliśmy, można jeszcze poprawić – bywa czasami frustrujący. Ale dzięki tej właśnie niepewności praca ta jest chyba szczególnie fascynująca. Nie bez powodu powiadają przecież, że nie o złapanie króliczka chodzi … 🙂

Powyższe odnosi się również do prezentowanej wizualizacji. Nie wszystko jest w niej idealne i pewnie niektóre elementy dałoby się jakoś ,,podrasować”. Dlatego chciałbym gorąco zachęcić do dzielenia się uwagami i pomysłami jej ulepszeń. Najgorsze wrażenie robi chyba lewy dolny wykres, wszystkie dobre pomysły na jego zastąpienie na pewno będą rozważone.

Wizualizacja została przygotowana w Tableau Public (narzędzie to było już przedstawiane na blogu w tym wpisie, więcej na jego temat następnym razem). Pierwszy wykres (w lewym górnym rogu) przedstawia średni wynik z testu kompetencji piętnastolatków w kilkunastu krajach europejskich. Przedmiot testu (czytanie i interpretacja, matematyka, nauki przyrodnicze) można wybierać za pomocą znajdującej się na górze rozwijanej listy. Dodatkowo istnieje możliwość przeskalowania wyników względem wybranego kraju (pole wyboru obok mapki) – dzięki temu można przykładowo szybko sprawdzić, w których krajach przeciętny wynik z matematyki był niższy niż w Polsce.
Oś pionowa wykresu po prawej stronie również przedstawia średnie wyniki z testu z wybranego przedmiotu dla poszczególnych krajów. Na osi poziomej zaprezentowano natomiast odsetek uczniów zgadzających się z wybraną opinią nt. szkoły lub nauczycieli (opinię można wybierać za pomocą listy w prawym górnym rogu, dla każdej z nich uczniowie mogli zaznaczyć jedną z 4 odpowiedzi: bardzo się nie zgadzam, nie zgadzam się, zgadzam się i bardzo się zgadzam, wartości na osi to frakcja osób, które wybrały trzecią lub czwartą odpowiedź).
Kliknięcie na mapce w wybrany kraj powoduje pojawienie się dodatkowego wykresu przedstawiającego te same dane, ale na poziomie poszczególnych szkół w danym państwie. Przytrzymując CTRL można zaznaczyć kilka krajów jednocześnie.

Jeżeli film się nie otwiera, kliknij tutaj.

Wybór kraju na mapce stanowi również ograniczenie danych na dwóch dolnych wykresach. Ten z lewej przedstawia rozkład liczebności uczniów ze względu na czas przeznaczony na jedną z następujących czynności: czytanie, gry komputerowe oraz wykorzystywanie komputera do komunikacji (czynności te określono jako ,,Zainteresowania”; ze względu na różne odpowiedzi, które mogli wybrać uczniowie, opis tego, co oznaczają poszczególne wartości, zamieszczono w wizualizacji). Rozkład ten przedstawiono w podziale na płeć oraz opinię o szkole. Klikając na minus znajdujący się w lewym górnym rogu wykresu można ,,zwinąć” wykres, aby sprawdzić, jak przedstawia się zainteresowanie wśród dziewczynek i chłopców, bez względu na opinię.
Klikając w którąś z wartości liczbowych odpowiadających wartości zainteresowania modyfikujemy wykres znajdujący się w prawej dolnej części wizualizacji – przedstawia on procentowy rozkład odpowiedzi uczniów dla określonej opinii.


Jeżeli film się nie otwiera, kliknij tutaj.

Przy tworzeniu wizualizacji na pierwszym miejscu stawiany był aspekt edukacyjny. Aby coś z niej odczytać nie trzeba ogarniać od razu wszystkich wykresów naraz. Mam nadzieję, że ta możliwość analizy na różnym poziomie szczegółowości zachęci do zabawy osoby mniej wprawione w korzystaniu z tego typu narzędzi. Jednocześnie spora liczba opcji ma sprawić, że zabawa ta szybko się nie znudzi.
Na początek, dla wprawy, polecam znalezienie odpowiedzi na przykładowe pytania zamieszczone na marginesie wizualizacji. A później pozostaje już tylko eksplorowanie danych i dzielenie się swoimi ciekawymi znaleziskami w komentarzach 🙂

7 thoughts on “Zrób to sam – PISA 2009 DIY, czyli łatwe w użyciu narzędzie do eksploracji danych”

  1. Bardzo mi się podoba to narzędzie! Według mnie wydaje się rewelacyjne do nauki i rozwijania ciekawości danych. Żałuję, że na informatyce u mnie w szkole nie mieliśmy okazji skorzystać z podobnych pomocy. Super! 🙂

  2. Super! świetna praca!
    Co do lewego dolnego wykresu – może dałoby radę przedstawić rozkłady zainteresowania dla poszczególnych opinii tak, żeby odsetki sumowały się do 100% w kolumnach? Wydaje mi się, że tak łatwiej byłoby wyszukiwać związków pomiędzy opinią a zainteresowaniem (np. w poszukiwanu odpowiedzi na pytanie nr 4). A ogólny rozkład opinii w podziale na płeć i tak jest na prawym dolnym wykresie.

    1. Dzięki za sugestię! W czwartek będzie opis jak samodzielnie zmieniać to narzędzie, więc edycja tego wykresu może być częścią zadania 4!

    1. O Tableau będzie jeszcze trochę w czwartek. Wersja darmowa ma pewne ograniczenia dotyczące źródeł danych ale można z niej korzystać dłużej niż przez miesiąc (tzn aktualnie nie ma ograniczeń na czas używania).

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *