Tydzień temu dostałem od Bartka W. namiary na ciekawy artykuł o średnich wynikach szóstoklasistów z Bemowa (dzielnica Warszawy) ze sprawdzianu kończącego podstawówkę.
Czy liczenie średnich ma sens, to sprawa dyskusyjna. Czy porównywanie podstawówek ze względu na te średnie ma sens, to też sprawa dyskusyjna. Czy robienie egzaminu dla szóstoklasistów ma sens, to też sprawa dyskusyjna. Ale pomijając mnogość tematów na towarzyskie rozmowy, ciekawa będzie próba wizualizacji tych danych.
Namiary na artykuł otrzymałem w czwartek wieczór, napisałem w imieniu Fundacji maila do przedstawiciela Okręgowej Komisji Egzaminacyjnej i w piątek rano już miałem Excela z danymi dotyczącymi warszawskich podstawówek (niestety nie jestem pewien czy mogę go umieszczać na stronie, więc na razie tego nie zrobiłem). Czyli w tym przypadku czas odpowiedzi przedstawiciela OKE zaskoczył mnie bardzo pozytywnie.
Jakie mamy dane? Dla każdej podstawówki z Warszawy mamy adres szkoły, średni wynik szóstoklasistów z egzaminu w roku 2012 i liczbę uczniów podchodzących do egzaminu. Podzieliłem te średnie na sześć równolicznych przedziałów, które poniżej są kodowane kolorami od czerwonego (niska średnia) do zielonego (wysoka średnia). Wielkość okręgu odpowiada pierwiastkowi z liczby uczniów w danej szkole.
Zobaczmy jak wyniki wyglądają na mapie (wektorowa wersja dostępna jest tutaj).

Mając te dane mogłem też zobaczyć jak średnie w szkołach rozkładają się pomiędzy dzielnicami Warszawy. Poniżej wykresy pudełkowe, prezentujące dla każdej dzielnicy informacje o progach punktowych 25%, 50% i 75% uczniów z danej dzielnicy. Im szersze pudełko tym więcej uczniów w danej dzielnicy.

Co do tego, czy można zamieścić takie dane – Okręgowe Egzaminacyjne już same to publikują (może nie w tak strawnym do przetwarzania formacie, ale jednak). Przykładowo tutaj dane za rok 2011: http://oke.waw.pl/new/download/files/File/raporty/2011/sp/sp_srednie_szkol_bip_wawa.pdf
Nie tylko Warszawa: http://www.oke.jaworzno.pl/images/stories/File/Sprawdzian/wyniki/srednie_Sprawdzian_04_2012.pdf
Oraz zbiorczy raport z całej Polski: http://www.cke.edu.pl/images/stories/0000000000_sprawdzian2012/2012_Sprawdzian.pdf
Pozdrawiam
Tomasz Jach
Dziękuję za te linki, to dokładnie te same dane, tyle że w pdf’ie.
Jako stały kibic Pana bloga oraz pracownik Biura Edukacji urzędu m.st. Warszawy bardzo dziękuję za niezwykle czytelną prezentację!
Jeśli chciałby Pan poświęcić warszawskiej oświacie nieco więcej uwagi, to bardzo interesujące i pouczające byłoby wzbogacenie mapografu szkół podstawowych o warstwę ilustrującą rozmieszczenie adresów zamieszkania dzieci w wieku 6-12 lat oraz granice obwodów poszczególnych szkół. Chętnie pomogę.
Mam wrażenie, że dla wielu odbiorców zastosowany na maapografie kod barwny jest mało czytelny. Czy można poprosić o zaproponowanie wersji czarno-białej oraz o opis definicji przedziałów kodowania? Czy jest możliwe stworzenie „interaktywnej” wersji, z możliwością wyróżnienia szkół o najlepszych lub najgorszych wynikach?
W opisie drugiego wykresu znalazło się stwierdzenie „im szersze pudełko tym więcej uczniów”. To znakomity pomysł na czytelną prezentację. Jednak porównując sąsiadujące na wykresie dzielnice Mokotów i Wilanów mam wrażenie, że szerokości pudełek nie są proporcjonalne do liczby uczniów. Jakie przekształcenie Pan tu zastosował?
Przy okazji: proszę o potwierdzenie lub wyjaśnienie znaczenia punktów widocznych na drugim wykresie: wartość skrajne (najniższy i najwyższy wynik, granica pierwszego i trzeciego kwadryla) wydają się jasne, ale czy „środkowa” kreska jest srednią czy medianą? Liczoną w populacji uczniów czy szkół? A prostokąt oznacza przedział plus minus pół odchylenia standardowego od średniej?
Narzuca się pokusa obejrzenia w podobnym układzie znacznie bogatszych merytroycznie danych: historycznej ewolucji wyników poszczególnych szkół, oczywiście w znormalizowanej skali (jak to czytelnie pokazać?); oddzielenia wyników szkół samorządowych i niepublicznych; rozszerzenia „mapy” na okoliczne gminy aglomeracji warszawskiej, a zwłaszcza porównania wyników z wynikami rekrutacji: jak udział uczniów spoza obwodu wiąże się z wynikami danej szkoły? Mamy tu swego rodzaju sprzężenie zwrotne, ale działające w skali wielu lat.
Oczywiście narzuca się też celowość sporządzenia podobnych infografik dla gimnazjów – warto o tym porozmawiać bezpośrednio, o ile znajdzie Pan na to czas.
Dziękuję za komentarze,
wersja interaktywna pojawi się w najbliższy czwartek. Jeszcze pracuję nad tłem do niej, zobaczę jak będzie wyglądało w odcieniach szarości lub w bardziej stonowanych kolorach.
W przypadku szerokości wykresów pudełkowych szerokość jest proporcjonalna do pierwiastka z liczby uczniów, zobaczę jeszcze czy da się tę liczbę inaczej zaznaczyć.
Środkowa kreska to mediana. Ponieważ nie miałem dostępu do wyników uczniów jest to wartość średniej w szkole, ale aby uwzględnić różną liczbę uczniów jest to średnia w szkole medianowego ucznia. Pozostaje więc interpretacja że połowa uczniów chodzi o szkół o średniej nie wyższej/niższej niż ta mediana.
Prostokąt oznacza kwartyle, czyli połowa uczniów chodzi do szkół w których średnie wyniki są tym prostokącie.
Zarówno temat gimnazjów jak i uwzględnienia danych historycznych jest kuszący i planuję to zrobić, aktualnie największym ograniczeniem jest dostępność do danych pozwalających na łatwe przetwarzanie.
W tej sprawie skontaktuję się już z Panem bezpośrednio.
Pytanie zupełnie techniczne – z jakiego pakietu (serwisu) pochodzi mapa?
O technikaliach miałem napisać jak już pojawi się ,,finalna” wersja,
ta wersja tła jest pobrana za pomocą pakietu ggmap, funkcja get_map(),
jest to mapa opracowana przez firmę Stamen typu watercolor.
Spodobała mi się graficznie, ale z użyciem funkcji get_map() można też pobrać bardziej czytelne wersje mapy też z innych źródeł.
Z technikaliów może jeszcze warto wspomnieć o Google API, które pozwala na prostą zamianę adresu szkoły na współrzędne GPS, bardzo przydatne.
Tylko Google API czasem wskazuje złe współrzędne, konieczne jest podawanie całego adresu (z kodem pocztowym) inaczej bardzo „dziwnie” geokoduje.
Dzięki za komentarz. W przypadku szkół nie zauważyłem problemów, wszystkie współrzędne były w okolicy właściwych dzielnic, ręcznie sprawdziłem poprawność kilku ,,odległych” mapowań i były ok.
Ale spodziewam się, że w ogólności może być trudno zmapować adresy.
Pomysłowe tematy. Robicie kawał nadzwyczajnej roboty. Do zobaczenie. Rozwojowa witryna.