Wybory w Niemczech, sondaże i ,,obciążenie” ośrodków badania opinii

Kilka dni temu Michał B. przesłał mi link to bardzo ciekawego wpisu ,,Analyzing bias in opinion polls with R”.

Gregor Aisch analizując wyniki sondaży w Niemczech na świetnie przygotowanych ilustracjach przedstawia takie zjawiska jak: nagłe zmiany poparcia po (wygranych/przegranych) wyborach. Systematyczne ,,obciążenie” niektórych ośrodków badania opinii w stosunku do niektórych partii.

Co z tymi sześciolatkami?

W dyskusji n.t. edukacji sześciolatków jest dużo emocji, jeszcze więcej walki politycznej a niewiele badań opartych o dane. O ile sam wiek rozpoczęcia edukacji wydaje się być sprawą drugorzędną (we Francji edukację rozpoczynają czterolatki, w Korei ośmiolatki, w różnych krajach jest różnie), bardzo ważne jest przygotowanie szkół i nauczycieli do klas w którym jest większa rozpiętość wiekowa dzieci.

Pod koniec lipca trafił do mnie ten artykuł z Rzeczpospolitej. Wynikało z niego, że MEN poprosił CBOS o przeprowadzenie badania, na bazie którego można coś o sześciolatkach i siedmiolatkach powiedzieć. Są więc dane! Z artykułu wnikało, że wyniki z tych danych przedstawione zostały przez MEN wybiórczo, zniekształcając ogólny obraz (we wskazanym artykule ujęto to dosadniej). Mając jednak dostęp do danych można to sprawdzić!

Niestety pomimo dwukrotnej prośby nie udało mi się tych danych od MEN uzyskać a moją prośbę zignorowano. Tutaj moja wielka prośba do Was. Możecie pomóc mi uzyskać dostęp do tych danych klikając na poniższy link.
Kliknij tutaj, by wysłać maila z prośbą o udostępnienie danych.

Udało mi się jedynie dotrzeć do opracowania Instytutu Badań Edukacyjnych (link tutaj), w których są pewne (niestety nieliczne) podsumowania oryginalnych danych. Są miedzy innymi cztery tabele, które poniżej przedstawiam w postaci graficznej.

Dane są zbierane w skali Likerta. To znaczy, że rodzice dzieci, które poszły do pierwszej klasy szkoły podstawowej (zarówno w wieku sześć lat jak i siedem lat) mogli odpowiedzieć w skali 'Zdecydowanie Tak’, 'Tak’, 'Trudno powiedzieć’, 'Nie’, 'Zdecydowanie Nie’ na różne pytania. Poniżej graficzne przedstawienie odpowiedzi na te pytania.

Na pytanie 'Czy publiczna szkoła podstawowa położona najbliżej Pana(i) miejsca zamieszkania jest odpowiednio przygotowana do tego, by rozpoczynały w niej naukę dzieci sześcioletnie?’ zdecydowanie częściej 'Tak’ mówią rodzice, którzy posłali tam dzieci (prawdopodobnie posłali, bo uważali, że jest przygotowana).

Na stwierdzenie 'Moje dziecko początkowo chętnie uczestniczyło w zajęciach szkolnych, ale potem straciło entuzjazm’ większość rodziców odpowiada 'Nie’, ale tych co odpowiadają 'Tak’ jest zdecydowanie więcej wśród rodziców sześciolatków (wyniki testów są we wskazanym wcześniej raporcie).

Na stwierdzenie 'Moje dziecko na ogół nudzi się na lekcjach’, częściej 'Tak’ odpowiadają rodzice siedmiolatków.

Na stwierdzenie 'Moje dziecko bardzo chętnie uczestniczy w zajęciach szkolnych’ obie grupy najczęściej odpowiadają 'Tak’.

Z danych oryginalnych odczytać można pewnie znacznie więcej. Raz jeszcze proszę o pomoc w uzyskanie tych danych od MEN klikając na poniższy link i wysyłając maila z prośbą o udostępnienie danych.
Kliknij tutaj, by wysłać maila z prośbą o udostępnienie danych.

Wrażenia z książki ,,Data points”, Nathan Yau, część trzecia

Dzisiejszy wpis poświęcony będzie ostatniemu rozdziałowi książki Nathana Yau ,,Data Points”, czyli rekomendacjom dotyczącym narzędzi do wizualizacji.

Nathan Yau podzielił narzędzia do wizualizacji danych na cztery grupy [wymieniam tylko wybrane narzędzia, pełna lista w w.w. książce]:

1. Ogólnego rażenia, można używać bez znajomości programowania i projektowania
Excel,
Google Spreadsheets,
Tableau (pisaliśmy o tym na naszym blogu tutaj),
Many Eyes (pisaliśmy o tym na naszym blogu tutaj).

2. Specjalistyczne narzędzia do wybranych typów danych
Gephi (do wizualizacji sieci, grafów i podobnych struktur),
Image Plot (do wizualizacji zbiorów zdjęć (też dużych zbiorów zdjęć),
TreeMap (narzędzie do przedstawiania danych za pomocą prostokątów),
TileMill narzędzie do pracy z mapami.

3. Wymagające znajomości programowania
R (głównie pakiet ggplot2 i pochodne),
Javascript (biblioteki D3, InfoVis Toolkit),
Processing (bardzo ciekawy język opisu animowanych wizualizacji ,,kompilowany” do java lub java script, świetna rzecz!),
Python.

4. Programy graficzne
Używane do ,,poprawiania” grafiki uzyskanej z użyciem powyższych narzędzi.
Adobe Ilustrator,
Inkscape (darmowy potężny program do grafiki wektorowej, choć do Ilustratora mu daleko).

Zachęcony tymi rekomendacjami zacząłem używać Ilustratora (jak na razie 30 dniowy trial, znacznie lepiej radzi sobie z pdf’ami niż Inkscape, co nie dziwi biorąc pod uwagę, że pdf to wymysł Adobe).
Jestem też po tygodniu nauki Processing. Pierwsze wrażenia są takie, że jest to fantastyczne narzędzie do animacji i tworzenia prostych gier (czy też interaktywnych wykresów).

Aktualnie najwygodniejszy schemat pracy: ołówek i gumka do szkieletu, R do pierwszych przymiarek, D3/Processing do elementów wymagających interakcji. Kod w Processing można kompilować do apletów Java lub Java Script. Pracowałem ostatnio nad interaktywnym wykresem na którym było 50 tys obiektów, niestety Java Script w takim wypadku jest wolny wiec możliwość kompilacji do apletu Java jest świetna.

Czy i jak architektura może pomóc w edukacji?

Pracując w różnych miejscach i miastach miałem okazję prowadzić zajęcia w różnych nowo wybudowanych budynkach. Niektóre ładnie wykończone ale bardzo utrudniające prowadzenie zajęć. Typowe przykłady to szerokie korytarze ale małe sale. Dziwnie ustawione kolumny utrudniające obserwacje tablicy z pewnych ławek. Marna akustyka lub ,,tekturowe” ściany, tak, że studenci mają wybór czy chcą słuchać mnie czy prowadzącego z sąsiedniej sali.

Piszę o tym, ponieważ kilka dni temu poznałem osoby pracujące nad szalenie ciekawym projektem: badaniem czy i jak architektura wpływa na uczenie się.

Pomijając oczywiste względy, jest to też dla statystyka problem szalenie interesujący metodologicznie. Co można mierzyć w architekturze i co ma sens mierzyć jeżeli chodzi o efekty uczenia? Przecież nie ma sensu szukać (ko)relacji pomiędzy ceną budynku a średnią wyników, lub pomiędzy liczbą czy powierzchnią okien. Lub porównywać analizą wariancji wyniki szkół o różnej liczbie pięter.

Więc co mierzyć by dało się z tego badania wyciągać sensowne propozycje i rekomendacje dla architektów?

Grupa o której piszę jeszcze nie wie, jak będzie wiedzieć i mi powie to pewnie o tym napiszę. Na razie mają na ścianach wydrukowane setki zdjęć różnych szkół wyższych i niższych, przedszkoli i innych przestrzeni w których dochodzi do ,,uczenia się” [w Meksyku kościoły w których wystawia się telewizory by dzieci mogły przez Internet porozmawiać z nauczycielem, w niektórych krajach afrykańskich polany z ławkami]. Architekci i statystycy patrzą na te zdjęcia i dumają.

Część z tych zdjęć można znaleźć w raporcie ,,Designing for Education” OECD (skrót tutaj).

Poniżej zdjęcia moim zdaniem najciekawszego projektu zrealizowanego w Japonii (zresztą wygrał on jakiś konkurs).

Przedszkole dla ponad 600 dzieci. Budynek w kształcie owalnym z placem zabaw w środku szkoły oraz drugim placem zabaw na dachu. Dzieci po dachu mogą oczywiście biegać w kółko (proste a genialne do zabawy w berka). Przez świetliki z dachu mogą podglądać co się dzieje w środku. W szkołę są wrośnięte drzewa, przebijają one dach budynku i można po nich się wspinać (oczywiście).

Jak dokładnie mierzyć wpływ tego budynku na edukacje dzieci nie jest jasne. Ale ponoć dzieci bardzo chętnie do tego przedszkola chodzą (w co łatwo uwierzyć).

Btw: jeden z pomysłów to ,,śledzenie” zachowania dzieci przez ,,przyczepiania” im małych odbiorników np. GPS. Dzięki temu można badać gdzie dzieci spędzają czas, czy dużo się ruszają, gdzie się dużo ruszają itp.

Poparcie dla ,,wielkiej piątki” w ostatnich dwóch latach

Zebrałem wyniki z około 160 sondaży poparcia partii przeprowadzonych w ostatnich dwóch latach (sondaży prowadzonych przez Homo Homini, TNS Polska, CBOS i SMG KRC).
Następnie uśredniłem wyniki z różnych źródeł i naniosłem wyniki dla pięciu największych partii na jeden wykres.

Wynik powyżej.
To co się rzuca w oczy to ujemna korelacja poparcia dla PIS i PO, która sugeruje to te dwie partie walczą o dużą część wspólną ich wspólnego elektoratu (nie jest to zaskoczeniem, ale ładnie to widać na wykresie).

Btw: wiem, że rozróżnienie ciemnoniebieskiej PO i jasnoniebieskiego PIS nie jest najłatwiejsze. Ale i loga tych partii i strony internetowe są krojone pod ,,profesjonalny” błękit. Trudno, muszą się podzielić kolorem niebieskim też na wykresie.

Disclaimer: Nie jestem entuzjastą żadnej z powyższych partii.

Wyniki poparcia mierzone przez różne źródła różnią się. W szczególności duże różnice dotyczą poparcia dla PO (TNS Polska i Homo Homini) czy PiS (CBOS i Homo Homini).
Więcej o szczegółowych wynikach sondaży można znaleźć w zakładce sondaże.

Recenzja książki ,,Data points”, Nathan Yau, część druga

Początkowo planowałem komentować po rozdziale/dwóch z książki Nathana Yau ,,Data Points”. Jednak po przeczytaniu całości stwierdziłem, że nie miało by to sensu. W książce nie znajdziemy zbyt wielu propozycji reguł czy zasad jak tworzyć grafiki. Większość rozdziałów to bardzo rozbudowane zbiory przykładów wokół pewnego tematu. Przykładom towarzyszy próba syntezy, ale jakaś taka niezdecydowana. Autor książki preferuje drogę własnych eksperymentów, oglądania wizualizacji innych autorów i ćwiczenia zmysłu ,,wyczuwania” jak wizualizacja będzie stosowniejsza w danej sytuacji.

W całej książce bardzo przemawiająca dla mnie była analogia nauki wizualizacji danych do nauki gotowania. Można zaczynać od zupy z torebki, później można wiernie odtwarzać przepisy z książki kucharskiej by doskonaląc umiejętności kucharskie coraz więcej improwizować. Oddaje to też dobrze sposób w jakim Nathan Yau myśli o tworzeniu wizualizacji i w jaki opisuje ten proces w swojej książce.

O ile na próbę syntezy można narzekać, to wybór przykładów trzeba docenić. Nathan Yau zebrał naprawdę ciekawą i różnorodną kolekcję wykresów, wizualizacji czasem ocierającej się o grafikę artystyczną.

Dla mnie najbardziej ,,odkrywcze” były następujące przykłady:

Prawdziwa wielkość Afryki / True size of Africa

Bardzo ciekawa grafika ,,zmieniająca światopogląd”. Typowe odwzorowanie kartograficzne, z użyciem którego pokazywana jest mapa świata, zniekształca pola. Oczywiście są różne odwzorowania, ale te częściej oglądane powiększają pola bliżej biegunów a pomniejszają te bliżej równika. Najbardziej traci na tym Afryka, ponieważ mapy powodują, że wydaje nam się że Afryka jest mniejsza w stosunku do innych kontynentów niż w rzeczywistości jest.

Link do źródła.

Jak wybrać krój pisma / So you need a typeface?

Wizualizacja przedstawiająca drzewo decyzji przy wyborze kroju pisma. Bardzo ciekawa forma i treść

Link do źródła.

Mapa snu / Sleep schedule

Wizualizacja przedstawiająca zapotrzebowanie na sen w różnym wieku. Jak przyznaje autor dane zupełnie zmyślone, ale prawdopodobne.

Link do źródła.

Odcisk niewidocznego interface / Remnants of a Disappearing UI

Wizualizacja wykonana na podstawie pomiarów z badań ale nieprzetworzonych komputerowo. Przykład, że surowe dane mogą być piękne same w sobie.

Link do źródła.

Historia filmu / History of film

Mapa popularnych filmów z podziałem na dziedziny. Świetnie wykonana i z ciekawą treścią.

Link do źródła.

Historia zmian w Wikipedii na słodko

Mapa pokazująca jak zmieniał się wpis na Wikipedii dotyczący czekolady. Można prześledzić jak dodawano i usuwano fragmenty tekstu w czasie.

Link do źródła.

Schematy organizacyjne / Organizational charts

Bazujące na stereotypach (przez to zabawne) przedstawienie schematów organizacyjnych w różnych firmach.

Link do źródła.

Ilustrowany przewodnik po kawach / Coffe drinks

Schematy przedstawiające skład rodzajów kawy.

Link do źródła.

Kto bierze korepetycje z matmy? – jak to zrobić w R?

W poprzednim wpisie pokazywaliśmy, którzy z uczniów w Polsce mają częściej zajęcia dodatkowe z matematyki.

A dziś pokażemy jak taki obrazek zrobić samodzielnie! Wystarczy przekopiować kilka linii kodu do R i mamy wykres dla Polski lub innego, wybranego kraju.

Zrobimy to w czterech krokach.

Czytaj dalej Kto bierze korepetycje z matmy? – jak to zrobić w R?

Kto bierze korepetycje z matmy?

Dziś sprawdzimy, kto bierze dodatkowe godziny korepetycji z matmy. Czy uczniowie, którzy są słabi, czy ci, którzy są dobrzy. Rynek korepetycji w Polsce ponoć szybko się rozwija, więc i temat na czasie.

W dzisiejszym wpisie będzie mowa o trzech państwach: Polska (około 40% uczniów deklaruje, że ma pozalekcyjne dodatkowe zajęcia z matematyki), Szwajcaria (około 22% uczniów ma zajęcia dodatkowe, w Europie mniej ma tylko Finlandia), Korea (razem z Japonią przodują w rankingach zajęć dodatkowych, około 75% uczniów deklaruje, że takie zajęcia ma)

Aby odpowiedzieć na to pytanie użyjemy zbioru danych PISA 2009. Mamy w nim informację (dla ponad 5 tysięcy uczniów z Polski) o tym czy biorą pozalekcyjne zajęcia z matematyki, jakie ci uczniowie mają ma wyniki z matematyki oraz jakie są średnie wyniki z matematyki w ich szkołach.

Zanim zobaczymy jak jest, musimy przyzwyczaić się do pewnego układu współrzędnych. Na jednej osi chcemy zobaczyć jak dobry jest student (jego wynik z testu z matematyki) a na drugiej jak jest dobry w porównaniu do innych uczniów w jego szkole (względne poczucie jak jest dobry). Może być przecież tak, że dobry uczeń trafia do bardzo dobrej szkoły i jest w ogonie klasy, a może być odwrotnie, można być najlepszym uczniem w klasie ale być poniżej średniej w kraju.

Na poniższym wykresie każda z 5000 kropek to jeden uczeń.

Na osi poziomej jest przedstawiony wynik ucznia z matematyki. Im bardziej na prawo tym uczeń lepszy, na lewo gorszy w skali kraju.

Na osi pionowej jest przedstawiony wynik ucznia minus średnia szkoły. Im wyżej tym uczeń jest lepszy na tle swojej szkoły, im niżej jest gorszy na tle swojej szkoły.

Oswoiliśmy się z tym wykresem? To idziemy dalej.
Zaznaczmy teraz którzy z tych uczniów biorą zajęcia dodatkowe.

Czytaj dalej Kto bierze korepetycje z matmy?