W kompendium wiedzy o Narodowym spisie powszechnym 2011 napisano: ,,Wyniki spisu są bazą informacyjną dla polityki społecznej i ekonomicznej państwa na najbliższe 10 lat. Tylko spis odpowie nam na pytania: ilu nas jest? gdzie mieszkamy? jacy jesteśmy i jak żyjemy?”
Trudno się z tym nie zgodzić. Spis powszechny to duża rzecz i potencjalnie możemy się z niej wiele dowiedzieć. Niestety poniższe przykłady pokazują, że nie wystarczy mieć dane. Trzeba też umieć te dane pokazać w sposób czytelny aby dało sie z nich wyciągać wnioski.
Dziś na blogu pojawi się kilka grafik z raportu ,,Narodowy Spis Powszechny Ludności i Mieszkań 2011. Raport z wyników”, który dostępny jest w tym miejscu.
Zapraszam na kilka wykresów i anegdotkę.
A zacznę od anegdotki.
Widziałem kiedyś nagranie wideo w serwisie YouTube, prezentujące jak wyniki spisu powszechnego w Australii były wyświetlane w nocy na ścianie ratusza w czytelny i interesujący sposób. Fantastyczny pomysł by zainteresować przechodnia tym jak wygląda kraj i ludzie, którzy w nim żyją. Zresztą na YouTube można znaleźć wiele ciekawych filmików o spisie powszechnym w Australii w 2011 roku, np. ten filmik.
Jesteśmy naturalnie ciekawi świata, kto nie chciałby zobaczyć interesującej prezentacji danych z polskiego spisu powszechnego?
A tymczasem w raporcie wyników z polskiego spisu…
Trójwymiarowy wykres słupkowy. Powinni tego zabronić.
W takich sytuacjach ciężko oprzeć się przed skojarzeniami z dowcipem o Stalinie ,,A mógł zabić”. Tak i w tym przypadku autor mógł użyć wykresu kołowego, więc może i nie powinienem się czepiać, że brakuje informacji czy to procenty, że 42 wygląda jak 40 itp.

Ale dziwniejsze jest to, że czytając raport okazuje się, że w raporcie są też porządne ,,uczciwe” wykresy słupkowe. Są też wykresy gdzie słupki są zaokrąglone, są poziome i pionowe i jeszcze kilka innych rodzajów wykresów słupkowych. Zaintrygowany zliczyłem ile jest różnych rodzajów wykresów (czasem różnica polega na sposobie kolorowania spisów 2002 i 2011, autorzy widać nie uważają że w całym raporcie warto jednolicie używać kolorów).
Zgadnijcie ile różnych typów wykresów słupkowych znalazłem?
Szesnaście!
Szesnaście różnych typów wykresów paskowych. Poniżej znajdują się próbki każdego z nich, niektóre bardzo się różnią i trudno uwierzyć, że wszystkie są z jednego raportu.
Zupełnie jakby szesnaście niezależnych źródeł generowało wykresy i skleiło w raport bez dbania o ujednolicenie chociażby grafiki!
Na poniższym wykresie po lewej stronie stopa bezrobocia 29 procent kończy się przed wskaźnikiem zatrudnienia 25 procent (no bo to wykres 3D przecie, bez okularów 3D nie oglądaj). Po prawej stronie słupki 26.9 i 13.4 powinny dwukrotnie różnić się wysokością, może i tak jest ale trudno uznać, że jest to widoczne.
Na osi pionowej autor zdecydował się na etykiety 1, 21, 41, 61, 81, nie wiem dlaczego, ale to i dodanie zera po przecinku dziesiętnym budzi niepotrzebnie wrażenie złożoności. Zresztą i tak nie sposób skorzystać z osi pionowej, niewiele niebieskich słupków jest w stanie dociągnąć do poziomu oznaczonego jako 1% (udaje się koniec końców słupkowi, który ma 26.9%). Po co taka oś?
Prawy wykres jest trochę ściśnięty, przez co nie sposób porównać wysokości słupków z prawego i lewego wykresu.

Wspomniałem, że różnych typów wykresów paskowych jest co niemiara. Są też takie, których jedyną wadą, jest to, że nie sposób odczytać z nich dokładnych wartości. Jaka jest różnica pomiędzy polakami a nie-polakami jeżeli chodzi o strukturę płci (z dokładnością do powiedzmy 1%)?

Magiczne koło.
Są niestety wykresy kołowe. To jeszcze dało by się przeżyć gdyby nie to, że są one trójwymiarowe. Zresztą nawet ten trzeci wymiar jakoś bym przebolał gdybym potrafił odczytać co właściwie dany wykres przedstawia. A tym czasem poniższy jest dla mnie wielką zagadką.
W jaki sposób wybierano przedziały dla roku wybudowania budynku? Kolejne przedziały mają szerokość (w latach) 3, 4, 13, 9, 7, 25, 26. Dlaczego akurat takie przedziały?
Najszerszy wycinek koła przypada na lata 1945-1970, ale czy to dlatego, że jest to szerszy przedział czasowy niż sąsiednie?

[btw: oczywiście wiele z dat na powyższym wykresie to ważne daty z historii Polski i nawet byłoby ciekawe ile mieszkań z różnych okresów przetrwało do dnia dzisiejszego, ale takie dane musiałyby być wcześniej unormowane do częstości ,,na rok”. Bez takiego unormowania z powyższego wykresu trudno coś odczytać].
Hiperdokładność
Poniższy wykres ma tak dokładną oś poziomą, że nie sposób z niej skorzystać. Kto odgadnie w jakiej wartości na osi poziomej ten wykres ma wartość maksymalną? To dosyć trudne.

Podsumujmy
Co tu dużo mówić. Smutna sprawa. Tyle pracy włożone w spis powszechny a na koniec w raporcie dostajemy wykresy, które w niektórych przypadkach posłużyć mogą tylko studentom jako przykład jak nie prezentować danych. Są też interesujące wyniki, ale raport nie pasuje do XXI wieku.
Ja bym powiedział, że fatalne. Do tego również poważne błędy w opisach kategoriach (a patrzę tylko na wykresy, które przywołałeś) – od dobrych dwóch czy nawet trzech lat nie istnieją np. pojęcia tryb „dzienny”, „wieczorowy” czy „zaoczny”. Nie wiem skąd to wzięli…
Jeśli było to przepraszam.
Nadchodzi The International Year of Statistics (Statistics2013) http://www.statistics2013.org/
Było ale na Polskiej Grupie Użytkowników R [googlowej]. Nawet są plany by zrobić z tego powodu spotkanie, zobaczymy co z tego wyjdzie.
Do do wspomnianej strony, bardzo podoba mi się konkurs na video popularyzujące statystykę. Strasznie jestem ciekaw wyników tego konkursu.
Pewnie tak jak w przypadku innych analiz (np. plików xls zawierających wskaźniki makroekonomiczne) raport ze spisu przygotowywało kilka/kilkanaście osób o różnych umiejętnościach graficznych/analitycznych i po prostu to złożyli.
Raczej skleili niż złożyli. W każdym razie powinno się oczekiwać więcej od raportów Głównego Urzędu Statystycznego w prawie 40 milionowym kraju.
Przykład z USA: http://www.census.gov/dataviz/ źródło: http://www.statsblogs.com/2012/12/27/visual-math-gone-wrong/
Im też zdarzają się błędy 🙂
Dzięki za link, ciekawy przykład.
btw, błędy są naturalnym elementem rozwoju i można się z nich wiele nauczyć.
Jedną z większych wad naszego systemu edukacji jest piętnowanie eksperymentowania i błądzenia zamiast podejść do sprawy ,czego się można z tego przypadku nauczyć’.
Racja. Widać to np. w projektach realizowanych na zaliczenie przedmiotów na studiach (zasada – zrób i dostań ocenę i nic więcej).