Infografiki z lotniska w Zurychu

Większość dni z poprzedniego tygodnia spędziłem w Zurychu. Moja pierwsza wizyta w Szwajcarii, a już ten kraj awansował do pierwszej trójki miejsc do których chcę kiedyś wrócić (obok Kioto i Lanzarote). Duże wrażenie zrobiła na mnie rzemieślnicza sumienność i obywatelska odpowiedzialność bijąca z każdej strony.

Świadomość wpływu na otoczenie i odpowiedzialność za ten wpływ musi być powiązana z byciem poinformowanym. A bycie poinformowanym z infografikami. Nie zdziwiło mnie więc gdy wyjeżdżając, na lotnisku, znalazłem interesujące infografiki. Kilka z nich przedstawię poniżej.

Czytaj dalej Infografiki z lotniska w Zurychu

Polska Internetowa, czyli raport Boston Consulting Group

Mniej więcej miesiąc temu @wikton podesłał informację o raporcie Boston Consulting Group ,,Polska Internetowa’’ (raport dostępny jest tutaj). Temat bardzo interesujący i  jak tylko znalazłem trochę czasu z chęcią ten raport przeczytałem. Wspomniany już @wikton pytał o opinię o tym raporcie więc temat na wpis gotowy.

Podtytuł raportu brzmi ,,Jak internet dokonuje transformacji polskiej gospodarki’’ co tylko zaostrza apetyt. Szczególnie po obejrzeniu kilku TEDtalków pokazujących jak Internet zmienia system edukacji na całym świecie oczekiwania były duże (np. prezentacje takich osób jak Sugata Mitra, Ken Robinson, Salman Khan).

Pierwszy rozdział ,,Spojrzenie na polski internet’’ jednak sprowadził mnie na ziemie. Zaczęło się od stwierdzenia, że pełno u nas ekspertów komputerowych a poziom informatyki akademickiej jest uznany na świecie. Jako uzasadnienie podano trzecie miejsce w konkursie TopCoder (pierwsze dwa miejsca zajmują Rosja i Chiny, wzory do naśladowania?). Trzecie miejsce jest miłym faktem, ale sukcesy nielicznej (w skali kraju) grupy bardzo zdolnych młodych ludzi, którzy zdobywają swoje 10000 godzin doświadczenia ZANIM trafią na studia trudno utożsamiać z wysokim poziomem poziomem informatyki akademickiej w skali państwa. Poziom informatyki jaki odczuwa większość obywateli to mizerna informatyzacja służby zdrowia (awantura o recepty i ubezpieczenia), mizerna informatyzacja ZUS, mizerna informatyzacja urzędów, znikomy dostęp do publicznie dostępnych danych o funkcjonowaniu państwa. W raporcie jednak więcej uwagi poświęcono naszej klasie, facebookowi, gadu-gadu, allegro, onet.pl i podobnym serwisom, generującym jak widać znaczną część PKB. Wydaje mi się, że opis informatyzacji państwa to ciekawszy temat do poruszenia na wstępie raporcie o nazwie ,,Polska Internetowa’’ niż konkurs TopCoder. Swoją drogą gratulacje dla tych, którzy są top coderami lub wygrywają medale na mistrzostwach w programowaniu, powinno się z nich robić ikony dla młodzieży.

Wróćmy do raportu, można w nim znaleźć wiele dziwnych statystyk, np. w rozdziale ,,Polak – aktywny internauta’’ znajdziemy informację, że ,,…internauci spędzają w sieci 14,5 godziny czasu tygodniowo, a więc o pół godziny więcej niż przed telewizorem’’.  Jak i po co ta średnia była liczona nie wiadomo, co świadczy o aktywności też nie wiadomo. Ok, nie ma sensu czepiać się szczegółów. Wybrałem cztery rzeczy, które w tym raporcie mi się spodobały i cztery które uważam, że można zrobić lepiej. O reszcie nie piszę by nie zanudzić czytelnika.

Co mi się podobało.

1.            Na stronie 22 jest przedstawiony w ciekawy sposób przykład Korei Południowej, która postawiła na rozwój gospodarki opartej na wiedzy i dziś jest wzorem do naśladowania jeżeli chodzi o dynamikę rozwoju. To bardzo ciekawy przypadek.

2.            Na stronie 16 na wykresie 5 przedstawione jest ile można zaoszczędzić na różnych grupach produktów kupując je w Internecie. Na kosmetykach i AGD można zaoszczędzić do 20%, na książkach najmniej około 2%.

3.            W załączniku na stronach 40-42 jest przedstawiona metodologia. Tak powinno być w każdym raporcie, część z wnioskami i ciekawymi wynikami a później precyzyjny opis użytych metod i danych. Inna sprawa, że metodologia w tym raporcie to tylko 3 strony, aż prosi sie o precyzyjniejsze i szczegółowe opis. Ale i tak dobrze, że jest ten rozdział.

4.            Ilościowa ocena PKB generowanego przez Internet. Jest kilka słabych punktów, np. stwierdzenie, że różnymi metodologiami mierzono wartość rożnych segmentów gospodarki, nie jest jasne co jest wliczane w gospodarkę internetową, czy e-edukacja też, czy rynek gier i w jaki sposób, ale przynajmniej jest jakiś punkt odniesienia z ilościowym szacunkiem tempa wzrostu.

Co można zrobić lepiej?

Skupiam się na sposobie prezentacji wyników ponieważ to słaby punkt raportu. Haseł i liczb jest sporo, trudno jednak nabrać zaufania do prezentowanych wniosków z uwagi na sporo niedomówień.

1.            Wykresy można lepiej przygotować. W poniższym wykresie do przedstawienia wartości zakupów w kategorii wykorzystano powierzchnię koła, czyli coś co trudno porównać. Przykładowo, proszę odgadnąć czy na poniższym wykresie większa jest wartość zakupów w kategorii media i książki, czy w kategorii elektronika? Drugie pytanie to o ile procent wartość zakupów w kategorii odzież i dodatki jest mniejsza od kategorii dom i ogród? Odpowiedzi na koniec wpisu.

 

2.            Poniższy wykres też ma kilka wad (różne skale na osiach OY, z jakiegoś powodu nie wszystkie państwa występują na wszystkich wykresach, np. Belgia, z samego wykresu nie wynika co jest na osiach OY). Ale zamiast je wyliczać zastąpimy je zagadką. W tekście raportu jest komentarz do tego wykresu, z którego wynika że na wykresie znajduje sie odpowiedź na pytanie: na którym miejscu wśród krajów unii europejskich jest Polska w kategorii przedsiębiorstwa korzystające z systemów ERP?

 

3.            Poniższy wykres nie został przygotowany by umożliwić odczytanie wartości indeksów dla poszczególnych państw (ale jeżeli wykres nie jest po to by odczytywać z niego wartości to po co jest?). Więc kolejne pytanie konkursowe brzmi: jaką wartość indeksu ,,aktywność w sieci’’ ma Dania i o ile % mniejsza jest aktywność w sieci Polski?

 

4.            Rzecz, której mi bardzo zabrakło w tym raporcie to definicja e Intensity Index (TM). Ta miara [znak towarowy firmy BCG] jest wielokrotnie wykorzystywana i jej zrozumienie jest bardzo istotne z punktu wielu wniosków przedstawionych w raporcie. W wielu miejscach w raporcie są próby wyjaśnienia prostymi słowami co mierzy ten indeks, ale jest to bardzo ogólna informacja o trzech wyskalowanych składowych, które są jakoś łączone i dalej skalowane. Nie bardzo wiadomo po co cały indeks jest skalowany, ale przez to skalowanie nie można nadać interpretacji wartościom tego wskaźnika. Nie można też porównywać wskaźników policzonych dla różnych grup (np. państwa vs. województwa), ponieważ będą one miały różny punkt odniesienia. Ponieważ w wielu miejscach raportu pojawia się ten wskaźnik to aż się prosi by został on opisany wzorem w metodologii. Zresztą w metodologii jest on opisywany na ponad półtorej strony, gdzie wiele mówi się o jego wrażliwości na wagi i o tym że bazuje on an wielu innych wskaźnikach, ale brak konkretów. Jeden wzór jest wart tysiąc poetyckich słów.

 

Swoją drogą chętnie zobaczyłbym raport o nazwie Polska Internetowa, z którego dowiedziałbym się co w Polsce można załatwić przez Internet a czego nie (zamówić lekarza, zamówić pizzę, wypełnić PIT, założyć firmę, załatwić sprawę w sądzie, zapisać się na studia). I jak to jest na zachodzie. I jakie są perspektywy dla Polski. Może znacie taki raport?

 

Odpowiedzi na pytania

Ad 1. Pole okręgu media i książki jest o mniej więcej 5% mniejsze, choć szanse na zauważenie tego są na tym wykresie 50/50. Pole okręgu odzież i dodatki to 45% pola okręgu dom i ogród.

Ad 2. Z wykresy wynika, że na 20 miejscu, ale w tekście raportu jest podane miejsce 26 więc trudno powiedzieć.

Ad 3. Dla Danii wypada wartość 131, dla Polski wartość o 45% niższa.

Po co używać wykresów kołowych, czyli raporty znanej fundacji a ,,lie factor”

Zacznę od tego, że FNP stara się czytelnie prezentować wyniki swoich konkursów. Z ostatniego konkursu START dla przejrzystości upubliczniono wnioski laureatów, a więc jest tutaj duża przejrzystość. NCN mógłby się dużo nauczyć (sposób ich publikacji wyników pierwszego konkursu pozostawia wiele pytań). Pisząc kolokwialnie, FNP robi świetną robotę (tzn. ludzie pracujący w tej fundacji).
Niemniej FNP też zdarzają się wpadki.

Na tej stronie przedstawiono raport z rekrutacji różnych programów prowadzonych przez Fundację.

Z jakiegoś powodu uznano, że trójwymiarowe wykresy kołowe nadadzą się do czegokolwiek. Tymczasem dwie pierwsze reguły wizualizacji danych to: nie uzywaj pseudo-trójwymiarowych wykresów jeżeli nie trzeba i nie uzywaj wykresów kołowych. Nie jest tylko jasne która z tych reguł jest pierwsza a która drugą. Pseudo-trzeci wymiar na wykresach oszukuje percepcję i nie pozwala na poprawną ocenę długości/szerokości itp. Wykresy kołowe sa niedobre ponieważ nie potrafimy dobrze porównywać kątów.

Zobaczmy przykładowy wykres prezentowany ww raporcie na stronie 2.

Co jest dziwnego w tym wykresie? Są dwa kawałki, które opisują po 5% i dwa opisujące po 11%, ale coś jest z nimi nie tak. Zmierzmy długości odpowiednich cięciw.

Długości tych cięciw w pixelach to odpowiednio 116, 211, 126, 46 pixeli.

Edward Tufte zdefiniował kiedyś współczynnik ,,lie-factor”, który liczony jest jako iloraz efektu widocznego na wykresie do efektu w danych.

Stosunek długości cięciw A:D to 116/46 = 2.6 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Stosunek długości cięciw B:C to 211/126 = 1.7 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Czy trzeba więcej argumentów przeciwko wykresom kołowym 3D?

W ogóle ilość danych przedstawionych w powyższym raporcie do jego objętości jest dosyć mizerna. Całą stronę 2 mozna by przedstawić za pomocą jednego wykresu na którym jest więcej informacji. Kod do wygenerowania tego wykresu znajduje się tutaj. A wykres poniżej (trochę lepiej wygląda dla innych progrmów gdzie było więcej lauretów)

Krytykując wykresy 3D spójrzmy jeszcze na poniższy z tego samego raportu. Pierwszy słupek ma wysokość 15% ale jest znacznie poniżej linii siatki oznaczającej 15%. Pewnie da się to jakoś wytłumaczyć, ale i tak dosyć dziwnie to wygląda.