Raport ,,Obiegi kultury”

Na dziś zaplanowany był przemiły raport o badaniach klinicznych. Ale ponieważ od kilku osób dostałem informację o raporcie ,,Obiegi Kultury” wykonanym przez CentrmCyfrowe.pl z środków Narodowego Centrum Kultury więc stwierdziłem, że badania kliniczne mogą poczekać.

Wspomniany raport ,,Obiegi Kultury” w kilku wersjach i z oryginalnymi danymi znaleźć można pod adresem http://obiegikultury.centrumcyfrowe.pl/. Raport opisuje wyniki z badania, które poświęcone było obiegowi formalnemu i nieformalnemu (czy też legalnemu i nielegalnemu) treści takich jak książki, muzyka i filmy. Słowo ,,formalny” używane jest w słownikowym znaczeniu ,,zgodny z przepisami”, ale wygląda łagodniej niż słowo ,,legalny”. Badanie przeprowadzono w dwóch fazach, pilotażowej i właściwej. W drugiej fazie przebadano 1284 osób opisujących się jako aktywni internauci. W raporcie podejmowana jest próba charakterystyki kim są Ci aktywni internauci i jak mają się oni do całego społeczeństwa. Jednym z najbardziej znanych wniosków z raportu, jest ocena, że Intrenauci co prawda konsumują bardzo wiele treści nieformalnych/nielegalnych ale też konsumują bardzo wiele treści formalnych/legalnych, znacznie więcej niż średnia w społeczeństwie. Przyjrzymy się temu fenomenowi bliżej. A zaczniemy od krótkiej charakterystyki mocnych stron badania i raportu.

Co mi się podobało

  • Bardzo podoba mi się przejrzystość sposobu przeprowadzenia badania. Zarówno daty przeprowadzenia badania, postawione cele, użyte w badaniu formularze oraz surowe wyniki z ankiet są dostępne na wymienionej już stronie www raportu. Jeżeli więc nie zgadzamy się z jakimś wnioskiem możemy sami sprawdzić jak sprawa wygląda.
  • Bardzo podoba mi się streszczenie raportu przygotowane w atrakcyjnej graficznie formie na stronie http://obiegikultury.centrumcyfrowe.pl/mashup/. Sam raport ma 100 stron, jeżeli więc nie mamy czasu na czytanie całej książeczki to możemy poświęcić kwadrans na zapoznanie się ze streszczeniem, które bardzo przyjemnie się czyta/ogląda. Wielkie brawa, wreszcie streszczenie, które zachęca do czytania/oglądania.
  • W raporcie przedstawione są wyniki z badania Internatutów a następnie te wyniki są komentowane, rozszerzane przez badaczy prowadzących badania o zbliżonej tematyce. Np. przez Dominika Batorskiego (m.in. badanie Diagnoza Społeczna), Piotr Toczyski (m.in. World Internet Project), Przemysław Zieliński (m.in. Obserwatorium Żywej Kultury). Czytając ,,Obiegi kultury” co jakiś czas zadawałem sobie pytanie, a jak to wygląda w Diagnozie Społecznej, a jak to wyglądało w raporcie Młodzi 2011. Dodanie komentarzy innych badaczy w dużej części pozwalają na odniesienie się do innych badań.

Były też rzeczy , które mi się nie podobają. Jak np. poniższy rysunek, na którym długości słupków NIE odpowiadają prezentowanym liczbom.

[Rysunek 1. Z jakiegoś powodu długość słupka 14% jest większa w stosunku do długości słupka 81% niż by to wynikało z ilorazu tych dwóch procentów]

 Ale nie chciałbym tutaj krytykować drobiazgów, bo mam ciekawszy temat.

Jak już wspomniałem, jedna z głównych obserwacji dotyczy dużego zaangażowania w kulturę ,,formalną” osób, które intensywnie korzystają z kultury ,,nieformalnie”. A dokładniej to co się obserwuje, to że osoby intensywnie korzystające z Internetu częściej ,,nieformalnie” ściągają książki, muzykę i filmy (to nas nie dziwi) i te osoby też czytają więcej książek niż średnia w społeczeństwie.

Zobaczmy więc bliżej, kim są osoby uczestniczące w badaniu. Zacznijmy od przyjrzenia się strukturze wykształcenia.

[Rysunek 2. Struktura wykształcenia osób ankietowanych w drugiej fazie badania ,,Obiegi kultury”] .

Zauważmy jak wiele osób wśród aktywnych internautów to osoby z wykształceniem wyższym lub średnim. Prawie 90%. Zapala się pierwsza lampka ostrzegawcza, grupa II (intensywnych internautów) nie ma tej samej struktury wykształcenia co całe społeczeństwo, są to osoby lepiej wykształcone, nie dziwi więc że więcej czytają niż średnia.

Zobaczmy jak wygląda wiek ankietowanych w podziale na grupy wykształcenia.

[Rysunek 3. Rozkład wieku w grupach wykształcenia. Szerokość ,,bączka” jest proporcjonalna do liczby osób w danym wieku. Im szerszy bączek w danym miejscu tym więcej osób jest w takim wieku, wiek jest na osi pionowej].

Sprawa z książkami wygląda na coraz mniej oczywistą. W grupie osób z wykształceniem podstawowym większość to osoby w wieku 17-19 lat, które jeszcze nie zdobyły wykształcenia średniego, prawdopodobnie uczą się jeszcze w szkole średniej i nie dziwi, że czytają książki.

W grupie osób z wykształceniem średnim znaczna część osób ma blisko 20 lat. To prawdopodobnie studenci, nie powinniśmy dziwić się, że czytają książki.

W grupie osób z wykształceniem wyższym najwięcej jest osób świeżo po studiach lub jeszcze na drugim lub trzecim etapie studiów. Ponownie to, że doszkalają się, co wymaga czytania, też nas nie dziwi. Przekornie można by zapytać czy to, że tylko 89% z nich przeczytało przynajmniej jedną książkę czy to nie za mało 😉

Co to oznacza? Że jeżeli chcemy uczciwie porównać ,,oczytanie” naszych II należały je porównać względem grupy o podobnej strukturze wykształcenia i wieku. Wtedy moglibyśmy zastanawiać się czy osoby z wykształceniem wyższym w wiek 30 lat więcej czytają książek gdy intensywnie korzystają z internetu czy też gdy nie robią tego aż tak intensywnie.

 

W formularzu ankiety znalazło się bardzo ciekawe pytanie mające ocenić, czy niechęć do zakupów oryginalnych utworów wiąże się z ich ceną (blok psychograficzny, pytanie ,,Ceny muzyki i filmów, są w Polsce tak wysokie, że trudno się dziwić ludziom, którzy pozyskują takie rzeczy za darmo z Internetu”). Zestawmy odpowiedzi na to pytanie z deklarowanymi przychodami gospodarstwa domowego.

 [Rysunek 4. Zależności pomiędzy dochodem gospodarstwa domowego a oceną, że filmy i muzyka są drogie i dlatego nie dziwi, że ludzie je ściągają. Wysokość poziomego paska jest proporcjonalna do liczby gospodarstw o danym dochodzie. Szerokość paska o jednym kolorze odpowiada frakcji osób o danym zdaniu n.t. ściągania w danej grupie dochodów. Czyli np. szerokości czerwonych pasków odpowiadają % osób które nie zgadzają się, że ceny muzyki i filmów uzasadniają ich nieformalne ściąganie.]

Na rysunku 4. Kolorem czerwonym i pomarańczowym zaznaczono procent osób, które nie zgadzają się, że cena uzasadnia ,,nieformalność”. Kolorem seledynowym i niebieskim oznaczono frakcje osób, które uważają że cena jest uzasadnieniem ,,nieformalności”. Pytanie nie wprost ,,czy uważasz, że ludziom trudno się dziwić” zamiast wprost ,,czy dla ciebie cena jest argumentem” wciąż bada tak naprawdę preferencje ankietowanego.  (To zdanie wykreslilem uwzgledniajac komentarze i to, ze nie wynika one z danych a bylo wylacznie moim ,,gdybaniem”).

Co jest bardzo ciekawe to, że frakcja osób uważających, że cena jest uzasadnieniem do ściągania nie zależy od dochodu gospodarstwa. Wręcz w grupie o najwyższych dochodach najwięcej osób podaje kwestię ceny jako usprawiedliwienie ,,ludzi” dla nieformalnego źródła muzyki czy filmów.

 

Ostatni rysunek dotyczy struktury oryginalnych książek, płyt z muzyką, płyt z filmami na stanie posiadania.

 [Rysunek 5. Kolory odpowiadają osobom odpowiadającym, że mają w swojej kolekcji od 0% (ceglasty) do 100% oryginalnych produktów.]

Spójrzmy na te wyniki z perspektywy wypowiedzi, które można znaleźć w sieci ,,Oglądam na próbę, ale jak mi się spodoba to kupuję”. Nie wygląda na to. Mimo, że żyjemy w czasach streamingu, gdy nie ma potrzeby ,,składowania” filmów czy muzyki z nieformalnych źródeł, to wciąż około 50% osób ma ponad połowę nieoryginalnych kopii.

 

Ok, to na tyle jeżeli chodzi o moją naturę człowieka, który na każdy temat ma zawsze ,,przeciwną opinię”. Ale aby być czegoś pewien należy wykluczyć wszelkie inne możliwości. Myślę, że kolejnym krokiem, powinno być spojrzenie na wyniki z raportu i odniesienie ich do grupy osób o tej samej strukturze wieku i wykształcenia. Dzięki temu będzie można wykluczyć lub potwierdzić kontropinię, że większa ilość przeczytanych książek przez II wynika z aktu że znaczna część z nich jest jeszcze w szkole lub uczy się nowych technologii do pracy.

 

ACTA, listy od czytelników, MAC, Młodzi 2011, czyli zaczynamy sezon na raporty

Ostatnio sporo emocji dostarczyła umowa ACTA. Aktywność młodych ludzi (wiekowo należę do pokolenia X, stąd to ,,młodych ludzi’’) znalazła uznanie niektórych dziennikarzy, podkreślających jak to młode pokolenie potrafi dbać o swoje interesy, jest świadome i zorganizowane.
No cóż. Jest wiele problemów w imieniu których warto podnieść głos. Piractwo czy wolność, jest może i ważnym tematem, ale moim zdaniem ważniejsze tematy to pomysły na reformę emerytalną, politykę edukację, służbę zdrowia. Czy nie lepiej wykorzystać energię i potencjał facebooka czy twittera by dbać o interesy związane z jakością życia w przyszłości?

Dostaję co jakiś czas listy nawiązujące do wpisów na blogu, za które bardzo dziękuję. Zawierają interesujące spostrzeżenia lub linki do ciekawych materiałów. Ostatnio Krzysiek T. przesłał mi namiary na kilka bardzo interesujących raportów. Stwierdziłem, że warto się im przyjrzeć bliżej i podzielić się spostrzeżeniami z tych raportów na blogu. Jeden z tych linków prowadził do strony Ministerstwa Administracji i Cyfryzacji. Na tej stronie mój wzrok przykuł raport ,,Młodzi 2011’’.
Nie znalazłem precyzyjnej informacji n.t. do kogo ten raport jest adresowany, ale wstęp i wprowadzenie zawiera propozycję debaty. Jak rozumiem z młodymi. Jak już napisałem w pierwszym akapicie moje prawa do czucia się młodym mogą być podważane, ale co tam, raport mnie zainteresował.

Ten raport jest pierwszym z dłuższej serii raportów, które zamierzam pokazać na tym blogu. Zamiast wstawiać jedynie linki do raportów spróbuję też dodać do każdego z raportów kilka własnych komentarzy a konkretnie, od trzech do pięciu rzeczy które mi się w tym raporcie spodobały i tyle samo rzeczy które można moim zdaniem zrobić lepiej. Rzeczy, które mi się podobały pokazuję po to by zachęcić do przeczytania całego raportu. Rzeczy, które można moim zdaniem zrobić lepiej pokazuję bo zawsze warto coś poprawić. Może czytelnik uzna moją rację i będzie czujniejszy przygotowując raporty a może nie uzna moich argumentów i zajmie głos w obronie wyników z raportu. Jak to podkreśla Scott Berkun, transparentność ma sens jeżeli jesteśmy otwarci na ,,feedback’’.

Zanim przedstawię moje komentarze, wkleję tutaj krótki opis raportu ze strony ministerstwa. Sam raport można znaleźć tutaj.

,,Raport liczy 426 stron i zawiera analizę młodego pokolenia w różnych obszarach tematycznych: aspiracji i oczekiwań, demografii, wyzwań związanych z edukacją i wchodzeniem na rynek pracy. Prezentuje dane na temat małżeństwa, rodziny, nowych wzorców seksualności, konsumpcji i sposobów spędzania wolnego czasu, poglądów, postaw i obecności w publicznej sferze życia. Przedstawia obszar zdrowia, zachowań ryzykownych i spójności społecznej.
Celem raportu jest przekazanie zebranej wiedzy na temat młodej generacji w wielu wymiarach jej funkcjonowania. Młodzi Polacy posiadają energię oraz zasoby, które mogą uczynić z nich liderów zmian służących rozwojowi Polski. Niestety, zachodzą zjawiska, które zagrażają realizacji aspiracji młodego pokolenia. W efekcie, pokolenie, które może być motorem pozytywnych zmian, może stać się pokoleniem straconym.”

 

Co mi się podobało 

  • W raporcie umieszczono niewyobrażalną wręcz ilość informacji. Widać olbrzymią ilość wykonanej pracy, olbrzymią ilość wyników pozbieranych z rożnych badań i rożnych źródeł danych. Materiału jest wystarczająco dużo by poprowadzić roczne seminarium i co tydzień referować po 30 stron z raportu gęsto usianego tabelami, wykresami i danymi. Raport jest też bardzo estetycznie złożony, miło się go ogląda.
  • Z różnych powodów bardzo interesuje mnie informacja jak wygląda liczba urodzeń (emerytury, dostępność szkół dla moich dzieci, perspektywa rozwoju gospodarczego). Jest on wyrażana czasem interesującym współczynnikiem,,dzietność kobiet’’. Kilka ciekawych informacji o tym współczynniku znaleźć można w rozdziale 3,4. Do roku 2004 dzietność miała tendencje spadkową, spadł do poziomu 1.2 ale w ostatnich latach można dopatrzyć się zmiany i wzrost dzietności. Znaleźć można też informacje o tym jaka część młodych chce mieć lub nie chce mieć dzieci, jaka część ma problemy z płodnością, świetne dane.
  • Interesujące są też dane opisujące postrzeganie mediów i ich hierarchia ważności. Na stronie 256 znaleźć można informacje o tym jak wygląda ocena ważności mediów dla osób w różnych grupach wiekowych. Jest też informacja o tym ile godzin różne grupy wiekowe spędzają w Internecie, czy publikują zdjęcia, wpisy w Wikipedii, blogi itp.
  • W rozdziale 9 jest dużo informacji n.t. zdrowia, nie tylko młodych polaków. Np na stronie 316 jest bardzo interesująca tabelka pokazująca na co najczęściej ludzie umierają w UE w danym wieku. Interesujące jest zobaczyć kiedy największe żniwo zbierają choroby nowotworowe a kiedy choroby układu krążenia. Interesujące są też informacje o zdrowiu psychicznym młodzieży dziś i kiedyś (np. nie spodziewałem się że procent zdiagnozowanych nerwic jest podobny w grupie do 18 lat, 19-29 jak i 30 i więcej).
  • W rozdziale 10 można znaleźć wiele ciekawych informacji o poszanowaniu prawa. Np na stronie 349 jest informacja jaka część 19-latków uważa że można łamać prawo jeżeli uchodzi to bezkarnie. Ilu? Pomijając osoby które odpowiedziały ,,nie zastanawiałem się nad tym’’ połowa 19-latków która się nad tym zastanawiała uważa że można łamać prawo.

Takich smaczków jest więcej, zachęcam więc do dokładniejszej lektury.

 

Co uważam że można zrobić lepiej

  • Forma. Jeżeli twórcy raportu naprawdę chcą by młodzi do niego zajrzeli powinni opracować go w formie przyswajalnej. Młodzi są uzależnieni od form krótkich. Społeczeństwo twittera może rozbić się o 426 stronicowy raport. Co więcej, raport bez hiperlinków, żadnego ułatwiania w wyszukiwaniu interesujących rzeczy z morza liczb i obrazków. Wiele rzeczy jest łatwiej przyswajalne jeżeli rozbije się je na małe części, raporty też tak mają. W Internecie można co prawda znaleźć 26 stronicowe streszczenie, ale jest to 26 stron litego, bałaganiarsko złożonego tekstu, lepiej już przeczytać raport.
  •  W raporcie znaleźć można kilka grafik, które nie wiadomo jak odczytać. Rodzą one więcej pytań niż odpowiedzi. Najmniej czytelną jest poniższa

Jest pionowa oś czasu, w środku której zdarzyła się jakąś zmiana społeczna. Pola A, B i C to różne grupy (w raporcie używane jest słowo ,,pola’’ które kojarzy się bardziej z obszarem niż punktem, co utrudnia zrozumienie sąsiadującego tekstu) przed zmianą społeczną ale nie wiadomo co jest na osi poziomej. Na rysunku są niebieskie punkty łączące coś z czymś ale nie znalazłem żadnego opisu w tekście co te linie mogą oznaczać. Zupełnie nie wiem co ten rysunek ma pokazywać

  • W raporcie znaleźć można rysunki umieszczone w pobliżu danych do których te rysunki zupełnie nie pasują. Nie sposób też być pewnym co jest pokazywane na rysunku ani po co. Przykładowo

Pierwszy rysunek raportu pokazuje zmiany w nastawieni do systemu przedstawicieli rocznika ‘57. Jeden raz pytani byli o nastawienie w wieku 30 lat a raz po 10 latach gdy mieli lat 40 (raport miał być o młodzieży, ale co tam). W tekście napisane jest ze pod koniec pierwszej dekady przemian ,,większość miała pozytywny stosunek ale nie nosił on znamion entuzjazmu”. Jak odczytać brak entuzjazmu z tego rysunku nie mam pojęcia. Rysunek pokazuje jakieś zmiany ale efekt ,,zmian w systemie” nakłada się na efekt różnicy wieku. Te 10 lat doświadczenia zmienia ludzi. Zmienia nastawienie do system bez względu na to czy jakieś przemiany zachodzą czy nie.

W przypisie napisane jest, że uwzględniono dane osób poddanych dwukrotnemu badaniu. To sugerowałoby, że porównywane są odpowiedzi tych samych osób, tylko tych osób które odpowiedziały na pytania i w roku 1988 i w roku 1998. Ale pod rysunkiem jest napisane że liczność próby w tym drugim badaniu jest 4 razy mniejsza. Z tego zdania wynika więc, że w nowszym badaniu procenty liczone są tylko dla co czwartego z poprzednio ankietowanych. To są dwie sprzeczne informacje i trudno odgadnąć która jest prawdziwa.

Poniżej rysunku są komentarze do liczb, które do niczego nie pasują. Zgodnie z tym opisem 25\% osób ,,czuje sie jak ryba w wodzie”. Niestety ja nie potrafie tych 25\% wypatrzeć na rysunku. Takie niespojności utrudniają czytanie i obniżają zaufanie. Wolalbym mniej tekstu, mniej poetyckich sformułowań ale wieksza czytelność.

Rysunek ma więcej mankamentów. Trudno uzasadnić dlaczego odpowiedź ,,obojętne” jest po prawej stronie skali, chyba tylko po to by uniemożliwić porównanie procentu odpowiedzi ,,negatywne”.

Brak też informacji o źródle, informacji skąd są te dane,, kto robił te analizy. Przypomina się scena z ,,Rzezi” Polańskiego gdy to Alan pokazuje jak się walczy z niechcianą informacją, trzeba skupić atak na niespójności źródeł, niepewności skąd są dane. Dobry raport powinien być na taki atak odporny.

  • Legendy i opisy rysunków mogłyby być bardziej staranne. Jeżeli przygotowanie wykresu trwa kilka godzin to warto poświęcić jeszcze kwadrans by ten wykres dobrze opisać. Inaczej cala praca włożona w przygotowanie wykresu może pójść na marne. Przykładowo

 

Zrobiłem małe badanie dotyczące percepcji tego wykresu przez różne osoby. Po spojrzeniu na wykres pytałem czym na tym wykresie charakteryzuje się Polska. W 4 odpowiedziach na 5 usłyszałem, że w Polsce badani ludzie są starsi.

Problem polega na tym że widząc tytuł ,,udział młodzieży..” i widząc legendę z wartościami 18, 20, 22 automatycznie przyjmuje się ze legenda opisuje lata. Im bardziej niebiesko tym starsze osoby, Polaka jest na ciemno niebiesko więc ludzie są starsi.

Oczywiście to pierwsze wrażenie, chwila refleksji na temat jak młodzież w Polsce może być starsza niż młodzież w Niemczech prowadzi do dysonansu poznawczego.

A okazuje się, że udział młodzieży jest prezentowany w procentach. Wystarczy dodać do legendy znaczek \% by uniknąć pomyłki. Oczwiście możemy chcieć poznbyć sie nieuwaznych czytelników, ale lepiej wybrac ścieżkę ułatwiania jak to tylko możliwe intuicyjnego zrozumienia rysunku.

  • Więcej czasu poświęcę temu obrazkowi

Widząc taki rysunek stawia się czytelnikom pytanie: jakie są różnice pomiędzy tym co ważne dla 19-latków dziś i 30 lat temu.

Zanim przejdziemy dalej warto samemu spojrzeć na ten obrazek i zastanowić się co na nim widać.

Jakie są różnice i jakie podobieństwa.

Poniżej przedstawię najpierw wnioski znalezione w raporcie a później wnioski, które znalazłem w prezentacji dołączonej do raportu.

A później pokażę jeszcze moje wnioski z tych danych, ale warto najpierw samemu spojrzeć na ten wykres i zastanowić się co to widać.

Ok, to zacznijmy od tego co o tym rysunku jest napisane w raporcie

,,Najprostsze porównywalne dane ukazują niezmiennie wysoką w hierarchii ważności pozycję rodziny – udane życie rodzinne jest podkreślane jako sprawa bardzo ważna zarówno przez dawne, jak i przez nowe młode pokolenie (przez nowe nawet bardziej). ….. Drugie podobieństwo dotyczy relatywnie niskiego wartościowania spokojnego życia. W innych kwestiach charakterystyki dawnej i nowej młodzieży wyraźnie się rozchodzą.’’

A teraz wniosek z prezentacji
,,Widoczna jest mentalna odrębność dzisiejszego młodego pokolenia’’

No dobrze, a teraz mój komentarz.

Pierwsza rzecz, która się rzuca w oczy to, że dla dzisiejszych 19-latków wszystko jest ważniejsze. To w podejrzliwym umyśle zapala pierwsza lampkę: problem z kalibracją wyników z dwóch badań.

Gdy zsumuje się wszystkie procenty dla dzisiejszych 19-latków otrzymamy 600\%, gdy zsumuje sie procenty dla 19-latków sprzed 30 lat to otrzymujemy 300\%. Hmm, zapala sie druga lampka. Ponieważ nie ma informacji jak te dane były zbierane, może w ankiecie dało się zaznaczyć kilka odpowiedzi. Ale w starej wersji maksymalnie 3 a w nowej maksymalnie 6? (btw: rysunek 2.2 ma podobne pytania, odpowiedzi sa w skali b. ważne, ważne, mało ważne, itp, ale procenty z rys 2.2 nie zgadzaja się z rys 2.1).

Coraz mniej wierzę w poprawną kalibrację tych wyników. Ale nie wszystko stracone. Zamienimy wartości na rangi, czyli zamiast porównywać procenty, które nie wiadomo co oznaczają, porównajmy to na którym miejscu w hierarchii wartości dana wartość się znajduje

[Rys 1. Alternatywne przedstawienie danych z rysunku 2.1 raportu. Zamiast wartości procentowych przedstawiono pozycje w hierarchii ważności. Przy nazwach wartości w nawiasach podano zmianę w rankingu ważności. Dodatnia wartość oznacza ze dana wartość awansowała w hierarchii.]

Co na tym rysunku ja widzę? Większość wartości ma podobna pozycję w rankingach młodzieży i dzisiejszej i 30 lat temu. Największa zmiana dotyczy ,,spokojnego życia” które spadło o 4 pozycje w dol. Tak wiec mamy wniosek zupełnie odwrotny niż oba prezentowane i w raporcie i w prezentacji!

 

Podsumowując. Raport ,,Młodzi 2011” to źródło wielu interesujących informacji. Choć nie zawsze zgadzam się z autorami do interpretacji prezentowanych liczb. Dobra robota! Więcej takich raportów! Najlepiej krótszych i uważniej przygotowanych.

 

Polska Internetowa, czyli raport Boston Consulting Group

Mniej więcej miesiąc temu @wikton podesłał informację o raporcie Boston Consulting Group ,,Polska Internetowa’’ (raport dostępny jest tutaj). Temat bardzo interesujący i  jak tylko znalazłem trochę czasu z chęcią ten raport przeczytałem. Wspomniany już @wikton pytał o opinię o tym raporcie więc temat na wpis gotowy.

Podtytuł raportu brzmi ,,Jak internet dokonuje transformacji polskiej gospodarki’’ co tylko zaostrza apetyt. Szczególnie po obejrzeniu kilku TEDtalków pokazujących jak Internet zmienia system edukacji na całym świecie oczekiwania były duże (np. prezentacje takich osób jak Sugata Mitra, Ken Robinson, Salman Khan).

Pierwszy rozdział ,,Spojrzenie na polski internet’’ jednak sprowadził mnie na ziemie. Zaczęło się od stwierdzenia, że pełno u nas ekspertów komputerowych a poziom informatyki akademickiej jest uznany na świecie. Jako uzasadnienie podano trzecie miejsce w konkursie TopCoder (pierwsze dwa miejsca zajmują Rosja i Chiny, wzory do naśladowania?). Trzecie miejsce jest miłym faktem, ale sukcesy nielicznej (w skali kraju) grupy bardzo zdolnych młodych ludzi, którzy zdobywają swoje 10000 godzin doświadczenia ZANIM trafią na studia trudno utożsamiać z wysokim poziomem poziomem informatyki akademickiej w skali państwa. Poziom informatyki jaki odczuwa większość obywateli to mizerna informatyzacja służby zdrowia (awantura o recepty i ubezpieczenia), mizerna informatyzacja ZUS, mizerna informatyzacja urzędów, znikomy dostęp do publicznie dostępnych danych o funkcjonowaniu państwa. W raporcie jednak więcej uwagi poświęcono naszej klasie, facebookowi, gadu-gadu, allegro, onet.pl i podobnym serwisom, generującym jak widać znaczną część PKB. Wydaje mi się, że opis informatyzacji państwa to ciekawszy temat do poruszenia na wstępie raporcie o nazwie ,,Polska Internetowa’’ niż konkurs TopCoder. Swoją drogą gratulacje dla tych, którzy są top coderami lub wygrywają medale na mistrzostwach w programowaniu, powinno się z nich robić ikony dla młodzieży.

Wróćmy do raportu, można w nim znaleźć wiele dziwnych statystyk, np. w rozdziale ,,Polak – aktywny internauta’’ znajdziemy informację, że ,,…internauci spędzają w sieci 14,5 godziny czasu tygodniowo, a więc o pół godziny więcej niż przed telewizorem’’.  Jak i po co ta średnia była liczona nie wiadomo, co świadczy o aktywności też nie wiadomo. Ok, nie ma sensu czepiać się szczegółów. Wybrałem cztery rzeczy, które w tym raporcie mi się spodobały i cztery które uważam, że można zrobić lepiej. O reszcie nie piszę by nie zanudzić czytelnika.

Co mi się podobało.

1.            Na stronie 22 jest przedstawiony w ciekawy sposób przykład Korei Południowej, która postawiła na rozwój gospodarki opartej na wiedzy i dziś jest wzorem do naśladowania jeżeli chodzi o dynamikę rozwoju. To bardzo ciekawy przypadek.

2.            Na stronie 16 na wykresie 5 przedstawione jest ile można zaoszczędzić na różnych grupach produktów kupując je w Internecie. Na kosmetykach i AGD można zaoszczędzić do 20%, na książkach najmniej około 2%.

3.            W załączniku na stronach 40-42 jest przedstawiona metodologia. Tak powinno być w każdym raporcie, część z wnioskami i ciekawymi wynikami a później precyzyjny opis użytych metod i danych. Inna sprawa, że metodologia w tym raporcie to tylko 3 strony, aż prosi sie o precyzyjniejsze i szczegółowe opis. Ale i tak dobrze, że jest ten rozdział.

4.            Ilościowa ocena PKB generowanego przez Internet. Jest kilka słabych punktów, np. stwierdzenie, że różnymi metodologiami mierzono wartość rożnych segmentów gospodarki, nie jest jasne co jest wliczane w gospodarkę internetową, czy e-edukacja też, czy rynek gier i w jaki sposób, ale przynajmniej jest jakiś punkt odniesienia z ilościowym szacunkiem tempa wzrostu.

Co można zrobić lepiej?

Skupiam się na sposobie prezentacji wyników ponieważ to słaby punkt raportu. Haseł i liczb jest sporo, trudno jednak nabrać zaufania do prezentowanych wniosków z uwagi na sporo niedomówień.

1.            Wykresy można lepiej przygotować. W poniższym wykresie do przedstawienia wartości zakupów w kategorii wykorzystano powierzchnię koła, czyli coś co trudno porównać. Przykładowo, proszę odgadnąć czy na poniższym wykresie większa jest wartość zakupów w kategorii media i książki, czy w kategorii elektronika? Drugie pytanie to o ile procent wartość zakupów w kategorii odzież i dodatki jest mniejsza od kategorii dom i ogród? Odpowiedzi na koniec wpisu.

 

2.            Poniższy wykres też ma kilka wad (różne skale na osiach OY, z jakiegoś powodu nie wszystkie państwa występują na wszystkich wykresach, np. Belgia, z samego wykresu nie wynika co jest na osiach OY). Ale zamiast je wyliczać zastąpimy je zagadką. W tekście raportu jest komentarz do tego wykresu, z którego wynika że na wykresie znajduje sie odpowiedź na pytanie: na którym miejscu wśród krajów unii europejskich jest Polska w kategorii przedsiębiorstwa korzystające z systemów ERP?

 

3.            Poniższy wykres nie został przygotowany by umożliwić odczytanie wartości indeksów dla poszczególnych państw (ale jeżeli wykres nie jest po to by odczytywać z niego wartości to po co jest?). Więc kolejne pytanie konkursowe brzmi: jaką wartość indeksu ,,aktywność w sieci’’ ma Dania i o ile % mniejsza jest aktywność w sieci Polski?

 

4.            Rzecz, której mi bardzo zabrakło w tym raporcie to definicja e Intensity Index (TM). Ta miara [znak towarowy firmy BCG] jest wielokrotnie wykorzystywana i jej zrozumienie jest bardzo istotne z punktu wielu wniosków przedstawionych w raporcie. W wielu miejscach w raporcie są próby wyjaśnienia prostymi słowami co mierzy ten indeks, ale jest to bardzo ogólna informacja o trzech wyskalowanych składowych, które są jakoś łączone i dalej skalowane. Nie bardzo wiadomo po co cały indeks jest skalowany, ale przez to skalowanie nie można nadać interpretacji wartościom tego wskaźnika. Nie można też porównywać wskaźników policzonych dla różnych grup (np. państwa vs. województwa), ponieważ będą one miały różny punkt odniesienia. Ponieważ w wielu miejscach raportu pojawia się ten wskaźnik to aż się prosi by został on opisany wzorem w metodologii. Zresztą w metodologii jest on opisywany na ponad półtorej strony, gdzie wiele mówi się o jego wrażliwości na wagi i o tym że bazuje on an wielu innych wskaźnikach, ale brak konkretów. Jeden wzór jest wart tysiąc poetyckich słów.

 

Swoją drogą chętnie zobaczyłbym raport o nazwie Polska Internetowa, z którego dowiedziałbym się co w Polsce można załatwić przez Internet a czego nie (zamówić lekarza, zamówić pizzę, wypełnić PIT, założyć firmę, załatwić sprawę w sądzie, zapisać się na studia). I jak to jest na zachodzie. I jakie są perspektywy dla Polski. Może znacie taki raport?

 

Odpowiedzi na pytania

Ad 1. Pole okręgu media i książki jest o mniej więcej 5% mniejsze, choć szanse na zauważenie tego są na tym wykresie 50/50. Pole okręgu odzież i dodatki to 45% pola okręgu dom i ogród.

Ad 2. Z wykresy wynika, że na 20 miejscu, ale w tekście raportu jest podane miejsce 26 więc trudno powiedzieć.

Ad 3. Dla Danii wypada wartość 131, dla Polski wartość o 45% niższa.

Po co używać wykresów kołowych, czyli raporty znanej fundacji a ,,lie factor”

Zacznę od tego, że FNP stara się czytelnie prezentować wyniki swoich konkursów. Z ostatniego konkursu START dla przejrzystości upubliczniono wnioski laureatów, a więc jest tutaj duża przejrzystość. NCN mógłby się dużo nauczyć (sposób ich publikacji wyników pierwszego konkursu pozostawia wiele pytań). Pisząc kolokwialnie, FNP robi świetną robotę (tzn. ludzie pracujący w tej fundacji).
Niemniej FNP też zdarzają się wpadki.

Na tej stronie przedstawiono raport z rekrutacji różnych programów prowadzonych przez Fundację.

Z jakiegoś powodu uznano, że trójwymiarowe wykresy kołowe nadadzą się do czegokolwiek. Tymczasem dwie pierwsze reguły wizualizacji danych to: nie uzywaj pseudo-trójwymiarowych wykresów jeżeli nie trzeba i nie uzywaj wykresów kołowych. Nie jest tylko jasne która z tych reguł jest pierwsza a która drugą. Pseudo-trzeci wymiar na wykresach oszukuje percepcję i nie pozwala na poprawną ocenę długości/szerokości itp. Wykresy kołowe sa niedobre ponieważ nie potrafimy dobrze porównywać kątów.

Zobaczmy przykładowy wykres prezentowany ww raporcie na stronie 2.

Co jest dziwnego w tym wykresie? Są dwa kawałki, które opisują po 5% i dwa opisujące po 11%, ale coś jest z nimi nie tak. Zmierzmy długości odpowiednich cięciw.

Długości tych cięciw w pixelach to odpowiednio 116, 211, 126, 46 pixeli.

Edward Tufte zdefiniował kiedyś współczynnik ,,lie-factor”, który liczony jest jako iloraz efektu widocznego na wykresie do efektu w danych.

Stosunek długości cięciw A:D to 116/46 = 2.6 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Stosunek długości cięciw B:C to 211/126 = 1.7 podczas gdy z danych wynika, że powinny być to tej samej długości cięciwy.

Czy trzeba więcej argumentów przeciwko wykresom kołowym 3D?

W ogóle ilość danych przedstawionych w powyższym raporcie do jego objętości jest dosyć mizerna. Całą stronę 2 mozna by przedstawić za pomocą jednego wykresu na którym jest więcej informacji. Kod do wygenerowania tego wykresu znajduje się tutaj. A wykres poniżej (trochę lepiej wygląda dla innych progrmów gdzie było więcej lauretów)

Krytykując wykresy 3D spójrzmy jeszcze na poniższy z tego samego raportu. Pierwszy słupek ma wysokość 15% ale jest znacznie poniżej linii siatki oznaczającej 15%. Pewnie da się to jakoś wytłumaczyć, ale i tak dosyć dziwnie to wygląda.

 

Ernst & Young, Sprawne Państwo a paradoksy w ocenie uczelni w Polsce

Dzisiaj podzielę się moim zaskoczeniem, gdy próbując odtworzyć wykres z raportu na podstawie danych z tego samego raporu otrzymałem zupełnie inne wyniki.

Kilka dni temu zgłosiłem apel o pomoc w zdobyciu danych dotyczących rozwoju pracowników naukowych. W ciągu tych kilku dni otrzymałem kilka listów z sugestiami ciekawych raportów dotyczący stanu nauki w Polsce. Między innymi od Krzysztofa T. dostałem namiar na raport ,,Produktywność naukowa wyższych szkół publicznych w Polsce” opracowany w ramach programu Sprawne Panstwo (program firmy Ernst & Young). Raport dostępny jest w postaci elektronicznej tutaj.

Po raporcie widać, że przygotowano go przez profesjonalistów. Ładnie dobrane odcienie szarości i pojawiające się łacińskie wtącenia sprawiają wrażenie rzetelności i profesjonalizmu. Jest też dużo tabelek z danymi (to na plus), odnośników do źródeł danych (to też na plus).

Niestety od strony statystycznej można się przyczepiać. Ponieważ generalnie cieszę się ze taki raport powstał, więc nie będę się czepiał bardzo, tylko na dwóch wpisach, tym i kolejnym ;-).

Zaczęło się od rysunku 12 ze strony strony 68 (patrz niżej) gdzie przedstawiona jest zależnośc pomiędzy przychodem na pracownika uczelni a liczbą publikacji na Nauczyciela Akademickiego (oznaczanego w całym raporcie konsekwentnie NA).

Pechowo na wykresie nie zaznaczono, która kropka to która uczelnia. Zaciekawiony która to kropka odpowiada najbardziej na prawo wysuniętej politechnice zacząłem przeglądać tabelę z danymi. Tabele 11 i 12 wydawały się pasować. W odpowiednich kolumnach przedstawiano i liczbę publikacji na NA i przychód na pracownika. Zrobiłem więc wykres o podobnych oznaczeniach jak ten prezentowany w raporcie, bazując na danych które przedstawiono w tymże raporcie i ze zdziwieniem zobaczyłem zupełnie inny obraz politechnik i uniwersytetów.

  • Z wykresu prezentowanego w raporcie wynika, że dwie uczelnie o najwyższych wskaźnikach publikacja na NA to uniwersytety.
  • Za to z wykresu prezentowanego na bazie danych które sa w raporcie wynika że w ścisłej czołówce uczleni o najwyższych wskaźnikach publikacja na nauczyciela akademickiego jest więcej politechnik.
  • Z wykresu prezentowanego w raporcie wynika, że przy tym samym przychodzie na uniwersytetach jest średnio więcej publikacji na PA niż na politechnikach (ciągła linia nad przerywaną)
  • Tymczasem z wykresu na bazie danych z raportu wynika rzecz zupełnie odwrotna, mianowicie że przy tym samym przychodzie na uniwersytetach jest średnio mniej publikacji na PA (ciągła linia pod przerywaną).

Przy okazji wyjasnijmy fenomen Uniwersytetu Jagielońskiego. Odstaje on znacząco od pozostałych uniwersytetów, tak bardzo że to aż zastanawia. Więc postawmy zagadkę dla czytelników, co ma UJ czego nie ma żadna duża z prezentowanych uczelni publicznych? Poniżej wykres tej samej zależności ale po usunięciu UJ. Pod wykresem znajduje sie odpowiedź na powyższą zagadkę.

UJ ma wydział lekarski i farmaceutyczny. We Wrocławiu, Warszawie czy Katowicach wydziały lekarski jest na Uniwersytecie Medycznym. Jeżeli chcieć uczciwie porównać różne uniwersytety to trzeba uwzględnić różną czestość publikowania w różnych dziedzinach. Umieszczanie UJ z wydziałem lekarskim w tej samej kategorii co pozostałe uniwersytety to błąd.

 

Różnica pomiędzy danymi a wykresami bieże się stąd, że dane przedstawiono dla jednego roku (2007/2008) podczas gdy na wykresach prezentowane są wskaźniki uśrednione z 10 lat, same wskaźniki nie sa jednak w raporcie prezentowane. Dziwne to.