#debataACTA, twitteR, Twitter i R

Zaczęło się niewinnie. Dwa tygodnie temu kolega Grzesiek P. powiedział, że analizę nastawienia (ang. Sentiment analysis) na dużych ilościach tekstu robi się banalnie. Tydzień temu kolega Paweł Ch. powiedział, że API twittera ma limit do 70 zapytań na minutę. W piątek przy okazji rozmowy o raporcie ,,Obiegi Kultury” Alek T. zapytał mnie czy mam doświadczenie w analizie danych z Twittera bo chętnie zobaczyłby się działo na kanale (moje autorskie tłumaczenie hashtaga) #debataACTA. Ponieważ nie interesowałem wcześniej się ani analizą nastawienia, ani API twittera ani hashtagami, stwierdziłem, że warto zobaczyć co w trawie ćwierka.

Tak się składa, że dzięki Jeffowi Gentry’emu API Twittera jest łatwo dostępne z poziomu R. Wystarczy załadować pakiet twitteR i kilka prostych funkcji pozwala na łatwą interakcję z ćwierkami z serwisu Twitter.com (ok, dalej będę używał tłumaczenia ,,wiadomościami”).

Zobaczmy prosty przykład.

> # interfejs do API twittera
> library(twitteR)
> # pobierz maksymalnie 1500 wiadomości zawierających etykietę #debataACTA
> # stworzonych 7 lutego 2012
> tweets = searchTwitter('#debataACTA', n=1500, until="2012-02-08", since="2012-02-06")
> # zamień wyniki na ramkę danych i wyświetl treść oraz autora pierwszej z wiadomości
> debataACTA =  twListToDF(tweets)
> debataACTA[1,c(1,4,10)]
                                                                                    text             created screenName
1 Mamy tyle Kultury i Edukacji ile na nia wydajemy 0,75% Budzetu #debataACTA #PremierRP 2012-02-07 15:37:46     TPHMAC

Ten pakiet ma te same ograniczenia co API, czyli 70 zapytań na minutę. Ale każde zapytanie to 25 wiadomości, a więc w sumie możemy ściągnąć do 1500 wiadomości na minutę.

Prostą pętlą, z pewną pomocą internetu, zebrałem wpisy z Twittera z okresu od 4 do 12 lutego 2012 zawierające etykietę #debataACTA. po oczyszczeniu zapisałem je w postaci pliku csv, który można pobrać z adresu tutaj.

Mamy więc dane, przyjrzyjmy się im. Do tematu analizy nastawienia podejdziemy w piątek, a dziś przyjrzyjmy się jak wyglądała aktywność ćwierkających. Na rysunku 1 można zobaczyć ile wpisów pojawiało się z tą etykietą. Temat jak widać skończył się z samą debatą. Na rysunku 2 można zobaczyć bliżej interesujący okres liczby wiadomości nadczas trwania debaty. Rzuca się w oczy szczególnie ta chwila ciszy przed burzą.

[Rysunek 1. Liczba wiadomości zawierających etykietę #debataACTA na godzinę. Kliknij by powiększyć.]

[Rysunek 2. Liczba wiadomości zawierających etykietę #debataACTA na 5 minut (debata rozpoczęła się po godzinie 14). Kliknij by powiększyć.]

Gdyby ktoś chciał sprawdzić o czym mówiono w której minucie to komentarze z znaczkami synchronizacyjnymi znaleźć można np. tutaj.

W sumie mamy ponad 6.5 tysiąca wiadomości. Zobaczmy kto je pisał. Zamiast wpisywać ksywy ćwierkających pokażę ilu z nich generuje odpowiedni procent wszystkich wiadomości.

[Rysunek 3. Na osi y przedstawiono liczbę wiadomości wygenerowanych przez X najaktywniejszych użytkowników. Okazuje się, że 7% piszących (dokładnie 72) generuje 50% wiadomości. A tylko 2% (dokładnie 21) generuje 25% wszystkich wiadomości. Kliknij by powiększyć.]

Ściągnęliśmy dane, zobaczyliśmy podstawowe podsumowania, czas zabrać się za analizę nastawienia. Więcej na ten temat w piątek (muszę ją jeszcze zrobić) a dzisiaj zakończę podsumowaniem z procentowym udziałem wiadomości zawierających ikonę buźki (;-), ;), :-), :))) itp).

[Rysunek 4. Procentowy udział wiadomości zawierających buźkę. Kliknij by powiększyć.]

Jak widać przez pierwsze dwie godziny debaty nie było ćwierkającym do śmiechu.

Na ile protest w sprawie ACTA jest ważny?

Przez cały tydzień krążyliśmy wokół ACTA. Najwyższy czas zamknąć ten temat. Dzisiejszy wpis ma dwie warstwy, w jednej spróbujemy odpowiedzieć na pytanie kto i dlaczego protestuje przeciwko ACTA, a w drugiej zastanowimy się jak czytelne są różne metody graficznego przedstawiania macierzy kontyngencji.

Tydzień temu użytkownik anuszka podał odnośnik do ciekawego wpisu na blogu CentrumCyfrowe.pl. Tytuł i odnośnik do wpisu: ,,Protest w sprawie ACTA to walka młodych o wolność w internecie – potwierdzają wyniki badań”.  W pierwszym akapicie tego wpisu znajduje się zdanie ,,Z przeprowadzonego przez MB SMG/KRC i Centrum Cyfrowe Projeku: Polska badania wynika, że stosunek do protestu ma charakter pokoleniowy. Protest jest szczególnie istotny dla ludzi młodych”. Hmmm… Zaraz zobaczymy.

Do wymienionego wpisu podlinkowane są dane zebrane w badaniu (na reprezentatywnej próbie ponad 1000 polaków). Tym razem zamiast surowych danych mamy dostęp tylko do agregatów, tzn. mamy policzone procenty i liczebności odpowiedzi na kilka pytań z ankiety w podziale na wiek, płeć i miejsce zamieszkania. Mnie interesować będzie podział na grupy wiekowe. Jak wygląda stosunek do ACTA i do praw autorskich u gorącokrwistej młodzieży a jak u osób starszych, które urodziły się w czasach gdy nie było internetu, ale nie było też poszanowania dla własności prywatnej? Zobaczymy. Przedstawię poniżej odpowiedzi ankietowanych na trzy pytania.

,,C2. Na ile protest w sprawie ACTA jest dla Pana(i) ważny?”

W formularzu jest pięć odpowiedzi na to pytanie: ,,jest dla mnie mało ważny nie rozumiem o co w nim chodzi”, ,,jest dla mnie ważny, ale nie na tyle żeby uważnie śledzić co się dzieje”, ,,jest dla mnie ważny, aktywnie śledzę rozwój wydarzeń”, ,,jest dla mnie bardzo ważny – jestem osobiście zaangażowany w protest przeciwko ACTA” i ,,nie wiem”. Są więc cztery odpowiedzi opisujące skalę od mało ważny do bardzo ważny. Ale nie ma odpowiedzi nie obchodzi mnie”. Trochę przypomina to niedawno przedstawiany artykuł dotyczący manipulacji listą możliwych odpowiedzi w ankietach (wpis ,,ankiety a manipulacja”). I pytanie i odpowiedzi sugerują że protest w sprawie ACTA jest ważny pytanie tylko czy bardzo czy tylko trochę.

[Rysunek 1. Wyniki odpowiedzi na pytanie o ważność protestu w sprawie ACTA przedstawione z użyciem analizy korespondencji. Jeżeli trójkąty opisujące grupy wiekowe są blisko zwrotów strzałek opisujących odpowiedzi na pytania, to dana para występuje częściej niż losowo. Z tego typu wykresów odczytuje się współwystępowania, np. widzimy, że odpowiedzi ,,mało ważny” częściej inż inni udzielały osoby po 60 roku życia, odpowiedź ,,jest ważny ale nie na tyle …” częściej padała z ust osób po 45 roku życia, protesty były bardzo ważne dla osób młodych. Wersja wektorowa powyższego rysunku jest tutaj].

Swoją drogą pytanie można różnie rozumieć. Dosłownie oznacza ono na ile ważny jest protest = „ostre wystąpienie przeciw działaniu uważanemu za niesłuszne” (za słownikiem PWN), może być więc odczytane jako poparcie dla formy ostrego wystąpienia. Inna interpretacja tego pytania to czy jest się przeciw ACTA czy za ACTA.

 

,,C3. Czy Pana(i) zdaniem darmowy dostęp do książek, muzyki i filmów przez internet – nawet, jeśli odbywa się z naruszeniem praw autorskich – powinien być elementem swobód obywatelskich?”

Mam znajomego który wierzy, że niewidzialna ręka rynku wszystko wyreguluje. A tym którzy podnoszą rękę na niewidzialną rękę odciąłby tę rękę (dużo tych rąk, ale mam nadzieję, że wiecie o co chodzi). Czytając więc argumenty w stylu ,,Państwo powinno płacić za…” (bo koniec końców ktoś zawsze płaci) zawsze słyszę w tyle głowy jego soczysty komentarz.

Ale można wierzyć w różne rzeczy, zobaczmy co na ten temat myślą nasi ankietowani.

[Rysunek 2. Poparcie dla ,,darmowego” dostępu do książek, muzyki, filmów w Internecie. Im starsze osoby są pytane, tym mniej skłonne są one poprzeć bezpłatny dostęp do filmów, książek i muzyki w Internecie nawet z naruszeniem praw autorskich. Osoby młodsze w większości są 'raczej’ lub 'zdecydowanie’ za. Wersja wektorowa grafiki znajduje się tutaj.]

 

,,C1. Co jest Pana(i) zdaniem głównym źródłem protestu w sprawie Acta?”

Do wyboru były cztery odpowiedzi. Jak dla mnie zabrakło kilku innych wariantów, dotyczących np. informacji komu i kiedy mogą być przekazane informacje o aktywności w Internecie Polaków. No ale w tym badaniu skupiono się na innych problemach. Zobaczmy jakie odpowiedzi wybierali ankietowani.

[Rysunek 3. Im młodsza grupa ankietowanych tym większy procent uważa, że chodzi o wolność. Im starsza grupa ankietowanych tym większy procent (przyznaje?) nie wie o co chodzi]

Za nami szybki rzut oka na odpowiedzi reprezentatywnej próby polaków. Moim zdaniem wykresy mówią same za siebie, daruję więc sobie stronnicze komentarze.

Widzieliśmy trzy wykresy, ciekawy jestem który z nich trzech jest dla Was najbardziej czytelny. Najczęściej w opracowaniach spotyka się wykres słupkowy (ostatni) z uwagi na jego prostotę, a z drugiej strony najbardziej zaawansowana matematyka stoi za analizą korespondencji (wykres pierwszy).

 

Raport ,,Obiegi kultury”

Na dziś zaplanowany był przemiły raport o badaniach klinicznych. Ale ponieważ od kilku osób dostałem informację o raporcie ,,Obiegi Kultury” wykonanym przez CentrmCyfrowe.pl z środków Narodowego Centrum Kultury więc stwierdziłem, że badania kliniczne mogą poczekać.

Wspomniany raport ,,Obiegi Kultury” w kilku wersjach i z oryginalnymi danymi znaleźć można pod adresem http://obiegikultury.centrumcyfrowe.pl/. Raport opisuje wyniki z badania, które poświęcone było obiegowi formalnemu i nieformalnemu (czy też legalnemu i nielegalnemu) treści takich jak książki, muzyka i filmy. Słowo ,,formalny” używane jest w słownikowym znaczeniu ,,zgodny z przepisami”, ale wygląda łagodniej niż słowo ,,legalny”. Badanie przeprowadzono w dwóch fazach, pilotażowej i właściwej. W drugiej fazie przebadano 1284 osób opisujących się jako aktywni internauci. W raporcie podejmowana jest próba charakterystyki kim są Ci aktywni internauci i jak mają się oni do całego społeczeństwa. Jednym z najbardziej znanych wniosków z raportu, jest ocena, że Intrenauci co prawda konsumują bardzo wiele treści nieformalnych/nielegalnych ale też konsumują bardzo wiele treści formalnych/legalnych, znacznie więcej niż średnia w społeczeństwie. Przyjrzymy się temu fenomenowi bliżej. A zaczniemy od krótkiej charakterystyki mocnych stron badania i raportu.

Co mi się podobało

  • Bardzo podoba mi się przejrzystość sposobu przeprowadzenia badania. Zarówno daty przeprowadzenia badania, postawione cele, użyte w badaniu formularze oraz surowe wyniki z ankiet są dostępne na wymienionej już stronie www raportu. Jeżeli więc nie zgadzamy się z jakimś wnioskiem możemy sami sprawdzić jak sprawa wygląda.
  • Bardzo podoba mi się streszczenie raportu przygotowane w atrakcyjnej graficznie formie na stronie http://obiegikultury.centrumcyfrowe.pl/mashup/. Sam raport ma 100 stron, jeżeli więc nie mamy czasu na czytanie całej książeczki to możemy poświęcić kwadrans na zapoznanie się ze streszczeniem, które bardzo przyjemnie się czyta/ogląda. Wielkie brawa, wreszcie streszczenie, które zachęca do czytania/oglądania.
  • W raporcie przedstawione są wyniki z badania Internatutów a następnie te wyniki są komentowane, rozszerzane przez badaczy prowadzących badania o zbliżonej tematyce. Np. przez Dominika Batorskiego (m.in. badanie Diagnoza Społeczna), Piotr Toczyski (m.in. World Internet Project), Przemysław Zieliński (m.in. Obserwatorium Żywej Kultury). Czytając ,,Obiegi kultury” co jakiś czas zadawałem sobie pytanie, a jak to wygląda w Diagnozie Społecznej, a jak to wyglądało w raporcie Młodzi 2011. Dodanie komentarzy innych badaczy w dużej części pozwalają na odniesienie się do innych badań.

Były też rzeczy , które mi się nie podobają. Jak np. poniższy rysunek, na którym długości słupków NIE odpowiadają prezentowanym liczbom.

[Rysunek 1. Z jakiegoś powodu długość słupka 14% jest większa w stosunku do długości słupka 81% niż by to wynikało z ilorazu tych dwóch procentów]

 Ale nie chciałbym tutaj krytykować drobiazgów, bo mam ciekawszy temat.

Jak już wspomniałem, jedna z głównych obserwacji dotyczy dużego zaangażowania w kulturę ,,formalną” osób, które intensywnie korzystają z kultury ,,nieformalnie”. A dokładniej to co się obserwuje, to że osoby intensywnie korzystające z Internetu częściej ,,nieformalnie” ściągają książki, muzykę i filmy (to nas nie dziwi) i te osoby też czytają więcej książek niż średnia w społeczeństwie.

Zobaczmy więc bliżej, kim są osoby uczestniczące w badaniu. Zacznijmy od przyjrzenia się strukturze wykształcenia.

[Rysunek 2. Struktura wykształcenia osób ankietowanych w drugiej fazie badania ,,Obiegi kultury”] .

Zauważmy jak wiele osób wśród aktywnych internautów to osoby z wykształceniem wyższym lub średnim. Prawie 90%. Zapala się pierwsza lampka ostrzegawcza, grupa II (intensywnych internautów) nie ma tej samej struktury wykształcenia co całe społeczeństwo, są to osoby lepiej wykształcone, nie dziwi więc że więcej czytają niż średnia.

Zobaczmy jak wygląda wiek ankietowanych w podziale na grupy wykształcenia.

[Rysunek 3. Rozkład wieku w grupach wykształcenia. Szerokość ,,bączka” jest proporcjonalna do liczby osób w danym wieku. Im szerszy bączek w danym miejscu tym więcej osób jest w takim wieku, wiek jest na osi pionowej].

Sprawa z książkami wygląda na coraz mniej oczywistą. W grupie osób z wykształceniem podstawowym większość to osoby w wieku 17-19 lat, które jeszcze nie zdobyły wykształcenia średniego, prawdopodobnie uczą się jeszcze w szkole średniej i nie dziwi, że czytają książki.

W grupie osób z wykształceniem średnim znaczna część osób ma blisko 20 lat. To prawdopodobnie studenci, nie powinniśmy dziwić się, że czytają książki.

W grupie osób z wykształceniem wyższym najwięcej jest osób świeżo po studiach lub jeszcze na drugim lub trzecim etapie studiów. Ponownie to, że doszkalają się, co wymaga czytania, też nas nie dziwi. Przekornie można by zapytać czy to, że tylko 89% z nich przeczytało przynajmniej jedną książkę czy to nie za mało 😉

Co to oznacza? Że jeżeli chcemy uczciwie porównać ,,oczytanie” naszych II należały je porównać względem grupy o podobnej strukturze wykształcenia i wieku. Wtedy moglibyśmy zastanawiać się czy osoby z wykształceniem wyższym w wiek 30 lat więcej czytają książek gdy intensywnie korzystają z internetu czy też gdy nie robią tego aż tak intensywnie.

 

W formularzu ankiety znalazło się bardzo ciekawe pytanie mające ocenić, czy niechęć do zakupów oryginalnych utworów wiąże się z ich ceną (blok psychograficzny, pytanie ,,Ceny muzyki i filmów, są w Polsce tak wysokie, że trudno się dziwić ludziom, którzy pozyskują takie rzeczy za darmo z Internetu”). Zestawmy odpowiedzi na to pytanie z deklarowanymi przychodami gospodarstwa domowego.

 [Rysunek 4. Zależności pomiędzy dochodem gospodarstwa domowego a oceną, że filmy i muzyka są drogie i dlatego nie dziwi, że ludzie je ściągają. Wysokość poziomego paska jest proporcjonalna do liczby gospodarstw o danym dochodzie. Szerokość paska o jednym kolorze odpowiada frakcji osób o danym zdaniu n.t. ściągania w danej grupie dochodów. Czyli np. szerokości czerwonych pasków odpowiadają % osób które nie zgadzają się, że ceny muzyki i filmów uzasadniają ich nieformalne ściąganie.]

Na rysunku 4. Kolorem czerwonym i pomarańczowym zaznaczono procent osób, które nie zgadzają się, że cena uzasadnia ,,nieformalność”. Kolorem seledynowym i niebieskim oznaczono frakcje osób, które uważają że cena jest uzasadnieniem ,,nieformalności”. Pytanie nie wprost ,,czy uważasz, że ludziom trudno się dziwić” zamiast wprost ,,czy dla ciebie cena jest argumentem” wciąż bada tak naprawdę preferencje ankietowanego.  (To zdanie wykreslilem uwzgledniajac komentarze i to, ze nie wynika one z danych a bylo wylacznie moim ,,gdybaniem”).

Co jest bardzo ciekawe to, że frakcja osób uważających, że cena jest uzasadnieniem do ściągania nie zależy od dochodu gospodarstwa. Wręcz w grupie o najwyższych dochodach najwięcej osób podaje kwestię ceny jako usprawiedliwienie ,,ludzi” dla nieformalnego źródła muzyki czy filmów.

 

Ostatni rysunek dotyczy struktury oryginalnych książek, płyt z muzyką, płyt z filmami na stanie posiadania.

 [Rysunek 5. Kolory odpowiadają osobom odpowiadającym, że mają w swojej kolekcji od 0% (ceglasty) do 100% oryginalnych produktów.]

Spójrzmy na te wyniki z perspektywy wypowiedzi, które można znaleźć w sieci ,,Oglądam na próbę, ale jak mi się spodoba to kupuję”. Nie wygląda na to. Mimo, że żyjemy w czasach streamingu, gdy nie ma potrzeby ,,składowania” filmów czy muzyki z nieformalnych źródeł, to wciąż około 50% osób ma ponad połowę nieoryginalnych kopii.

 

Ok, to na tyle jeżeli chodzi o moją naturę człowieka, który na każdy temat ma zawsze ,,przeciwną opinię”. Ale aby być czegoś pewien należy wykluczyć wszelkie inne możliwości. Myślę, że kolejnym krokiem, powinno być spojrzenie na wyniki z raportu i odniesienie ich do grupy osób o tej samej strukturze wieku i wykształcenia. Dzięki temu będzie można wykluczyć lub potwierdzić kontropinię, że większa ilość przeczytanych książek przez II wynika z aktu że znaczna część z nich jest jeszcze w szkole lub uczy się nowych technologii do pracy.

 

ACTA, listy od czytelników, MAC, Młodzi 2011, czyli zaczynamy sezon na raporty

Ostatnio sporo emocji dostarczyła umowa ACTA. Aktywność młodych ludzi (wiekowo należę do pokolenia X, stąd to ,,młodych ludzi’’) znalazła uznanie niektórych dziennikarzy, podkreślających jak to młode pokolenie potrafi dbać o swoje interesy, jest świadome i zorganizowane.
No cóż. Jest wiele problemów w imieniu których warto podnieść głos. Piractwo czy wolność, jest może i ważnym tematem, ale moim zdaniem ważniejsze tematy to pomysły na reformę emerytalną, politykę edukację, służbę zdrowia. Czy nie lepiej wykorzystać energię i potencjał facebooka czy twittera by dbać o interesy związane z jakością życia w przyszłości?

Dostaję co jakiś czas listy nawiązujące do wpisów na blogu, za które bardzo dziękuję. Zawierają interesujące spostrzeżenia lub linki do ciekawych materiałów. Ostatnio Krzysiek T. przesłał mi namiary na kilka bardzo interesujących raportów. Stwierdziłem, że warto się im przyjrzeć bliżej i podzielić się spostrzeżeniami z tych raportów na blogu. Jeden z tych linków prowadził do strony Ministerstwa Administracji i Cyfryzacji. Na tej stronie mój wzrok przykuł raport ,,Młodzi 2011’’.
Nie znalazłem precyzyjnej informacji n.t. do kogo ten raport jest adresowany, ale wstęp i wprowadzenie zawiera propozycję debaty. Jak rozumiem z młodymi. Jak już napisałem w pierwszym akapicie moje prawa do czucia się młodym mogą być podważane, ale co tam, raport mnie zainteresował.

Ten raport jest pierwszym z dłuższej serii raportów, które zamierzam pokazać na tym blogu. Zamiast wstawiać jedynie linki do raportów spróbuję też dodać do każdego z raportów kilka własnych komentarzy a konkretnie, od trzech do pięciu rzeczy które mi się w tym raporcie spodobały i tyle samo rzeczy które można moim zdaniem zrobić lepiej. Rzeczy, które mi się podobały pokazuję po to by zachęcić do przeczytania całego raportu. Rzeczy, które można moim zdaniem zrobić lepiej pokazuję bo zawsze warto coś poprawić. Może czytelnik uzna moją rację i będzie czujniejszy przygotowując raporty a może nie uzna moich argumentów i zajmie głos w obronie wyników z raportu. Jak to podkreśla Scott Berkun, transparentność ma sens jeżeli jesteśmy otwarci na ,,feedback’’.

Zanim przedstawię moje komentarze, wkleję tutaj krótki opis raportu ze strony ministerstwa. Sam raport można znaleźć tutaj.

,,Raport liczy 426 stron i zawiera analizę młodego pokolenia w różnych obszarach tematycznych: aspiracji i oczekiwań, demografii, wyzwań związanych z edukacją i wchodzeniem na rynek pracy. Prezentuje dane na temat małżeństwa, rodziny, nowych wzorców seksualności, konsumpcji i sposobów spędzania wolnego czasu, poglądów, postaw i obecności w publicznej sferze życia. Przedstawia obszar zdrowia, zachowań ryzykownych i spójności społecznej.
Celem raportu jest przekazanie zebranej wiedzy na temat młodej generacji w wielu wymiarach jej funkcjonowania. Młodzi Polacy posiadają energię oraz zasoby, które mogą uczynić z nich liderów zmian służących rozwojowi Polski. Niestety, zachodzą zjawiska, które zagrażają realizacji aspiracji młodego pokolenia. W efekcie, pokolenie, które może być motorem pozytywnych zmian, może stać się pokoleniem straconym.”

 

Co mi się podobało 

  • W raporcie umieszczono niewyobrażalną wręcz ilość informacji. Widać olbrzymią ilość wykonanej pracy, olbrzymią ilość wyników pozbieranych z rożnych badań i rożnych źródeł danych. Materiału jest wystarczająco dużo by poprowadzić roczne seminarium i co tydzień referować po 30 stron z raportu gęsto usianego tabelami, wykresami i danymi. Raport jest też bardzo estetycznie złożony, miło się go ogląda.
  • Z różnych powodów bardzo interesuje mnie informacja jak wygląda liczba urodzeń (emerytury, dostępność szkół dla moich dzieci, perspektywa rozwoju gospodarczego). Jest on wyrażana czasem interesującym współczynnikiem,,dzietność kobiet’’. Kilka ciekawych informacji o tym współczynniku znaleźć można w rozdziale 3,4. Do roku 2004 dzietność miała tendencje spadkową, spadł do poziomu 1.2 ale w ostatnich latach można dopatrzyć się zmiany i wzrost dzietności. Znaleźć można też informacje o tym jaka część młodych chce mieć lub nie chce mieć dzieci, jaka część ma problemy z płodnością, świetne dane.
  • Interesujące są też dane opisujące postrzeganie mediów i ich hierarchia ważności. Na stronie 256 znaleźć można informacje o tym jak wygląda ocena ważności mediów dla osób w różnych grupach wiekowych. Jest też informacja o tym ile godzin różne grupy wiekowe spędzają w Internecie, czy publikują zdjęcia, wpisy w Wikipedii, blogi itp.
  • W rozdziale 9 jest dużo informacji n.t. zdrowia, nie tylko młodych polaków. Np na stronie 316 jest bardzo interesująca tabelka pokazująca na co najczęściej ludzie umierają w UE w danym wieku. Interesujące jest zobaczyć kiedy największe żniwo zbierają choroby nowotworowe a kiedy choroby układu krążenia. Interesujące są też informacje o zdrowiu psychicznym młodzieży dziś i kiedyś (np. nie spodziewałem się że procent zdiagnozowanych nerwic jest podobny w grupie do 18 lat, 19-29 jak i 30 i więcej).
  • W rozdziale 10 można znaleźć wiele ciekawych informacji o poszanowaniu prawa. Np na stronie 349 jest informacja jaka część 19-latków uważa że można łamać prawo jeżeli uchodzi to bezkarnie. Ilu? Pomijając osoby które odpowiedziały ,,nie zastanawiałem się nad tym’’ połowa 19-latków która się nad tym zastanawiała uważa że można łamać prawo.

Takich smaczków jest więcej, zachęcam więc do dokładniejszej lektury.

 

Co uważam że można zrobić lepiej

  • Forma. Jeżeli twórcy raportu naprawdę chcą by młodzi do niego zajrzeli powinni opracować go w formie przyswajalnej. Młodzi są uzależnieni od form krótkich. Społeczeństwo twittera może rozbić się o 426 stronicowy raport. Co więcej, raport bez hiperlinków, żadnego ułatwiania w wyszukiwaniu interesujących rzeczy z morza liczb i obrazków. Wiele rzeczy jest łatwiej przyswajalne jeżeli rozbije się je na małe części, raporty też tak mają. W Internecie można co prawda znaleźć 26 stronicowe streszczenie, ale jest to 26 stron litego, bałaganiarsko złożonego tekstu, lepiej już przeczytać raport.
  •  W raporcie znaleźć można kilka grafik, które nie wiadomo jak odczytać. Rodzą one więcej pytań niż odpowiedzi. Najmniej czytelną jest poniższa

Jest pionowa oś czasu, w środku której zdarzyła się jakąś zmiana społeczna. Pola A, B i C to różne grupy (w raporcie używane jest słowo ,,pola’’ które kojarzy się bardziej z obszarem niż punktem, co utrudnia zrozumienie sąsiadującego tekstu) przed zmianą społeczną ale nie wiadomo co jest na osi poziomej. Na rysunku są niebieskie punkty łączące coś z czymś ale nie znalazłem żadnego opisu w tekście co te linie mogą oznaczać. Zupełnie nie wiem co ten rysunek ma pokazywać

  • W raporcie znaleźć można rysunki umieszczone w pobliżu danych do których te rysunki zupełnie nie pasują. Nie sposób też być pewnym co jest pokazywane na rysunku ani po co. Przykładowo

Pierwszy rysunek raportu pokazuje zmiany w nastawieni do systemu przedstawicieli rocznika ‘57. Jeden raz pytani byli o nastawienie w wieku 30 lat a raz po 10 latach gdy mieli lat 40 (raport miał być o młodzieży, ale co tam). W tekście napisane jest ze pod koniec pierwszej dekady przemian ,,większość miała pozytywny stosunek ale nie nosił on znamion entuzjazmu”. Jak odczytać brak entuzjazmu z tego rysunku nie mam pojęcia. Rysunek pokazuje jakieś zmiany ale efekt ,,zmian w systemie” nakłada się na efekt różnicy wieku. Te 10 lat doświadczenia zmienia ludzi. Zmienia nastawienie do system bez względu na to czy jakieś przemiany zachodzą czy nie.

W przypisie napisane jest, że uwzględniono dane osób poddanych dwukrotnemu badaniu. To sugerowałoby, że porównywane są odpowiedzi tych samych osób, tylko tych osób które odpowiedziały na pytania i w roku 1988 i w roku 1998. Ale pod rysunkiem jest napisane że liczność próby w tym drugim badaniu jest 4 razy mniejsza. Z tego zdania wynika więc, że w nowszym badaniu procenty liczone są tylko dla co czwartego z poprzednio ankietowanych. To są dwie sprzeczne informacje i trudno odgadnąć która jest prawdziwa.

Poniżej rysunku są komentarze do liczb, które do niczego nie pasują. Zgodnie z tym opisem 25\% osób ,,czuje sie jak ryba w wodzie”. Niestety ja nie potrafie tych 25\% wypatrzeć na rysunku. Takie niespojności utrudniają czytanie i obniżają zaufanie. Wolalbym mniej tekstu, mniej poetyckich sformułowań ale wieksza czytelność.

Rysunek ma więcej mankamentów. Trudno uzasadnić dlaczego odpowiedź ,,obojętne” jest po prawej stronie skali, chyba tylko po to by uniemożliwić porównanie procentu odpowiedzi ,,negatywne”.

Brak też informacji o źródle, informacji skąd są te dane,, kto robił te analizy. Przypomina się scena z ,,Rzezi” Polańskiego gdy to Alan pokazuje jak się walczy z niechcianą informacją, trzeba skupić atak na niespójności źródeł, niepewności skąd są dane. Dobry raport powinien być na taki atak odporny.

  • Legendy i opisy rysunków mogłyby być bardziej staranne. Jeżeli przygotowanie wykresu trwa kilka godzin to warto poświęcić jeszcze kwadrans by ten wykres dobrze opisać. Inaczej cala praca włożona w przygotowanie wykresu może pójść na marne. Przykładowo

 

Zrobiłem małe badanie dotyczące percepcji tego wykresu przez różne osoby. Po spojrzeniu na wykres pytałem czym na tym wykresie charakteryzuje się Polska. W 4 odpowiedziach na 5 usłyszałem, że w Polsce badani ludzie są starsi.

Problem polega na tym że widząc tytuł ,,udział młodzieży..” i widząc legendę z wartościami 18, 20, 22 automatycznie przyjmuje się ze legenda opisuje lata. Im bardziej niebiesko tym starsze osoby, Polaka jest na ciemno niebiesko więc ludzie są starsi.

Oczywiście to pierwsze wrażenie, chwila refleksji na temat jak młodzież w Polsce może być starsza niż młodzież w Niemczech prowadzi do dysonansu poznawczego.

A okazuje się, że udział młodzieży jest prezentowany w procentach. Wystarczy dodać do legendy znaczek \% by uniknąć pomyłki. Oczwiście możemy chcieć poznbyć sie nieuwaznych czytelników, ale lepiej wybrac ścieżkę ułatwiania jak to tylko możliwe intuicyjnego zrozumienia rysunku.

  • Więcej czasu poświęcę temu obrazkowi

Widząc taki rysunek stawia się czytelnikom pytanie: jakie są różnice pomiędzy tym co ważne dla 19-latków dziś i 30 lat temu.

Zanim przejdziemy dalej warto samemu spojrzeć na ten obrazek i zastanowić się co na nim widać.

Jakie są różnice i jakie podobieństwa.

Poniżej przedstawię najpierw wnioski znalezione w raporcie a później wnioski, które znalazłem w prezentacji dołączonej do raportu.

A później pokażę jeszcze moje wnioski z tych danych, ale warto najpierw samemu spojrzeć na ten wykres i zastanowić się co to widać.

Ok, to zacznijmy od tego co o tym rysunku jest napisane w raporcie

,,Najprostsze porównywalne dane ukazują niezmiennie wysoką w hierarchii ważności pozycję rodziny – udane życie rodzinne jest podkreślane jako sprawa bardzo ważna zarówno przez dawne, jak i przez nowe młode pokolenie (przez nowe nawet bardziej). ….. Drugie podobieństwo dotyczy relatywnie niskiego wartościowania spokojnego życia. W innych kwestiach charakterystyki dawnej i nowej młodzieży wyraźnie się rozchodzą.’’

A teraz wniosek z prezentacji
,,Widoczna jest mentalna odrębność dzisiejszego młodego pokolenia’’

No dobrze, a teraz mój komentarz.

Pierwsza rzecz, która się rzuca w oczy to, że dla dzisiejszych 19-latków wszystko jest ważniejsze. To w podejrzliwym umyśle zapala pierwsza lampkę: problem z kalibracją wyników z dwóch badań.

Gdy zsumuje się wszystkie procenty dla dzisiejszych 19-latków otrzymamy 600\%, gdy zsumuje sie procenty dla 19-latków sprzed 30 lat to otrzymujemy 300\%. Hmm, zapala sie druga lampka. Ponieważ nie ma informacji jak te dane były zbierane, może w ankiecie dało się zaznaczyć kilka odpowiedzi. Ale w starej wersji maksymalnie 3 a w nowej maksymalnie 6? (btw: rysunek 2.2 ma podobne pytania, odpowiedzi sa w skali b. ważne, ważne, mało ważne, itp, ale procenty z rys 2.2 nie zgadzaja się z rys 2.1).

Coraz mniej wierzę w poprawną kalibrację tych wyników. Ale nie wszystko stracone. Zamienimy wartości na rangi, czyli zamiast porównywać procenty, które nie wiadomo co oznaczają, porównajmy to na którym miejscu w hierarchii wartości dana wartość się znajduje

[Rys 1. Alternatywne przedstawienie danych z rysunku 2.1 raportu. Zamiast wartości procentowych przedstawiono pozycje w hierarchii ważności. Przy nazwach wartości w nawiasach podano zmianę w rankingu ważności. Dodatnia wartość oznacza ze dana wartość awansowała w hierarchii.]

Co na tym rysunku ja widzę? Większość wartości ma podobna pozycję w rankingach młodzieży i dzisiejszej i 30 lat temu. Największa zmiana dotyczy ,,spokojnego życia” które spadło o 4 pozycje w dol. Tak wiec mamy wniosek zupełnie odwrotny niż oba prezentowane i w raporcie i w prezentacji!

 

Podsumowując. Raport ,,Młodzi 2011” to źródło wielu interesujących informacji. Choć nie zawsze zgadzam się z autorami do interpretacji prezentowanych liczb. Dobra robota! Więcej takich raportów! Najlepiej krótszych i uważniej przygotowanych.