Na ile protest w sprawie ACTA jest ważny?

Przez cały tydzień krążyliśmy wokół ACTA. Najwyższy czas zamknąć ten temat. Dzisiejszy wpis ma dwie warstwy, w jednej spróbujemy odpowiedzieć na pytanie kto i dlaczego protestuje przeciwko ACTA, a w drugiej zastanowimy się jak czytelne są różne metody graficznego przedstawiania macierzy kontyngencji.

Tydzień temu użytkownik anuszka podał odnośnik do ciekawego wpisu na blogu CentrumCyfrowe.pl. Tytuł i odnośnik do wpisu: ,,Protest w sprawie ACTA to walka młodych o wolność w internecie – potwierdzają wyniki badań”.  W pierwszym akapicie tego wpisu znajduje się zdanie ,,Z przeprowadzonego przez MB SMG/KRC i Centrum Cyfrowe Projeku: Polska badania wynika, że stosunek do protestu ma charakter pokoleniowy. Protest jest szczególnie istotny dla ludzi młodych”. Hmmm… Zaraz zobaczymy.

Do wymienionego wpisu podlinkowane są dane zebrane w badaniu (na reprezentatywnej próbie ponad 1000 polaków). Tym razem zamiast surowych danych mamy dostęp tylko do agregatów, tzn. mamy policzone procenty i liczebności odpowiedzi na kilka pytań z ankiety w podziale na wiek, płeć i miejsce zamieszkania. Mnie interesować będzie podział na grupy wiekowe. Jak wygląda stosunek do ACTA i do praw autorskich u gorącokrwistej młodzieży a jak u osób starszych, które urodziły się w czasach gdy nie było internetu, ale nie było też poszanowania dla własności prywatnej? Zobaczymy. Przedstawię poniżej odpowiedzi ankietowanych na trzy pytania.

,,C2. Na ile protest w sprawie ACTA jest dla Pana(i) ważny?”

W formularzu jest pięć odpowiedzi na to pytanie: ,,jest dla mnie mało ważny nie rozumiem o co w nim chodzi”, ,,jest dla mnie ważny, ale nie na tyle żeby uważnie śledzić co się dzieje”, ,,jest dla mnie ważny, aktywnie śledzę rozwój wydarzeń”, ,,jest dla mnie bardzo ważny – jestem osobiście zaangażowany w protest przeciwko ACTA” i ,,nie wiem”. Są więc cztery odpowiedzi opisujące skalę od mało ważny do bardzo ważny. Ale nie ma odpowiedzi nie obchodzi mnie”. Trochę przypomina to niedawno przedstawiany artykuł dotyczący manipulacji listą możliwych odpowiedzi w ankietach (wpis ,,ankiety a manipulacja”). I pytanie i odpowiedzi sugerują że protest w sprawie ACTA jest ważny pytanie tylko czy bardzo czy tylko trochę.

[Rysunek 1. Wyniki odpowiedzi na pytanie o ważność protestu w sprawie ACTA przedstawione z użyciem analizy korespondencji. Jeżeli trójkąty opisujące grupy wiekowe są blisko zwrotów strzałek opisujących odpowiedzi na pytania, to dana para występuje częściej niż losowo. Z tego typu wykresów odczytuje się współwystępowania, np. widzimy, że odpowiedzi ,,mało ważny” częściej inż inni udzielały osoby po 60 roku życia, odpowiedź ,,jest ważny ale nie na tyle …” częściej padała z ust osób po 45 roku życia, protesty były bardzo ważne dla osób młodych. Wersja wektorowa powyższego rysunku jest tutaj].

Swoją drogą pytanie można różnie rozumieć. Dosłownie oznacza ono na ile ważny jest protest = „ostre wystąpienie przeciw działaniu uważanemu za niesłuszne” (za słownikiem PWN), może być więc odczytane jako poparcie dla formy ostrego wystąpienia. Inna interpretacja tego pytania to czy jest się przeciw ACTA czy za ACTA.

 

,,C3. Czy Pana(i) zdaniem darmowy dostęp do książek, muzyki i filmów przez internet – nawet, jeśli odbywa się z naruszeniem praw autorskich – powinien być elementem swobód obywatelskich?”

Mam znajomego który wierzy, że niewidzialna ręka rynku wszystko wyreguluje. A tym którzy podnoszą rękę na niewidzialną rękę odciąłby tę rękę (dużo tych rąk, ale mam nadzieję, że wiecie o co chodzi). Czytając więc argumenty w stylu ,,Państwo powinno płacić za…” (bo koniec końców ktoś zawsze płaci) zawsze słyszę w tyle głowy jego soczysty komentarz.

Ale można wierzyć w różne rzeczy, zobaczmy co na ten temat myślą nasi ankietowani.

[Rysunek 2. Poparcie dla ,,darmowego” dostępu do książek, muzyki, filmów w Internecie. Im starsze osoby są pytane, tym mniej skłonne są one poprzeć bezpłatny dostęp do filmów, książek i muzyki w Internecie nawet z naruszeniem praw autorskich. Osoby młodsze w większości są ‚raczej’ lub ‚zdecydowanie’ za. Wersja wektorowa grafiki znajduje się tutaj.]

 

,,C1. Co jest Pana(i) zdaniem głównym źródłem protestu w sprawie Acta?”

Do wyboru były cztery odpowiedzi. Jak dla mnie zabrakło kilku innych wariantów, dotyczących np. informacji komu i kiedy mogą być przekazane informacje o aktywności w Internecie Polaków. No ale w tym badaniu skupiono się na innych problemach. Zobaczmy jakie odpowiedzi wybierali ankietowani.

[Rysunek 3. Im młodsza grupa ankietowanych tym większy procent uważa, że chodzi o wolność. Im starsza grupa ankietowanych tym większy procent (przyznaje?) nie wie o co chodzi]

Za nami szybki rzut oka na odpowiedzi reprezentatywnej próby polaków. Moim zdaniem wykresy mówią same za siebie, daruję więc sobie stronnicze komentarze.

Widzieliśmy trzy wykresy, ciekawy jestem który z nich trzech jest dla Was najbardziej czytelny. Najczęściej w opracowaniach spotyka się wykres słupkowy (ostatni) z uwagi na jego prostotę, a z drugiej strony najbardziej zaawansowana matematyka stoi za analizą korespondencji (wykres pierwszy).

 

Czy internauci czytają książki? A czy je kupują?

Czy zdarza Wam się, że jakieś pytanie chodzi po głowie tak natarczywie, że nie możecie się go w żaden sposób pozbyć i jedyny sposób by dalej funkcjonować to poszukać odpowiedzi? Jeżeli tak, to zrozumiecie dlaczego dziś znów nie będzie prezentacji raportu o badaniach klinicznych.

 

W poniedziałek we wpisie o raporcie ,,Obiegi Kultury” krytycznie odnosiłem się do wartości 89%, która miała opisywać jak wielu z ,,intensywnych internautów” czyta książki. Pisałem, że dużo jest wśród ankietowanych osób młodych (system edukacji zmusza ich do czytania ;-)) dużo jest osób z wyższym wykształceniem itp.

Ale przecież nic nie stoi na przeszkodzie by procent czytających policzyć wśród tych internautów, którzy ani nie są młodzi ani nie mają wyższego wykształcenia. Dane są dostępne, formularze są dostępne (to dobry przykład, jak być powinno). Zobaczymy co wyjdzie.

Komentarz techniczny: najbliższe kilka rysunków jest otrzymanych z użyciem pakietu rms. W modelu regresji logistycznej badane są interakcje pomiędzy wiekiem (spajny 5 stopnia) a wykształceniem. Z poniższych analiz usunąłem osoby z wykształceniem podstawowym ponieważ było ich zbyt mało by wykonać dla nich takie modelowanie. Próba nie jest bardzo duża, dlatego oceny efektów są obarczone dużą niepewnością. Czytaj: Gładkość poniższych krzywych została wymuszona by otrzymać czytelne wyniki.

[Rysunek 1. Frakcja osób deklarujących przeczytanie przynajmniej jednej książki w okresie ostatniego roku, jako funkcja wieku w rozbiciu na grupy wykształcenia. Wersja grafiki w formacie wektorowym znajduje się tutaj.]

Z rysunku 1 można odczytać, że procent osób deklarujących przeczytanie przynajmniej jednej pozycji jest wysoki w każdej grupie wykształcenia w każdym wieku. Nie jest więc tak, że nadreprezentowane grupy młodych i wysoko wykształconych ,,podbiły” procent czytających. Wygląda na to, że bez względu na wiek i wykształcenie internauci czytają dużo.

Pierwszy głód zaspokojony, ale czas na więcej. W ankiecie poza pytaniem o liczbę przeczytanych książek pojawia się też pytanie o liczbę przeczytanych książek papierowych, elektronicznych, książek do słuchania w formacie audio (swojsko nazywanych audiobookami). Przyjrzyjmy się więc bliżej temu kto, co i kiedy czyta/słucha. Poniższe odpowiedzi dotyczą pytań o ostatnie 3 miesiące.

 

[Rysunek 2. Frakcja osób deklarujących przeczytanie przynajmniej jednej książki w formacie papierowym, elektronicznym lub do odsłuchu w okresie ostatnich trzech miesięcy, jako funkcja wieku w rozbiciu na grupy wykształcenia. Wersje wektorowe znajdują się: tutaj ,,czyta papierowe”tutaj ,,czyta elektroniczne”tutaj ,,słucha audiobooki”.]

Frakcja osób czytających książki papierowe jest bliska frakcji osób czytających cokolwiek. Największa zmiana dotyczy grupy ankietowanych o wykształceniu zasadniczym. Co ciekawe forma papierowa dominuje nawet wśród intensywnych internautów.  Jako osoba uzależniona od książek w formacie audio, dziwi mnie, że tak niewiele osób słucha książek w formacie elektronicznym. Jest to świetna rozrywka podczas jazdy na rowerze lub za kierownicą samochodu.

Zbadajmy dokładniej temat książek papierowych, zobaczmy gdzie ankietowani mają kontakt z książkami papierowymi.

[Rysunek 3. Frakcja osób deklarujących zakup, pożyczenie, skserowanie, otrzymanie lub danie przynajmniej jednej książki w formacie papierowym w okresie ostatnich trzech miesięcy, jako funkcja wieku w rozbiciu na grupy wykształcenia. Wersje wektorowe znajdują się: tutaj ,,kupił dla siebie”tutaj ,,pożyczył z biblioteki”tutaj ,,skserował lub pożyczył”tutaj ,,kupił w prezencie”tutaj ,,otrzymał w prezencie”.]

Ciekawe. Co prawda internauci czytają dużo książek, ale nie wiadomo skąd je biorą. Rzadko kupują, rzadko pożyczają, rzadko dostają. Widać te książki w postaci papierowej po prostu się ma 😉

Jak już jesteśmy przy temacie źródeł posiadania. Spójrzmy na osoby, które czytały w ostatnich 3 miesiącach książki w formacie elektronicznym. I zobaczmy ile z nich takie książki kupuje dla siebie legalnie a ile ściąga za darmo z internetu (pytanie A13). Następnie testem chi kwadrat (nie najlepszy ale najpopularniejszy) zobaczymy czy jest jakaś zależność.

P-wartość dla testu chi kwadrat to 0.4 (dla testu Fishera podobnie), czyli brak istotnej zależności. Nie udało się pokazać, że osoby które więcej ściągają więcej też kupują.

Zobaczmy jak to wygląda w przypadku audiobooków.

Test chi kwadrat zwraca p-wartość 0.2, czyli brak istotnej zależności. Przyglądając się obu tabelkom, widzimy że najczęstszy wybór to ,nie kupuje ale ściąga’.

Jeżeli już jesteśmy w ciągu testów chi kwadrat, to wykonajmy jeszcze jeden, dla muzyki. Zobaczmy jak wygląda zestawienie zmiennej ,słucham oryginalnych płyt CD i kupiłem dla siebie ostatnio przynajmniej jedną’ a zmienna ,ściągam albumy z muzyką z internetu’.

Wartość 9 oznacza prawdopodobnie odmowę udzielenia odpowiedzi, choć nie ma jej opisanej w formularzu. Jeżeli pominąć wiersz z osobami które odpowiedziały 9, to test chi kwadrat zwróci p-wartość na poziomie 0.2.

Ok. Podsumowując wśród internautów nie widać zależności pomiędzy ściąganiem z internetu książek czy muzyki a kupowaniem oryginałów. Wciąż może być różnica pomiędzy internautami i resztą populacji. Z książkami w wersji papierowej wygląda na to, że internauci więcej czytają.

Na koniec jeszcze jeden obrazek odnoszący się do komentarza poprzedniego wpisu. Chodzi o % oryginalnych książek a liczbę książek w ogóle.

[Rysunek 4. Liczba książek na półce a procent oryginalnych książek. Nie ma silnej tendencji, ale wygląda na to, że im więcej książek tym większy procent z nich to oryginały. Kliknij aby otworzyć wersję wektorową.]

[Rysunek 5. Liczba oryginalnych płyt CD na półce a procent oryginalnych płyt. Kliknij aby otworzyć wersję wektorową.]

 

Raport ,,Obiegi kultury”

Na dziś zaplanowany był przemiły raport o badaniach klinicznych. Ale ponieważ od kilku osób dostałem informację o raporcie ,,Obiegi Kultury” wykonanym przez CentrmCyfrowe.pl z środków Narodowego Centrum Kultury więc stwierdziłem, że badania kliniczne mogą poczekać.

Wspomniany raport ,,Obiegi Kultury” w kilku wersjach i z oryginalnymi danymi znaleźć można pod adresem http://obiegikultury.centrumcyfrowe.pl/. Raport opisuje wyniki z badania, które poświęcone było obiegowi formalnemu i nieformalnemu (czy też legalnemu i nielegalnemu) treści takich jak książki, muzyka i filmy. Słowo ,,formalny” używane jest w słownikowym znaczeniu ,,zgodny z przepisami”, ale wygląda łagodniej niż słowo ,,legalny”. Badanie przeprowadzono w dwóch fazach, pilotażowej i właściwej. W drugiej fazie przebadano 1284 osób opisujących się jako aktywni internauci. W raporcie podejmowana jest próba charakterystyki kim są Ci aktywni internauci i jak mają się oni do całego społeczeństwa. Jednym z najbardziej znanych wniosków z raportu, jest ocena, że Intrenauci co prawda konsumują bardzo wiele treści nieformalnych/nielegalnych ale też konsumują bardzo wiele treści formalnych/legalnych, znacznie więcej niż średnia w społeczeństwie. Przyjrzymy się temu fenomenowi bliżej. A zaczniemy od krótkiej charakterystyki mocnych stron badania i raportu.

Co mi się podobało

  • Bardzo podoba mi się przejrzystość sposobu przeprowadzenia badania. Zarówno daty przeprowadzenia badania, postawione cele, użyte w badaniu formularze oraz surowe wyniki z ankiet są dostępne na wymienionej już stronie www raportu. Jeżeli więc nie zgadzamy się z jakimś wnioskiem możemy sami sprawdzić jak sprawa wygląda.
  • Bardzo podoba mi się streszczenie raportu przygotowane w atrakcyjnej graficznie formie na stronie http://obiegikultury.centrumcyfrowe.pl/mashup/. Sam raport ma 100 stron, jeżeli więc nie mamy czasu na czytanie całej książeczki to możemy poświęcić kwadrans na zapoznanie się ze streszczeniem, które bardzo przyjemnie się czyta/ogląda. Wielkie brawa, wreszcie streszczenie, które zachęca do czytania/oglądania.
  • W raporcie przedstawione są wyniki z badania Internatutów a następnie te wyniki są komentowane, rozszerzane przez badaczy prowadzących badania o zbliżonej tematyce. Np. przez Dominika Batorskiego (m.in. badanie Diagnoza Społeczna), Piotr Toczyski (m.in. World Internet Project), Przemysław Zieliński (m.in. Obserwatorium Żywej Kultury). Czytając ,,Obiegi kultury” co jakiś czas zadawałem sobie pytanie, a jak to wygląda w Diagnozie Społecznej, a jak to wyglądało w raporcie Młodzi 2011. Dodanie komentarzy innych badaczy w dużej części pozwalają na odniesienie się do innych badań.

Były też rzeczy , które mi się nie podobają. Jak np. poniższy rysunek, na którym długości słupków NIE odpowiadają prezentowanym liczbom.

[Rysunek 1. Z jakiegoś powodu długość słupka 14% jest większa w stosunku do długości słupka 81% niż by to wynikało z ilorazu tych dwóch procentów]

 Ale nie chciałbym tutaj krytykować drobiazgów, bo mam ciekawszy temat.

Jak już wspomniałem, jedna z głównych obserwacji dotyczy dużego zaangażowania w kulturę ,,formalną” osób, które intensywnie korzystają z kultury ,,nieformalnie”. A dokładniej to co się obserwuje, to że osoby intensywnie korzystające z Internetu częściej ,,nieformalnie” ściągają książki, muzykę i filmy (to nas nie dziwi) i te osoby też czytają więcej książek niż średnia w społeczeństwie.

Zobaczmy więc bliżej, kim są osoby uczestniczące w badaniu. Zacznijmy od przyjrzenia się strukturze wykształcenia.

[Rysunek 2. Struktura wykształcenia osób ankietowanych w drugiej fazie badania ,,Obiegi kultury”] .

Zauważmy jak wiele osób wśród aktywnych internautów to osoby z wykształceniem wyższym lub średnim. Prawie 90%. Zapala się pierwsza lampka ostrzegawcza, grupa II (intensywnych internautów) nie ma tej samej struktury wykształcenia co całe społeczeństwo, są to osoby lepiej wykształcone, nie dziwi więc że więcej czytają niż średnia.

Zobaczmy jak wygląda wiek ankietowanych w podziale na grupy wykształcenia.

[Rysunek 3. Rozkład wieku w grupach wykształcenia. Szerokość ,,bączka” jest proporcjonalna do liczby osób w danym wieku. Im szerszy bączek w danym miejscu tym więcej osób jest w takim wieku, wiek jest na osi pionowej].

Sprawa z książkami wygląda na coraz mniej oczywistą. W grupie osób z wykształceniem podstawowym większość to osoby w wieku 17-19 lat, które jeszcze nie zdobyły wykształcenia średniego, prawdopodobnie uczą się jeszcze w szkole średniej i nie dziwi, że czytają książki.

W grupie osób z wykształceniem średnim znaczna część osób ma blisko 20 lat. To prawdopodobnie studenci, nie powinniśmy dziwić się, że czytają książki.

W grupie osób z wykształceniem wyższym najwięcej jest osób świeżo po studiach lub jeszcze na drugim lub trzecim etapie studiów. Ponownie to, że doszkalają się, co wymaga czytania, też nas nie dziwi. Przekornie można by zapytać czy to, że tylko 89% z nich przeczytało przynajmniej jedną książkę czy to nie za mało 😉

Co to oznacza? Że jeżeli chcemy uczciwie porównać ,,oczytanie” naszych II należały je porównać względem grupy o podobnej strukturze wykształcenia i wieku. Wtedy moglibyśmy zastanawiać się czy osoby z wykształceniem wyższym w wiek 30 lat więcej czytają książek gdy intensywnie korzystają z internetu czy też gdy nie robią tego aż tak intensywnie.

 

W formularzu ankiety znalazło się bardzo ciekawe pytanie mające ocenić, czy niechęć do zakupów oryginalnych utworów wiąże się z ich ceną (blok psychograficzny, pytanie ,,Ceny muzyki i filmów, są w Polsce tak wysokie, że trudno się dziwić ludziom, którzy pozyskują takie rzeczy za darmo z Internetu”). Zestawmy odpowiedzi na to pytanie z deklarowanymi przychodami gospodarstwa domowego.

 [Rysunek 4. Zależności pomiędzy dochodem gospodarstwa domowego a oceną, że filmy i muzyka są drogie i dlatego nie dziwi, że ludzie je ściągają. Wysokość poziomego paska jest proporcjonalna do liczby gospodarstw o danym dochodzie. Szerokość paska o jednym kolorze odpowiada frakcji osób o danym zdaniu n.t. ściągania w danej grupie dochodów. Czyli np. szerokości czerwonych pasków odpowiadają % osób które nie zgadzają się, że ceny muzyki i filmów uzasadniają ich nieformalne ściąganie.]

Na rysunku 4. Kolorem czerwonym i pomarańczowym zaznaczono procent osób, które nie zgadzają się, że cena uzasadnia ,,nieformalność”. Kolorem seledynowym i niebieskim oznaczono frakcje osób, które uważają że cena jest uzasadnieniem ,,nieformalności”. Pytanie nie wprost ,,czy uważasz, że ludziom trudno się dziwić” zamiast wprost ,,czy dla ciebie cena jest argumentem” wciąż bada tak naprawdę preferencje ankietowanego.  (To zdanie wykreslilem uwzgledniajac komentarze i to, ze nie wynika one z danych a bylo wylacznie moim ,,gdybaniem”).

Co jest bardzo ciekawe to, że frakcja osób uważających, że cena jest uzasadnieniem do ściągania nie zależy od dochodu gospodarstwa. Wręcz w grupie o najwyższych dochodach najwięcej osób podaje kwestię ceny jako usprawiedliwienie ,,ludzi” dla nieformalnego źródła muzyki czy filmów.

 

Ostatni rysunek dotyczy struktury oryginalnych książek, płyt z muzyką, płyt z filmami na stanie posiadania.

 [Rysunek 5. Kolory odpowiadają osobom odpowiadającym, że mają w swojej kolekcji od 0% (ceglasty) do 100% oryginalnych produktów.]

Spójrzmy na te wyniki z perspektywy wypowiedzi, które można znaleźć w sieci ,,Oglądam na próbę, ale jak mi się spodoba to kupuję”. Nie wygląda na to. Mimo, że żyjemy w czasach streamingu, gdy nie ma potrzeby ,,składowania” filmów czy muzyki z nieformalnych źródeł, to wciąż około 50% osób ma ponad połowę nieoryginalnych kopii.

 

Ok, to na tyle jeżeli chodzi o moją naturę człowieka, który na każdy temat ma zawsze ,,przeciwną opinię”. Ale aby być czegoś pewien należy wykluczyć wszelkie inne możliwości. Myślę, że kolejnym krokiem, powinno być spojrzenie na wyniki z raportu i odniesienie ich do grupy osób o tej samej strukturze wieku i wykształcenia. Dzięki temu będzie można wykluczyć lub potwierdzić kontropinię, że większa ilość przeczytanych książek przez II wynika z aktu że znaczna część z nich jest jeszcze w szkole lub uczy się nowych technologii do pracy.

 

ACTA, listy od czytelników, MAC, Młodzi 2011, czyli zaczynamy sezon na raporty

Ostatnio sporo emocji dostarczyła umowa ACTA. Aktywność młodych ludzi (wiekowo należę do pokolenia X, stąd to ,,młodych ludzi’’) znalazła uznanie niektórych dziennikarzy, podkreślających jak to młode pokolenie potrafi dbać o swoje interesy, jest świadome i zorganizowane.
No cóż. Jest wiele problemów w imieniu których warto podnieść głos. Piractwo czy wolność, jest może i ważnym tematem, ale moim zdaniem ważniejsze tematy to pomysły na reformę emerytalną, politykę edukację, służbę zdrowia. Czy nie lepiej wykorzystać energię i potencjał facebooka czy twittera by dbać o interesy związane z jakością życia w przyszłości?

Dostaję co jakiś czas listy nawiązujące do wpisów na blogu, za które bardzo dziękuję. Zawierają interesujące spostrzeżenia lub linki do ciekawych materiałów. Ostatnio Krzysiek T. przesłał mi namiary na kilka bardzo interesujących raportów. Stwierdziłem, że warto się im przyjrzeć bliżej i podzielić się spostrzeżeniami z tych raportów na blogu. Jeden z tych linków prowadził do strony Ministerstwa Administracji i Cyfryzacji. Na tej stronie mój wzrok przykuł raport ,,Młodzi 2011’’.
Nie znalazłem precyzyjnej informacji n.t. do kogo ten raport jest adresowany, ale wstęp i wprowadzenie zawiera propozycję debaty. Jak rozumiem z młodymi. Jak już napisałem w pierwszym akapicie moje prawa do czucia się młodym mogą być podważane, ale co tam, raport mnie zainteresował.

Ten raport jest pierwszym z dłuższej serii raportów, które zamierzam pokazać na tym blogu. Zamiast wstawiać jedynie linki do raportów spróbuję też dodać do każdego z raportów kilka własnych komentarzy a konkretnie, od trzech do pięciu rzeczy które mi się w tym raporcie spodobały i tyle samo rzeczy które można moim zdaniem zrobić lepiej. Rzeczy, które mi się podobały pokazuję po to by zachęcić do przeczytania całego raportu. Rzeczy, które można moim zdaniem zrobić lepiej pokazuję bo zawsze warto coś poprawić. Może czytelnik uzna moją rację i będzie czujniejszy przygotowując raporty a może nie uzna moich argumentów i zajmie głos w obronie wyników z raportu. Jak to podkreśla Scott Berkun, transparentność ma sens jeżeli jesteśmy otwarci na ,,feedback’’.

Zanim przedstawię moje komentarze, wkleję tutaj krótki opis raportu ze strony ministerstwa. Sam raport można znaleźć tutaj.

,,Raport liczy 426 stron i zawiera analizę młodego pokolenia w różnych obszarach tematycznych: aspiracji i oczekiwań, demografii, wyzwań związanych z edukacją i wchodzeniem na rynek pracy. Prezentuje dane na temat małżeństwa, rodziny, nowych wzorców seksualności, konsumpcji i sposobów spędzania wolnego czasu, poglądów, postaw i obecności w publicznej sferze życia. Przedstawia obszar zdrowia, zachowań ryzykownych i spójności społecznej.
Celem raportu jest przekazanie zebranej wiedzy na temat młodej generacji w wielu wymiarach jej funkcjonowania. Młodzi Polacy posiadają energię oraz zasoby, które mogą uczynić z nich liderów zmian służących rozwojowi Polski. Niestety, zachodzą zjawiska, które zagrażają realizacji aspiracji młodego pokolenia. W efekcie, pokolenie, które może być motorem pozytywnych zmian, może stać się pokoleniem straconym.”

 

Co mi się podobało 

  • W raporcie umieszczono niewyobrażalną wręcz ilość informacji. Widać olbrzymią ilość wykonanej pracy, olbrzymią ilość wyników pozbieranych z rożnych badań i rożnych źródeł danych. Materiału jest wystarczająco dużo by poprowadzić roczne seminarium i co tydzień referować po 30 stron z raportu gęsto usianego tabelami, wykresami i danymi. Raport jest też bardzo estetycznie złożony, miło się go ogląda.
  • Z różnych powodów bardzo interesuje mnie informacja jak wygląda liczba urodzeń (emerytury, dostępność szkół dla moich dzieci, perspektywa rozwoju gospodarczego). Jest on wyrażana czasem interesującym współczynnikiem,,dzietność kobiet’’. Kilka ciekawych informacji o tym współczynniku znaleźć można w rozdziale 3,4. Do roku 2004 dzietność miała tendencje spadkową, spadł do poziomu 1.2 ale w ostatnich latach można dopatrzyć się zmiany i wzrost dzietności. Znaleźć można też informacje o tym jaka część młodych chce mieć lub nie chce mieć dzieci, jaka część ma problemy z płodnością, świetne dane.
  • Interesujące są też dane opisujące postrzeganie mediów i ich hierarchia ważności. Na stronie 256 znaleźć można informacje o tym jak wygląda ocena ważności mediów dla osób w różnych grupach wiekowych. Jest też informacja o tym ile godzin różne grupy wiekowe spędzają w Internecie, czy publikują zdjęcia, wpisy w Wikipedii, blogi itp.
  • W rozdziale 9 jest dużo informacji n.t. zdrowia, nie tylko młodych polaków. Np na stronie 316 jest bardzo interesująca tabelka pokazująca na co najczęściej ludzie umierają w UE w danym wieku. Interesujące jest zobaczyć kiedy największe żniwo zbierają choroby nowotworowe a kiedy choroby układu krążenia. Interesujące są też informacje o zdrowiu psychicznym młodzieży dziś i kiedyś (np. nie spodziewałem się że procent zdiagnozowanych nerwic jest podobny w grupie do 18 lat, 19-29 jak i 30 i więcej).
  • W rozdziale 10 można znaleźć wiele ciekawych informacji o poszanowaniu prawa. Np na stronie 349 jest informacja jaka część 19-latków uważa że można łamać prawo jeżeli uchodzi to bezkarnie. Ilu? Pomijając osoby które odpowiedziały ,,nie zastanawiałem się nad tym’’ połowa 19-latków która się nad tym zastanawiała uważa że można łamać prawo.

Takich smaczków jest więcej, zachęcam więc do dokładniejszej lektury.

 

Co uważam że można zrobić lepiej

  • Forma. Jeżeli twórcy raportu naprawdę chcą by młodzi do niego zajrzeli powinni opracować go w formie przyswajalnej. Młodzi są uzależnieni od form krótkich. Społeczeństwo twittera może rozbić się o 426 stronicowy raport. Co więcej, raport bez hiperlinków, żadnego ułatwiania w wyszukiwaniu interesujących rzeczy z morza liczb i obrazków. Wiele rzeczy jest łatwiej przyswajalne jeżeli rozbije się je na małe części, raporty też tak mają. W Internecie można co prawda znaleźć 26 stronicowe streszczenie, ale jest to 26 stron litego, bałaganiarsko złożonego tekstu, lepiej już przeczytać raport.
  •  W raporcie znaleźć można kilka grafik, które nie wiadomo jak odczytać. Rodzą one więcej pytań niż odpowiedzi. Najmniej czytelną jest poniższa

Jest pionowa oś czasu, w środku której zdarzyła się jakąś zmiana społeczna. Pola A, B i C to różne grupy (w raporcie używane jest słowo ,,pola’’ które kojarzy się bardziej z obszarem niż punktem, co utrudnia zrozumienie sąsiadującego tekstu) przed zmianą społeczną ale nie wiadomo co jest na osi poziomej. Na rysunku są niebieskie punkty łączące coś z czymś ale nie znalazłem żadnego opisu w tekście co te linie mogą oznaczać. Zupełnie nie wiem co ten rysunek ma pokazywać

  • W raporcie znaleźć można rysunki umieszczone w pobliżu danych do których te rysunki zupełnie nie pasują. Nie sposób też być pewnym co jest pokazywane na rysunku ani po co. Przykładowo

Pierwszy rysunek raportu pokazuje zmiany w nastawieni do systemu przedstawicieli rocznika ‘57. Jeden raz pytani byli o nastawienie w wieku 30 lat a raz po 10 latach gdy mieli lat 40 (raport miał być o młodzieży, ale co tam). W tekście napisane jest ze pod koniec pierwszej dekady przemian ,,większość miała pozytywny stosunek ale nie nosił on znamion entuzjazmu”. Jak odczytać brak entuzjazmu z tego rysunku nie mam pojęcia. Rysunek pokazuje jakieś zmiany ale efekt ,,zmian w systemie” nakłada się na efekt różnicy wieku. Te 10 lat doświadczenia zmienia ludzi. Zmienia nastawienie do system bez względu na to czy jakieś przemiany zachodzą czy nie.

W przypisie napisane jest, że uwzględniono dane osób poddanych dwukrotnemu badaniu. To sugerowałoby, że porównywane są odpowiedzi tych samych osób, tylko tych osób które odpowiedziały na pytania i w roku 1988 i w roku 1998. Ale pod rysunkiem jest napisane że liczność próby w tym drugim badaniu jest 4 razy mniejsza. Z tego zdania wynika więc, że w nowszym badaniu procenty liczone są tylko dla co czwartego z poprzednio ankietowanych. To są dwie sprzeczne informacje i trudno odgadnąć która jest prawdziwa.

Poniżej rysunku są komentarze do liczb, które do niczego nie pasują. Zgodnie z tym opisem 25\% osób ,,czuje sie jak ryba w wodzie”. Niestety ja nie potrafie tych 25\% wypatrzeć na rysunku. Takie niespojności utrudniają czytanie i obniżają zaufanie. Wolalbym mniej tekstu, mniej poetyckich sformułowań ale wieksza czytelność.

Rysunek ma więcej mankamentów. Trudno uzasadnić dlaczego odpowiedź ,,obojętne” jest po prawej stronie skali, chyba tylko po to by uniemożliwić porównanie procentu odpowiedzi ,,negatywne”.

Brak też informacji o źródle, informacji skąd są te dane,, kto robił te analizy. Przypomina się scena z ,,Rzezi” Polańskiego gdy to Alan pokazuje jak się walczy z niechcianą informacją, trzeba skupić atak na niespójności źródeł, niepewności skąd są dane. Dobry raport powinien być na taki atak odporny.

  • Legendy i opisy rysunków mogłyby być bardziej staranne. Jeżeli przygotowanie wykresu trwa kilka godzin to warto poświęcić jeszcze kwadrans by ten wykres dobrze opisać. Inaczej cala praca włożona w przygotowanie wykresu może pójść na marne. Przykładowo

 

Zrobiłem małe badanie dotyczące percepcji tego wykresu przez różne osoby. Po spojrzeniu na wykres pytałem czym na tym wykresie charakteryzuje się Polska. W 4 odpowiedziach na 5 usłyszałem, że w Polsce badani ludzie są starsi.

Problem polega na tym że widząc tytuł ,,udział młodzieży..” i widząc legendę z wartościami 18, 20, 22 automatycznie przyjmuje się ze legenda opisuje lata. Im bardziej niebiesko tym starsze osoby, Polaka jest na ciemno niebiesko więc ludzie są starsi.

Oczywiście to pierwsze wrażenie, chwila refleksji na temat jak młodzież w Polsce może być starsza niż młodzież w Niemczech prowadzi do dysonansu poznawczego.

A okazuje się, że udział młodzieży jest prezentowany w procentach. Wystarczy dodać do legendy znaczek \% by uniknąć pomyłki. Oczwiście możemy chcieć poznbyć sie nieuwaznych czytelników, ale lepiej wybrac ścieżkę ułatwiania jak to tylko możliwe intuicyjnego zrozumienia rysunku.

  • Więcej czasu poświęcę temu obrazkowi

Widząc taki rysunek stawia się czytelnikom pytanie: jakie są różnice pomiędzy tym co ważne dla 19-latków dziś i 30 lat temu.

Zanim przejdziemy dalej warto samemu spojrzeć na ten obrazek i zastanowić się co na nim widać.

Jakie są różnice i jakie podobieństwa.

Poniżej przedstawię najpierw wnioski znalezione w raporcie a później wnioski, które znalazłem w prezentacji dołączonej do raportu.

A później pokażę jeszcze moje wnioski z tych danych, ale warto najpierw samemu spojrzeć na ten wykres i zastanowić się co to widać.

Ok, to zacznijmy od tego co o tym rysunku jest napisane w raporcie

,,Najprostsze porównywalne dane ukazują niezmiennie wysoką w hierarchii ważności pozycję rodziny – udane życie rodzinne jest podkreślane jako sprawa bardzo ważna zarówno przez dawne, jak i przez nowe młode pokolenie (przez nowe nawet bardziej). ….. Drugie podobieństwo dotyczy relatywnie niskiego wartościowania spokojnego życia. W innych kwestiach charakterystyki dawnej i nowej młodzieży wyraźnie się rozchodzą.’’

A teraz wniosek z prezentacji
,,Widoczna jest mentalna odrębność dzisiejszego młodego pokolenia’’

No dobrze, a teraz mój komentarz.

Pierwsza rzecz, która się rzuca w oczy to, że dla dzisiejszych 19-latków wszystko jest ważniejsze. To w podejrzliwym umyśle zapala pierwsza lampkę: problem z kalibracją wyników z dwóch badań.

Gdy zsumuje się wszystkie procenty dla dzisiejszych 19-latków otrzymamy 600\%, gdy zsumuje sie procenty dla 19-latków sprzed 30 lat to otrzymujemy 300\%. Hmm, zapala sie druga lampka. Ponieważ nie ma informacji jak te dane były zbierane, może w ankiecie dało się zaznaczyć kilka odpowiedzi. Ale w starej wersji maksymalnie 3 a w nowej maksymalnie 6? (btw: rysunek 2.2 ma podobne pytania, odpowiedzi sa w skali b. ważne, ważne, mało ważne, itp, ale procenty z rys 2.2 nie zgadzaja się z rys 2.1).

Coraz mniej wierzę w poprawną kalibrację tych wyników. Ale nie wszystko stracone. Zamienimy wartości na rangi, czyli zamiast porównywać procenty, które nie wiadomo co oznaczają, porównajmy to na którym miejscu w hierarchii wartości dana wartość się znajduje

[Rys 1. Alternatywne przedstawienie danych z rysunku 2.1 raportu. Zamiast wartości procentowych przedstawiono pozycje w hierarchii ważności. Przy nazwach wartości w nawiasach podano zmianę w rankingu ważności. Dodatnia wartość oznacza ze dana wartość awansowała w hierarchii.]

Co na tym rysunku ja widzę? Większość wartości ma podobna pozycję w rankingach młodzieży i dzisiejszej i 30 lat temu. Największa zmiana dotyczy ,,spokojnego życia” które spadło o 4 pozycje w dol. Tak wiec mamy wniosek zupełnie odwrotny niż oba prezentowane i w raporcie i w prezentacji!

 

Podsumowując. Raport ,,Młodzi 2011” to źródło wielu interesujących informacji. Choć nie zawsze zgadzam się z autorami do interpretacji prezentowanych liczb. Dobra robota! Więcej takich raportów! Najlepiej krótszych i uważniej przygotowanych.

 

Ankiety a manipulacja

Następne kilka wpisów poświęconych będzie różnym raportom ,,o stanie Świata”’. Będzie technicznie więc na rozluźnienie dziś coś lekkiego.
Jakiś czas temu miałem przyjemność poprowadzić krótki ,Lunch & Learn’ dla zainteresowanych pracowników Netezza R&D IBM Polska (z którymi czasem coś robię). Prezentacja dotyczyła zagadnień związanych z wizalizacją danych, kilka typowych przykładów np. opisywanych przez Tufte’go jak i kilka lokalnych przykładów z naszego podwórka. Ponieważ uważam, że wizualizacje tworzy sie przede wszystkim po to by przedstawić  zależności, które są w danych, bez przekłamań i zniekształceń (estetyka jest ważna ale nie może być argumentem w zniekształcaniu zależności) to staram się też przekonywać, że błędy w wizualizacjach wynikają częściej z niewiedzy niż świadomej manipulacji.

Manipulacja wykresem ma tę ,,wadę’’, że osoby znające techniki manipulacji zauważą i zdemaskują próbę manipulacji. Więc przekornie można powiedzieć, że jeżeli już ktoś bardzo chce manipulować wynikami to znacznie lepiej manipulować danymi niż sposobem ich prezentacji (btw: Oczywiście nie na leży manipulować ani jednym ani drugim).

Wczoraj kolega przesłał mi link do artykułu pokazujący przykład maniplacji na etapie przygotowanie formlarza dla ankiet.
Link do artykułu znajduje się tutaj.
W artykule pokazywany jest przykład jak dobierając listę odpowiedzi w ankietach ,,zaprojektować’’ wynik.

Celem ankiety miało być określenie jaki procent Polaków ogląda telewizję powyżej 4 godzin. Odpowiadając ankietowani mieli kilka opcji do wyboru. W zależności od wyboru listy możliwych odpowiedzi uzyskuje się różne wyniki.

z11022341x

W cytowanym artykule jest sporo wody na ten temat, ale w skrócie różnice wynikach wynikały stąd, że pytanie było niejasne, pytano o rzecz o kórej większośc pytanych nie wiedziała (skąd mają wiedzieć jaka jest średnia danej cechy w populacji, wiedzą ile oni oglądają telewizji) lub której nie potrafi precyzyjnie ocenić (trudno precyzyjnie ocenić ile się czasu przeznacza na pewną aktywność, chyba że chodzi o godziny w pracy). Dlatego też część osób wybierała mniej lub bardziej losową odpowiedź. Projektując formularz możemy tą część losowych odpowiedzi przenieść tam gdzie chcemy np. w celu uzyskania oczekiwanych wyników.

Ok, nie jest celem tego wpisu szerzenie klimatów ,,statystycy nas okłamują, strzeżcie się’’. Celem jest pokazanie jak ważna jest dostępność surowych danych a nawet informacji jak wyglądały formlarze używane do zbierania danych. Celem jest pokazanie, że ilość czasu czy pieniędzy przeznaczona na analizy czy na szukanie i pytanie ankietowanych nie przekłada się na jakość wyników.

Aby mieć wyniki wysokiej jakości trzeba dbać o możliwie największą przejrzystość procesu projektowania, przeprowadzania i analizy.

 

Nauka spod znaku kultu cargo, a liczenie średniej i odchylenia standardowego

Jakiś czas temu współpracujący doktorant przypomniał mi o terminie ,,nauka spod znaku cargo’’ powtarzjąc to wyrażenie w odniesieniu do polskiej nauki kilkanaście razy w ciągu tygodnia. ,,Nauka spod znaku cargo’’ to nazwa rozdziału z biografii Richarda Feymana ,,Pan raczy żartować, panie Feyman’’ (rewelacyjna książka) nawiązującego do kulty cargo, bardzo interesującego zjawiska (zobacz więcej np. tutaj http://en.wikipedia.org/wiki/Cargo_cult). We wspomnianym rozdziale Feyman piętnuje pseudonaukowe zachowania polegające na powtarzaniu pewnych czynności, które wykonują naukowcy, bez zrozumienia po co sie je wykonuje. W przypadku przedstawionym w książce zabrakło krytycznego spojrzenia na wyniki eksperymentu i dryfowanie publikowanych wyników w kierunku błędnej ale ,,powszechnie uznanej za prawdziwą’’ wartości.

Zastanawiałem się czy można na poletku statystyki znaleźć przykład nauki spod znaku cargo. Okazuje się, że przykładów jest co nie miara. Cała statystyka jest traktowana przez pewne środowiska jak zbiór rytuałów w wyniku których bogowie zsyłają odpowiedź: ,,statystycznie istotne (publikować)” lub ,,nie istotne statystycznie (nie publikować)”. W tej religii czci się liczbę 0.05, współczynnik korelacji Pearsona a starsi szamani przekazują sobie wiedzę jak wywołać, przepraszam, wykonać regresję logistyczną. W tych zaklęciach nie ma nic złego o ile stosuje się świadomie. Złe jest jedynie używanie tych zaklęć bezkrytycznie. Łatwo kwestionować sensowność używania korelacji Pearsona lub poziomu istotności 0.05, więcej frajdy będzie jeżeli zmierzymy się z rytuałem tak podstawowym jak opisywanie danych poprzez podanie średniej i ochylenia standardowego, czyli charakterystyk zakorzenionych bardzo bardzo głęboko.

 

Jakiś czas temu na seminarium licencjackim omawialiśmy raport dotyczacy związków pomiędzy paleniem papierosów a alergiami, a dokładniej artykuł ,,Problem inhalacji dymu tytoniowego w badaniach ECAP jako zagadnienie zdrowia publicznego’’ z ktróry można znaleźć pod adresem https://ckp.wum.edu.pl/sites/ckp.wum.edu.pl/files/periodyk_nr_1-2011_0.pdf.

W tym artykule znaleźć można zdanie ,,Palenie tytoniu w Polsce wśród osób, które zadeklarowały palenie przynajmniej przez rok, zwykle rozpoczyna się około 18. roku życia (m = 17,77 +- 3,06).‘’

Odgadnąć można, że w nawiasach podano średnią i odchylenie standardowe. Reszta tego wpisu ma na celu uzasadnienie dlaczego liczenie i prezentowanie średniej i odchylenia standardowego dzisiaj to zły pomysł choć kiedyś było dobrym pomysłem.

Dlaczego liczenie średniej to zły pomysł?

Zacznijmy od tego co czytelnik chciałby zobaczyć w nawiasie. Poszukiwany jest liczbowy opis przeciętnego wieku w którym rozpoczyna się palenie (o ile się pali) wraz z informacją jak bardzo wiek rozpoczęcia palenia różni się od wielu przeciętnego. Liczy się tylko to by ten opis był zrozumiały dla czytelnika i by pozwalał na zrozumienie kiedy ludzie zaczynają palić.

  •  Najczęściej średnią pokazuje się wierząc, że przedstawia ona wartość najbardziej typową. W pewnych sytuacjach to jest prawda, ale nie zawsze. Jeżeli analizowana cecha ma rozkład niesymetryczny, np. można spodziewać się wartości znacznie większych od przeciętnych, to średnia zamiast wskazywać na wartości typowe będzie przesunięta w kierunku wartości nietypowych (bardziej niz np. mediana). W przypadku wieku rozpoczęcia palenia mamy do czynienia z potencjalnie niesymetrycznym, prawostronnie skośnym rozkładem. Przykładowo, mając grupę czterech osób, które zaczeły palić w wieku 12 lat i jednej, która zaczeła palić w wieku 52 lat, średnia wychodzi 20 lat. W żaden sposób nie opisuje ona wartości typowej.
  • Kolejna kwestia dotyczy grupy na której liczy sie średni wiek. W opisywanym przykładzie średnia liczona jest tylko dla osób, które palą. Ale ankietowane są osoby w różnym wieku. W przedstawianym badaniu wywiad przeprowadzany w grupie osób dorosłych, w grupie nastolatków i w grupie dzieci. Zróbmy mały eksperyment myślowy. Zapytajmy tysiąc 6latków w jakim wieku zaczęły palić papierosy. Ponieważ (mam nadzieję) 6latki nie palą zazwyczaj papierosów, np. tylko dwójka z nich odpowiedziała by, że juz pali papierosy. Po uśrednieniu ich odpowiedzi okazałoby się, że średnio dzieci palą przed 6 rokiem życia. Ok, czyli średni wiek rozpoczęcia palenia zależeć będzie od tego jaka jest struktura wiekowa grupy którą pytamy. Liczenie średniej tak po prostu z wszystkich ankietowanych osób nie ma sensu.
  • I jeszcze dochodzi kwestia tego jak zmienia się wiek rozpoczynania palenia z czasem. Może tak być, że osoby urodzone w latach czterdziestych zaczynały palić w innym wieku niż osoby urodzone w latach sześciesiątych czy osiemdziesiątych. Obserwując reakcję osób referujacych ten artykuł łatwo zauważyć, że średnią 18 lat odnoszą do obecnego pokolenia młodych palaczy, odczytują ją błędnie jak stwierdzenie, że teraz młodzi rozpocznie palenie w wieku 18 lat. Tymczasem jeżeli wrzucimy wszystkich ankietowanych do jednego worka to średniej nie można nijak przypisać do aktualnego młodego pokolenia.

Po co więc liczono średnią dla wszystkich badanych? Czyżby z przekonania, że w prawdziwych aktykułach naukowych podawane są średnie więc i w tym tak być powinno?

 

Dlaczego liczenie odchylenia standardowego to zły pomysł?

To zaskakujące jak często w artykułach podawane jest odchylenie standardowe, choć wzór na policzenie odchylenia standardowego jest wyjątkowo trudny w interpretacji (pierwiastek, kwadraty, iloraz itp). Ok, odchylenie to jakaś ocena parametru skali, im większe odchylenie standardowe tym większe różnice pomiędzy średnią a wartościami. Ale poza takimi mglistymi intuicjami mało kto potrafi powiedzieć co to znaczy odchylenie standardowe=3. W artykułach podaje się więc współczynniki, których interpretacja jest niejasna, tylko dlatego, że kiedyś tak robiono. Są oczywiście znacznie lepsze oceny parametru skali, takie jak rozstęp międzykwartylowy i kwartyle, które mają łatwą do wyjaśnienia interpretację (o tym za chwilę). Odchylenie standardowe nie ma jasnej interpretacji więc trudno znaleźć powód by je podawać opisując wiek rozpoczęcia palenia.

 

Dlaczego kiedś to był dobry pomysł?

W kulcie cargo kluczowym problemem jest kopiowanie wzorców, które w pewnym kontekście mają sens. Ale są kopiowane w miejsce / czas gdzie sensu nie mają. Powyżej napisałem dlaczego liczenie średniej i odchylenia standardowego nie mają sensu. W przypadku odchylenia standardowego ta krytyka dotyczy praktycznie wszystkich cech. Pytanie więc zostaje kiedy te parametry miały sens, skoro były używane na tyle często, że stały się utrwalonym rytułałem.

(Dawno dawno temu) Około 80 lat temu, gdy na świecie nie istniały jeszcze komputery, aby porównywać grupy obiektów używało się testu t-studenta i/lub analizy wariancji. Mając kartkę i długopis można nawet dla dużego zbioru danych łatwo policzyć średnią i odchylenie standardowe w grupach. Mając te dwie wartości i tablice statystyczne można użyć testu t-studenta by ocenić czy różnica pomiędzy średnimi jest duża czy nie. Nie było to doskonałe narzędzie, ale nie było innego. Statystycy byli wyedukowani i wiedzieli kiedy jest sens pokazywać odchylenie standardowe a kiedy nie. Ponieważ test t-studenta był w pewnych kręgach bardzo często wykonywany, dlatego rzucając okiem na średnie i odchylenia standardowe można na pierwszy rzut oka ocenić na ile grupy się od siebie różnia i wyrobić sobie orientację jak wygląda rozkład zmiennej w grupach. Ale 80 lat to szmat czasu. Dzisiaj mamy wiele narzędzi do opisu rozkładu interesujących nas zmiennych. Nie ma więc żadnego uzasadnienia by wpisywać do tabelek opisujących rozkład zmiennej odchlenie standardowe.

Wracając do zdania od tórego zaczeliśmy ten wpis, to co jest ciekawe to kiedy zaczyna się palić. Czy to jest tak, że nastolatki sa podatne na wpadnięcie w nałóg i jak już przekroczy barierę, powiedzmy 22 lat to już się nie zaczyna palić, czy też można zacząć palić w każdym wieku. Aby spróbować odpowiedzieć na to pytanie zobaczymy jak rozkład wieku w którym zaczyna się palenie zależy od wieku osoby którą pytamy.

[Rys 1] Na osi OX zaznaczono rok urodzenia ankietowanej osoby, dla każdej grupy rowieśników wyznaczono wartość minimalną i maksymalną (jasne małe kropki), medianę a więc wiek przed którym rozpoczyna palenie 50% osób, które będą palić, kwantyle 10% i 90%, a więc przedział czasu w którym rozpoczyna palenie 80% pytanych. Czarna linia pokazuje maksymalny wiek ankietowanych w chwili badania. Gdy pytamy wśród osób młodych nie dziwi nas (już), że mediana i kwantyle są niżej, ale co ciekawe w grupie osób powyżej 30 roku życia kwantyle się stabilizują. 80% osób zaczyna palić pomiędzy 15 a 22-23 rokiem życia. Zdarzają się też bardzo wczesne albo bardzo późne początki.

 

Na koniec należy uczciwie podważyć sensowność używania danych o wieku rozpoczęcia palenia na podstawie ankiet. Przyjmując, że fakt palenia albo wieku rozpoczęcia palenia może być wstydliwy dla pewnych osób należy spodziewać się pewnej liczby nieprawdziwych odpowiedzi. Aby mieć wartościowe dane tego typu zmienne należy zbierać inaczej niż w postaci ankiety. Ale to temat na inny wpis.

Pointa.

Cytując Franka Harella, można zebrać dane w eksperymencie za 10 milionów dolarów, ale jeżeli na statystykę przeznaczy się 1000 dolarów to otrzyma się wyniki warte 1000 dolarów.

Jeżeli jakieś zależności nie są oczywiste to nalezy przyznaczyć więcej czasu i środków by wyjasnić zleżności które są w danych.

 

Anna Maria, dobre rady dla córek i młodych naukowców oraz krótka dyskusja nad tym co się dzieje z oczekiwaną długością życia?

Anna Maria prowadzi interesujący blog o nazwie AnnMaria’s Blog. W jednym z ostatnich wpisów ,,Tips for new programmers” napisała ,,Not being nearly as cool as him, I decided I’d just throw out a random tip now and then, since statisticians like anything with the word >>random<< in it.’’. To tyle tytułem wprowadzenia, dlaczego zamiast o danych będę dziś pisał o wpisach z innego blogu.

W ostatnich kilku dniach pojawiły sie na blogu Anny Marii dwa wpisy, które moim zdaniem warto przeczytać.

Pierwszy nawiązuje tematem do dyskusji, którą prowadziliśmy o wieku emerytalnym i na temat wydłużającej sie oczekiwanej długości życia. Pokazywałem przed świętami wykresy przedstawiające jak zmienia się oczekiwana długość życia. Opierałem się na danych z bazy mortality.org. Jak widzieliśmy prognozy są takie, że oczekiwana długość życia się wydłuża z dekady na dekadę. Ale jak również można było zauważyć, wydłużanie się oczekiwanej długości życia jest w (znacznej?) części efektem mniejszej śmiertelności wśród noworodków i małych dzieci. Sto lat temu kilkanaście procent dzieci nie dożywało wieku młodzieńczego. Takie statystyki są dziś nie do pomyślenia w cywilizowanych krajach. Jeżeli jednak interesuje nas krzywa przeżycia w przedziale wieku około emerytalnego to informacja o wydłużającej się oczekiwanej długości życia może nie mieć nic wspólnego z perspektywami na długą emeryturę. I właśnie tego dotyczy interesujący wpis ,,Are we living longer – or not?” w którym autorka uzasadnia tezę, że krzywa przeżywalności po 65 roku życia się nie zmieniła się istotnie przez dziesięć lat (porównywane są okresy to 1971 i 1980). Jak widać prognozy i opinie są bardzo różne. Prezentowane przez AM wyniki wspierają hipotezę o niezmieniającej się umieralności w późniejszych latach, popularna opinia mówi że będziemy żyć o kilka lat dłużej, a spotkać też można bardzo optymistyczne głosy, np. na TED taks słyszałem dziś stwierdzenie: ,,przeżyjcie jeszcze 20 lat a będziecie żyć do 150 lat” (bo na to pozwolą postępy w biotechnologii).

Ok, (mam nadzieję) pożyjemy (mam nadzieję) zobaczymy.

Drugi wpis ma prowokacyjny tytuł ,,Advice for Daughters on Succeeding in the Tech World”. Prowokacyjny, ponieważ w dobrych radach cioci Anny nie ma w nim nic specyficznego dla płci pięknej, można je powtórzyć każdej osobie myślącej o swojej edukacji (obowiązkowa lektura dla gimnazjalistów, może mieć lepszy efekt niż stypendia za uczenie się matematyki). Szczególnie spodobała mi się druga rada ,,Learn to say >>Fuck you<< and say it both openly (rarely) and to yourself (often)’’. Myślę, że to świetna rada dla młodych ludzi próbujących robić w nauce rzeczy, które się nie podobają ich starszym kolegom. Hasło ,,rozumiem dlaczego możesz tak uważać” zdobyło moje serce.

Jeżeli kiedyś pojawi się tutaj blogroll (czy jest jakieś polskie tłumaczenie tego słowa?) to blog Anny Marii z pewnością znajdzie w nim miejsce.

To tyle w temacie losowego wpisu.

 

I żyli długo i szczęśliwie…

Kilka dni temu popełniłem wpis opisujący prawdopodobieństwo dożycia wieku emerytalnego. Przy okazji pojawiła się dyskusja nt. tego czy oczekiwana długość życia będzie się w Polsce wydłużała czy nie (zobacz ten wpis).
Łatwo być adwokatem optymistycznych jak i pesymistycznych scenariuszy, gdy opiera się wyłącznie na przypuszczeniach. Temat nie dawał mi spokoju, więc znalazłem dane na podstawie których zobaczmy jak wygląda  oczekiwana długość życia w Polsce i w innych krajach. Może zobaczymy czy istnieje i czy dotarliśmy do maksymalnej średniej życia a jeżeli tak to gdzie ona jest.

Dane z których korzystam pochodzą z bazy danych http://www.mortality.org/. W tej bazie danych dostępne są tablice życia i inne pochodne miary zebrane dla 37 krajów. Tablice życia są dostępne dla pewnej liczby ostatnich lat, dla różnych krajów długość tej historii jest różna. Najdłuższa historia jest dla Szwecji i sięga ponad 200 lat, dla Polski mniej więcej 50 lat.

Mając te dane zobaczmy co się dzieje z oczekiwaną długością życia w różnych krajach w ostatnich 50 latach (zbiór danych life expectancy). Zobaczmy wykres poniżej. W tym zestawieniu Polska charakteryzuje się najniższą oczekiwaną długością życia. Oczywiście są kraje w których żyje się krócej, ale nie znalazły się w tym zestawieniu. Ma to tę zaletę, że przed nami prawdopodobnie wydłużająca się średnia długość życia, nie widać na razie w tych prognozach sufitu. W większości krajów współczynnik wzrostu wynosi około 3 lat średniej życia na dekadę.

[Wersja png rysunku. Rys 1. Oczekiwane średnie życia mężczyzn dla wybranych 11 krajów w ostatnich 50 latach. ]
Dla niektórych krajów mamy dane ze znacznie większej liczby lat. Zobaczmy dla mniejszej grupy krajów jak wygląda zmiana oczekiwanej długości życia w szerszym przedziale czasu. Dynamika zmian długości życia jest różna w różnych krajach, w Szwajcarii czy Szwecji widać mniej więcej stały wzrost oczekiwanej długości życia.


[Wersja png rysunku. Rys 2. Oczekiwane średnie życia mężczyzn dla wybranych 5 krajów w ostatnich 140 latach. Kolory jak na Rys 1.]

Nie jestem zwolennikiem średnich i pracowania na wartościach oczekiwanych. Najchętniej zobaczyłbym do jakiego wieku dożywa 50% mężczyzn. To znacznie ciekawszy współczynnik, który można łatwiej zinterpretować. Problem jest tylko taki, że ponieważ taki ,,połowiczny rozpad’’ dla mężczyzn będzie wynosił około 70 lat więc by go policzyć dokładnie potrzebujemy danych z tablic życia wstecz o ponad 70 lat. Dla Polski takich danych nie mam, ale mam dla Szwajcarii. Na poniższym rysunku porównuję trzy współczynniki, mogące opisywać długość życia:

  1. Wiek jakiego dożywa 50% mężczyzn urodzonych w roku X
  2. Średni czas życia chłopców urodzonych w roku X

Co ciekawe jednak, współczynnik 1 jest wyższy niż pozostałe dwa. Dlaczego? Argument, który przychodzi do głowy jest taki, że długość życia to zmienna lewostronnie skośna. Tz. jest okres w którym najwięcej osób umiera (okolice 70 roku), ale znacznie więcej jest osób które umarło 65 lat wcześniej, niż 65 lat później. Dla skośnych rozkładów średnia nie pokrywa się z medianą, a w tym przypadku co jest ciekawe wiek którego dożyje 50% mężczyzn jest wyższy niż oczekiwany czas życia w chwili narodzin. Oczywiście w międzyczasie wydarzyły się dwie wojny światowe, które jakoś wpłynęły na skośność rozkładu czasu życia. Dla Szwajcarii jednak w mniejszym stopniu niż dla sąsiednich krajów. Do tego dochodzi wysoka śmiertelność najmłodszych. W prezentowanym okresie czasu w pierwszych dwóch latach życia umierało około 15% chłopców.

Pointa.: Nie dość że średnia życia rośnie, to ponad połowa mężczyzn będzie żyła dłużej niż ich oczekiwana długość życia.

Wreszcie coś optymistycznego na święta.


[Wersja png rysunku. Rys 3. Oczekiwany lub połówkowy czas życia mężczyzn w Szwajcarii. Na osi OX przedstawiłem dane dla których połówkowy czas życia czy średni czas życia mogłem policzyć na podstawie danych historycznych a nie szacować. Dlatego oś OX kończy się w okolicach roku 1920.]

 

Wiek emerytalny, myślenie kategoriami przyszłości a moje szanse na zwiedzanie świata na emeryturze

Co jakiś czas opinia publiczna podgrzewana jest nowymi pomysłami na system emerytalny. Przy okazji różni eksperci przekonują, że zmiany są potrzebne (trudno się z tym nie zgodzić) a proponownay kierunek jest dobry lub niedobry, zależy już od eksperta (hmmm, opinie mieć łatwo, tym bardziej gdy nie jest ona związana z twardymi danymi). Czytałem kilka dni taki nasączony optymizmem artykuł. Polecam szczególnie rozdział ,,Myśleć kategoriami przyszłości’’ w którym autorka łagodzi obawy związane z podniesionym wiekiem emerytalnym  nadziejami na kilkuletnie wydłużenie się średniej życia (hmm, wydaje się że docieramy do pewnych granic) oraz argumentuje, że życie jest i będzie coraz łatwiejsze, przytaczając wiele argumentów za tym np. ,,że w końcu przybędzie tyle placówek opieki nad małymi dziećmi, że wszyscy chętni znajdą w nich miejsca’’  (ok, to tzw złośliwy cytat, ale wszystko wskazuje na to, że ujemny przyrost naturalny spowoduje, że kiedyś miejsc dla dzieci wystarczy, ale czy dla wszystkich chętnych? w to wątpię). Jasne jest, że ten system trzeba zmienić, ale nie ma co mydlić ludziom oczu, że zmiana będzie bezbolesna.

Ale do rzeczy. Pytanie, które mnie zastanowiło to jaka jest szansa, że ja (czy raczej moi rówieśnicy, statystyka nie odnosi sie do jednostek) dożyję wieku emerytalnego oraz na ile lat emerytury powinienem rozłożyć wszystkie planowane pdróże po świecie. Nie mogąc znaleźć odpowiedzi na to pytanie (eksperci w argumentach skupiają się osobach starszych, którzy o emeryturze myślą więcej niż przeciętny trzydziestolatek, ok trzydziestodwuatek) stwierdziłem, że jest to świetny argument aby wykonać kilka wizualizacji.

Na stronach GUS znaleźć można tablice trwania życia (dla roku 2010 tutaj). Można przy odrobinie chęci wyciągnąć ze stron 57-60 dane dotyczące trwania życia na rok 2010 (te dane w pliku tekstowym znaleźć można tutaj). Użyję tych danych aby zilustrować szansę moich rówieśników na dożycie emerytury (tj. 67 lat, choć nie wiadomo jak ten wiek się zmieni za 30 lat). Należy zaznaczyć, że tablice trwania życia zmieniają się w czasie. Tendencja jest taka, że długość życia  się wydłuża, choć wymaga to bardziej zaawansowanej opieki medycznej (wyższe wydatki na opiekę medyczną, zdrowszy tryb życia). Nie wiadomo jednak czy ten trend w Polsce się utrzyma czy nie. Opisując szanse dożycia emerytury, przyjmuję poniżej, że struktura umieralności się nie zmieni, jest to dyskusyjne założenie, ale coś założyć trzeba.

Ok, więc jednym z często przytaczanych argumentów jest to, że nawet mężczyźni w wieku 60 lat maja przed sobą jeszcze wiele (średnio 18) lat życia. Niestety łatwiej jest dożyć 100 lat gdy ma się już 99, zobaczmy więc jak wygląda oczekiwana średnia długość życia w zależności ile lat już przeżyliśmy. Wiek moich rówieśników zaznaczyłem kolorem czerwonym.

[Rys 1. Zielone linie (każda linia to jeden rocznik) przedstawiają oczekiwaną długość życia (koniec linii) w zależności od aktualnego wieku (początek linii). Na czerwono zaznaczyłem 32latków, średni oczekiwany czas życia to 73.46 lata]

 

Te wyniki dotyczą tylko mężczyzn, którzy żyją średnio krócej niż kobiety, ale bliższa ciału koszula…. Jeżeli ktoś chciałby wygenerować podobne wykresy dla kobiet, może skorzystać z kodów w R, które umieszczone są na stronie tutaj.

No cóż, średnio będę na emeryturze ponad 7 lat. Przy czym średnia to dosyć kapryśna miara. I w tym przypadku nic nie mówi (tz może i jest przydatna by policzyć oczekiwane wydatki państwa, ale z perspektywy trzydziestodwulatka to wciąż nic nie wiemy).

Więc zamiast średniej zobaczmy jakie jest prawdopodobieństwo, że  moi rówieśnicy dożyją emerytury albo że przeżyją 10 lub 20 lat na emeryturze.

 

[Rys 2. Funkcja przedstawiająca prawdopodobieństwo (oś y) dożycia wieku x (oś x) dla mężczyzn mających dziś 32 lata. Na niebiesko zaznaczono punkty odpowiadające wiekowi 67, 77 i 87 lat.]

Hmm, prawdopodobieństwo, że nie dożyję emerytury to 1:4, a że dożyję to 3:4 (mniej więcej, nie ma co kłócić się o 2%). Prawdopodobieństwo spędzenia 10 lat na emeryturze to 1:2, można by rzucić monetą, choć trudno uzasadnić, że wynik rzutu monetą jest skorelowany z długością życia.

Pointa? Nie ma co czekać do emerytury na zwiedzanie świata.

 

Zobaczmy jeszcze jakie są szanse dożycia do emerytury nowonarodzonych chłopców.

 

[Rys 3. Opis jak Rys 2 ale przedstawia prawdopodobieństwa dla nowonarodzonych chłopców.]

 

Ankiety studenckie a Wstęp do programowania, podejście imperatywne

Nawiązując do wczorańszego wpisu, zobaczmy jak wygląda rozkład wyników ankiet z ćwiczeń i laboratoriów z kursu ,,Wstęp do programowania”. Wybrałem ten kurs ponieważ miał on najwięcej krup ćwiczeniowych, uniknę w ten sposób spekulacji który ćwiczeniowiec jest którą kropką.

Co też z takiego wykresu można odczytać?

  1. Generalnie żadna z grup nie została źle oceniona, prawie wszystkie średnie powyżej 5.
  2. Zaskoczeniem dla mnie jest to, że zajęcia są tak różnie oceniane, wydawałoby się że skoro to ten sam kurs to ocena zajęć powinna być bardziej podobna. Wygląda jednak na to, że ocena zajęć mimo wszystko bardzo zależy od oceny prowadzącego.
  3.  Będąc studentem chciałbym zobaczyć nazwiska przynajmniej tych trzech najwyżej ocenionych prowadzących (czyli jednak top 25%). Te osoby jak widać naprawdę wykonały dobra pracę skoro ten sam kurs prowadziły wyraźnie lepiej niż inne.
Czy waszym zdaniem taki wykres z nazwiskami pierwszej trójki byłby użyteczny? Czy są jakieś powody dla których takich wykresów lepiej nie pokazywać?