Trendy wśród młodzieży w odpowiedzi na pytanie: palenie albo zdrowie

 

Dzisiejszy wpis poświęcony będzie próbie odpowiedzenia na pytanie, czy palenie jest coraz bardziej czy coraz mniej popularne. Zacznę od krótkiej dygresji dotyczącej pułapek zastawionych na beztroskich analityków, a następnie przedstawię swoje wyniki. Pokażę wyniki, wspierające tezę, że stopniowo coraz mniej osób zaczyna palić, ale (niestety) zaczynają one palić coraz wcześniej. Następnie przyjrzymy się, jak te trendy wyglądają dla różnych płci. Okaże się, że wyglądają różnie.

Być może część z czytelników pamięta wpis ,,Nauka spod znaku cargo”, w którym krytykowałem liczenie średniej z roku rozpoczęcia palenia. Proponując podejście oparte o kwantyle zauważyłem, że większość z osób które palą (ponad 80%) zaczyna palenie pomiędzy 15. a 23. rokiem życia.

Odpowiedź na pytanie, kiedy palacze zaczynają palenie, to jedna sprawa, ale pytanie, ile osób pali i jak odsetek palących zmienia się w kolejnych latach, to sprawa zupełnie inna.
Badanie przeprowadzimy bazując na ankietach zebranych trzy lata temu od kilku tysięcy osób wybranych losowo z populacji Polaków pomiędzy 20 a 60 rokiem życia. Ankietowanych pytano między innymi: czy paliłeś przez przynajmniej rok, kiedy zacząłeś palić, czy paliłeś w ostatnim miesiącu. Policzenie proporcji osób, które odpowiedziały że paliły przynajmniej rok, wiele nam nie powie jeżeli nie będziemy wiedzieć w jakim wieku są ankietowani. Część z nich może nie paliła jeszcze roku w chwili przeprowadzania ankiety ale zacznie palić później. Przedstawienie proporcji palaczy jako funkcji roku urodzenia, też nie jest najlepszym pomysłem, ponieważ osoby starsze miały więcej czasu aby zacząć palić. Nie można porównać procentu osób, które przez przynajmniej rok w życiu paliły i mają 40 lat, i osób, które przez przynajmniej rok w życiu paliły, a mają lat 20. Spodziewamy się, że procent palaczy w drugiej grupie będzie niższy, dlatego że część z tych dwudziestolatków, którzy jeszcze nie palą, zacznie palić przed 40 rokiem życia. Nie ma co porównywać gruszek i jabłek.

Kilka dni temu, kiedy przedzierałem się przez tłumy na ,,Pikniku Naukowym Polskiego Radia i Centrum Nauki Kopernik” (w skrócie PNPRiCNK ;-) ) przyszła mi do głowy pewna myśl. Gdy się dłużej zastanowić jak porównywać jabłka z jabłkami, staje się to oczywiste. Nie mogę porównać procentu palących wśród osób urodzonych w 1965 z procentem osób palących urodzonych w 1985, ponieważ ci pierwsi żyją dłużej i mieli ,,więcej okazji” by zacząć palić. Ale mogę porównać procent osób, które zaczęły palić przed 25 rokiem życia, urodzonych w 1965, z procentem osób, które zaczęły palić przed 25 rokiem życia, urodzonych w 1985. Każda z tych grup miała 25 lat, by zacząć palić. Mając informacje z ankiety, o której wcześniej pisałem, dosyć łatwo takie procenty policzyć. Policzyłem je więc dla różnych ,,punktów odcięcia”. Najciekawsze jest porównanie odsetków dla 17-latków i 25-latków.

Poniższy wykres przedstawia procent osób, które mając 17 (czerwona) lub 25 (czarna linia) lat życia paliły przez przynajmniej jeden rok, jako funkcję roku urodzenia. Wokół krzywych przedstawiono punktowe przedziały ufności dla oceny tych proporcji na poziomie 95%.

Wyniki są ciekawe. Spójrzmy na czarną krzywą, odpowiada ona odsetkowi osób, które paliły przynajmniej rok przed ukończeniem dwudziestu-pięciu lat. Trend jest malejący, czyli dwudziestopięciolatków, którzy palili przez przynajmniej rok, jest coraz mniej. Przesuwając się o 23 lata w prawo na osi OX odsetek osób palących przez przynajmniej rok spadł o ponad 1/3 z 58% do 40%. Nie dziwi mnie to tak bardzo. Koniec końców kampania przeciwko paleniu jakoś działa. Kilkadziesiąt lat temu palacze byli wszędzie, w telewizji, w teatrze itp. Dziś w filmach palący nie są już tak eksponowani.

Z drugiej strony, jeżeli spojrzymy na odsetek 17 latków, którzy palili przez przynajmniej jeden rok życia, zauważymy, że tutaj trend jest przeciwny. Pośród osób urodzonych w latach 1960-1965 17 latków, którzy palili przez przynajmniej rok było poniżej 20%, a po 23 latach ten odsetek wzrósł do prawie 30%.
Zobaczmy teraz jak te trendy wyglądają dla mężczyzn a jak dla kobiet.
Na poniższym rysunku trójkąty oznaczają proporcje w grupie mężczyzn, a kropki proporcje w grupie kobiet. Symbole puste w środku odpowiadają sytuacji w grupie 17-latków, a symbole wypełnione odpowiadają sytuacji w grupie 25-latków.

Dodatkowo, by trendy były łatwiejsze do zauważenia, dodałem krzywą trendu powstałą z wygładzenia proporcji w poszczególnych grupach wiekowych.

W grupie 25-letnich mężczyzn widać spadającą proporcję palaczy. W grupie siedemnastolaktów odsetek osób palących przez przynajmniej rok utrzymuje się na stałym poziomie 30%.
Dla 25-letnich kobiet odsetek osób palących przez przynajmniej rok jest niższa niż w grupie mężczyzn. Patrząc na trend w czasie zauważymy, że spada ona wolniej niż dla mężczyzn i być może niedługo się one zrównają. Za to wśród siedemnastolatek odsetek osób palących przez przynajmniej rok palaczek bardzo szybko przyrasta, ,,doganiając” 30% obserwowane dla siedemnastolatków.

Z czym powiązać inny trend dla różnych płci? Być może koncerny tytoniowe zaczęły adresować reklamy papierosów też dla kobiet? A może macie inne pomysły na wyjaśnienie tych różnic?

 

PS: Łatwo zauważyć, że w tym wpisie jest znacznie więcej przecinków niż w poprzednich wpisach, również zdania są bardziej gładkie. Jest to zasługa pani Magdaleny Ł., która podjęła się eksperymentalnie funkcji pierwszego czytającego. Serdecznie dziękuję.

Edukacja statystyczna a matura z matematyki poziom podstawowy 2012

Wczoraj maturzyści pisali egzamin maturalny z matematyki na poziomie podstawowym. Arkusze egzaminacyjne można znaleźć np. tutaj. Poniżej, chciałbym się podzielić kilkoma gorącymi wrażeniami z lektury zadań maturalnych.

Ponieważ interesuje mnie edukacja statystyczna, ponieważ uważam, że znajomość statystyki jest niezbędna, dlatego też byłem ciekawy czy po maturzyście można oczekiwać podstawowej choć znajomości statystyki, losowości, zmienności itp.

Przeglądając listę zadań na poziomie podstawowym okryłem niestety że żadne z nich nie dotyczy statystyki. Jedno jedyne (zadanie 31 za 2 pkt) dotyczy rachunku prawdopodobieństwa. To oczywiście wynika z tego, że statystyki w liceum się nie uczy.

A szkoda.

Bardzo lubię trygonometrię, geometrię, kombinatorykę i zresztą całą matematykę, ale czy nie jest ważniejsze by we współczesnym świecie uczyć w liceum statystyki? Czy nie bardziej przydatne byłoby uczenie zrozumienia co to trend, co to ryzyko, co to wariancja?

Szkoła Infografiki a moja prezentacja

W poprzedni czwartek 22 marca miałem przyjemność poprowadzić godzinną prezentację nt. dobrych i złych wykresów. Prezentacja miała miejsce w ramach warsztatów organizowanych przy Szkole infografiki. Szkoła infografiki jest projektem prowadzonym przez Centrum Cyfrowe projekt” Polska.

Spotkanie odbyło się w klubokawiarni na Chłodnej 25. Okazuje się, że w piwnicach jest sala na około 50 osób z projektorem i ekranem. Kawa jest bardzo dobra i znacznie tańsza niż w centrum. Więc wygląda to jak bardzo ciekawe miejsce na spotkania warsztatowe niewielkich grup. Polecam.

Mnie się spotkanie bardzo podobało, choć jako prezentujący mogę mieć spaczone wrażenie. Zainteresowanych osób było sporo, ścisłowców było mało ale byli, byli też prawdziwi dziennikarze, tym ciekawiej spojrzeć na jakiś temat z innej strony. Kolejną prezentację, mniej więcej za miesiąc, ma poprowadzić specjalistka od grafiki i informacji z ASP w Katowicach, również polecam.

Więcej informacji Szkole infografiki i podobnych projektach można znaleźć tutaj.

Więcej informacji o think-tanku (zna ktoś jakieś dobre, czyli niedosłowne, tłumaczenie?)  Centrum Cyfrowe projekt: Polska tutaj.

Więcej informacji o klubokawiarni na Chłodnej znajduje się tutaj.

Klikając na poniższy slajd można pobrać moją prezentację (uwaga, ponad 10MB).

Spotkanie było też nagrywane i pewnie na stronach Centrum pojawi się kiedyś odnośnik do nagrania.

AKTUALIZACJA: Link do nagrania z warsztatów.

 

Ekonomia i markerting, liczba doktorantów a wykresy

Dzisiejszy wpis prezentuje jedną z nagrodzonych prac na podejrzaną wizualizację. Konkurs jest opisany dokładnie w tym wpisie (btw: zostały mi jeszcze trzy komplety gadżetów do rozdania za wskazania interesujących wykresów).

Tym razem przyjrzymy się wykresom z miesięcznika Uniwersytetu Ekonomicznego w Krakowie ,,Kurier UEK”. Szczególnie tym ze stron 14-15.

Zacznijmy od ilustracji liczby uczelni z którą współpracował UEK.

Wykres pokazuje, że liczba współpracujących placówek rośnie i rośnie. Wrażenie wzrostów zostało podkręcone, kilkoma ,,sztuczkami”

  • perspektywą, wykres jest tak obrócony, że ten sam wynik liczbowy wyglądałby jak wzrost,
  • zmienioną osią OY, wybraną tak by uwypuklić najmniejsze zmiany,
  • dorysowaną jaśniejszym kolorem parabolą, która jest wyłącznie estetycznym zabiegiem wzmacniającym wrażenie wzrostów.

Wzrosty są, ale ten wykres je uwypukla do granic przyzwoitości. Zobaczmy jak wyglądałby ten sam wykres bez ozdobników.

 


Wzrosty nie są już takie spektakularne. Jest wyraźna tendencja wzrostowa, ale po osi OY widać, że wzrost wyniósł około 15% przez 5 lat.

 

Kolejny wykres, który mnie zainteresował to pozycja polskich uczelni ekonomicznych w rankingu Webometrics 2012.

UE Kraków ma czegoś więcej niż pozostałe uczelnie ekonomiczne i wyraźnie jest ,,wyżej”. Nie jest niestety wyjaśnione czym są punkty z tego wykresu. Nie jest to pozycja w rankingu, gdyż po pierwsze tak wysoko polskie uczelnie w rankingach nie stoją a po drugie UAE nie chwaliłby się pozycją niższą niż pozostałe szkoły. Nie udało mi się niestety odszyfrować co ta liczba oznacza.

Ranking Webometrics przedstawia wyniki w różnych aspektach oraz pozycję danej uczelni w globalnym światowym rankingu. Wiele polskich uczelni jest w tym rankingu uwzględnianych, wybrałem 10 ekonomicznych i przygotowałem taki oto wykresik.

Kolumna ,,World Rank” odpowiada pozycji w globalnym światowym rankingu uczelni, a pozostałe cztery kolumny odpowiadają pozycjom w rankingach jeżeli uwzględnić jedynie określony aspekt. Odpowiednio Rich.Files to ranking oparty o liczbę dokumentów .doc, .pdf., .ppt itp znalezionych przez Googla wskazujących na tą uczelnię, ,,Scholar” to ranking bazujący na wynikach z Google Scholar, ,,Size” to ranking bazujący na liczbie stron zidentyfikowanych przez Googla, ,,Visibility” to ranking oparty na liczbie zewnętrznych odnośników o stron danej uczelni. Na osi OY przedstawiono miejsce w rankingu światowym (yupii, dwie uczelnie ekonomiczne są w piątym tysiącu na świecie :-P).

Co ciekawe porównując dwa powyższe rysunki, okazuje się, że UEK nie jest drugie w kategorii World.Rank i na niższych pozycjach w pozostałych kategoriach. Wyprzedza ją tylko prywatna Wyższa Szkoła Lipińskiego, ale ta nie znalazła się na wykresie z Kuriera UEK.

W każdym razie po raz kolejny widzimy, że wybierając konkurentów i kategorię zawsze można znaleźć kombinację kryteriów w których jest się najlepszym.

 

I ostatni wykres w dzisiejszym zestawieniu, ma te same wady co pierwszy z prezentowanych, ale dotyczy ciekawej kwestii, mianowicie liczby studentów studiów doktoranckich.

Ten sam wykres bez ozdobników wygląda tak.

W ciągu 4 lat liczba doktorantów wzrosła ponad 50%. Ciekawe czy jest to globalny trend, tzn. liczba doktorantów wszędzie rośnie, ale czy też w takim tempie? Może to i dobrze. Jak wynika z rożnych podsumowań innowacyjność w Polsce jest bardzo niska. Może kształcąc wielu doktorów poprawimy przynajmniej wskaźnik ,,procentu doktorów pracujących w przemyśle”.

:-)

SFI, TED, IBM i konkursy

 

W skrócie dzisiejszy wpis składać się będzie z peanów zachwytu nad jakością organizacji 8 Studenckiego Festiwalu Informatycznego (SFI). Później zejdę na temat TEDów organizowanych w Krakowie a na koniec przedstawię dwa małe konkursiki, które ogłosiłem na SFI. Wciąż są otwarte i umożliwiają wygranie kilku gadżetów od firmy IBM.

SFI

Ośmy Studencki Festiwal Informatyczny rozpoczął się w ostatni czwartek a zakończył w sobotę. Miałem przyjemność w piątek rano opowiedzieć o analizie małych zbiorów danych, powiedzmy o rozmiarach do kilku megabajtów (tutaj przedstawiłem kilka wykresów prezentowanych na tym blogu), zbiorów danych o średniej wielkości, powiedzmy do gigabajta (tutaj opowiedziałem o kilku pomysłach na analizę danych z systemu USOS) i o analizie zbiorów danych o rozmiarach liczonych w tera czy peta bajtach (tutaj opowiedziałem o analizach danych z technik genotypowania kolejnej generacji, to źródło naprawdę dużych danych). Materiały do mojej prezentacji można pobrać klikając na poniższy odnośnik.

 

W czasie trwania festiwalu miałem okazję przyjrzeć się stronie organizacyjnej i też porozmawiać o niej z organizatorami. I muszę przyznać, że zostawiła ona na mnie spore wrażenie. Grono organizatorów składa się z ponad 30 osób, które są świetnie skoordynowane, co widać chociażby po tym, że każdy wie co należy do jego obowiązków. Niby sprawa oczywista, ale tak rzadko spotykana w tak dużych grupach. Organizatorzy zorganizowali po raz kolejny dużej wielkości festiwal, bezpłatny dla uczestników, moim zdaniem jeżeli chodzi o organizację to poprowadzony na poziomie największych międzynarodowych konferencji. Była i krótkofalowa komunikacja pomiędzy organizatorami i hostessy, radio, prezentacje nagrywane na wideo, zapowiedź obróbki wideo na poziomie VideoLectures, baloniki ;), wielkie banery na gmachach głównych krakowskich uczelni, aktywny bloga itp. Wszystko robione przez studentów i dla studentów. Ponoć to największe tego typu wydarzenie w tej części Europy (niestety zapomniałem o jak dużą część chodziło). W skrócie: świetna robota.

TED

Na festiwalu gęsto było od energii do tworzenia start-upów, niestandardowych rozwiązań, różnych innowacyjnych projektów. Nikt tu (tam?) nie miał wątpliwości, że Kraków jest miejscem gdzie najlepsze pomysły rodzą się i ścierają ze sobą. Dowiedziałem się między innymi o bardzo aktywnym TEDxKraków (37 prezentacji na stronie), o TEDxKrakow Cinema (nie słyszałem o tym wcześniej, w kinie ludzie spotykają się by obejrzeć np. 3 TEDy 20minutowe a później na ich temat dyskutują, brzmi super) i innych podobnych przedsięwzięciach. Szczególnie ten TEDxKrakow Cinema brzmi jak coś co warto przeżyć.

IBM

Przed wyjazdem dostałem od firmy IBM trochę gadżetów do rozdania w ramach konkursów. Konkursy są prywatną inicjatywą nie będącą częścią festiwalu. Konkursy są dwa, rozpoczęły się w piątek i wciąż trwają bo i zapas gadżetów jest całkiem pokaźny. Gorąco więc zapraszam do wzięcia w obu konkursach udziału, można wygrać pendrive’y i inne ciekawe gadżety (niestety odbiór tylko osobisty). Ale nagroda to nie wszystko, moim zdaniem konkursy są po prostu bardzo ciekawe i warto się zmierzyć z postawionymi w nich zadaniami.

Konkurs 1.

Dotyczy znalezienia na stronach gazet i portali informacyjnych grafik bardzo złych, przekłamujących rzeczywistość albo grafik barzdo dobrych, zapierających dech w piersiach pomysłowością i informacyjnością.

Konkurs 2.

Dotyczy pomysłu co można ciekawego zrobić mając dostęp do wszystkich danych z USOSa. Jakiego rodzaju informacja tam zawarta może okazać się przydatna szerokiej braci studentów?

Każda interesująca/ciekawa odpowiedź jest nagradzana (oferta ważna do wyczerpania zasobów, których jeszcze trochę jest). Podczas festiwalu otrzymałem kilka ciekawych odpowiedzi i opiszę je kiedyś przy okazji na blogu.

Oba konkursy są szerzej opisane w prezentacji pdf podlikowanej powyżej.

 

Szkoła Infografiki, 22 III 2012, klubokawiarnia Chłodna 25

Centrum Cyfrowe organizuje czteromiesięczne bezpłatne szkolenie o nazwie ,,Szkoła inforgrafiki”. Więcej o tym projekcie przeczytać można tutaj.

W ramach tej szkoły planowane są między innymi comiesięczne otwarte dla wszystkich pogadanki/przentacje. Poproszono mnie o poprowadzenie najbliższej, mniej więcej godzinnej pogadanki, która rozpocznie się 22 marca o godzinie 19 w klubokawiarni Chłodna 25.
No cóż, spróbujmy!
Zgłoszony temat to ,,Nie daj się oszukać wykresom”. Planuję pokazać kilka złych wizualizacji, przy czym pisząc złych mam na myśli wprowadzających w błąd. Do tego kilka popularnych reguł na co uważać przygotowując infografikę oraz kilka grafik, które wykonane były lata temu a wciąż są flagowym przykładem czytelnej reprezentacji złożonych danych.

Poniżej umieszczam pierwsza stronę prezentacji.

Czy Jaś do Zuzi ma się tak jak John do Susan? Czyli o różnicach i brakach różnic.

 

W poniedziałkowym wpisie pisałem o tym jaki procent kobiet można spotkać w finałach OM, na wydziale MIMUW, w sejmie lub w gronie ekspertów NCN. Temat, który pojawił się w komentarzach do tego wpisu to linki do raportów o średnio równych lub lepsze wynikach kobiet w testach gimnazjalnych i średnio niższych zarobkach w branży IT (i pewnie wielu innych).

Dzisiaj napiszę kilka zdań nt. różnic pomiędzy wynikami chłopców i dziewcząt w różnych testach. Nazwa ‘efekt płci’ jest być może myląca, ponieważ nie jest oczywiste czy różnice które się pojawią są konsekwencją samej płci i związanej z nią biologii, czy też różnicom w traktowaniu, wychowaniu, motywowaniu do nauki itp.

Plan jest następujący: Pokażę wyniki z testów gimnazjalnych, ponarzekam na złą prezentacje graficzną tych wyników i nadużywanie nieszczęsnej, niczego nie mówiącej średniej. Porównam te wyniki z wynikami testu SAT, który zdaje w Ameryce wielu 17-18 latków, przetłumaczę kilka interesujących komentarzy różnych badaczy studiujących temat różnic w osiągach w edukacji. Okazuje się bowiem, że jest to bardzo gorący temat i z olbrzymiej liczby dostępnych publikacji można wyłowić czasem bardzo rozbieżne wyniki.

Testy podsumowujące gimnazjum

Zaczniemy od wyników z raportu Centralnej Komisji Egzaminacyjnej z roku 2011 podsumowującego wyniki gimnazjalistów kończących edukację w gimnazjum, a więc osób średnio w wieku 16 lat. Raport jest bardzo rozbudowany, ale na nasze potrzeby przyjrzymy się wynikom z części humanistycznej i z części matematyczno-przyrodniczej przytaczając wyniki w rozbiciu na płeć.

 

[Rysunek 1. Procent uczniów, którzy uzyskali określoną liczbę punktów z części humanistycznej w podziale na płcie. Ewidentnie dziewczęta maja średnio wyższą liczbę punktów niż chłopcy]

[Rysunek 2. Procent uczniów, którzy uzyskali określoną liczbę punktów z części matematyczno-przyrodniczej w podziale na płcie. Na pierwszy rzut oka nie widać różnic. Średni wynik dziewcząt jest wyższy niż średni wynik chłopców.]

Dodatkowo w raporcie przedstawione są średnie wyniki testu dla dziewcząt i chłopców. Średnie wyniki dla dziewczynek są wyższe w obu częsciach, dla testu humanistycznego znacząco, dla testu matematyczno-przyrodniczego nieznacznie.

Jest kilka interesujących kwestii związanych z wynikami testów gimnazjalnych, przedstawię je w punktach.

  • Rozkład ocen. W przypadku wyników z części humanistycznej rozkład dla każdej z płci przypomina krzywą Gaussa, co sugeruje jednorodną populację w której końcowy wynik to składowa wielu niezależnych czynników, które się ma lub nie ale w sumie wychodzi taki symetryczny dzwon. W części matematycznej jest inaczej. Brak Gaussowskości, brak symetrii może wynikać z tego że populacja jest niejednorodna (grupy osób w rożnym stopniu pracujących nad matematyką) albo z tego, że czynniki które się sumuje nie są niezależne. Która z tych przyczyn ma miejsce można sprawdzić jedynie mając odpowiedzi cząstkowe, więc na razie tego tematu nie będę rozwijał.
  • Sposób porównywania rozkładów. Do porównywania rozkładów wyników autorzy raportu zdecydowali się na porównywanie gęstości. Może one i ładnie wyglądają na rysunku, ale ich użyteczność jest praktycznie zerowa. W przypadku wyników z części humanistycznej przewaga dziewcząt jest tak wyraźna, że jak by jej nie przedstawić byłoby ją widać. Ale w części matematyczno-przyrodniczej sposób prezentacji uniemożliwia porównanie tego co ciekawe. I tutaj pojawia się pytanie co może być ciekawe.
    •  Jedną z ciekawych rzeczy to która płeć na częściej najgorsze wyniki. Np. spójrzmy na 5% gimnazjalistów o najgorszych wynikach – te osoby powinny nie są gotowe by żyć w świecie liczb, może koedukacja nie jest dobra, może należy te osoby inaczej uczyć – i zobaczmy która płeć tam dominuje. Dokładnie nie da się tych proporcji odczytać, ale wygląda na to, że wśród najgorszych gimnazjalistów z egzaminu matematyczno-przyrodniczego jest więcej chłopców.
    • Drugą ciekawą informacją to która płeć ma najlepsze wyniki. Spójrzmy na 5% gimnazjalistów o najlepszych wynikach – te osoby mają szansę zostać głównymi architektami, projektantami, budowniczymi itp, zobaczmy która płeć tu dominuje. Z wykresu nie da się odczytać dokładnie  tych proporcji odczytać, ale wygląda na to, że wśród najlepszych gimnazjalistów z egzaminu matematyczno-przyrodniczego jest więcej chłopców.
  • W obu powyższych przypadkach te różnice nie są duże, ale pokazują, że patrzenie na średnie albo porównywanie gęstości to nie jest najlepsze rozwiązanie. Lepiej byłoby pokazywać kwantyle lub dystrybuanty. Może dystrybuanta nie wygląda równie ładnie graficznie, ale interesujących informacji niesie więcej.

Testy SAT MATH

Zobaczmy jak wyglądają wyniki z egzaminów w Ameryce. Ameryka to dobry przykład ponieważ po pierwsze tam wszystko jest mierzone a po drugie jest tam sporo osób, które potrafią mierzyć i potrafią z pomiarów wyciągać wnioski.
Najczęściej przedstawianymi w literaturze wynikami są wyniki z egzaminów SAT (zgodnie z wikipedią ta nazwa była kiedyś skrótem ale już nie jest, jest pustym akronimem, dlatego jej nie rozwijam). Ten test robi się najczęściej w wieku 17-18 lat, nie jest obowiązkowy w skali kraju ale jest wymagany podczas przyjęcia na wiele uczelni. Dla mnie wyniki z tego testu są o tyle interesujące, że różnią się znacząco od wyników z testów gimnazjalnych w Polsce. Zobaczmy wyniki części matematycznej testu SAT
[Rysunek 3. Średnie wyniki testu SAT MATH w kolejnych latach dla kobiet i mężczyzn. Na podstawie An Empirical Analysis of the Gender Gap in Mathematics. Wybór skali jest tendencyjny, możliwe do uzyskania wartości to od 0 do 600.]
Na wynikach testu SAT MATH widać znacznie wyższe wyniki mężczyzn niż kobiet. Czym różnią się porównywane populacje polskich gimnazjalistów i amerykańska?
  • wiekiem. Gimnazjaliści robią test dwa lata wcześniej. Dwa lata to nie jest dużo dla dorosłych, ale akurat tutaj trafimy w okres dojrzewania, który u dziewczynek jest w 9-16 roku życia a u chłopców w 10-18 roku życia. Dojrzewanie może mieć to znaczący wpływ na wyniki, bez dodatkowych informacji nie jesteśmy jednak go w stanie uwzględnić.
  • powszechnością wykonywania testu. Test gimnazjalny zdają wszyscy gimnazjaliści, więc praktycznie cała młodzież. Test SAT wykonują osoby planujące dalszą edukację, co w stanach oznacza, osoby bardzo dobre albo mające pieniądze na dalszą edukację.
  • jednorodnością populacji. Populacja w Polsce jest bardziej jednorodna genetycznie niż w populacja w Ameryce.
  • kultura, klimat itp.
Ciekawą dyskusję przeprowadzono tutaj na temat efektu powszechności testu. Tzn. część badaczy uważała, że wyniki pomiędzy kobietami a mężczyznami w teście SAT można wyjaśnić tym, że mniej kobiet ten test zdaje. Tymczasem jest odwrotnie. Tz kiedyś proporcje kobiet do mężczyzn zdających test SAT były bardziej równe niż teraz ale też średnie różnice w wynikach były kiedyś bardziej różne niż są teraz.
Narzekałem sporo na średnie, później chwaliłem ludzi zza oceany, że potrafią oni liczyć a tym czasem prezentuję średnie dla wyniku SAT MATH. Ok, czas na poprawę.
W artykule The Gender Gap in Secondary School Mathematics at High Achievement Levels porównywane są wyniki testu SAT z wynikami bardziej wymagających testów, mianowicie konkursów matematycznych organizowanych przez ACM. Po drugie, zamiast patrzeć na średnie, porównuje się udział kobiet w grupie osób mających x% najlepszych wyników.
Tak się to robi!
Zobaczmy wykres
[Rysunek 4. Udział kobiet (os OY) w grupie osób o x% najlepszych wyników (oś OX). Na podstawie artykułu tutaj]
Z rysunku 4 można odczytać trend im wyżej odcinamy tym więcej mężczyzn będzie w odciętej grupie. Czy taki podobny trend obserwuje się w wynikach z gimnazjów nie wiadomo, ponieważ tam badacze zdecydowali się na pokazywanie gęstości.

Podsumowanie

Chciałbym dostać się jakoś do wyników z gimnazjum i z matur, może jesteście w stanie jakoś mi pomóc?
Ciekawe byłoby porównanie wyników z testu gimnazjalnego i wyników z matur.
Ciekawe byłoby też określenie jak motywacja do nauki wpływa na wyniki, i czy można zidentyfikować efekt motywowania dziecka do nauki.

Ważny komentarz

Porównywanie rozkładów wyników to ciekawe zadanie dotyczące dużych populacji. Może być użyteczne w planowaniu systemu edukacji (np. zasadności koedukacji). Nie należy jednak przeceniać tych efektów gdy mówi się o jednostkach. To, że jest większa obecność mężczyzn w grupie osób, które mają wysokie wyniki SAT MATH nie miało wpływu na fakt, że jedyną osoba z dwoma nagrodami Nobla w dwóch różnych dziedzinach nauk przyrodniczych jest kobieta Maria Skłodowska-Curie. To, że kobiety mają więcej punktów z części humanistycznej nie miało wpływu na fakt, że najlepszym polskim poetą jest mężczyzna Zbigniew Herbert*.

 

* Oczywiście w przypadku poetów jest to zupełnie subiektywne odczucie.

Czy internauci czytają książki? A czy je kupują?

Czy zdarza Wam się, że jakieś pytanie chodzi po głowie tak natarczywie, że nie możecie się go w żaden sposób pozbyć i jedyny sposób by dalej funkcjonować to poszukać odpowiedzi? Jeżeli tak, to zrozumiecie dlaczego dziś znów nie będzie prezentacji raportu o badaniach klinicznych.

 

W poniedziałek we wpisie o raporcie ,,Obiegi Kultury” krytycznie odnosiłem się do wartości 89%, która miała opisywać jak wielu z ,,intensywnych internautów” czyta książki. Pisałem, że dużo jest wśród ankietowanych osób młodych (system edukacji zmusza ich do czytania ;-)) dużo jest osób z wyższym wykształceniem itp.

Ale przecież nic nie stoi na przeszkodzie by procent czytających policzyć wśród tych internautów, którzy ani nie są młodzi ani nie mają wyższego wykształcenia. Dane są dostępne, formularze są dostępne (to dobry przykład, jak być powinno). Zobaczymy co wyjdzie.

Komentarz techniczny: najbliższe kilka rysunków jest otrzymanych z użyciem pakietu rms. W modelu regresji logistycznej badane są interakcje pomiędzy wiekiem (spajny 5 stopnia) a wykształceniem. Z poniższych analiz usunąłem osoby z wykształceniem podstawowym ponieważ było ich zbyt mało by wykonać dla nich takie modelowanie. Próba nie jest bardzo duża, dlatego oceny efektów są obarczone dużą niepewnością. Czytaj: Gładkość poniższych krzywych została wymuszona by otrzymać czytelne wyniki.

[Rysunek 1. Frakcja osób deklarujących przeczytanie przynajmniej jednej książki w okresie ostatniego roku, jako funkcja wieku w rozbiciu na grupy wykształcenia. Wersja grafiki w formacie wektorowym znajduje się tutaj.]

Z rysunku 1 można odczytać, że procent osób deklarujących przeczytanie przynajmniej jednej pozycji jest wysoki w każdej grupie wykształcenia w każdym wieku. Nie jest więc tak, że nadreprezentowane grupy młodych i wysoko wykształconych ,,podbiły” procent czytających. Wygląda na to, że bez względu na wiek i wykształcenie internauci czytają dużo.

Pierwszy głód zaspokojony, ale czas na więcej. W ankiecie poza pytaniem o liczbę przeczytanych książek pojawia się też pytanie o liczbę przeczytanych książek papierowych, elektronicznych, książek do słuchania w formacie audio (swojsko nazywanych audiobookami). Przyjrzyjmy się więc bliżej temu kto, co i kiedy czyta/słucha. Poniższe odpowiedzi dotyczą pytań o ostatnie 3 miesiące.

 

[Rysunek 2. Frakcja osób deklarujących przeczytanie przynajmniej jednej książki w formacie papierowym, elektronicznym lub do odsłuchu w okresie ostatnich trzech miesięcy, jako funkcja wieku w rozbiciu na grupy wykształcenia. Wersje wektorowe znajdują się: tutaj ,,czyta papierowe”tutaj ,,czyta elektroniczne”tutaj ,,słucha audiobooki”.]

Frakcja osób czytających książki papierowe jest bliska frakcji osób czytających cokolwiek. Największa zmiana dotyczy grupy ankietowanych o wykształceniu zasadniczym. Co ciekawe forma papierowa dominuje nawet wśród intensywnych internautów.  Jako osoba uzależniona od książek w formacie audio, dziwi mnie, że tak niewiele osób słucha książek w formacie elektronicznym. Jest to świetna rozrywka podczas jazdy na rowerze lub za kierownicą samochodu.

Zbadajmy dokładniej temat książek papierowych, zobaczmy gdzie ankietowani mają kontakt z książkami papierowymi.

[Rysunek 3. Frakcja osób deklarujących zakup, pożyczenie, skserowanie, otrzymanie lub danie przynajmniej jednej książki w formacie papierowym w okresie ostatnich trzech miesięcy, jako funkcja wieku w rozbiciu na grupy wykształcenia. Wersje wektorowe znajdują się: tutaj ,,kupił dla siebie”tutaj ,,pożyczył z biblioteki”tutaj ,,skserował lub pożyczył”tutaj ,,kupił w prezencie”tutaj ,,otrzymał w prezencie”.]

Ciekawe. Co prawda internauci czytają dużo książek, ale nie wiadomo skąd je biorą. Rzadko kupują, rzadko pożyczają, rzadko dostają. Widać te książki w postaci papierowej po prostu się ma ;-)

Jak już jesteśmy przy temacie źródeł posiadania. Spójrzmy na osoby, które czytały w ostatnich 3 miesiącach książki w formacie elektronicznym. I zobaczmy ile z nich takie książki kupuje dla siebie legalnie a ile ściąga za darmo z internetu (pytanie A13). Następnie testem chi kwadrat (nie najlepszy ale najpopularniejszy) zobaczymy czy jest jakaś zależność.

P-wartość dla testu chi kwadrat to 0.4 (dla testu Fishera podobnie), czyli brak istotnej zależności. Nie udało się pokazać, że osoby które więcej ściągają więcej też kupują.

Zobaczmy jak to wygląda w przypadku audiobooków.

Test chi kwadrat zwraca p-wartość 0.2, czyli brak istotnej zależności. Przyglądając się obu tabelkom, widzimy że najczęstszy wybór to ,nie kupuje ale ściąga’.

Jeżeli już jesteśmy w ciągu testów chi kwadrat, to wykonajmy jeszcze jeden, dla muzyki. Zobaczmy jak wygląda zestawienie zmiennej ,słucham oryginalnych płyt CD i kupiłem dla siebie ostatnio przynajmniej jedną’ a zmienna ,ściągam albumy z muzyką z internetu’.

Wartość 9 oznacza prawdopodobnie odmowę udzielenia odpowiedzi, choć nie ma jej opisanej w formularzu. Jeżeli pominąć wiersz z osobami które odpowiedziały 9, to test chi kwadrat zwróci p-wartość na poziomie 0.2.

Ok. Podsumowując wśród internautów nie widać zależności pomiędzy ściąganiem z internetu książek czy muzyki a kupowaniem oryginałów. Wciąż może być różnica pomiędzy internautami i resztą populacji. Z książkami w wersji papierowej wygląda na to, że internauci więcej czytają.

Na koniec jeszcze jeden obrazek odnoszący się do komentarza poprzedniego wpisu. Chodzi o % oryginalnych książek a liczbę książek w ogóle.

[Rysunek 4. Liczba książek na półce a procent oryginalnych książek. Nie ma silnej tendencji, ale wygląda na to, że im więcej książek tym większy procent z nich to oryginały. Kliknij aby otworzyć wersję wektorową.]

[Rysunek 5. Liczba oryginalnych płyt CD na półce a procent oryginalnych płyt. Kliknij aby otworzyć wersję wektorową.]

 

Raport ,,Obiegi kultury”

Na dziś zaplanowany był przemiły raport o badaniach klinicznych. Ale ponieważ od kilku osób dostałem informację o raporcie ,,Obiegi Kultury” wykonanym przez CentrmCyfrowe.pl z środków Narodowego Centrum Kultury więc stwierdziłem, że badania kliniczne mogą poczekać.

Wspomniany raport ,,Obiegi Kultury” w kilku wersjach i z oryginalnymi danymi znaleźć można pod adresem http://obiegikultury.centrumcyfrowe.pl/. Raport opisuje wyniki z badania, które poświęcone było obiegowi formalnemu i nieformalnemu (czy też legalnemu i nielegalnemu) treści takich jak książki, muzyka i filmy. Słowo ,,formalny” używane jest w słownikowym znaczeniu ,,zgodny z przepisami”, ale wygląda łagodniej niż słowo ,,legalny”. Badanie przeprowadzono w dwóch fazach, pilotażowej i właściwej. W drugiej fazie przebadano 1284 osób opisujących się jako aktywni internauci. W raporcie podejmowana jest próba charakterystyki kim są Ci aktywni internauci i jak mają się oni do całego społeczeństwa. Jednym z najbardziej znanych wniosków z raportu, jest ocena, że Intrenauci co prawda konsumują bardzo wiele treści nieformalnych/nielegalnych ale też konsumują bardzo wiele treści formalnych/legalnych, znacznie więcej niż średnia w społeczeństwie. Przyjrzymy się temu fenomenowi bliżej. A zaczniemy od krótkiej charakterystyki mocnych stron badania i raportu.

Co mi się podobało

  • Bardzo podoba mi się przejrzystość sposobu przeprowadzenia badania. Zarówno daty przeprowadzenia badania, postawione cele, użyte w badaniu formularze oraz surowe wyniki z ankiet są dostępne na wymienionej już stronie www raportu. Jeżeli więc nie zgadzamy się z jakimś wnioskiem możemy sami sprawdzić jak sprawa wygląda.
  • Bardzo podoba mi się streszczenie raportu przygotowane w atrakcyjnej graficznie formie na stronie http://obiegikultury.centrumcyfrowe.pl/mashup/. Sam raport ma 100 stron, jeżeli więc nie mamy czasu na czytanie całej książeczki to możemy poświęcić kwadrans na zapoznanie się ze streszczeniem, które bardzo przyjemnie się czyta/ogląda. Wielkie brawa, wreszcie streszczenie, które zachęca do czytania/oglądania.
  • W raporcie przedstawione są wyniki z badania Internatutów a następnie te wyniki są komentowane, rozszerzane przez badaczy prowadzących badania o zbliżonej tematyce. Np. przez Dominika Batorskiego (m.in. badanie Diagnoza Społeczna), Piotr Toczyski (m.in. World Internet Project), Przemysław Zieliński (m.in. Obserwatorium Żywej Kultury). Czytając ,,Obiegi kultury” co jakiś czas zadawałem sobie pytanie, a jak to wygląda w Diagnozie Społecznej, a jak to wyglądało w raporcie Młodzi 2011. Dodanie komentarzy innych badaczy w dużej części pozwalają na odniesienie się do innych badań.

Były też rzeczy , które mi się nie podobają. Jak np. poniższy rysunek, na którym długości słupków NIE odpowiadają prezentowanym liczbom.

[Rysunek 1. Z jakiegoś powodu długość słupka 14% jest większa w stosunku do długości słupka 81% niż by to wynikało z ilorazu tych dwóch procentów]

 Ale nie chciałbym tutaj krytykować drobiazgów, bo mam ciekawszy temat.

Jak już wspomniałem, jedna z głównych obserwacji dotyczy dużego zaangażowania w kulturę ,,formalną” osób, które intensywnie korzystają z kultury ,,nieformalnie”. A dokładniej to co się obserwuje, to że osoby intensywnie korzystające z Internetu częściej ,,nieformalnie” ściągają książki, muzykę i filmy (to nas nie dziwi) i te osoby też czytają więcej książek niż średnia w społeczeństwie.

Zobaczmy więc bliżej, kim są osoby uczestniczące w badaniu. Zacznijmy od przyjrzenia się strukturze wykształcenia.

[Rysunek 2. Struktura wykształcenia osób ankietowanych w drugiej fazie badania ,,Obiegi kultury”] .

Zauważmy jak wiele osób wśród aktywnych internautów to osoby z wykształceniem wyższym lub średnim. Prawie 90%. Zapala się pierwsza lampka ostrzegawcza, grupa II (intensywnych internautów) nie ma tej samej struktury wykształcenia co całe społeczeństwo, są to osoby lepiej wykształcone, nie dziwi więc że więcej czytają niż średnia.

Zobaczmy jak wygląda wiek ankietowanych w podziale na grupy wykształcenia.

[Rysunek 3. Rozkład wieku w grupach wykształcenia. Szerokość ,,bączka” jest proporcjonalna do liczby osób w danym wieku. Im szerszy bączek w danym miejscu tym więcej osób jest w takim wieku, wiek jest na osi pionowej].

Sprawa z książkami wygląda na coraz mniej oczywistą. W grupie osób z wykształceniem podstawowym większość to osoby w wieku 17-19 lat, które jeszcze nie zdobyły wykształcenia średniego, prawdopodobnie uczą się jeszcze w szkole średniej i nie dziwi, że czytają książki.

W grupie osób z wykształceniem średnim znaczna część osób ma blisko 20 lat. To prawdopodobnie studenci, nie powinniśmy dziwić się, że czytają książki.

W grupie osób z wykształceniem wyższym najwięcej jest osób świeżo po studiach lub jeszcze na drugim lub trzecim etapie studiów. Ponownie to, że doszkalają się, co wymaga czytania, też nas nie dziwi. Przekornie można by zapytać czy to, że tylko 89% z nich przeczytało przynajmniej jedną książkę czy to nie za mało ;-)

Co to oznacza? Że jeżeli chcemy uczciwie porównać ,,oczytanie” naszych II należały je porównać względem grupy o podobnej strukturze wykształcenia i wieku. Wtedy moglibyśmy zastanawiać się czy osoby z wykształceniem wyższym w wiek 30 lat więcej czytają książek gdy intensywnie korzystają z internetu czy też gdy nie robią tego aż tak intensywnie.

 

W formularzu ankiety znalazło się bardzo ciekawe pytanie mające ocenić, czy niechęć do zakupów oryginalnych utworów wiąże się z ich ceną (blok psychograficzny, pytanie ,,Ceny muzyki i filmów, są w Polsce tak wysokie, że trudno się dziwić ludziom, którzy pozyskują takie rzeczy za darmo z Internetu”). Zestawmy odpowiedzi na to pytanie z deklarowanymi przychodami gospodarstwa domowego.

 [Rysunek 4. Zależności pomiędzy dochodem gospodarstwa domowego a oceną, że filmy i muzyka są drogie i dlatego nie dziwi, że ludzie je ściągają. Wysokość poziomego paska jest proporcjonalna do liczby gospodarstw o danym dochodzie. Szerokość paska o jednym kolorze odpowiada frakcji osób o danym zdaniu n.t. ściągania w danej grupie dochodów. Czyli np. szerokości czerwonych pasków odpowiadają % osób które nie zgadzają się, że ceny muzyki i filmów uzasadniają ich nieformalne ściąganie.]

Na rysunku 4. Kolorem czerwonym i pomarańczowym zaznaczono procent osób, które nie zgadzają się, że cena uzasadnia ,,nieformalność”. Kolorem seledynowym i niebieskim oznaczono frakcje osób, które uważają że cena jest uzasadnieniem ,,nieformalności”. Pytanie nie wprost ,,czy uważasz, że ludziom trudno się dziwić” zamiast wprost ,,czy dla ciebie cena jest argumentem” wciąż bada tak naprawdę preferencje ankietowanego.  (To zdanie wykreslilem uwzgledniajac komentarze i to, ze nie wynika one z danych a bylo wylacznie moim ,,gdybaniem”).

Co jest bardzo ciekawe to, że frakcja osób uważających, że cena jest uzasadnieniem do ściągania nie zależy od dochodu gospodarstwa. Wręcz w grupie o najwyższych dochodach najwięcej osób podaje kwestię ceny jako usprawiedliwienie ,,ludzi” dla nieformalnego źródła muzyki czy filmów.

 

Ostatni rysunek dotyczy struktury oryginalnych książek, płyt z muzyką, płyt z filmami na stanie posiadania.

 [Rysunek 5. Kolory odpowiadają osobom odpowiadającym, że mają w swojej kolekcji od 0% (ceglasty) do 100% oryginalnych produktów.]

Spójrzmy na te wyniki z perspektywy wypowiedzi, które można znaleźć w sieci ,,Oglądam na próbę, ale jak mi się spodoba to kupuję”. Nie wygląda na to. Mimo, że żyjemy w czasach streamingu, gdy nie ma potrzeby ,,składowania” filmów czy muzyki z nieformalnych źródeł, to wciąż około 50% osób ma ponad połowę nieoryginalnych kopii.

 

Ok, to na tyle jeżeli chodzi o moją naturę człowieka, który na każdy temat ma zawsze ,,przeciwną opinię”. Ale aby być czegoś pewien należy wykluczyć wszelkie inne możliwości. Myślę, że kolejnym krokiem, powinno być spojrzenie na wyniki z raportu i odniesienie ich do grupy osób o tej samej strukturze wieku i wykształcenia. Dzięki temu będzie można wykluczyć lub potwierdzić kontropinię, że większa ilość przeczytanych książek przez II wynika z aktu że znaczna część z nich jest jeszcze w szkole lub uczy się nowych technologii do pracy.

 

Ankiety a manipulacja

Następne kilka wpisów poświęconych będzie różnym raportom ,,o stanie Świata”’. Będzie technicznie więc na rozluźnienie dziś coś lekkiego.
Jakiś czas temu miałem przyjemność poprowadzić krótki ,Lunch & Learn’ dla zainteresowanych pracowników Netezza R&D IBM Polska (z którymi czasem coś robię). Prezentacja dotyczyła zagadnień związanych z wizalizacją danych, kilka typowych przykładów np. opisywanych przez Tufte’go jak i kilka lokalnych przykładów z naszego podwórka. Ponieważ uważam, że wizualizacje tworzy sie przede wszystkim po to by przedstawić  zależności, które są w danych, bez przekłamań i zniekształceń (estetyka jest ważna ale nie może być argumentem w zniekształcaniu zależności) to staram się też przekonywać, że błędy w wizualizacjach wynikają częściej z niewiedzy niż świadomej manipulacji.

Manipulacja wykresem ma tę ,,wadę’’, że osoby znające techniki manipulacji zauważą i zdemaskują próbę manipulacji. Więc przekornie można powiedzieć, że jeżeli już ktoś bardzo chce manipulować wynikami to znacznie lepiej manipulować danymi niż sposobem ich prezentacji (btw: Oczywiście nie na leży manipulować ani jednym ani drugim).

Wczoraj kolega przesłał mi link do artykułu pokazujący przykład maniplacji na etapie przygotowanie formlarza dla ankiet.
Link do artykułu znajduje się tutaj.
W artykule pokazywany jest przykład jak dobierając listę odpowiedzi w ankietach ,,zaprojektować’’ wynik.

Celem ankiety miało być określenie jaki procent Polaków ogląda telewizję powyżej 4 godzin. Odpowiadając ankietowani mieli kilka opcji do wyboru. W zależności od wyboru listy możliwych odpowiedzi uzyskuje się różne wyniki.

z11022341x

W cytowanym artykule jest sporo wody na ten temat, ale w skrócie różnice wynikach wynikały stąd, że pytanie było niejasne, pytano o rzecz o kórej większośc pytanych nie wiedziała (skąd mają wiedzieć jaka jest średnia danej cechy w populacji, wiedzą ile oni oglądają telewizji) lub której nie potrafi precyzyjnie ocenić (trudno precyzyjnie ocenić ile się czasu przeznacza na pewną aktywność, chyba że chodzi o godziny w pracy). Dlatego też część osób wybierała mniej lub bardziej losową odpowiedź. Projektując formularz możemy tą część losowych odpowiedzi przenieść tam gdzie chcemy np. w celu uzyskania oczekiwanych wyników.

Ok, nie jest celem tego wpisu szerzenie klimatów ,,statystycy nas okłamują, strzeżcie się’’. Celem jest pokazanie jak ważna jest dostępność surowych danych a nawet informacji jak wyglądały formlarze używane do zbierania danych. Celem jest pokazanie, że ilość czasu czy pieniędzy przeznaczona na analizy czy na szukanie i pytanie ankietowanych nie przekłada się na jakość wyników.

Aby mieć wyniki wysokiej jakości trzeba dbać o możliwie największą przejrzystość procesu projektowania, przeprowadzania i analizy.