Ciekawe informacje o Polsce pod ręką…

Pisząc jakiś czas temu o raporcie z Narodowego Spisu Powszechnego narzekałem, że jest nudny jak flaki z olejem i trudno oczekiwać by przeciętny obywatel z zainteresowaniem go przeczytał. Jest to bolączka wielu raportów, mających postać kilkusetstronicowych cegieł najeżonych tabelkami i wykresami.

Spróbujmy inaczej!

Zbierzmy ciekawe informacje o Polsce i pokażmy je tak, by chciało się po nie sięgać! By towarzyszyły nam w codziennym życiu! By nie nudziły się po 15 sekundach! By prowokowały do poszukania dodatkowych informacji na zadany temat.

Tak powstał projekt kubek, który pożarł mój czas wolny z ostatnich dwóch miesięcy. Dzieło jeszcze nie ukończone, ale posiadające stabilną wersję 1.0.

Zebrałem z różnych źródeł (Eurostat, GUS, Datamarket, Wikipedia i wiele innych) informacje o interesujących mnie wskaźnikach, czy to demograficznych (struktura wieku, oczekiwana długość życia), czy związanych ze służbą zdrowia (śmiertelność noworodków, najczęstsze przyczyny zgonów), czy gospodarką (dług jako % PKB, stopa bezrobocia, zmiana PKB), czy z giełdą (WIG20), czy ze sportem (miejsce Polski w rankingu FIFA czy na ME w siatkówce), czy z edukacją (liczba studentów).
Na wykresach przedstawiłem jak te wskaźniki zmieniały się w czasie.

I tak otrzymany wykres nadrukowałem na kubek.

Kubek otrzymają osoby wspierające fundację, czy to finansowo czy jako wolontariusze przy realizacji dużych projektów.

Mam też zamiar w kolejnych wpisach (ale na razie bez dat) opisać jak powstały poszczególne wykresy, wszystkie są zrobione w R i można je automatycznie aktualizować. Może to być interesujący przegląd sposobów pozyskania danych z różnych internetowych źródeł (co ciekawe, w zależności od źródła, liczby różnią się czasem o 20%).

Ciekawy jestem jakie wskaźniki opisujące sytuację w Kraju Wy chcielibyście mieć na takim kubku?

Śniegowy wykres słupkowy a oparta o dane dyskusja o finansowaniu nauki

Dziś chciałbym zareklamować raport Dominika Batorskiego, Michała Bojanowskiego i Dominiki Czerniawskiej ,,Diagnoza mobilności instytucjonalnej i geograficznej osób ze stopniem doktora w Polsce”.
Ciekawa lektura (choć wielu wykresów można się bardzo czepiać, ale to innym razem), można się z niej dowiedzieć jaki jest średni wiek uzyskania doktoratu, habilitacji, profesury, ile na rok mamy nowych doktorów, ilu habilitowanych, ilu profesorów, jak te wskaźniki zmieniają się w czasie i jak wyglądają w różnych dyscyplinach. Jest o dużo informacji o mobilności, a cały rozdział 6 dotyczy mobilności międzynarodowej.

Przykładowo, rysunek 30 z tego raportu przedstawia procent osób, które naukowo pracują w miejscu gdzie zrobiły doktorat. Z wymienionych tam krajów (Polska i kraje europy zachodniej) Polskich naukowców charakteryzuje mała mobilność, około 90% osób pracujących w jednostkach badawczych pracuje w miejscu w którym zrobiło doktorat. We wszystkich innych krajach ten współczynnik jest znacznie niższy.

Razem z młodym i młodą postanowiliśmy odtworzyć ten wykres dla Polski, Irlandii i Szwajcarii używając śniegowych trójwymiarowych wykresów słupkowych. Jest pewien błąd odwzorowania, ale to wina -15C mrozu.
[Może pamiętacie jak pisałem o terenowej grze statystycznej na piaszczystej plaży (link)? Jak widać można też na zaśnieżonym ogródku]

O ww. raporcie piszę nieprzypadkowo.

Czytaj dalej Śniegowy wykres słupkowy a oparta o dane dyskusja o finansowaniu nauki

Podstawówki w Warszawie, czyli słów kilka o egzaminie szóstoklasisty, ciąg dalszy

We wtorek pokazywałem mapę przedstawiającą średnie wyniki egzaminu szóstoklasisty w warszawskich szkołach podstawowych. Dzisiejsza mapa jest wzbogacona o interaktywne etykiety. Po najechaniu na kropkę odpowiadającą szkole wyświetli się nazwa szkoły, średnia i liczba uczniów.

Ach, zmieniłem też tło na szare z google maps. Która wersja jest bardziej czytelna?

[jeżeli powyżej nic się nie wyświetla, to należy otworzyć tę stronę]

Jaki jest pożytek z Internetu dla nauki akademickiej, dlaczego warto się dzielić mikroodkryciami i jak wykorzystać technikę, by pracować wydajniej

Czym jest nauka? Czy nauką jest to, na co można dostać grant w instytucjach finansujących naukę? A może to, co można opublikować w czasopiśmie z ministerialnej listy ,,czasopism punktowanych”? Czy naukowcem jest osoba opłacana z funduszy na naukę?

Definicja nauki (o ile istnieje) jest szersza i obejmuje wszystko co rozszerza nasze (nasze=ludzkości) horyzonty.
Można zapytać, czy warto dyskutować nad tym czym jest nauka? Tak, chociażby po to wyzwolić się ze schematów narzucanych przez kryteria oceny jednostek akademickich.
Pojawia się coraz więcej inicjatyw, w ramach których nauka rozwijana jest poza murami uczelni wyższych, a finansowana jest np. przez osoby prywatne lub duże firmy (vide. oddziały badawcze gigantów IT Microsoft Research, IBM Research, Google, Amazon, Yahoo itp). Prowadzenie badań przy wsparciu osób prywatnych przyświeca między innymi fundacji SmarterPoland, a przykładów na tzw. crowdresearch jest coraz więcej, np. opisany w artykule ’Baumgartner albo portiernia, czyli coming-out w temacie finansowania nauki w Polsce’.

Ok, więc porozmawiajmy o tym czym jest nauka i jak wygląda lub może wyglądać. Dzisiaj mamy gościnny wpis fizyka Piotra Migdała. Może sprowokuje on Was do podobnych lub odmiennych komentarzy / innych gościnnych wpisów.

Nauka 2.0
Czyli o tym jaki pożytek z Internetu dla nauki akademickiej, dlaczego warto się dzielić mikroodkryciami i jak wykorzystać technikę, by pracować wydajniej.
Piotr Migdał

Nauka to nie odkrywanie obiektywnego stanu świata, niczym kopanie w platońskiej jaskini. To pewien proces poznawania i opisu przyrody, ugruntowany społecznie i historycznie, w którym zmieniają się cele, ewoluują pojęcia, są doskonalone metody czy kryteria poprawności. Wiele ścieżek prowadzi na manowce i wiele odkryć dzieje się jednocześnie. Pięknie pisze o tym Ludwik Fleck książce p.t. "Psychosocjologia poznania naukowego".

W szczególności zmienia się podejście do rozpowszechniania odkryć. Pitagorejczycy traktowali niewymierność pierwiastka kwadratowego z dwóch jako sekret. Galileusz, odkrywszy pierścienie Jowisza, owszem, wysłał listy do konkurentów, ale zaszyfrowane – tak, by nic nie powiedzieć, a zarazem zapewnić sobie pierwszeństwo. Dopiero w XVII wieku sukcesywnie zaczęto publikować w czasopismach naukowych, dochodząc do dzisiejszego "Publish or Perish". Więcej można przeczytać na blogu Michaela Nielsena (np. ten wpis) czy też w jego książce "Reinventing discovery".

No dobrze, ale czy pozostało coś więcej niż naciskać na publikowanie pod groźbą zakończenia żywota (naukowego)? Czy istnieją inne metody współpracy niż listy (teraz upgrade’owane do e-maili)? I czy Internet może się przyczynić do zmiany funkcjonowania nauki?

Po pierwsze i najważniejsze, Internet obniżył koszty dzielenia się informacją. Nie trzeba być pisarzem, dziennikarzem ani wydawcą, by móc się podzielić dowolną informacją ze Światem – na stronie domowej, blogu (np. takim jak ten) czy też forum dyskusyjnym.

W ten sposób wiele kursów czy wykładów dociera nie tylko do wąskiej grupy studentów na danej uczelni, ale – do każdego zainteresowanego.

Jednak w wielu projektach istotna jest interakcja – zwłaszcza, gdy nie tyle chcemy się podzielić gotowym dziełem, co zasięgnąć rady. Np. strona pytań i odpowiedzi Stack Overflow pozwala rozwiązać problemy programistyczne – od tych zadawanych przez nowicjuszy do zaawansowanych. Okazuje się, że identyczny system działa w – Math Overflow to strona Q&A z matematyki na poziomie badawczym. Oprócz doktorantów i "zwykłych" profesorów, udzielają się tam światowe sławy, jak laureaci medalu Fieldsa Tim Gowers czy Terence Tao (zresztą, aktywni na G+ – tam też prowadzą odnośniki). Co kluczowe – nie ma tu znaczenia, czy jest się studentem prestiżowej uczelni, czy samoukiem. Liczy się tu wiedza i umiejętności, nie – tytuł czy afiliacja. Ogólniej, na bazie Stack Overflow wykiełkowały strony skupione wokół społeczności z różnych dziedzin, nie tylko komputerowe – od ogrodnictwa czy fotografii, przez fizykę czy analizę statystyczną, do np. stricte badawczej informatyki (autor notki swego czasu współprowadził Theoretical Physics – Stack Exchange, Q&A z fizyki na poziomie badawczym; niestety, masa krytyczna nie była wystarczająca).

Dobrze, można pytać i odpowiadać na pytania z bardzo wyspecjalizowanych dziedzin, wychodząc poza garstkę znajomych z wydziału czy też konferencji.

Ale można też współpracować. Niektóre problemy przekraczające możliwości intelektualne najlepszych matematyków, można rozwiązać wspólnymi siłami. Np. projekt Polymath polega na rozwiązywaniu otwartych problemów matematycznych przez… komentarze na blogu. W matematyce ciężko wpaść na dobry pomysł, ale dużo prościej ocenić, czy rzeczywiście dany pomysł stanowi krok naprzód w rozwiązaniu problemu. I tym samym np. udało się rozwiązać kilka trudnych problemów matematycznych.

Jeśli nie współpracować to… współzawodniczyć. Okazuje się, że z niektórych problemów można zrobić konkurs. I tak np. Kaggle szczyci się, że z analizy danych (ang. "data science") czyni sport.

Niektóre projekty nie są adresowane tylko do najlepszych z najlepszych – wystarczy być pasjonatem. Tak np. dwóch doktorantów z Cambridge chciało szukać nowych typów galaktyk. Niemniej, mieli za dużo danych by, nawet przy heroicznej pracy, mogli sami "oglądać obrazki". Zaś automatyczna analiza okazała się niewystarczająca (warto pamiętać, że człowiek jest bardzo dobry w analizie obrazu oraz ogólnie ciężko zrobić algorytm, który dobrze się nadaje to wykrywania nietypowych obiektów). Wpadli na pomysł, by pokazać obrazki pasjonatom – stworzyli GalaxyZoo, gdzie każdy może oglądać galatyki, klasyfikować je, i, w przypadku znalezienie czegoś nietypowego, zagadać na forum. Niby proste – a skończyło się wykryciem nowego rodzaju galaktyki.

Inny projekt, Fold.it, polega na grze w zwijanie białek. Znów, wykorzystując naturalne zdolności przestrzenne ludzi (a także naturalną chęć do grania w łamigłówki) szuka się struktury białek – i taka metoda nieraz jest lepsza niż najlepsze rozwiązania numeryczne. Rozwiązania jak powyższe, gdzie pasjonat możne przydać się do poważnej nauki, są czasem nazywane nauką obywatelską (ang. "citizen science"), niekiedy podciąganą pod tzw. "crowdsourcing".

Z różnych innych pomysłów – kiełkują strony do finansowania projektów naukowych – np. Petri Dish, przez publiczną zbiórkę (ang. "crowdfunding"). O ile pewnie tylko niektóre projekty mają na to szanse, to rozwiązanie wydaje się interesujące.

Dzielenie się badaniami nie kończy się na publikacji artykułów. Znów, w sytuacji, gdzie nie trzeba ścinać lasów, by rozprzestrzenić informację (a także, gdzie owa informacja pojawia się błyskawicznie), można się dzielić wykresami (także niewykorzystanymi) oraz negatywnymi wynikami. Jest to o tyle istotne, że nieudane eksperymenty (czy też niewystarczająco fascynujące wyniki) nie są zazwyczaj publikowane. Choćby dlatego, że mogą być za "słabe" na publikacje, lub też – po co marnować czas na pisanie artykułu, który nie będzie wystarczająco pomocny w karierze naukowej, skoro można w tym czasie pracować nad bardziej obiecującymi projektami? Niemniej, w dobie Internetu, łatwo podzielić się owymi kawałkami, co może przydać się innym. Choćby Figshare umożliwia się dzielenie owymi kawałkami. I, co więcej, przyznaje każdemu numer DOI (Digital Object Identifier), a zatem i łatwo zacytować ów kawałek.

Co więcej, i co ważniejsze, można (a zdaniem autora i nie tylko Science Code Manifesto – powinien to być twardy wymóg) dzielić się kodem i surowymi danymi. I zarówno w kwestii weryfikacji (co jest fundamentem działania nauki), i – do dalszego wykorzystania. Jak? Choćby na popularnych stronach do dzielenia się kodem – GitHub [uważana za niektórych za najważniejszą sieć społecznościową) czy też BitBucket (który to daje nieograniczoną liczbę repozytoriów osobom z e-mailami akademickimi). Nie zapominając, że to przede wszystkim systemy kontroli wersji – użyteczne nie tylko do kodu, ale też współpracy przy pisaniu prac naukowych, zwłaszcza w LaTeXu.

Warto też pamiętać, aby publikując prace naukowe z fizyki, matematyki, informatyki czy dziedzin numeryczych, wrzucić preprint na arXiv (czyt. "arkajw") – dzięki temu jest dostępny dla wszystkich i to praktycznie od razu.

Wpis bazowany na Open Science and Science 2.0 z pierwszego Offtopicarium – imprezy dla ludzi z pomysłami: krzyżówka warsztatów, bardzo luźnej konferencji, zlotu pasjonatów, słowem – miejsce dla ludzi, którym "się chce". Autor tego wpisu rozkręca grupę ludzi zainteresowanych rozwijaniem narzędzi do nauki „Hacking Science”.

Podstawówki w Warszawie, czyli słów kilka o egzaminie szóstoklasisty

Tydzień temu dostałem od Bartka W. namiary na ciekawy artykuł o średnich wynikach szóstoklasistów z Bemowa (dzielnica Warszawy) ze sprawdzianu kończącego podstawówkę.

Czy liczenie średnich ma sens, to sprawa dyskusyjna. Czy porównywanie podstawówek ze względu na te średnie ma sens, to też sprawa dyskusyjna. Czy robienie egzaminu dla szóstoklasistów ma sens, to też sprawa dyskusyjna. Ale pomijając mnogość tematów na towarzyskie rozmowy, ciekawa będzie próba wizualizacji tych danych.

Namiary na artykuł otrzymałem w czwartek wieczór, napisałem w imieniu Fundacji maila do przedstawiciela Okręgowej Komisji Egzaminacyjnej i w piątek rano już miałem Excela z danymi dotyczącymi warszawskich podstawówek (niestety nie jestem pewien czy mogę go umieszczać na stronie, więc na razie tego nie zrobiłem). Czyli w tym przypadku czas odpowiedzi przedstawiciela OKE zaskoczył mnie bardzo pozytywnie.

Jakie mamy dane? Dla każdej podstawówki z Warszawy mamy adres szkoły, średni wynik szóstoklasistów z egzaminu w roku 2012 i liczbę uczniów podchodzących do egzaminu. Podzieliłem te średnie na sześć równolicznych przedziałów, które poniżej są kodowane kolorami od czerwonego (niska średnia) do zielonego (wysoka średnia). Wielkość okręgu odpowiada pierwiastkowi z liczby uczniów w danej szkole.
Zobaczmy jak wyniki wyglądają na mapie (wektorowa wersja dostępna jest tutaj).

Mając te dane mogłem też zobaczyć jak średnie w szkołach rozkładają się pomiędzy dzielnicami Warszawy. Poniżej wykresy pudełkowe, prezentujące dla każdej dzielnicy informacje o progach punktowych 25%, 50% i 75% uczniów z danej dzielnicy. Im szersze pudełko tym więcej uczniów w danej dzielnicy.

,,Dzieci sieci” a konstruktywna krytyka

Prowadzę roczne seminarium licencjackie na którym zachęcam studentów do konstruktywnej krytyki referatów kolegów. Nie jest proste taką krytykę dawać i nie jest prosto taką krytykę odbierać. Poćwiczę dziś na przykładzie raportu ,,Dzieci Sieci”.

Do tego wyboru skłoniło mnie przeczytanie wpisu na blogu Emanuela Kulczyckiego ,,Dzieci sieci i krytyka na blogach naukowych”, w którym pisze on o licznej krytyce tego raportu (którego jest współautorem) ale jest zadowolony, że raport jest szeroko dyskutowany.

Ale jak wyglądają te dyskusje? Niestety zdarzają się też takie jak anonimowy komentarz pod ww. wpisem
,,WSTYD publikować TO w sieci promując ten tekst stopniami dr. Wiele osób znajdzie potwierdzenie w słowach nauka zeszła na psy…”
Zdarzają się też inne, dziwne. Np. we wpisie ,,Dzieci sieci ciąg dalszy” znalazłem przedruk komentarza do wpisu ,,rodzice w realu dzieci w sieci”
,,Do statystyk nie należy się po prostu przywiązywać, to znaczy nie należy ich traktować jako wskaźnik reprezentatywności badania.”
Jest to cytat z odpowiedzi koordynatora badania na krytykę. Sam koordynator o raporcie pisze na swoim blogu we wpisie o wile mówiącym tytule ,,Naukowiec jako PRowiec amator”.

Spróbujmy podejść do tematu na poważnie. Reszta wpisu to próba udzielenia konstruktywnej krytyki dotyczącej trzech wybranych aspektów z tego raportu. Może się przydadzą w opracowaniu zapowiadanej wersji 2.0. Może przydadzą się też innym.

Niereprezentatywna próba

W pierwszym rozdziale autorzy badają, czy ,,dzieci sieci” w wieku w przedziale 9-13 lat potrafią rozwiązać zadanie
,,Posługując się internetem jako źródłem informacji, wskaż, kto jest reżyserem i scenarzystą filmu Shrek”.

Okazuje się, że 19 z 30 badanych dzieci potrafi to zadanie poprawnie wykonać.
I tu trafiamy na pierwszy problem, o którym piszą sami autorzy — niereprezentatywna próba.
W różnych komentarzach pojawiała się dyskusja czy próba jest mała czy bardzo mała i czy można używać narzędzi do analizy ilościowej. Ale zabrakło komentarzy dotyczących konsekwencji badania tak małej próby.

A jakie są konsekwencje? Gdybyśmy chcieli odpowiedzieć na pytanie ,,Jaki procent ,,dzieci sieci” potrafi wykonać zadanie wyszukania reżysera Shreka”, to na bazie obserwacji ,,19 pozytywnych na 30 badanych” z 95% pewnością możemy stwierdzić, że ten procent jest w przedziale od 44% do 79% (taki jest przedział ufności dla próby prostej).
Czyli, może mniej niż połowa a może prawie 4/5.
To, jak szeroki jest ten przedział, jasno pokazuje, że dla tak małej próby niewiele można wywnioskować.
A ten przedział wyznaczono przy założeniu próby prostej, odpowiednio wylosowanej. Jeżeli badacze nie wylosowali próby odpowiednio, to błąd pomiaru może być znacznie większy.

Zaskakująco wygląda liczba przebadanych dzieci (30) w porównaniu do liczby autorów badania. Zespół badawczy składał się z 9 badaczy wspomaganych przez 3 konsultantów. Wydaje się więc, że wspólnymi siłami badacze mogli trafić do większej liczby dzieci.

Na przyszłość: należy dołożyć wysiłków by próba była liczniejsza i reprezentatywna.

Dobry wykres jest wart 1000 słów, ale zły…

W całym 177 stronicowym raporcie znaleźć można jeden wykres. Akurat przedstawia on wyniki z zadania o Shreku. W naturalny sposób zwrócił moją uwagę, ponieważ wizualizacja danych bardzo mnie interesuje.

Wykres przedstawia (?) zależność pomiędzy prawidłową odpowiedzią a wiekiem respondenta.
Dużą zagadką dla mnie było, jak odczytać ten wykres.
Jeżeli lubicie zagadki to spróbujcie sami odcyfrować poniższy wykres.

Dane, które ten wykres przedstawia to (najprawdopodobniej, nie jest to wprost napisane) wiek i informacja czy uczeń wykonał poprawnie zadanie dla 30 badanych.

Najprawdopodobniej (to też nie jest wprost napisane) poprawność rozwiązania badania jest kodowana jako 0-1: czy odpowiedział poprawnie czy nie. Z opisu wynika, że prawidłową odpowiedź wskazało 19 osób.

Czy już wiecie jak czytać ten wykres?

Poniżej jest mój domysł, choć jest mało prawdopodobny, trudno mi znaleźć inny.
Wydaje mi się, że na osi OX są kolejne osoby ,,posortowane” po wieku. Pasek morskiego koloru pokazuje wiek danego respondenta. Pasek pomarańczowy jest na wysokości morskiego, jeżeli respondent odpowiedział źle i jest o jedno ,,oczko” wyżej jeżeli odpowiedział dobrze.
Na rysunku jest 19 pozycji w których pomarańczowy jest wyżej niż morski i 11 pozycji w których te paski się przecinają, więc chyba się zgadza.

Pominę komentarze dotyczące skali OY czy braku skali dla paska pomarańczowego, bo tego wykresu nie da się raczej uratować. Nieistotne charakterystyki (numer badanego) zamazują obraz, istotne (odpowiedź na pytanie) nie są przedstawiane w sposób czytelny.

Na przyszłość: Można zrobić histogramy ,,back-to-back” wieku osobno dla osób, które odpowiedziały dobrze i osobno dla takich co odpowiedziały źle, albo tabelkę z liczbami.

Dwie formy tego samego badania powinny być spójne

Do 177 stronicowego raportu dołączono streszczenie w postaci ,,przykuwającego uwagę” mashup’u.
W tym streszczeniu są takie stwierdzenia: ,,Wszystkie treści na stronie głównej Onet.pl ,,dzieci sieci” traktują jako prawdziwe”, ,,Poproszone o wskazanie odnośników do informacji, które mogłyby być nieprawdziwe, zmyślone lub zafałszowane, nie tylko były wstanie wykonać zadania ale często go nie rozumiały”.

Można z tych komentarzy przypuszczać, że wszystkie z 30 przebadanych dzieci mają wskazany problem.

Tymczasem w raporcie (strona 27) jest napisane
,,Zadanie sprawiło naszym rozmówcom trudności. Spośród 30 respondentów, 9 – głównie tych najmłodszych –
miało problemy ze zrozumieniem zadania i nie było w stanie go wykonać lub stwierdziło, że na stronie nie ma takich informacji … Tylko 7 dzieci wskazało konkretne artykuły, uzasadniając (nie zawsze trafnie), co budzi ich wątpliwości”

Czyli większość z przebadanych dzieci (21) jakieś treści wskazało jako budzące wątpliwości 7 z nich wskazało konkretne artykuły.

Na przyszłość: W streszczeniu najlepiej cytować wypowiedzi z pełnego raportu, łatwiej będzie zachować spójność.

Rok 2013 rokiem statystyki. Gdzie można się jej nauczyć?

Rok 2013 jest międzynarodowym rokiem statystyki. Z tej okazji planowanych jest kilka ciekawych inicjatyw o których można poczytać tutaj.

Z tej też okazji postanowiłem wkleić informację o czterech kursach dotyczących statystyki, dostępnych dla wszystkich.
Otwarte kursy z bardzo dobrych uczelni.

* Wprowadzenie do statystyki z BerkeleyX, statystyka opisowa,. Kurs zaczyna się 30 stycznia. ,,Stat2.1x: Introduction to Statistics: Descriptive Statistics”.

* Analiza danych (z użyciem R, ale nacisk na analizę danych i komunikację wyników z analiz). Kurs zaczyna się 22 stycznia. ,,Data Analysis”.

* Obliczeniowa analiza danych (głównie o R ale też trochę o analizie danych). Kurs trwa od 2 stycznia, są też materiały z poprzedniej edycji. ,,Computing for Data Analysis”.

* Statystyka I z Harvard University, lista materiałów wideo do ściągnięcia z iTunes ,,Statistics 110: Probability”.

* Program R. Materiałów do nauki R jest wiele, ale ten jest wyjątkowy jeżeli chodzi o formę. Połączenie opisów z internatywnymi ćwiczeniami, warto spróbować ,,Try R”.

Kursy (z wyjątkiem ostatnich dwóch) prowadzone są zdalnie, ale w grupach. Można podyskutować na forum, dostać dyplom zrealizowania wybranego kursu.

In vitro a krytyczne myślenie

Tutaj był wpis dotyczący różnych opinii i źródeł badających czy występuje wyższa zachorowalność na nowotwory po IVF.
W internecie można znaleźć przykłady prac wykazujących podwyższoną zachorowalność (z różnych przyczyn) i przykłady prac wykazujących brak zwiększonego ryzyka zachorowalności. Prace te dotyczą różnych populacji, różnych technik IVF i różnych schorzeń przez co trudno je porównywać.

Tekst nie był ani za ani przeciw 'in vitro’. Nawet gdyby okazało się, że większe ryzyko istnieje to można podać przykłady uzasadniające podjęcie tego ryzyka, decyzja zawsze należy do rodziców.
Pytanie, które mnie interesowało to czy ewentualna długoterminowa szkodliwość jest badana, a jeżeli jest i jeżeli występuje, to czy potencjalne ryzyko jest komunikowane parom zainteresowanym IVF. Dostępność informacji o efektach ubocznych terapii dotyczy tak samo in vitro jak i wielu innych terapii. Dużo o ,,złych praktykach” w tym temacie przeczytać można na blogu Bad Science.

Niestety zamiast chłodnej dyskusji, w ramach której zbierane byłyby argumenty za i przeciw, pojawiły się bardzo gorące komentarze.
Przyjmuję, że część winy w tym leży w braku moich umiejętności prowadzenia w Internecie wyważonych debat.
Gdy się nauczę jak to robić to do tego i innych kontrowersyjnych tematów wrócimy.

World Internet Project, czyli co Mikołaj przyniósł mi pod choinkę

Podczas wakacji miałem przyjemność prowadzić szkolenie dotyczące programu statystycznego R dla pracowników Agory. Miłe doświadczenie, mili ludzie, tym bardziej ucieszyło mnie, gdy przed świętami otrzymałem od Nich kartkę z życzeniami i dołączonym raportem World Internet Project Poland 2012.

The World Internet Project (strona projektu) to międzynarodowe przedsięwzięcie mające na celu opisanie wpływu Internetu na różne obszary naszego życia. W tym przedsięwzięciu biorą udział zespoły z ponad 25 rożnych krajów. W przypadku Polski w badaniach udział bierze oddział badawczy Gazeta.pl (http://badania.gazeta.pl/). Na tej stronie znajdują się raporty z lat 2010 i 2011, a pod choinkę trafił mi się raport z roku 2012.
Przeczytałem raport, zrobiłem notatki o czym chciałbym napisać na blogu i poszedłem spać. Wyobraźcie sobie moje zdziwienie, gdy rano na kanapie widzę taki obrazek (dodam, że córka powtarzała przy tym w kółko ,,żyrafa fafa fafa, żyrafa fafa fafa”).

Jeżeli ten raport wciągnął moją córkę, to czyż mógłbym powiedzieć o nim złe słowo?

Poniżej trzy ciekawe rozwiązania dotyczące wizualizacji danych, które znalazłem w tym raporcie.

Czytaj dalej World Internet Project, czyli co Mikołaj przyniósł mi pod choinkę

Przewidzieć zasięg fali…

Od jakiegoś czasu chodzi mi po głowie zbiór opowiadań przybliżających statystykę gimnazjalistom. Szukam więc zastosowań statystyki w codziennym życiu, w zagadnieniach interesujących dla ludzi w wieku 10-15 lat. Zagadnienia takie jak przewidywanie cen akcji, czy ocena ryzyka niespłacenia kredytu, czy badanie efektywności leku odpadają.
Tak się składa, że będąc na krótkim wypadzie nad morzem, przyszła mi go głowy mała ,,terenowa” gra statystyczna, o której poniżej napiszę. Jeżeli znacie inne zastosowania statystyki, które mogą być interesujące dla gimnazjalisty chętnie o nich usłyszę.

A wracając do gry terenowej. Pozwólcie, że najpierw naszkicuję tło wydarzeń. Cała rodzina na plaży, młody ze starym (czyli mną) budują zamek z piasku. Stary cały czas myśli o opowiadaniach dla gimnazjalistów.
Od morza wieje wiatr, wystarczająco silny by fale wdzierały się na kilka metrów w głąb plaży.
Wpadliśmy na świetny pomysł by zbudować mur zamku akurat w miejscu do którego dosięgają największe fale. Gdy któraś fala uderzy w mur zamku młody krzyczy ,,uciekać do zamku” i jest zabawa.

Fale, jak to fale, mają rożną długość (powinienem pisać wysokość, ale mnie interesować będzie jak daleko w głąb lądu fala potrafi się wedrzeć, więc będę pisał o jej długości/zasięgu).
Pomyślcie tylko jak świetnie by było móc przewidzieć, czy kolejna fala będzie duża i uderzy o mur zamku, czy też będzie mała i zakończy swój bieg wcześnie, daleko od murów.
Oczywiście czujni statystycy już widzą tu problem predykcji, ci z duszą inżyniera lub fani MacGyvera pewnie potrafiliby zbudować urządzenie, które na podstawie wielu czynników (siła wiatru, wysokość rozbryzgu o falochron, temperatura morza) z dużą precyzją przewidziałoby zasięg fal.
Problem jest taki, że nie mam pod ręką ani laptopa, ani miarki i żeby skrócić wyliczankę czego jeszcze nie mam to powiem, że mam jedynie dwie łopatki, wiaderko, wokół jest piasek, wodorosty i kamienie.

Zamieńmy zabawę w ucieczkę przed falami w terenową zabawę w statystykę. Ponieważ nie mieliśmy miarki do pomiaru jak głęboko w ląd wdzierają się fale to taką miarkę zbudowaliśmy sami. Od murów zamku co mniej-więcej stopę rozkładamy kamienie (powinny być duże by fale ich nie zmyły).

Następnie dla każdej fali liczymy do którego kamienia fala dotarła.

W zależności od cierpliwości dziecka (młody znudził się dosyć szybko, ale mnie od pewnych aktywności trudno oderwać, więc średnio jesteśmy cierpliwi) możemy teraz:

  • Zrobić histogram zasięgu fal.

    Taki histogram jest bardzo ciekawy, trochę przypomina rozkład beta o parametrach 1.5, 2.5, a trochę ,,kopnięty” rozkład normalny.

  • Policzyć autokorelację długości kolejnych fal, czyli porównać jak wyglądają długości par kolejnych fal.

    To akurat wdzięczne zadanie, ponieważ długie fale ,,dłużej wracają”, a wracając załamują kolejną falę, przez co nie udało nam się zauważyć dwóch kolejnych długich fal.

  • Znaleźć wzorzec na długości fal poprzedzających te najdłuższe fale, uderzające o mur zamku.

    Ponieważ te najdłuższe fale są rzadsze niż inne, więc trzeba mieć trochę cierpliwości. Ale za cierpliwość jest nagroda. Reguła, którą znalazłem jest taka, że po dosyć długiej fali jeżeli kolejna jest krótka to jeszcze kolejna ma dużą szansę na bycie tą docierającą do muru. Skuteczność tej reguły jest poniżej 50%, ale wciąż jest wystarczająco duża bym mógł pobawić się przed czterolatkiem w osobę statystycznie/magicznie przewidującą zasięg fal.

Epilog tej historii jest taki, że gdy wróciliśmy na plażę po obiedzie wiatr się wzmógł, fale zrobiły się większe, a po murze zostały szczątki. I było to świetnym pretekstem by wytłumaczyć młodemu czym jest brak stacjonarności.