Muffinki pod choinkę (2.0)!

6014_2
Pierwszy nakład Muffinek rozszedł się błyskawicznie i od ponad tygodnia nie było ich w księgarniach, ale dzięki sprawnej pracy drukarni uzupełniliśmy nakład.

Jak długo żyją Muffinki od wczoraj (ponownie) u dystrybutora, a od dzisiaj w księgarniach. Czas realizacji jest taki, że jeszcze powinny dojść pod choinkę, więc gdyby ktoś był zainteresowany to zachęcam.

Opowiadanie ,,JAK SZYBKO UROSNĘ?” zostało w grudniu opublikowane w Małej Delcie i Delcie. Do pobrania jako html i pdf. Swoją drogą, więcej miałem z tego frajdy niż z publikacji w JSS, Delta rulez!

How to weigh a dog with a ruler? (looking for translators)


We are working on a series of comic books that introduce statistical thinking and could be used as activity booklets in primary schools. Stories are built around adventures of siblings: Beta (skilled mathematician) and Bit (data hacker).

What is the connection between these comic books and R? All plots are created with ggplot2.

The first story (How to weigh a dog with a ruler?) is translated to English, Polish and Czech. If you would like to help us to translate this story to your native language, just write to me (przemyslaw.biecek at gmail) or create an issue on GitHub. It’s just 8 pages long, translations are available on Creative Commons BY-ND licence.

Click images below to get the comic book:
In English
bb_en

In Polish
bb_pl

In Czech
bb_cz

The main point of the first story is to find the relation between Height and Weight of different animals and then assess the weight of dinosaur T-Rex based only on the length of its skeleton. A method called Regression by Eye.

bb_rel

Zgłoszenia na ,,Konkurs na najgorszy wykres roku 2016”

Kontynuując tradycję konkursów na najgorszy wykres roku (tutaj edycja 2015, tutaj 2014, tutaj 2013 czy a tutaj 2012) ogłaszam nabór zgłoszeń na Konkurs na najgorszy wykres roku 2016.

Zgłaszać można dowolny wykres, który był prezentowany w 2016 roku, czy to na portalach internetowych, czy mediach społecznościowych czy konferencjach branżowych.

W tym konkursie, ,,najgorszy” oznacza najbardziej nieczytelny, zniekształcający dane lub wypaczający prezentowaną historię.

Już kilka grafik mam, są naprawdę niezłe, ale im więcej kandydatów tym ciekawsi zwycięzcy. Propozycje wykresów czy infografik proszę przesyłać mailowo lub dodawać w komentarzach poniżej.

Czas na przesyłanie zgłoszeń: do 20 grudnia. Konkurs na najgorszą grafikę jest zaplanowany na ostatni tydzień roku.

Rozwój statystyki w Polsce

bedlewo
(zdjęcie ze strony IMPAN)

Na trwającej właśnie w Będlewie konferencji Statystyka Matematyczna (strona www), obradował ,,Zespół do spraw rozwoju statystyki matematycznej i jej zastosowań’’, który pracuje przy Komisji Statystyki, Komitetu Matematyki Polskiej Akademii Nauk (strona www komisji). Będąc członkiem zespołu stwierdziłem, że pewne punkty zebrania mogą być ciekawe dla szerszego grona statystyków.

Jednym z punktów pracy zespołu, była prezentacja dr. hab. Jacka Leśkowa pt. ,,Możliwości rozwoju statystyki w Polsce”. Prezentacja poświęcona ścieżce awansu naukowego w statystyce w Polsce, problemom związanym z dydaktyką statystyki i perspektywom rozwoju statystyki we współpracy z przemysłem/biznesem. Za zgodą autora umieszczam link do tej prezentacji (link tutaj).

Czytaj dalej Rozwój statystyki w Polsce

RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016


Jutro (czwartek 24 listopada) o 18 w budynku MiNI PW (Koszykowa 75, Warszawa) rozpocznie się XXI Spotkanie Entuzjastów R. Tym razem poświęcony zastosowaniom R, statystyki i informatyki do analizy danych genetycznych i medycznych.

Pierwszym prelegentem będzie Dariusz Ratman z Roche. Tytuł jego prezentacji to: Automating gene expression analysis and visualisation with R/Bioconductor: bringing genomics results to scientists

Drugą prezentację poprowadzą Alicja Szabelska-Beręsewicz, i Joanna Zyprych-Walczak.
Temat: Dyskusja biologa ze statystykiem w towarzystwie R – czyli jak znaleźć przydatne informacje w bezmiarze danych biologicznych.

Czytaj dalej RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016

Jak szybko urosnę? Czyli co ma wspólnego Singapur i BetaBit


Ze strony projektu BetaBit można pobrać plik pdf z opowiadaniem ,,Jak szybko urosnę?”. Pierwszym opowiadaniem ze zbioru ,,Jak długo żyją Muffinki?”. Niedługo pojawią się wersje elektroniczne kolejnych opowiadań.
Przez stronę projektu można też zakupić papierową wersję opowiadań lub komiksów.


Tematem przewodnim pierwszego opowiadania jest pytanie: kiedy będę wystarczająco wysoki/wysoka aby móc przejechać się kolejką górską? Szybkie kolejki mają ograniczenie na minimalny wzrost i czasem nawet stanie na palcach nie pomaga. A ten temat to świetna wymówka by porozmawiać o rozkładach wzrostu różnych dzieci w tym samym wieku.

Ale co wspólnego ma to opowiadanie z Singapurem?

Jakiś czas temu znajoma z Centrum Nauki Kopernik przywiozła mi z singapurskiego Art Science Museum książeczkę do pracy z dziećmi pod tytułem ,,Big Band Data”.
A co jest w środku? Ćwiczenia praktyczne na pracę z danymi, wizualizację, planowanie procesu analizy danych od ich zebrania po modelowanie.

O tak! Umiejętność korzystania z danych jest w rozwiniętych gospodarkach równie potrzebna jak umiejętność pisania i czytania. Trzeba więc pokazywać od młodych lat co i jak można z danymi zrobić.

Czasem spotykam się z głosami marud, że to pieśń przyszłości i trzeba poczekać jeszcze z 50 lat. Ale właśnie przykład z Singapuru pokazuje, że nie ma na co czekać.
Dzieci są ciekawe świata a ten można im pokazać przez pryzmat liczb.
Ale jeżeli można w Singapurze to można też w Polsce!

Więcej o projekcie BetaBit i dostępnych w nim materiałach można przeczytać na stronie http://betabit.wiki/.

Etyka statystyka

Zakończyłem właśnie lekturę książki Bad Pharma (przetłumaczona na j. polski jako ,,Złe leki’’, autor: Ben Goldacre), która na wielu przykładach pokazuje wady systemu wokół badań klinicznych i ,,evidence based medicine’’. Ben popełnił wcześniej inną książkę wartą przeczytania – Bad Science, prowadzi bloga (tutaj), można też obejrzeć jego 15 minutowe wystąpienie na TED Global (niezłe ma tempo mówienia).

Lektura zostawiła mnie z taką refleksją. Czy na kierunkach kształcących statystyków w Polsce mówi się o etycznych aspektach pracy statystyka? Jeżeli znacie taki kierunek to dajcie znać.

O etyce w analizie danych czasem pisze Andrew Gelman (prowadzi blog http://andrewgelman.com/). Tutaj jest jego ciekawa prezentacja dot. etyki a tutaj artykuł.

Sprawa etyki dla praktykujących statystyków jest oczywiście dyskutowana szerzej. W kwietniu tego roku ASA (American Statistical Association) opublikowała zbiór zaleceń (dostępne tutaj i tutaj).

Niektóre punkty to odpowiednia staranność, transparentność danych i wykonanych analiz. Ale też przewidywanie efektów, które mogą mieć publikowane treści i branie za nie odpowiedzialności.

Z polskojęzycznych materiałów trafiłem na zalecenia GUSu (Podstawowe standardy jakości statystyki publicznej, siłą rzeczy skupione bardziej na statystyce publicznej). Google podrzucił mi też publikację Bohdana Wyżnikiewicza Statystyka a etyka Statistics and Ethics – CEJSH, na ostatniwj stronie jest kilka ciekawych przykładów (Skutki nieetycznych i quasi-nieetycznych działań na danych statystycznych).

Statystyk na wakacjach

Miejsce: Park rozrywki w Szklarskiej Porębie, kolejka do kina 6D.
Aktorzy: [S]taystyk na wakacjach i [B]ileterka.
Czas: 14:55, na 5 minut przed seansem w ww. kinie. Seanse odbywają się co 30 minut. Przed wejściem ustawia się kolejka. 10 minut przed seansem osoby z kolejki zaczynają wchodzić do kina. Wchodzi pierwsze 25 osób.

– Na ten seans już nie ma miejsc, proszę przyjść na kolejny o 15:30 – informuje Bileterka.
– A ile minut przed seansem powinienem przyjść by były jeszcze miejsca? – grzecznie pyta Statystyk.
– 5 minut przed seansem, tak jak jest napisane w regulaminie – Bileterka wskazuje palcem regulamin.
– Ale teraz jestem 5 minut przed seansem i już nie ma miejsc – zauważa Statytyk. – Więc ile minut wcześniej powinienem przyjść aby były jeszcze miejsca? – docieka.
– To zależy od tego ile osób przyjdzie. Musi być Pan najpóźniej 5 minut przed seansem. – powtarza Bileterka zniecierpliwionym głosem.
– A ile minut przed seansem się zazwyczaj kończą bilety? – dopytuje Statystyk.

Mniej więcej tutaj dla mojej interlokutorki staje się jasne, że trafił się jej wyjątkowo dociekliwy/upierdliwy (strony mogą różnie określać tę cechę) osobnik. Jej odpowiedź jest już bardziej stanowcza.

– Różnie się kończą. To zależy ile osób przyjdzie na kolejny seans. A tego nikt nie wie – rozmówczyni niesłusznie zakłada, że odstraszy mnie brak precyzyjnych szacunków.

W tym miejscu przerwę relacjonowanie naszej rozmowy. Na kolejny seans przyszedłem 10 minut przed czasem i wszedłem mniej więcej w połowie kolejki.

Ale historia dopiero tutaj się zaczyna.

Przez kolejne dwie godziny moje szkraby szalały na dmuchańcach obok kina. Miałem trochę czasu by poobserwować kolejkę do kina, zebrać trochę danych i zastanowić się, jak sam bym odpowiedział na pytanie, które zadałem Bileterce.

Zagadnienie:

Oszacować ile minut przed seansem należy przyjść aby mieć 90% pewności, że wystarczy dla nas miejsc w kinie.

Dane:

Dla 4 seansów (dwie godziny obserwacji) mamy informację ile osób (najczęściej przychodzą całe rodziny) i ile minut przed seansem dołączyło do kolejki.

Model 1:

Rozwiązanie brutalne, praktycznie bez modelowania.
Dla każdego seansu liczymy ile minut przed seansem przyszła ostatnia osoba, która zmieściła się na sali. Dla naszych seansów było to odpowiednio 8,9,7,8 minut.

Rozwiązanie proste o uroku cepa. Bez modelu parametrycznego z czterech liczb trudno wyznaczyć 90% kwantyl. (Ok, można jeżeli jest się ultrasem bootstrapowcem).

Szukamy więc czegoś parametrycznego.

Model 2:

Zakładamy, że liczba osób dochodzących do kolejki opisana jest jednorodnym procesem Poissona.
Oznacza to, że zakładamy, że w pewnym okresie czasu, np. -15 do -5 minut przed seansem, chętni przychodzą pojedynczo ze stałą intensywnością (=nie w stałych odstępach czasu ale ze stałem prawdopodobieństwem pojawienia się).
Więcej o procesie Poissona np. tutaj.

I co dalej? Szacujemy intensywność przychodzenia osób (w tym modelu to średnia) i liczymy czas oczekiwania na przekroczenie przez proces Poissona bariery 22 osób (jeszcze my się musimy zmieścić).

Piękny parametryczny model.
Drażniące są tylko te nierealne założenia.
Może da się je osłabić.

Model 3:

Zakładamy, że liczba osób dochodzących do kolejki opisana jest złożonym procesem Poissona.
Złożony proces Poissona to połączenie zwykłego procesu Poissona (opisuje momenty, w których do kolejki dochodzi rodzina) oraz skoków o różnej wielkości (wielkość skoku to liczba osób w rodzinie, które dołączyły do kolejki, z obserwacji od 1 do 5, najczęściej 2-3). Jest to rozszerzenie modelu 2, w którym uwzględniamy to, że do kolejki na raz dołączyć może kilka osób.
Więcej o złożonym procesie Poissona np. tutaj.

I co dalej? Osobno szacujemy intensywność pojawiania się rodzin (podobnie model z jednym parametrem szacowanym średnią), osobno szacujemy rozkład wielkości rodziny. Mając te składowe, wyznaczamy (np. symulacyjnie) rozkład czasu przekroczenia bariery 22 osób.

Model coraz piękniejszy, wymaga estymacji parametrów dwóch rozkładów (czasu przyjścia i wielkości rodziny). Drażni jedynie to założenie o stałej intensywności pojawiania się rodzin na odcinku -15 min do -5 min przed seansem.

Model 4:

Wykorzystajmy złożony niejednorodny proces Poissona. Czyli to co powyżej, ale tym razem intensywność pojawiania się rodzin jest nieujemną funkcją na odcinku -30 min do -5 min. Na początku raczej bliska zera (kto ustawia się w kolejce na 20 minut przed seansem gdy nikt inny w kolejce nie stoi?) a później szybko skacząca w czasie -15 min do -5 min przed seansem (nauczeni doświadczeniem wiedzą, że warto zjawić się wcześniej).
To już jest TEN model. W zmiennej intensywności możemy nawet uwzględnić porę dnia, liczbę osób przebywających w parku rozrywki i kilka innych parametrów. Samą intensywność można szacować np. estymatorem jądrowym.

Jedynym problemem okazało się to, że o 18 zamykali park i nie dało się zebrać więcej danych.

Więcej o niejednorodnym procesie Poissona można przeczytać tutaj.

Inne pomysły na modele?

[*] Ilustracja pochodzi z opowiadania ,,Jak długo żyją Muffinki”.

eRka: wakacyjny zespołowy konkurs z R

R_competition_final2

eRka wspólnie z Do-IT Solutions (z patronami INIME, FuRBS i SmarterPoland.pl) przygotowała na te wakacje zespołowy konkurs analizy danych.

Dane dotyczą wyników edukacyjnych uczniów z RPA. Być może pamiętacie, że dane były wykorzystywane w hackatonie organizowanym przez eRka rok temu, ale teraz i danych jest więcej i wyzwań jest więcej.

Więcej informacji o tym konkursie, w tym zasady i tematy analiz, znajduje się na tej stronie, a w języku polskim na tej stronie.

Od piątku można będzie zgłaszać zespoły.

EURO 2016 v2

Ostatnio pisałem o artykule w którym uzgadniano szanse wygrania Euro przez drużyny na bazie zakładów bukmacherskich. Dostępny zbiór danych wykorzystaliśmy na ostatnich zajęciach ze Statystyki 2 do zabawy w przewidywanie czy Polska wyjdzie z grupy. Różne osoby, próbowały różnych modeli, jeden przypadł mi szczególnie do gustu i poniżej go opiszę.

Model jest taki: jeżeli drużyna A gra przeciw drużynie B, to liczbę goli, które A strzeli B można modelować jako funkcje zależną od różnicy w sile A-B.

Informacje o różnicach w sile można wziąć np. z rankingu FIFA, informacje o liczbie strzelonych goli z wikipedii. Liczba goli jest całkowita więc przyjmujemy, że modelujemy ją rozkładem Poissona z domyślną funkcją łączącą – log.

I tak powstał poniższy wykres. Każdy mecz drużyn A vs B to dwie kropki, jedna opisuje ile goli A strzeliła B a druga kropka ile goli B strzeliła A. Na osi OX jest różnica siły w rankingu FIFA a na OY liczba strzelonych goli. Szara linia przedstawia oczekiwaną liczbę goli w oparciu o regresję Poissona. Zaznaczyłem też trzy punkty – największe outliery. Belgia jest w rankingu FIFA o prawie 400 punktów wyżej niż Włosi, a jednak to Włosi strzelili dwie bramki. Hiszpania strzeliła 3 gole, choć przy jej przewadze spodziewać można było się mniejszej liczby. Niemcy przy swojej przewadze w rankingu FIFA powinni coś strzelić (choć szans na gol więcej mieli Polacy).

Screen Shot 2016-06-20 at 01.02.03

Taki model. Może założenie o rozkładzie Poissona nie jest najlepsze i ranking FIFA nie jest najbardziej odpowiedni, ale przynajmniej łatwo zapamiętać jak działa i jak korzystać z regresji Poissona.