Rozwój statystyki w Polsce

bedlewo
(zdjęcie ze strony IMPAN)

Na trwającej właśnie w Będlewie konferencji Statystyka Matematyczna (strona www), obradował ,,Zespół do spraw rozwoju statystyki matematycznej i jej zastosowań’’, który pracuje przy Komisji Statystyki, Komitetu Matematyki Polskiej Akademii Nauk (strona www komisji). Będąc członkiem zespołu stwierdziłem, że pewne punkty zebrania mogą być ciekawe dla szerszego grona statystyków.

Jednym z punktów pracy zespołu, była prezentacja dr. hab. Jacka Leśkowa pt. ,,Możliwości rozwoju statystyki w Polsce”. Prezentacja poświęcona ścieżce awansu naukowego w statystyce w Polsce, problemom związanym z dydaktyką statystyki i perspektywom rozwoju statystyki we współpracy z przemysłem/biznesem. Za zgodą autora umieszczam link do tej prezentacji (link tutaj).

Czytaj dalej Rozwój statystyki w Polsce

RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016


Jutro (czwartek 24 listopada) o 18 w budynku MiNI PW (Koszykowa 75, Warszawa) rozpocznie się XXI Spotkanie Entuzjastów R. Tym razem poświęcony zastosowaniom R, statystyki i informatyki do analizy danych genetycznych i medycznych.

Pierwszym prelegentem będzie Dariusz Ratman z Roche. Tytuł jego prezentacji to: Automating gene expression analysis and visualisation with R/Bioconductor: bringing genomics results to scientists

Drugą prezentację poprowadzą Alicja Szabelska-Beręsewicz, i Joanna Zyprych-Walczak.
Temat: Dyskusja biologa ze statystykiem w towarzystwie R – czyli jak znaleźć przydatne informacje w bezmiarze danych biologicznych.

Czytaj dalej RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016

Jak szybko urosnę? Czyli co ma wspólnego Singapur i BetaBit


Ze strony projektu BetaBit można pobrać plik pdf z opowiadaniem ,,Jak szybko urosnę?”. Pierwszym opowiadaniem ze zbioru ,,Jak długo żyją Muffinki?”. Niedługo pojawią się wersje elektroniczne kolejnych opowiadań.
Przez stronę projektu można też zakupić papierową wersję opowiadań lub komiksów.


Tematem przewodnim pierwszego opowiadania jest pytanie: kiedy będę wystarczająco wysoki/wysoka aby móc przejechać się kolejką górską? Szybkie kolejki mają ograniczenie na minimalny wzrost i czasem nawet stanie na palcach nie pomaga. A ten temat to świetna wymówka by porozmawiać o rozkładach wzrostu różnych dzieci w tym samym wieku.

Ale co wspólnego ma to opowiadanie z Singapurem?

Jakiś czas temu znajoma z Centrum Nauki Kopernik przywiozła mi z singapurskiego Art Science Museum książeczkę do pracy z dziećmi pod tytułem ,,Big Band Data”.
A co jest w środku? Ćwiczenia praktyczne na pracę z danymi, wizualizację, planowanie procesu analizy danych od ich zebrania po modelowanie.

O tak! Umiejętność korzystania z danych jest w rozwiniętych gospodarkach równie potrzebna jak umiejętność pisania i czytania. Trzeba więc pokazywać od młodych lat co i jak można z danymi zrobić.

Czasem spotykam się z głosami marud, że to pieśń przyszłości i trzeba poczekać jeszcze z 50 lat. Ale właśnie przykład z Singapuru pokazuje, że nie ma na co czekać.
Dzieci są ciekawe świata a ten można im pokazać przez pryzmat liczb.
Ale jeżeli można w Singapurze to można też w Polsce!

Więcej o projekcie BetaBit i dostępnych w nim materiałach można przeczytać na stronie http://betabit.wiki/.

Etyka statystyka

Zakończyłem właśnie lekturę książki Bad Pharma (przetłumaczona na j. polski jako ,,Złe leki’’, autor: Ben Goldacre), która na wielu przykładach pokazuje wady systemu wokół badań klinicznych i ,,evidence based medicine’’. Ben popełnił wcześniej inną książkę wartą przeczytania – Bad Science, prowadzi bloga (tutaj), można też obejrzeć jego 15 minutowe wystąpienie na TED Global (niezłe ma tempo mówienia).

Lektura zostawiła mnie z taką refleksją. Czy na kierunkach kształcących statystyków w Polsce mówi się o etycznych aspektach pracy statystyka? Jeżeli znacie taki kierunek to dajcie znać.

O etyce w analizie danych czasem pisze Andrew Gelman (prowadzi blog http://andrewgelman.com/). Tutaj jest jego ciekawa prezentacja dot. etyki a tutaj artykuł.

Sprawa etyki dla praktykujących statystyków jest oczywiście dyskutowana szerzej. W kwietniu tego roku ASA (American Statistical Association) opublikowała zbiór zaleceń (dostępne tutaj i tutaj).

Niektóre punkty to odpowiednia staranność, transparentność danych i wykonanych analiz. Ale też przewidywanie efektów, które mogą mieć publikowane treści i branie za nie odpowiedzialności.

Z polskojęzycznych materiałów trafiłem na zalecenia GUSu (Podstawowe standardy jakości statystyki publicznej, siłą rzeczy skupione bardziej na statystyce publicznej). Google podrzucił mi też publikację Bohdana Wyżnikiewicza Statystyka a etyka Statistics and Ethics – CEJSH, na ostatniwj stronie jest kilka ciekawych przykładów (Skutki nieetycznych i quasi-nieetycznych działań na danych statystycznych).

Statystyk na wakacjach

Miejsce: Park rozrywki w Szklarskiej Porębie, kolejka do kina 6D.
Aktorzy: [S]taystyk na wakacjach i [B]ileterka.
Czas: 14:55, na 5 minut przed seansem w ww. kinie. Seanse odbywają się co 30 minut. Przed wejściem ustawia się kolejka. 10 minut przed seansem osoby z kolejki zaczynają wchodzić do kina. Wchodzi pierwsze 25 osób.

– Na ten seans już nie ma miejsc, proszę przyjść na kolejny o 15:30 – informuje Bileterka.
– A ile minut przed seansem powinienem przyjść by były jeszcze miejsca? – grzecznie pyta Statystyk.
– 5 minut przed seansem, tak jak jest napisane w regulaminie – Bileterka wskazuje palcem regulamin.
– Ale teraz jestem 5 minut przed seansem i już nie ma miejsc – zauważa Statytyk. – Więc ile minut wcześniej powinienem przyjść aby były jeszcze miejsca? – docieka.
– To zależy od tego ile osób przyjdzie. Musi być Pan najpóźniej 5 minut przed seansem. – powtarza Bileterka zniecierpliwionym głosem.
– A ile minut przed seansem się zazwyczaj kończą bilety? – dopytuje Statystyk.

Mniej więcej tutaj dla mojej interlokutorki staje się jasne, że trafił się jej wyjątkowo dociekliwy/upierdliwy (strony mogą różnie określać tę cechę) osobnik. Jej odpowiedź jest już bardziej stanowcza.

– Różnie się kończą. To zależy ile osób przyjdzie na kolejny seans. A tego nikt nie wie – rozmówczyni niesłusznie zakłada, że odstraszy mnie brak precyzyjnych szacunków.

W tym miejscu przerwę relacjonowanie naszej rozmowy. Na kolejny seans przyszedłem 10 minut przed czasem i wszedłem mniej więcej w połowie kolejki.

Ale historia dopiero tutaj się zaczyna.

Przez kolejne dwie godziny moje szkraby szalały na dmuchańcach obok kina. Miałem trochę czasu by poobserwować kolejkę do kina, zebrać trochę danych i zastanowić się, jak sam bym odpowiedział na pytanie, które zadałem Bileterce.

Zagadnienie:

Oszacować ile minut przed seansem należy przyjść aby mieć 90% pewności, że wystarczy dla nas miejsc w kinie.

Dane:

Dla 4 seansów (dwie godziny obserwacji) mamy informację ile osób (najczęściej przychodzą całe rodziny) i ile minut przed seansem dołączyło do kolejki.

Model 1:

Rozwiązanie brutalne, praktycznie bez modelowania.
Dla każdego seansu liczymy ile minut przed seansem przyszła ostatnia osoba, która zmieściła się na sali. Dla naszych seansów było to odpowiednio 8,9,7,8 minut.

Rozwiązanie proste o uroku cepa. Bez modelu parametrycznego z czterech liczb trudno wyznaczyć 90% kwantyl. (Ok, można jeżeli jest się ultrasem bootstrapowcem).

Szukamy więc czegoś parametrycznego.

Model 2:

Zakładamy, że liczba osób dochodzących do kolejki opisana jest jednorodnym procesem Poissona.
Oznacza to, że zakładamy, że w pewnym okresie czasu, np. -15 do -5 minut przed seansem, chętni przychodzą pojedynczo ze stałą intensywnością (=nie w stałych odstępach czasu ale ze stałem prawdopodobieństwem pojawienia się).
Więcej o procesie Poissona np. tutaj.

I co dalej? Szacujemy intensywność przychodzenia osób (w tym modelu to średnia) i liczymy czas oczekiwania na przekroczenie przez proces Poissona bariery 22 osób (jeszcze my się musimy zmieścić).

Piękny parametryczny model.
Drażniące są tylko te nierealne założenia.
Może da się je osłabić.

Model 3:

Zakładamy, że liczba osób dochodzących do kolejki opisana jest złożonym procesem Poissona.
Złożony proces Poissona to połączenie zwykłego procesu Poissona (opisuje momenty, w których do kolejki dochodzi rodzina) oraz skoków o różnej wielkości (wielkość skoku to liczba osób w rodzinie, które dołączyły do kolejki, z obserwacji od 1 do 5, najczęściej 2-3). Jest to rozszerzenie modelu 2, w którym uwzględniamy to, że do kolejki na raz dołączyć może kilka osób.
Więcej o złożonym procesie Poissona np. tutaj.

I co dalej? Osobno szacujemy intensywność pojawiania się rodzin (podobnie model z jednym parametrem szacowanym średnią), osobno szacujemy rozkład wielkości rodziny. Mając te składowe, wyznaczamy (np. symulacyjnie) rozkład czasu przekroczenia bariery 22 osób.

Model coraz piękniejszy, wymaga estymacji parametrów dwóch rozkładów (czasu przyjścia i wielkości rodziny). Drażni jedynie to założenie o stałej intensywności pojawiania się rodzin na odcinku -15 min do -5 min przed seansem.

Model 4:

Wykorzystajmy złożony niejednorodny proces Poissona. Czyli to co powyżej, ale tym razem intensywność pojawiania się rodzin jest nieujemną funkcją na odcinku -30 min do -5 min. Na początku raczej bliska zera (kto ustawia się w kolejce na 20 minut przed seansem gdy nikt inny w kolejce nie stoi?) a później szybko skacząca w czasie -15 min do -5 min przed seansem (nauczeni doświadczeniem wiedzą, że warto zjawić się wcześniej).
To już jest TEN model. W zmiennej intensywności możemy nawet uwzględnić porę dnia, liczbę osób przebywających w parku rozrywki i kilka innych parametrów. Samą intensywność można szacować np. estymatorem jądrowym.

Jedynym problemem okazało się to, że o 18 zamykali park i nie dało się zebrać więcej danych.

Więcej o niejednorodnym procesie Poissona można przeczytać tutaj.

Inne pomysły na modele?

[*] Ilustracja pochodzi z opowiadania ,,Jak długo żyją Muffinki”.

eRka: wakacyjny zespołowy konkurs z R

R_competition_final2

eRka wspólnie z Do-IT Solutions (z patronami INIME, FuRBS i SmarterPoland.pl) przygotowała na te wakacje zespołowy konkurs analizy danych.

Dane dotyczą wyników edukacyjnych uczniów z RPA. Być może pamiętacie, że dane były wykorzystywane w hackatonie organizowanym przez eRka rok temu, ale teraz i danych jest więcej i wyzwań jest więcej.

Więcej informacji o tym konkursie, w tym zasady i tematy analiz, znajduje się na tej stronie, a w języku polskim na tej stronie.

Od piątku można będzie zgłaszać zespoły.

EURO 2016 v2

Ostatnio pisałem o artykule w którym uzgadniano szanse wygrania Euro przez drużyny na bazie zakładów bukmacherskich. Dostępny zbiór danych wykorzystaliśmy na ostatnich zajęciach ze Statystyki 2 do zabawy w przewidywanie czy Polska wyjdzie z grupy. Różne osoby, próbowały różnych modeli, jeden przypadł mi szczególnie do gustu i poniżej go opiszę.

Model jest taki: jeżeli drużyna A gra przeciw drużynie B, to liczbę goli, które A strzeli B można modelować jako funkcje zależną od różnicy w sile A-B.

Informacje o różnicach w sile można wziąć np. z rankingu FIFA, informacje o liczbie strzelonych goli z wikipedii. Liczba goli jest całkowita więc przyjmujemy, że modelujemy ją rozkładem Poissona z domyślną funkcją łączącą – log.

I tak powstał poniższy wykres. Każdy mecz drużyn A vs B to dwie kropki, jedna opisuje ile goli A strzeliła B a druga kropka ile goli B strzeliła A. Na osi OX jest różnica siły w rankingu FIFA a na OY liczba strzelonych goli. Szara linia przedstawia oczekiwaną liczbę goli w oparciu o regresję Poissona. Zaznaczyłem też trzy punkty – największe outliery. Belgia jest w rankingu FIFA o prawie 400 punktów wyżej niż Włosi, a jednak to Włosi strzelili dwie bramki. Hiszpania strzeliła 3 gole, choć przy jej przewadze spodziewać można było się mniejszej liczby. Niemcy przy swojej przewadze w rankingu FIFA powinni coś strzelić (choć szans na gol więcej mieli Polacy).

Screen Shot 2016-06-20 at 01.02.03

Taki model. Może założenie o rozkładzie Poissona nie jest najlepsze i ranking FIFA nie jest najbardziej odpowiedni, ale przynajmniej łatwo zapamiętać jak działa i jak korzystać z regresji Poissona.

EURO 2016

Screen Shot 2016-06-12 at 22.24.40
Krzysiek Trajkowski podesłał mi link do artykułu ,,Predictive Bookmaker Consensus Model for the UEFA Euro 2016”.

Na podstawie danych z 19 serwisów z zakładami internetowymi autorzy zbudowali jeden zintegrowany model probabilistyczny.

Tabela z danymi z poszczególnych serwisów (tabela 3) dla wszystkich krajów jest tutaj: https://github.com/pbiecek/StatystykaII/blob/master/MIMUW_2016/materialy/euro2016_odds.csv. Wartości z tabeli to fixed odds na zwycięstwo w turnieju. Jeżeli odds dla POL to 51:1, to znaczy, że w przypadku wygranej w turnieju dostajemy 52x zakład (tj jeżeli poprawnie zgadniemy).

Można na takich danych zbudować i klasyfikator, można też zrobić redukcję danych do wizualizacji. W sam raz na jutrzejsze laboratorium ze statystyki 2.

Program 500+ a prezentacja danych na tle mapy

Na portalu wp.pl trafiłem pod artykułem Platforma celowo opóźnia wypłaty 500+? Mocne słowa posła PiS na taką grafikę.

Screen Shot 2016-05-27 at 09.53.19

Artykuł jest o tym, że w miastach w których wygrało PO procent rozpatrzonych wniosków w programie 500+ jest znacznie mniejszy niż w miastach w których wygrał PiS (pomińmy na chwilę to, że w Polsce mamy więcej niż 8 dużych miast).

Z powyższego wykresu najbardziej w oczy rzuca się to, że z tych 8 miast PO wygrało w 4 największych a PiS w 4 najmniejszych.
Rzuca się to w oczy dlatego, że liczba złożonych wniosków jest proporcjonalna do obwodu zewnętrznego brzegu obwarzanka a nie go jego pola.
Liczby, które są główną treścią artykułu, czyli procent rozpatrzonych wniosków, odpowiadają zaznaczonemu ciemniejszym kolorem wycinkowi okręgu.
Utrudniono porównywanie tych wycinków na kilka sposobów. Jednym jest to, że na wycinkach są liczby które przykrywają część informacji, w przypadku Ostrołęki skutecznie utrudniając jakiekolwiek porównania. Okręgi są umieszczone w różnych punktach (a szkoda, a mogłyby mieć wspólny środek).
Liczby umieszczone są w różnych miejscach grafiki, przez co trudno wykonać na nich jakieś sensowne operacje, jak np. policzyć sumaryczną liczbę przyznanych wniosków.

Te same informacje można przedstawić np. na poniższym wykresie mozaikowym. Można prosto odczytać zarówno procent rozpatrzonych wniosków, liczbę złożonych i rozpatrzonych wniosków.

Screen Shot 2016-05-29 at 08.52.21

Mapy są nowymi wykresami kołowymi – Jak pokazywać graficznie zmianę poparcia dla partii prawicowych w Europie

Kiedyś Excel pozwalał na łatwe tworzenie wykresów kołowych czy stożkowych i wykresy takie zaczęły pojawiać się wszędzie bez względu na to czy ten sposób prezentacji był odpowiedni czy nie.
Dzisiaj coraz więcej bibliotek pozwala na tworzenie prostych kartogramów i podobnie jak piechart’y są one stosowane bez względu na to czy ma to sens czy nie.

Przykład? Porównajmy dwa sposoby prezentacji tych samych danych – animowany interaktywny kartogram vs. wykres paskowy.

Tydzień temu (22 maja) New York Times przedstawił interaktywny wykres pokazujący jak zmieniało się poparcie dla różnych partii prawicowych w Europie przez ostatnie 20 lat. Podział na prawicę/lewicę często nie jest oczywisty (światopogląd vs. gospodarka), ale poniżej będzie o sposobie prezentacji a nie o samych danych.

Screen Shot 2016-05-28 at 10.18.10

Dwa dni później (24 maja) wykres komentuje wyborcza.pl. W artykule pojawia się statyczna kopia wykresu z NYT. Praktycznie taka jak powyżej, ze zdjęcia nie sposób odczytać która partia została zakwalifikowana jako prawica, z oryginalnej grafiki NYT można.

Dwa dni później (26 maja) te same dane przedstawia Polityka korzystając z biblioteki ESRI do interaktywnych map. Procent poparcia zaznaczono gradientem kolorów (nie do końca jasna jest wartość w legendzie ‘<0', może nawiązanie do polityka lub piosenki). Dane dla kolejnych lat można porównać przesuwając suwak z latami. Screen Shot 2016-05-28 at 10.01.54

Z tych sposobów prezentacji znacznie czytelniejszy, niosący więcej informacji, bogatszy w istotną treść jest ten, który pojawił się w NYT.