Muffinki pod choinkę (2.0)!

6014_2
Pierwszy nakład Muffinek rozszedł się błyskawicznie i od ponad tygodnia nie było ich w księgarniach, ale dzięki sprawnej pracy drukarni uzupełniliśmy nakład.

Jak długo żyją Muffinki od wczoraj (ponownie) u dystrybutora, a od dzisiaj w księgarniach. Czas realizacji jest taki, że jeszcze powinny dojść pod choinkę, więc gdyby ktoś był zainteresowany to zachęcam.

Opowiadanie ,,JAK SZYBKO UROSNĘ?” zostało w grudniu opublikowane w Małej Delcie i Delcie. Do pobrania jako html i pdf. Swoją drogą, więcej miałem z tego frajdy niż z publikacji w JSS, Delta rulez!

How to weigh a dog with a ruler? (looking for translators)


We are working on a series of comic books that introduce statistical thinking and could be used as activity booklets in primary schools. Stories are built around adventures of siblings: Beta (skilled mathematician) and Bit (data hacker).

What is the connection between these comic books and R? All plots are created with ggplot2.

The first story (How to weigh a dog with a ruler?) is translated to English, Polish and Czech. If you would like to help us to translate this story to your native language, just write to me (przemyslaw.biecek at gmail) or create an issue on GitHub. It’s just 8 pages long, translations are available on Creative Commons BY-ND licence.

Click images below to get the comic book:
In English
bb_en

In Polish
bb_pl

In Czech
bb_cz

The main point of the first story is to find the relation between Height and Weight of different animals and then assess the weight of dinosaur T-Rex based only on the length of its skeleton. A method called Regression by Eye.

bb_rel

StatTuba w Twojej szkole (lub szkole Twoich dzieci)


StatTuba to projekt dotarcia do uczniów szkół podstawowych i średnich z wnioskowaniem opartym o dane. Pokażmy dzieciakom, że fajne rzeczy (czasem bardzo nieoczywiste) można robić, o ile tylko mamy odpowiednie dane.

Z akcją na PolakPotrafi.pl się nie udało, ale dzięki wsparciu z programu mPotęga (mBank), przygotowaliśmy materiały, pozwalające praktycznie każdemu zainteresowanemu nauczycielowi lub rodzicowi poprowadzenie warsztatów statystycznych w szkole. Materiały o których piszę niżej, są przeznaczone głównie dla klas 3-5.

Jak to działa?

1. Zainteresowany nauczyciel, rodzic lub inna osoba, która chciałaby w wybranej szkole poprowadzić warsztaty, wysyła na adres stattuba@gmail.com informację gdzie i kiedy chce te warsztaty przeprowadzić,
2. Do prowadzącego, na wskazany adres, wysyłamy całkowicie bezpłatnie materiały i instrukcje jak poprowadzić warsztaty (na jedną grupę średnio 30 papierowych kopii tego komiksu),
3. Nauczyciel lub rodzic prowadzi warsztaty, przesyła nam krótką (2-3 zdania) informację jak poszły warsztaty (najlepiej z jednym-dwoma zdjęciami) a my odsyłamy dyplom z podziękowaniami dla nauczyciela i dyrektora za udział w programie StatTuba,
4. Przewidujemy, że na warsztaty prowadzone w styczniu wyślemy materiały do 30 nauczycieli/prowadzących (10 już jest, szukamy kolejnych).

Na stronie http://betabit.wiki/warsztaty/ umieściliśmy szczegółowy wideo-opis tego, jak można poprowadzić warsztaty, jakie ćwiczenia przeprowadzić i jak wykorzystać przesłane materiały. W razie jakichkolwiek pytań chętnie udzielę szczegółowych informacji. Proszę o email na adres stattuba@gmail.com.

Materiały do warsztatów zostały przygotowane razem z Agnieszką Tomczyk i Martyną Śpiewak.

Bardzo zachęcam do poprowadzenia takich warsztatów w szkole swoich dzieci. To dla dzieci wielka frajda. Warto przesłać to ogłoszenie nauczycielowi matematyki (lub nauczania początkowego) w swojej szkole.

PISA 2015 – how to read/process/plot the data with R

Yesterday OECD has published results and data from PISA 2015 study (Programme for International Student Assessment). It’s a very cool study – over 500 000 pupils (15-years old) are examined every 3 years. Raw data is publicly available and one can easily access detailed information about pupil’s academic performance and detailed data from surveys for studetns, parents and school officials (~2 000 variables). Lots of stories to be found.

You can download the dataset in the SPSS format from this webpage. Then use the foreign package to read sav files and intsvy package to calculate aggregates/averages/tables/regression models (for 2015 data you shall use the GitHub version of the package).

Below you will find a short example, how to read the data, calculate weighted averages for genders/countries and plot these results with ggplot2. Here you will find other use cases for the intsvy package.

pisa2015

Zgłoszenia na ,,Konkurs na najgorszy wykres roku 2016”

Kontynuując tradycję konkursów na najgorszy wykres roku (tutaj edycja 2015, tutaj 2014, tutaj 2013 czy a tutaj 2012) ogłaszam nabór zgłoszeń na Konkurs na najgorszy wykres roku 2016.

Zgłaszać można dowolny wykres, który był prezentowany w 2016 roku, czy to na portalach internetowych, czy mediach społecznościowych czy konferencjach branżowych.

W tym konkursie, ,,najgorszy” oznacza najbardziej nieczytelny, zniekształcający dane lub wypaczający prezentowaną historię.

Już kilka grafik mam, są naprawdę niezłe, ale im więcej kandydatów tym ciekawsi zwycięzcy. Propozycje wykresów czy infografik proszę przesyłać mailowo lub dodawać w komentarzach poniżej.

Czas na przesyłanie zgłoszeń: do 20 grudnia. Konkurs na najgorszą grafikę jest zaplanowany na ostatni tydzień roku.

R + Kraków = eRka

erka11

We wtorek w Krakowie eRka. Poniżej zaproszenie od organizatorów. Za dwa tygodnie SER. Liczymy na sporą frekwencję, na ostatnie spotkanie przyszło ~100 osób (~66% z zapisanych).


Bartosz Sękiewicz

Zapraszamy na 11 spotkanie entuzjastów R w Krakowie, które odbędzie się w najbliższy wtorek (6 grudnia) o godz. 18:30 na Politechnice Krakowskiej (ul. Podchorążych 1, sala 101).

Rozpoczynamy wystąpieniem o bardzo istotnej tematyce, zwłaszcza z punktu widzenia Krakowa. Bartosz Czernecki opowie nam jak w analityczny sposób opisać zjawisko smogu, jakie metody możemy wykorzystywać oraz jakie są czynniki umożliwiające dokładne prognozowanie stężenia szkodliwych pyłów w powietrzu. Będzie to bardzo ciekawy przykład połączenia specjalistycznej wiedzy badacza z metodami machine learning, a wszystko to oczywiście w R.

W trakcie drugiego wystąpienia Zygmunt Zawadzki opowie o wadach i zaletach R w porównaniu do C++, przede wszystkim w kontekście szybkości działania. Programując w R nie zawsze zdajemy sobie sprawę z istnienia funkcjonalności, które z jednej strony pozwalają skupić się tylko na tym co z punktu widzenia analityka najważniejsze, ale za to z drugiej nakładają wiele ograniczeń. Zygmunt przedstawi bardzo ciekawe rozwiązanie tego dylematu i opowie jak możemy łączyć ze sobą te dwa języki programowania.

Zmieniamy delikatnie formułę spotkań i teraz przerwa na pizzę będzie pomiędzy pierwszym i drugim wystąpieniem.

Szczegółowy plan spotkania, bio prelegentów oraz abstrakty prezentacji można znaleźć na naszej stronie www.erkakrakow.pl.

Rejestracja na wydarzenie poprzez meetup oraz facebook.

Zapraszamy serdecznie!

Rozwój statystyki w Polsce

bedlewo
(zdjęcie ze strony IMPAN)

Na trwającej właśnie w Będlewie konferencji Statystyka Matematyczna (strona www), obradował ,,Zespół do spraw rozwoju statystyki matematycznej i jej zastosowań’’, który pracuje przy Komisji Statystyki, Komitetu Matematyki Polskiej Akademii Nauk (strona www komisji). Będąc członkiem zespołu stwierdziłem, że pewne punkty zebrania mogą być ciekawe dla szerszego grona statystyków.

Jednym z punktów pracy zespołu, była prezentacja dr. hab. Jacka Leśkowa pt. ,,Możliwości rozwoju statystyki w Polsce”. Prezentacja poświęcona ścieżce awansu naukowego w statystyce w Polsce, problemom związanym z dydaktyką statystyki i perspektywom rozwoju statystyki we współpracy z przemysłem/biznesem. Za zgodą autora umieszczam link do tej prezentacji (link tutaj).

Czytaj dalej Rozwój statystyki w Polsce

Prace domowe

Dawno już nie prowadziłem przedmiotu, przy którym tyle przyjemności sprawiało mi sprawdzanie prac domowych!

Na przedmiocie ,,Techniki prezentacji danych”, studenci jako prace domowe przygotowują grafiki związane z danymi, które znaleźli w gazetach z ostatniego tygodnia. Niektóre z tych prac są świetne. Poniżej dwie wykonane ostatnio przez Ewę Baranowską i Martę Jóźwik.

Tabela z Bloombergnews Polska

twd2

zamienia się w wykres przedstawiający rekordowe hiperinflacje (dwie z nich dotyczą Polski). Wykres trzeba oglądać w pełnej rozdzielczości (kliknij by otworzyć w pełnej rozdzielczości).

twd

Drugi wykres wyrósł z Pulsu Biznesu.

img_20161118_244049659

Trochę gg-magii i

twd3

Muffinki pod choinkę! (2)

6014_2
Tydzień temu pisałem, że opowiadania ,,Jak długo żyją Muffinki?” trafiły do zapowiedzi wydawniczych WUW. A dzisiaj jest mi niezmiernie miło poinformować, że pierwsza partia książek już jest w księgarniach (np. tutaj księgarnia PWN, inne księgarnie).

Świetna okazja by odkryć wersję elektroniczną drugiego opowiadania, tytułowego ,,Jak długo żyją Muffinki?”

Można z niego wyczytać np. jak przeliczać psie lata na ludzkie lata. Beta dowie się dlaczego duże psy starzeją się szybciej.

screen-shot-2016-11-25-at-08-29-05

Jest też o innych zwierzętach, np. Bit dowiaduje się, które z udomowionych zwierząt może przeżyć swojego właściciela.

screen-shot-2016-11-25-at-08-29-14

Ilustracji jest znacznie więcej, zarówno tych w formie wykresów jak i tych bardziej klasycznych.

screen-shot-2016-11-25-at-08-25-25

Opowiadanie w pliku pdf można znaleźć tej na stronie. Lub zamówić wersję papierową.

RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016


Jutro (czwartek 24 listopada) o 18 w budynku MiNI PW (Koszykowa 75, Warszawa) rozpocznie się XXI Spotkanie Entuzjastów R. Tym razem poświęcony zastosowaniom R, statystyki i informatyki do analizy danych genetycznych i medycznych.

Pierwszym prelegentem będzie Dariusz Ratman z Roche. Tytuł jego prezentacji to: Automating gene expression analysis and visualisation with R/Bioconductor: bringing genomics results to scientists

Drugą prezentację poprowadzą Alicja Szabelska-Beręsewicz, i Joanna Zyprych-Walczak.
Temat: Dyskusja biologa ze statystykiem w towarzystwie R – czyli jak znaleźć przydatne informacje w bezmiarze danych biologicznych.

Czytaj dalej RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016