Konkurs na najgorszy wykres 2016 roku

Zbliża się nasz konkurs na najgorszy wykres tego roku. Kandydaci z poprzednich lat dowodzą, że nie jest prosto zdobyć ten tytuł (edycja 2015, edycja 2014, edycja 2013, edycja 2012).

Zasada konkursu jest prosta. Raz dziennie, do końca roku, można wskazać swoje typy za pomocą ankiety umieszczonej na końcu tego wpisu. Po nowym roku zobaczymy, który wykres otrzymał najwięcej głosów. To on otrzyma tytuł ,,Zniekształcenie roku 2016”, a więc grafikę najbardziej zniekształcającą prezentowane dane. Aby ułatwić głosowanie, każdy kandydat ma skrótową nazwę ,,wpadającą w ucho” nazwę.

Tym razem nominowanych grafik było kilkadziesiąt. Część otrzymałem na maila, część trafiła do mnie przez tag @smarterpoland na Facebooku lub Twitterze. Aby uprościć głosowanie, wybrałem 13 grafik w czterech grupach: ,,Ach te słupki”, ,,Co tam panie w polityce”, ,,Pole minowe” i ,,Niefortunne koło”.

Niech zwycięży najlepszy!

Czytaj dalej Konkurs na najgorszy wykres 2016 roku

Równanie Choinki

bokeh_plot-1

Bibliotek i narzędzi do tworzenia interaktywnych wykresów jest cała masa. Poczynając od tych pozwalających przy odrobienie wysiłku na wyrenderowanie praktycznie każdego możliwego wykresu (D3.js), po te generujące wykresy błyskawicznie, ale ograniczone do kilku szablonów (np. NVD3). Aby przetestować elastyczność różnych narzędzi, na ostatnich zajęciach z Technik Wizualizacji Danych wykonaliśmy test choinki – w bibliotece XYZ przygotuj interaktywną choinkę.

Poniższą przygotowali Jan Dyszyński i Maksymilian Mazur z użyciem biblioteki RBokeh (a dokładniej R-owego portu do Bokeh). Kod jest tutaj, przykład poniżej, przy odrobienie zoomu można odczytać równanie tej choinki.



screen-shot-2016-12-24-at-17-30-44

Po lewej i pod tym linkiem jest choinka, której autorem jest Piotr Smuda (najedźcie myszką aby sprawdzić jakie prezenty są pod choinką).

screen-shot-2016-12-23-at-15-03-41

Tutaj jest choinka w googleVis wykonana przez panią Małgorzatę Sobczak.

Kolejna choinka jest w ggiraph. Autorką jest Dorota Łępicka a kod jest tutaj.

screen-shot-2016-12-29-at-20-16-18

Przewodnik po pakiecie R – wydanie 4.0

TL;DR – od wczoraj w wybranych księgarniach stacjonarnych, niedługo w internetowych.

przewodnik4okladka

W wydaniu IV zmian jest bardzo dużo. Opiszę je niedługo szczegółowiej, ale w skrócie:

* Na bazie doświadczeń z kursu PogromcyDanych (udział wzięło ponad 2000 osób, więc było co analizować), pierwsze dwa rozdziały zostały bardzo bardzo uproszczone. Powinny być w zasięgu dla licealisty, studenta czy osób bez doświadczenia w programowaniu. Na przykładach pokazuję jak wczytać dane, zrobić proste wykresy, używać dplyr i shiny.

* Trzeci rozdział ,,Niezbędnik programisty”, wprowadza zagadnienia, które mogą zainteresować nawet zaawansowanych programistów. Zaczynamy od funkcji, pętli, później omawiamy bazy danych, jest podrozdział o Shiny, podrozdział o tym jak budować pakiety, obowiązkowo o Git/GitHub i oczywiście o profilowaniu i debugowaniu kodu.

* Czwarty rozdział ,,Niezbędnik statystyka” zmienił się najmniej w stosunku do poprzedniego wydania. Usunąłem funkcje których już nie ma i poprawiłem jakieś drobiazgi.

* Piąty rozdział ,,Graficzna prezentacja danych” został bardzo rozbudowany. Pakietom lattice i ggplot2 poświęciłem sporo miejsca, zasługują na nie. Jest też o interaktywnej grafice (rCharts) i też o klasycznej grafice.

Materiały z książki, zbiory danych, są dostępne w pakiecie Przewodnik.

Zmian było dużo więcej, niż początkowo planowałem, ale warto było je wprowadzić. Czwarte wydanie Przewodnika kończy maraton wydawniczy, który miał miejsce w tym roku. Kolejne wydania Przewodnika mają daty 2008, 2011, 2014, 2017.

Muffinki pod choinkę (2.0)!

6014_2
Pierwszy nakład Muffinek rozszedł się błyskawicznie i od ponad tygodnia nie było ich w księgarniach, ale dzięki sprawnej pracy drukarni uzupełniliśmy nakład.

Jak długo żyją Muffinki od wczoraj (ponownie) u dystrybutora, a od dzisiaj w księgarniach. Czas realizacji jest taki, że jeszcze powinny dojść pod choinkę, więc gdyby ktoś był zainteresowany to zachęcam.

Opowiadanie ,,JAK SZYBKO UROSNĘ?” zostało w grudniu opublikowane w Małej Delcie i Delcie. Do pobrania jako html i pdf. Swoją drogą, więcej miałem z tego frajdy niż z publikacji w JSS, Delta rulez!

How to weigh a dog with a ruler? (looking for translators)


We are working on a series of comic books that introduce statistical thinking and could be used as activity booklets in primary schools. Stories are built around adventures of siblings: Beta (skilled mathematician) and Bit (data hacker).

What is the connection between these comic books and R? All plots are created with ggplot2.

The first story (How to weigh a dog with a ruler?) is translated to English, Polish and Czech. If you would like to help us to translate this story to your native language, just write to me (przemyslaw.biecek at gmail) or create an issue on GitHub. It’s just 8 pages long, translations are available on Creative Commons BY-ND licence.

Click images below to get the comic book:
In English
bb_en

In Polish
bb_pl

In Czech
bb_cz

The main point of the first story is to find the relation between Height and Weight of different animals and then assess the weight of dinosaur T-Rex based only on the length of its skeleton. A method called Regression by Eye.

bb_rel

StatTuba w Twojej szkole (lub szkole Twoich dzieci)


StatTuba to projekt dotarcia do uczniów szkół podstawowych i średnich z wnioskowaniem opartym o dane. Pokażmy dzieciakom, że fajne rzeczy (czasem bardzo nieoczywiste) można robić, o ile tylko mamy odpowiednie dane.

Z akcją na PolakPotrafi.pl się nie udało, ale dzięki wsparciu z programu mPotęga (mBank), przygotowaliśmy materiały, pozwalające praktycznie każdemu zainteresowanemu nauczycielowi lub rodzicowi poprowadzenie warsztatów statystycznych w szkole. Materiały o których piszę niżej, są przeznaczone głównie dla klas 3-5.

Jak to działa?

1. Zainteresowany nauczyciel, rodzic lub inna osoba, która chciałaby w wybranej szkole poprowadzić warsztaty, wysyła na adres stattuba@gmail.com informację gdzie i kiedy chce te warsztaty przeprowadzić,
2. Do prowadzącego, na wskazany adres, wysyłamy całkowicie bezpłatnie materiały i instrukcje jak poprowadzić warsztaty (na jedną grupę średnio 30 papierowych kopii tego komiksu),
3. Nauczyciel lub rodzic prowadzi warsztaty, przesyła nam krótką (2-3 zdania) informację jak poszły warsztaty (najlepiej z jednym-dwoma zdjęciami) a my odsyłamy dyplom z podziękowaniami dla nauczyciela i dyrektora za udział w programie StatTuba,
4. Przewidujemy, że na warsztaty prowadzone w styczniu wyślemy materiały do 30 nauczycieli/prowadzących (10 już jest, szukamy kolejnych).

Na stronie http://betabit.wiki/warsztaty/ umieściliśmy szczegółowy wideo-opis tego, jak można poprowadzić warsztaty, jakie ćwiczenia przeprowadzić i jak wykorzystać przesłane materiały. W razie jakichkolwiek pytań chętnie udzielę szczegółowych informacji. Proszę o email na adres stattuba@gmail.com.

Materiały do warsztatów zostały przygotowane razem z Agnieszką Tomczyk i Martyną Śpiewak.

Bardzo zachęcam do poprowadzenia takich warsztatów w szkole swoich dzieci. To dla dzieci wielka frajda. Warto przesłać to ogłoszenie nauczycielowi matematyki (lub nauczania początkowego) w swojej szkole.

PISA 2015 – how to read/process/plot the data with R

Yesterday OECD has published results and data from PISA 2015 study (Programme for International Student Assessment). It’s a very cool study – over 500 000 pupils (15-years old) are examined every 3 years. Raw data is publicly available and one can easily access detailed information about pupil’s academic performance and detailed data from surveys for studetns, parents and school officials (~2 000 variables). Lots of stories to be found.

You can download the dataset in the SPSS format from this webpage. Then use the foreign package to read sav files and intsvy package to calculate aggregates/averages/tables/regression models (for 2015 data you shall use the GitHub version of the package).

Below you will find a short example, how to read the data, calculate weighted averages for genders/countries and plot these results with ggplot2. Here you will find other use cases for the intsvy package.

pisa2015

library("foreign")
library("intsvy")
library("dplyr")
library("ggplot2")
library("tidyr")

stud2015 <- read.spss("CY6_MS_CMB_STU_QQQ.sav", use.value.labels = TRUE, to.data.frame = TRUE)
genderMath <- pisa2015.mean.pv(pvlabel = "MATH", by = c("CNT", "ST004D01T"), data = stud2015)

genderMath <- genderMath[,c(1,2,4,5)]
genderMath %>%
  select(CNT, ST004D01T, Mean) %>%
  spread(ST004D01T, Mean) -> genderMathWide

genderMathSelected <-
  genderMathWide %>%
  filter(CNT %in% c("Austria", "Japan", "Switzerland",  "Poland", "Singapore", "Finland", "Singapore", "Korea", "United States"))

pl <- ggplot(genderMathWide, aes(Female, Male)) +
  geom_point() +
  geom_point(data=genderMathSelected, color="red") +
  geom_text(data=genderMathSelected, aes(label=CNT), color="grey20") +
  geom_abline(slope=1, intercept = 0) + 
  geom_abline(slope=1, intercept = 20, linetype = 2, color="grey") + 
  geom_abline(slope=1, intercept = -20, linetype = 2, color="grey") +
  geom_text(x=425, y=460, label="Boys +20 points", angle=45, color="grey", size=8) + 
  geom_text(x=460, y=425, label="Girls +20 points", angle=45, color="grey", size=8) + 
  coord_fixed(xlim = c(400,565), ylim = c(400,565)) +
  theme_bw() + ggtitle("PISA 2015 in Math - Gender Gap") +
  xlab("PISA 2015 Math score for girls") +
  ylab("PISA 2015 Math score for boys") 

Zgłoszenia na ,,Konkurs na najgorszy wykres roku 2016”

Kontynuując tradycję konkursów na najgorszy wykres roku (tutaj edycja 2015, tutaj 2014, tutaj 2013 czy a tutaj 2012) ogłaszam nabór zgłoszeń na Konkurs na najgorszy wykres roku 2016.

Zgłaszać można dowolny wykres, który był prezentowany w 2016 roku, czy to na portalach internetowych, czy mediach społecznościowych czy konferencjach branżowych.

W tym konkursie, ,,najgorszy” oznacza najbardziej nieczytelny, zniekształcający dane lub wypaczający prezentowaną historię.

Już kilka grafik mam, są naprawdę niezłe, ale im więcej kandydatów tym ciekawsi zwycięzcy. Propozycje wykresów czy infografik proszę przesyłać mailowo lub dodawać w komentarzach poniżej.

Czas na przesyłanie zgłoszeń: do 20 grudnia. Konkurs na najgorszą grafikę jest zaplanowany na ostatni tydzień roku.

R + Kraków = eRka

erka11

We wtorek w Krakowie eRka. Poniżej zaproszenie od organizatorów. Za dwa tygodnie SER. Liczymy na sporą frekwencję, na ostatnie spotkanie przyszło ~100 osób (~66% z zapisanych).


Bartosz Sękiewicz

Zapraszamy na 11 spotkanie entuzjastów R w Krakowie, które odbędzie się w najbliższy wtorek (6 grudnia) o godz. 18:30 na Politechnice Krakowskiej (ul. Podchorążych 1, sala 101).

Rozpoczynamy wystąpieniem o bardzo istotnej tematyce, zwłaszcza z punktu widzenia Krakowa. Bartosz Czernecki opowie nam jak w analityczny sposób opisać zjawisko smogu, jakie metody możemy wykorzystywać oraz jakie są czynniki umożliwiające dokładne prognozowanie stężenia szkodliwych pyłów w powietrzu. Będzie to bardzo ciekawy przykład połączenia specjalistycznej wiedzy badacza z metodami machine learning, a wszystko to oczywiście w R.

W trakcie drugiego wystąpienia Zygmunt Zawadzki opowie o wadach i zaletach R w porównaniu do C++, przede wszystkim w kontekście szybkości działania. Programując w R nie zawsze zdajemy sobie sprawę z istnienia funkcjonalności, które z jednej strony pozwalają skupić się tylko na tym co z punktu widzenia analityka najważniejsze, ale za to z drugiej nakładają wiele ograniczeń. Zygmunt przedstawi bardzo ciekawe rozwiązanie tego dylematu i opowie jak możemy łączyć ze sobą te dwa języki programowania.

Zmieniamy delikatnie formułę spotkań i teraz przerwa na pizzę będzie pomiędzy pierwszym i drugim wystąpieniem.

Szczegółowy plan spotkania, bio prelegentów oraz abstrakty prezentacji można znaleźć na naszej stronie www.erkakrakow.pl.

Rejestracja na wydarzenie poprzez meetup oraz facebook.

Zapraszamy serdecznie!

Rozwój statystyki w Polsce

bedlewo
(zdjęcie ze strony IMPAN)

Na trwającej właśnie w Będlewie konferencji Statystyka Matematyczna (strona www), obradował ,,Zespół do spraw rozwoju statystyki matematycznej i jej zastosowań’’, który pracuje przy Komisji Statystyki, Komitetu Matematyki Polskiej Akademii Nauk (strona www komisji). Będąc członkiem zespołu stwierdziłem, że pewne punkty zebrania mogą być ciekawe dla szerszego grona statystyków.

Jednym z punktów pracy zespołu, była prezentacja dr. hab. Jacka Leśkowa pt. ,,Możliwości rozwoju statystyki w Polsce”. Prezentacja poświęcona ścieżce awansu naukowego w statystyce w Polsce, problemom związanym z dydaktyką statystyki i perspektywom rozwoju statystyki we współpracy z przemysłem/biznesem. Za zgodą autora umieszczam link do tej prezentacji (link tutaj).

Czytaj dalej Rozwój statystyki w Polsce