Równanie Choinki

bokeh_plot-1

Bibliotek i narzędzi do tworzenia interaktywnych wykresów jest cała masa. Poczynając od tych pozwalających przy odrobienie wysiłku na wyrenderowanie praktycznie każdego możliwego wykresu (D3.js), po te generujące wykresy błyskawicznie, ale ograniczone do kilku szablonów (np. NVD3). Aby przetestować elastyczność różnych narzędzi, na ostatnich zajęciach z Technik Wizualizacji Danych wykonaliśmy test choinki – w bibliotece XYZ przygotuj interaktywną choinkę.

Poniższą przygotowali Jan Dyszyński i Maksymilian Mazur z użyciem biblioteki RBokeh (a dokładniej R-owego portu do Bokeh). Kod jest tutaj, przykład poniżej, przy odrobienie zoomu można odczytać równanie tej choinki.



screen-shot-2016-12-24-at-17-30-44

Po lewej i pod tym linkiem jest choinka, której autorem jest Piotr Smuda (najedźcie myszką aby sprawdzić jakie prezenty są pod choinką).

screen-shot-2016-12-23-at-15-03-41

Tutaj jest choinka w googleVis wykonana przez panią Małgorzatę Sobczak.

Kolejna choinka jest w ggiraph. Autorką jest Dorota Łępicka a kod jest tutaj.

screen-shot-2016-12-29-at-20-16-18

Przewodnik po pakiecie R – wydanie 4.0

TL;DR – od wczoraj w wybranych księgarniach stacjonarnych, niedługo w internetowych.

przewodnik4okladka

W wydaniu IV zmian jest bardzo dużo. Opiszę je niedługo szczegółowiej, ale w skrócie:

* Na bazie doświadczeń z kursu PogromcyDanych (udział wzięło ponad 2000 osób, więc było co analizować), pierwsze dwa rozdziały zostały bardzo bardzo uproszczone. Powinny być w zasięgu dla licealisty, studenta czy osób bez doświadczenia w programowaniu. Na przykładach pokazuję jak wczytać dane, zrobić proste wykresy, używać dplyr i shiny.

* Trzeci rozdział ,,Niezbędnik programisty”, wprowadza zagadnienia, które mogą zainteresować nawet zaawansowanych programistów. Zaczynamy od funkcji, pętli, później omawiamy bazy danych, jest podrozdział o Shiny, podrozdział o tym jak budować pakiety, obowiązkowo o Git/GitHub i oczywiście o profilowaniu i debugowaniu kodu.

* Czwarty rozdział ,,Niezbędnik statystyka” zmienił się najmniej w stosunku do poprzedniego wydania. Usunąłem funkcje których już nie ma i poprawiłem jakieś drobiazgi.

* Piąty rozdział ,,Graficzna prezentacja danych” został bardzo rozbudowany. Pakietom lattice i ggplot2 poświęciłem sporo miejsca, zasługują na nie. Jest też o interaktywnej grafice (rCharts) i też o klasycznej grafice.

Materiały z książki, zbiory danych, są dostępne w pakiecie Przewodnik.

Zmian było dużo więcej, niż początkowo planowałem, ale warto było je wprowadzić. Czwarte wydanie Przewodnika kończy maraton wydawniczy, który miał miejsce w tym roku. Kolejne wydania Przewodnika mają daty 2008, 2011, 2014, 2017.

How to weigh a dog with a ruler? (looking for translators)


We are working on a series of comic books that introduce statistical thinking and could be used as activity booklets in primary schools. Stories are built around adventures of siblings: Beta (skilled mathematician) and Bit (data hacker).

What is the connection between these comic books and R? All plots are created with ggplot2.

The first story (How to weigh a dog with a ruler?) is translated to English, Polish and Czech. If you would like to help us to translate this story to your native language, just write to me (przemyslaw.biecek at gmail) or create an issue on GitHub. It’s just 8 pages long, translations are available on Creative Commons BY-ND licence.

Click images below to get the comic book:
In English
bb_en

In Polish
bb_pl

In Czech
bb_cz

The main point of the first story is to find the relation between Height and Weight of different animals and then assess the weight of dinosaur T-Rex based only on the length of its skeleton. A method called Regression by Eye.

bb_rel

StatTuba w Twojej szkole (lub szkole Twoich dzieci)


StatTuba to projekt dotarcia do uczniów szkół podstawowych i średnich z wnioskowaniem opartym o dane. Pokażmy dzieciakom, że fajne rzeczy (czasem bardzo nieoczywiste) można robić, o ile tylko mamy odpowiednie dane.

Z akcją na PolakPotrafi.pl się nie udało, ale dzięki wsparciu z programu mPotęga (mBank), przygotowaliśmy materiały, pozwalające praktycznie każdemu zainteresowanemu nauczycielowi lub rodzicowi poprowadzenie warsztatów statystycznych w szkole. Materiały o których piszę niżej, są przeznaczone głównie dla klas 3-5.

Jak to działa?

1. Zainteresowany nauczyciel, rodzic lub inna osoba, która chciałaby w wybranej szkole poprowadzić warsztaty, wysyła na adres stattuba@gmail.com informację gdzie i kiedy chce te warsztaty przeprowadzić,
2. Do prowadzącego, na wskazany adres, wysyłamy całkowicie bezpłatnie materiały i instrukcje jak poprowadzić warsztaty (na jedną grupę średnio 30 papierowych kopii tego komiksu),
3. Nauczyciel lub rodzic prowadzi warsztaty, przesyła nam krótką (2-3 zdania) informację jak poszły warsztaty (najlepiej z jednym-dwoma zdjęciami) a my odsyłamy dyplom z podziękowaniami dla nauczyciela i dyrektora za udział w programie StatTuba,
4. Przewidujemy, że na warsztaty prowadzone w styczniu wyślemy materiały do 30 nauczycieli/prowadzących (10 już jest, szukamy kolejnych).

Na stronie http://betabit.wiki/warsztaty/ umieściliśmy szczegółowy wideo-opis tego, jak można poprowadzić warsztaty, jakie ćwiczenia przeprowadzić i jak wykorzystać przesłane materiały. W razie jakichkolwiek pytań chętnie udzielę szczegółowych informacji. Proszę o email na adres stattuba@gmail.com.

Materiały do warsztatów zostały przygotowane razem z Agnieszką Tomczyk i Martyną Śpiewak.

Bardzo zachęcam do poprowadzenia takich warsztatów w szkole swoich dzieci. To dla dzieci wielka frajda. Warto przesłać to ogłoszenie nauczycielowi matematyki (lub nauczania początkowego) w swojej szkole.

PISA 2015 – how to read/process/plot the data with R

Yesterday OECD has published results and data from PISA 2015 study (Programme for International Student Assessment). It’s a very cool study – over 500 000 pupils (15-years old) are examined every 3 years. Raw data is publicly available and one can easily access detailed information about pupil’s academic performance and detailed data from surveys for studetns, parents and school officials (~2 000 variables). Lots of stories to be found.

You can download the dataset in the SPSS format from this webpage. Then use the foreign package to read sav files and intsvy package to calculate aggregates/averages/tables/regression models (for 2015 data you shall use the GitHub version of the package).

Below you will find a short example, how to read the data, calculate weighted averages for genders/countries and plot these results with ggplot2. Here you will find other use cases for the intsvy package.

pisa2015

R + Kraków = eRka

erka11

We wtorek w Krakowie eRka. Poniżej zaproszenie od organizatorów. Za dwa tygodnie SER. Liczymy na sporą frekwencję, na ostatnie spotkanie przyszło ~100 osób (~66% z zapisanych).


Bartosz Sękiewicz

Zapraszamy na 11 spotkanie entuzjastów R w Krakowie, które odbędzie się w najbliższy wtorek (6 grudnia) o godz. 18:30 na Politechnice Krakowskiej (ul. Podchorążych 1, sala 101).

Rozpoczynamy wystąpieniem o bardzo istotnej tematyce, zwłaszcza z punktu widzenia Krakowa. Bartosz Czernecki opowie nam jak w analityczny sposób opisać zjawisko smogu, jakie metody możemy wykorzystywać oraz jakie są czynniki umożliwiające dokładne prognozowanie stężenia szkodliwych pyłów w powietrzu. Będzie to bardzo ciekawy przykład połączenia specjalistycznej wiedzy badacza z metodami machine learning, a wszystko to oczywiście w R.

W trakcie drugiego wystąpienia Zygmunt Zawadzki opowie o wadach i zaletach R w porównaniu do C++, przede wszystkim w kontekście szybkości działania. Programując w R nie zawsze zdajemy sobie sprawę z istnienia funkcjonalności, które z jednej strony pozwalają skupić się tylko na tym co z punktu widzenia analityka najważniejsze, ale za to z drugiej nakładają wiele ograniczeń. Zygmunt przedstawi bardzo ciekawe rozwiązanie tego dylematu i opowie jak możemy łączyć ze sobą te dwa języki programowania.

Zmieniamy delikatnie formułę spotkań i teraz przerwa na pizzę będzie pomiędzy pierwszym i drugim wystąpieniem.

Szczegółowy plan spotkania, bio prelegentów oraz abstrakty prezentacji można znaleźć na naszej stronie www.erkakrakow.pl.

Rejestracja na wydarzenie poprzez meetup oraz facebook.

Zapraszamy serdecznie!

Prace domowe

Dawno już nie prowadziłem przedmiotu, przy którym tyle przyjemności sprawiało mi sprawdzanie prac domowych!

Na przedmiocie ,,Techniki prezentacji danych”, studenci jako prace domowe przygotowują grafiki związane z danymi, które znaleźli w gazetach z ostatniego tygodnia. Niektóre z tych prac są świetne. Poniżej dwie wykonane ostatnio przez Ewę Baranowską i Martę Jóźwik.

Tabela z Bloombergnews Polska

twd2

zamienia się w wykres przedstawiający rekordowe hiperinflacje (dwie z nich dotyczą Polski). Wykres trzeba oglądać w pełnej rozdzielczości (kliknij by otworzyć w pełnej rozdzielczości).

twd

Drugi wykres wyrósł z Pulsu Biznesu.

img_20161118_244049659

Trochę gg-magii i

twd3

RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016


Jutro (czwartek 24 listopada) o 18 w budynku MiNI PW (Koszykowa 75, Warszawa) rozpocznie się XXI Spotkanie Entuzjastów R. Tym razem poświęcony zastosowaniom R, statystyki i informatyki do analizy danych genetycznych i medycznych.

Pierwszym prelegentem będzie Dariusz Ratman z Roche. Tytuł jego prezentacji to: Automating gene expression analysis and visualisation with R/Bioconductor: bringing genomics results to scientists

Drugą prezentację poprowadzą Alicja Szabelska-Beręsewicz, i Joanna Zyprych-Walczak.
Temat: Dyskusja biologa ze statystykiem w towarzystwie R – czyli jak znaleźć przydatne informacje w bezmiarze danych biologicznych.

Czytaj dalej RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016

Odkrywać! Ujawniać! Objaśniać!

eseje
W listopadzie mamy wiele akcji wydawniczych. Kilka dni temu pisałem o tym, że do księgarni trafiają Muffinki – bogato ilustrowane opowiadania statystyczne dla dzieci.
A w tę sobotę do księgarni wrócił ,,Zbiór esejów o sztuce prezentowania danych Odkrywać! Ujawniać! Objaśniać!” Akurat dostaliśmy z drukarni kolejny metr sześcienny książek. W sam raz na święta.

Cała książka jest dostępna w formacie html tutaj. Wersję papierową można kupić w tych księgarniach.

A co znajduje się w kolejnych rozdziałach?

Perełki z historii – Zobaczcie jak wyglądała słynna Róża Nightingale, wykres który uratował tysiące ludzkich istnień. Co tak naprawdę w Człowieku witruwiańskim zakodował Da Vinci? Jakimi wykresami Otton Neurath chciał edukować społeczeństwo.

Percepcja obrazu – Czym różni się plamka ślepa od żółtej oraz dlaczego przy słabym świetle trudno trafić w dziurkę od klucza. Dlaczego na łodziach podwodnych jest czerwone oświetlenie. Co łączy dentystę i dietetyka?

Percepcja kolorów – Dlaczego nie widzimy w podczerwieni ani ultrafiolecie, choć niektóre owady i węże potrafią. Co można odczytać z wykresu chromatyczności i jak pomóc kolegom z deuteranomalią.

Percepcja danych – Jak wygląda Rachunek od państwa 2012? Dlaczego tak trudno czytać wyniki sondaży? Dlaczego tak trudno radzić sobie z niepewnością?

okladka-724x1024

Od kuchni – Dlaczego wykres mozaikowy jest świetny choć rzadko stosowany? Co widać w twarzach Chernoffa? Dlaczego dobre garnki to nie wszystko?

Info-pomyłka – Jaki nie dać się zwieść słupkom, kątom, i dziwnym osiom.

Droga – Jak bawić się prezentacją danych. I to nie tylko na komputerze.

Gramatyka – Do ilu można liczyć w języku plemienia Pirahã? Jak składać wykresy w pakiecie ggplot2? Czym charakteryzuje się polski rozkład normalny?

Miłej lektury!

Techniki wizualizacji danych a rok pracy Sejmu


Jakiś czas temu pisałem o zależności pomiędzy wartością wizualizacji danych a zawartej w nich historii. No dobrze, więc skąd brać ciekawe historie do wizualizacji?

Tych jest pełno dookoła. Przykładowo pomysł na pierwszy projekt z przedmiotu Techniki Wizualizacji Danych podrzucił nam zespół analityków z MamPrawoWiedziec.pl. Mija właśnie pierwszy rok pracy Sejmu. Zobaczmy o czym i jak mówiono, jak głosowano itp.

Pierwszy wykres pokazuje jak często posłowie klubu A wtrącają się w wypowiedzi posłów klubu B. Czasem by krytykować, czasem by wyrazić poparcie.

Poniższy wykres jest interaktywny. Aby uruchomić jego interaktywną wersję trzeba otworzyć tę stronę. Ale ostrzegam, ta interaktywność wciąga.

screen-shot-2016-11-16-at-10-29-20

Drugi wykres jest mniej interaktywny, ale wyładowany treścią po brzegi. Dla pięciu największych klubów pokazuje jak często posłowie wypowiadają się oraz jak często głosują niezgodnie z linią klubu. Skrajne wartości dodatkowo mają zaznaczone nazwisko posła. Poziome linie pokazują jaka jest średnia dyscyplina w klubie. Linia partii w tym przypadku oznacza głos oddany przez większość partii.

Oba powyższe wykresy wykonał zespół Ewa Baranowska, Marta Jóźwik, Magdalena Mazurek. Te akurat najbardziej przypadły mi do gustu z uwagi na estetykę i ilość przedstawionej treści. Pomimo, że póki co głównie omawiamy ggplot2, projekty różnych zespołów eksplorują różne pomysły i techniki. I jak widać efekty są świetne.

Dostęp do danych sejmowych jest prosty dzięki pakietowi sejmRP, który rok temu opracował Piotr Smuda. Jest to API do treści publikowanych na stronach Sejmu (pełne dane dla 7 i 8 kadencji). Pakiet ma kompletną dokumentację i przykłady.

Nic tylko wczytywać i wizualizować.

ps: Dziękuję Annie Ścisłowskiej i Annie Konczewskiej z MamPrawoWiedziec.pl za pomoc merytoryczną.