Prace domowe

Dawno już nie prowadziłem przedmiotu, przy którym tyle przyjemności sprawiało mi sprawdzanie prac domowych!

Na przedmiocie ,,Techniki prezentacji danych”, studenci jako prace domowe przygotowują grafiki związane z danymi, które znaleźli w gazetach z ostatniego tygodnia. Niektóre z tych prac są świetne. Poniżej dwie wykonane ostatnio przez Ewę Baranowską i Martę Jóźwik.

Tabela z Bloombergnews Polska

twd2

zamienia się w wykres przedstawiający rekordowe hiperinflacje (dwie z nich dotyczą Polski). Wykres trzeba oglądać w pełnej rozdzielczości (kliknij by otworzyć w pełnej rozdzielczości).

twd

Drugi wykres wyrósł z Pulsu Biznesu.

img_20161118_244049659

Trochę gg-magii i

twd3

Muffinki pod choinkę! (2)

6014_2
Tydzień temu pisałem, że opowiadania ,,Jak długo żyją Muffinki?” trafiły do zapowiedzi wydawniczych WUW. A dzisiaj jest mi niezmiernie miło poinformować, że pierwsza partia książek już jest w księgarniach (np. tutaj księgarnia PWN, inne księgarnie).

Świetna okazja by odkryć wersję elektroniczną drugiego opowiadania, tytułowego ,,Jak długo żyją Muffinki?”

Można z niego wyczytać np. jak przeliczać psie lata na ludzkie lata. Beta dowie się dlaczego duże psy starzeją się szybciej.

screen-shot-2016-11-25-at-08-29-05

Jest też o innych zwierzętach, np. Bit dowiaduje się, które z udomowionych zwierząt może przeżyć swojego właściciela.

screen-shot-2016-11-25-at-08-29-14

Ilustracji jest znacznie więcej, zarówno tych w formie wykresów jak i tych bardziej klasycznych.

screen-shot-2016-11-25-at-08-25-25

Opowiadanie w pliku pdf można znaleźć tej na stronie. Lub zamówić wersję papierową.

RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016


Jutro (czwartek 24 listopada) o 18 w budynku MiNI PW (Koszykowa 75, Warszawa) rozpocznie się XXI Spotkanie Entuzjastów R. Tym razem poświęcony zastosowaniom R, statystyki i informatyki do analizy danych genetycznych i medycznych.

Pierwszym prelegentem będzie Dariusz Ratman z Roche. Tytuł jego prezentacji to: Automating gene expression analysis and visualisation with R/Bioconductor: bringing genomics results to scientists

Drugą prezentację poprowadzą Alicja Szabelska-Beręsewicz, i Joanna Zyprych-Walczak.
Temat: Dyskusja biologa ze statystykiem w towarzystwie R – czyli jak znaleźć przydatne informacje w bezmiarze danych biologicznych.

Czytaj dalej RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016

Odkrywać! Ujawniać! Objaśniać!

eseje
W listopadzie mamy wiele akcji wydawniczych. Kilka dni temu pisałem o tym, że do księgarni trafiają Muffinki – bogato ilustrowane opowiadania statystyczne dla dzieci.
A w tę sobotę do księgarni wrócił ,,Zbiór esejów o sztuce prezentowania danych Odkrywać! Ujawniać! Objaśniać!” Akurat dostaliśmy z drukarni kolejny metr sześcienny książek. W sam raz na święta.

Cała książka jest dostępna w formacie html tutaj. Wersję papierową można kupić w tych księgarniach.

A co znajduje się w kolejnych rozdziałach?

Perełki z historii – Zobaczcie jak wyglądała słynna Róża Nightingale, wykres który uratował tysiące ludzkich istnień. Co tak naprawdę w Człowieku witruwiańskim zakodował Da Vinci? Jakimi wykresami Otton Neurath chciał edukować społeczeństwo.

Percepcja obrazu – Czym różni się plamka ślepa od żółtej oraz dlaczego przy słabym świetle trudno trafić w dziurkę od klucza. Dlaczego na łodziach podwodnych jest czerwone oświetlenie. Co łączy dentystę i dietetyka?

Percepcja kolorów – Dlaczego nie widzimy w podczerwieni ani ultrafiolecie, choć niektóre owady i węże potrafią. Co można odczytać z wykresu chromatyczności i jak pomóc kolegom z deuteranomalią.

Percepcja danych – Jak wygląda Rachunek od państwa 2012? Dlaczego tak trudno czytać wyniki sondaży? Dlaczego tak trudno radzić sobie z niepewnością?

okladka-724x1024

Od kuchni – Dlaczego wykres mozaikowy jest świetny choć rzadko stosowany? Co widać w twarzach Chernoffa? Dlaczego dobre garnki to nie wszystko?

Info-pomyłka – Jaki nie dać się zwieść słupkom, kątom, i dziwnym osiom.

Droga – Jak bawić się prezentacją danych. I to nie tylko na komputerze.

Gramatyka – Do ilu można liczyć w języku plemienia Pirahã? Jak składać wykresy w pakiecie ggplot2? Czym charakteryzuje się polski rozkład normalny?

Miłej lektury!

Muffinki pod choinkę!

6014_2
Trochę to trwało, ale wreszcie ,,Jak długo żyją Muffinki?” trafia do szerokiej dystrybucji. Dzięki Wydawnictwu Uniwersytetu Warszawskiego.

Jako zapowiedź jest już na tej stronie. W hurtowniach powinna być w przyszłym tygodniu. Jak tylko będzie dostępna u dużych sprzedawców, napiszę o tym na blogu.

Pierwsze opowiadanie (z trzech) przeczytać można w postaci elektronicznej tutaj.
Ale żaden ekran nie odda faktury papieru Munken White (i okładka i wnętrze) oraz offsetowego druku.

Te opowiadania są skierowane głównie do dzieci z podstawówki.

Techniki wizualizacji danych a rok pracy Sejmu


Jakiś czas temu pisałem o zależności pomiędzy wartością wizualizacji danych a zawartej w nich historii. No dobrze, więc skąd brać ciekawe historie do wizualizacji?

Tych jest pełno dookoła. Przykładowo pomysł na pierwszy projekt z przedmiotu Techniki Wizualizacji Danych podrzucił nam zespół analityków z MamPrawoWiedziec.pl. Mija właśnie pierwszy rok pracy Sejmu. Zobaczmy o czym i jak mówiono, jak głosowano itp.

Pierwszy wykres pokazuje jak często posłowie klubu A wtrącają się w wypowiedzi posłów klubu B. Czasem by krytykować, czasem by wyrazić poparcie.

Poniższy wykres jest interaktywny. Aby uruchomić jego interaktywną wersję trzeba otworzyć tę stronę. Ale ostrzegam, ta interaktywność wciąga.

screen-shot-2016-11-16-at-10-29-20

Drugi wykres jest mniej interaktywny, ale wyładowany treścią po brzegi. Dla pięciu największych klubów pokazuje jak często posłowie wypowiadają się oraz jak często głosują niezgodnie z linią klubu. Skrajne wartości dodatkowo mają zaznaczone nazwisko posła. Poziome linie pokazują jaka jest średnia dyscyplina w klubie. Linia partii w tym przypadku oznacza głos oddany przez większość partii.

Oba powyższe wykresy wykonał zespół Ewa Baranowska, Marta Jóźwik, Magdalena Mazurek. Te akurat najbardziej przypadły mi do gustu z uwagi na estetykę i ilość przedstawionej treści. Pomimo, że póki co głównie omawiamy ggplot2, projekty różnych zespołów eksplorują różne pomysły i techniki. I jak widać efekty są świetne.

Dostęp do danych sejmowych jest prosty dzięki pakietowi sejmRP, który rok temu opracował Piotr Smuda. Jest to API do treści publikowanych na stronach Sejmu (pełne dane dla 7 i 8 kadencji). Pakiet ma kompletną dokumentację i przykłady.

Nic tylko wczytywać i wizualizować.

ps: Dziękuję Annie Ścisłowskiej i Annie Konczewskiej z MamPrawoWiedziec.pl za pomoc merytoryczną.

Wybory w USA

Wyniki wyborów w USA są dalekie od sondaży poprzedzających wybory. Dalekie nawet od exit-polls. Z pewnością analiza przyczyn tych różnic będzie ciekawa (choć analizy po fakcie trudno weryfikować).

Ale poniżej nie będę odnosił się do wyników, ale do sposobu w jaki są prezentowane w serwisach informacyjnych za oceanem.
Trzeba bowiem przyznać, że znaleźć można wiele swietnie przygotowanych wizualizacji ujmujących różne aspekty wyników głosowania. Poniżej kilka przykładów.

New York Times przygotował świetną mapę pokazującą jak zmieniły się wyniki poszczególnych hrabstw pomiędzy tymi a poprzednimi wyborami. Widać przesunięcie sympatii na wybrzeżach w stronę demokratów i olbrzymie przesunięcie sympatii w centralnych stanach.

screen-shot-2016-11-09-at-21-10-18

Wiele świetnych podejść do wizualizacji wyników wyborów i sondaży jest przedstawionych na tej stronie New York Timesa (niektóre podejścia są bardzo pomysłowe).

screen-shot-2016-11-09-at-21-14-45

Poniższa mapa była używana na serwisie fivethirtyeight do zaprezentowania wyników wyborów. Każdy sześciokąt to jeden głos elektorów, jest nawiązanie do geograficznego położenia każdego stanu a jednocześnie informacja jak głosowano.

screen-shot-2016-11-09-at-21-19-41

Google przygotowało interaktywną mapę prezentującą różne problemy związane z głosowaniem.

screen-shot-2016-11-09-at-21-17-14

Ciekawe przykłady wizualizacji wyników sondaży są na stronie The Huffington Post. (a tutaj wyniki wyborów prezydenckich).

screen-shot-2016-11-09-at-21-11-47

Po co oglądać wykresy?

Graficy często upiększają wykresy po to by ładniej wyglądały.
W większości przypadków jest to jednak próżny trud (o ile nie chodzi o Data Art), bo o wartości wykresu świadczy głównie to, czy pokazuje on ciekawą historię. Bez ciekawej historii trudno coś wykrzesać.

Poniżej wybrałem cztery prace domowe studentów z kursu Techniki Wizualizacji Danych z ostatnich dwóch tygodni. Mnie te historie się spodobały (prace domowe polegają na wizualizacji w ggplot2 danych umieszczonych ostatnio w gazetach/portalach informacyjnych).

Kto strzelił więcej goli, Messi czy Ronaldo?
Poniższy wykres pokazuje, że obaj panowie idą łeb w łeb. (Autor: Piotr Smuda)

Skąd się lata w Polsce?
Poniższy wykres pokazuje liczbę pasażerów wylatujących z różnych lotnisk. (Autorka: Ewa Baranowska)

Jaka jest stawka akcyzy przy sprowadzaniu 6-litrowego Dodge Ramchargera?
Poniższy wykres pokazuje stawki akcyzy w zależności od wielkości silnika i roku produkcji. (Autorka: Marta Jóźwik)

Ile i jakie tablety się sprzedaje na świecie?
Poniższy wykres pokazuje sprzedaż i zmianę sprzedaży w zależności od producenta. (Autorka: ponownie Ewa Baranowska)