Do którego aktora jesteś najbardziej podobny? Czyli z pamiętnika nauczyciela akademickiego, Warsztaty Badawcze 1/3

Najbardziej lubię prowadzić przedmioty, które kończą się działającym projektem. Jednym z takich przedmiotów są Warsztaty Badawcze, które prowadzę na MiNI PW. Formuła przedmiotu pozostawia dużą swobodę. W tym semestrze większość projektów polegała na analizie obrazu z kamery, wykorzystaniu głębokich sieci do rozpoznania i analizy twarzy. Kiedyś napiszę o tym przedmiocie więcej, ale dzisiaj zacznę od pokazania kilku ciekawych rozwiązań.

Projekty studentów dostępne są jako strony internetowe. Można samemu się nimi pobawić. Poniżej trzy przykładowe.

Do jakiego aktora/aktorki jestem najbardziej podobny?

Pod adresem https://hollywoodgallery.mini.pw.edu.pl/ znaleźć można aplikację, która na bazie zdjęcia twarzy szuka najbardziej podobnego aktora/aktorki.

Na ile lat wyglądam?

Inna sieć uczyła się rozpoznawać wiek na podstawie zdjęcia twarzy. Dostępna jest pod adresem https://agerecognition.mini.pw.edu.pl. Mnie zazwyczaj odmładza 😉

Najbardziej podobny poseł/posłanka

Pod adresem http://similarmp.mini.pw.edu.pl dostępna jest aplikacja rozpoznająca twarz i szukająca najbardziej podobnego posła/posłanki spośród posłów obecnej kadencji. Nie ma gwarancji, że będzie to poseł/posłanka którą lubimy, ale można zaryzykować. Najlepiej aplikację otwierać przez Firefox. Chrome nie zezwala na dostęp do kamery aplikacjom po http.

Więcej informacji o tych i innych projektach, ich architekturze i analizie opracowanego rozwiązania, znaleźć można na stronie przedmiotu https://github.com/pbiecek/CaseStudies2019W/. Szczególnie projektów związanych z szukaniem najbardziej podobnych osób jest więcej, choć nie wszystkie są dostępne w sieci poza wydziałem MiNI.

Na ścianie naszego Data Labu (Koszykowa 75 Wa-wa) umieszczony jest monitor z kamerką. Czasem wyświetlona jest któraś z powyższych aplikacji. Można podejść i się pobawić.
Kto wie do jakiego aktora okażemy się podobni?

Wykresy unplugged – ćwicz rysowanie wykresów

Wykresy Unplugged to nasza nowa pozycja poświęcona wizualizacji danych. Pisałem o niej przed świętami (więcej informacji tutaj), ale pierwszy druk miał mały nakład i rozszedł się błyskawicznie.
Nic straconego!
Od kilku dni w księgarniach jest już dodruk. Poniżej krótki opis co znajdziecie w środku tej pozycji oraz gdzie można ją kupić.

W Esejach o wizualizacji danych znaleźć można sporo teorii ale niewiele ćwiczeń. Wykresy unplugged to głównie ćwiczenia (28 stron, A4, pełny kolor). Zeszyt wyposażony jest w 8 kompletów danych i ćwiczeń do samodzielnego wyrysowania. Wyrysowania ołówkiem i kredkami, nie ma co ograniczać się do możliwości nawet najlepszego programu graficznego. Obok ćwiczeń jest też kilka wkładek tematycznych o technikach wizualizacji. To zeszyt ćwiczeń dla każdej kreatywnej osoby, nawet zabieganego dyrektora działu Data Science.

Prace nad wykresami zaczęliśmy w okolicach UseR 2017 (jak widać opracowanie takiej pozycji trwa mniej więcej tyle co ciąża słonia). Książka powstała dzięki współpracy z Ewą Baranowską (entuzjastka D3 i grafiki interaktywnej), Piotrem Sobczykiem (autor między innymi Szychta w danych) oraz studiem graficznym storyvisio.

Wykresy unplugged można kupić w Wydawnictwach Uniwersytetu Warszawskiego, w Księgarni PWN lub znaleźć najtańszego dostawcę na ceneo.

Frajdy z rysowania wykresów!

x-mas tRees with gganimate, ggplot, plotly and friends

At the last homework before Christmas I asked my students from DataVisTechniques to create a ,,Christmas style” data visualization in R or Python (based on simulated data).

Libaries like rbokeh, ggiraph, vegalite, shiny+ggplot2 or plotly were popular last year. This year there are also some nice submissions that use gganimate.

Find source codes here. Plots created last year are here.
And here are homeworks from this year.

Trees created with gganimate (and gifski)



Trees created with ggplot2 (and sometimes shiny)









Trees created with plotly


Trees created with python


Trees created with rbokeh


Trees created with vegalite


Trees created with ggiraph

Który z nich zostanie najgorszym wykresem 2018?

Zbliża się Sylwester, czas więc wybrać najgorszy wykres roku 2018! Plebiscyt przeprowadzamy co roku od 2012 (edycja 2017,edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012). Z roku na rok dostaję coraz ciekawsze zgłoszenia. Z tegorocznych zgłoszeń (oj, było ich bardzo dużo!) wybrałem 11 niezwykłych propozycji. Dziękuję wszystkim za podsyłanie nominacji.

Zasada plebiscytu jest prosta. Do końca roku można wskazywać swoje typy na najgorszy wykres, głosując za pomocą ankiety umieszczonej na końcu tego wpisu. W jednym dniu można głosować tylko raz. Jednocześnie można wskazać do 5 kandydatów. Po nowym roku zobaczymy, który wykres otrzymał najwięcej głosów. To on otrzyma tytuł „Zniekształcenie roku 2018”. Aby ułatwić głosowanie, każdy kandydat ma skrótową wpadającą w ucho nazwę.

Który wykres okaże się najgorszym wykresem 2018 roku? Wybierzcie sami.

1. Odra w Polsce

Poniższy wykres pochodzi z artykułu TVN24 Mniej szczepień, odra atakuje. Cytując fragment z tego artykułu ,,Jeszcze w 2010 roku zachorowań na odrę było w Polsce kilkanaście, w 2012 roku ponad 70, w zeszłym roku już 133 (http://www.tvn24.pl)”

Niby wszystko ok, wiadomo też, że warto się szczepić, wiec artykuł zgodny ze zdrowym rozsądkiem. Ale gdy przedstawić dane z ostatnich 14 lat prezentowane przez Rządowe Centrum Bezpieczeństwa to słupki powinny wyglądać tak.

Na czerwono zaznaczono dane przedstawione na wykresie TVN24. Problem z wykresem polega na wyborze danych psujących do historii, a nie zaprezentowanie kompletu danych.
Artykuł jest z 2017* roku, więc autor nie wiedział, że w 2017 całkowita liczba zachorowań będzie niższa. Ale dane z 2008, 2009 i 2015 już były dostępne, tyle że nie pasowały do trendu (*wykres trafił do mnie dopiero w tym roku, więc trafił do tegorocznego głosowania).
Problem z wykresem: wybiórcze prezentowanie danych.

2. Coraz lepiej

Poniższy wykres pochodzi z serwisu Budżet Wrocławia 2018. Cytując fragment wprowadzenia ,,Bez skomplikowanych tabel i wykresów prezentujemy wydatki miasta ”. Bardzo słuszny pomysł. Ale wykonanie? To akurat pierwszy wykres z tej strony www:

Lie factor 1.5.
(co to jest Lie-factor? tutaj definicja w języku angielskim a tu opis po polsku).
Paski na wykresie sugerują wzrost o 66% (stosunek 1:1.66) a w rzeczywistości patrząc na liczby wyniósł on 7.5% (stosunek 1:1.075). Pomijam fakt, że wzrost na 2017 był inny niż rok później, czego na wykresie nie widać. Pomijam fakt, że dochody są mniejsze od wydatków, co już się tak w oczy nie rzuca.
Problem z wykresem: paski, które nie są proporcjonalne do prezentowanych liczb. Sugerują większy wzrost dochodów niż w rzeczywistości.

3. Ratunku

Poniższy wykres pochodzi z raportu Pielęgniarki Cyfrowe. Można z niego odczytać, że najniższe zarobki są niższe niż najwyższe. Ale jakie to są kwoty odczytać trudno. Czy ten efekt pseudo 3D był potrzebny?

Problem z wykresem: pseudo-3D utrudnia odczytanie wartości, które odpowiadają prezentowanym słupkom.

Bonus to drugi wykres z tego raportu. Autor prawdopodobnie pomylił znaki nierówności w legendzie. Gdy się wczytać w opis tego wykresu to okazuje się, że ten 1% to jedna pielęgniarka z 400. Trudno odgadnąć też skąd ten szary kwadrat. Za los pielęgniarek trzymam kciuki, ale powinny znaleźć kogoś wymiaru Florence Nightingale do przygotowania wykresów do raportu.

4. Skala

Na Twitterze użytkownika pisorgpl w sierpniu można było znaleźć wykres pokazujący wzrost dochodów z VAT.

Brak osi OY sugerował, że coś może być z nią nie tak. Problem z zaczepianiem słupków w 0 zauważyła między innymi gazeta.pl i opisała w tym artykule.

Wykres pokazujący problem z portalu gazeta.pl

Proporcja najwyższego i najniższego słupka na wykresie to 239px/52px czyli ~4.6. Proporcje liczb to 167/99.
Lie factor ~2.75.

Problem z wykresem: słupki, które nie są zaczepione w 0.

5. Kto wyleczy ten wykres?

Jeżeli jesteśmy już w tematach Twittera, to na Twitterze NFZ można było znaleźć taką grafikę.

Na wykresie przedstawiono planowane wydatki. Wzrost wydatków o 7.7% przedstawiono za pomocą pięciokrotnie wyższego słupka.
Lie factor 4.

Problem z wykresem: słupki, które nie są zaczepione w 0.

6. Pochyl się nad absencją

Na stronie Rynku Pracy znaleźć można taki wykres.

Nie zawsze problem z słupkami polega na tym, że nie zaczynają się w 0. Czasem po prostu trudno odczytać gdzie się kończą. Konia z rzędem, kto odczyta czy absencja w usługach jest wyższa niż w produkcji.

Problem z wykresem: (zbędna) perspektywa i obroty utrudniają odczytanie wartości z wykresu.

7. Polska A, B, C, D, E, F i G

Na portalu Do Rzeczy opublikowano taki sondaż (który trafił do mnie przez Twittera).
Bardzo kreatywne podejście do przedstawiania wyników sondażu.

Problem z wykresem: prezentacja danych utrudnia odczytanie wartości z wykresu.

8. 20%

Było coś z mediów rządowych, to teraz coś od opozycji. Również dostałem namiary na ten wykres przez Twittera, więc przesyłam razem z całym twitem.
To 20% dla PO wygląda bardzo dumnie w zestawieniu z sąsiadującym 37%. Stosunek liczb 20/37 ~ 54/100, stosunek wysokości słupków 370px/458px ~ 81/100.
Lie factor ~1.5.

Kwiatków jest więcej. 17% dla ,nie wiem’ wygląda jak 7% dla partii Kukiza. Za to 6% dla Nowoczesnej jest bardzo daleko od tych 7% dla Kukiza.
Problem z wykresem: słupki nieproporcjonalne do prezentowanych wartości.

9. Od morza po góry

Często narzekam na wykresy z perspektywą, a to że utrudniają odczytanie wartości, a to że perspektywa to zbędny ozdobnik.
Ale tak pochylonego wykresu to jeszcze nie widziałem.

Problem z wykresem: zbędne pochylenie wykresu utrudnia odczytywanie danych z wykresu. Legenda po prawej stronie jest całkowicie zbędna.

10. Wykres zagadka

Ponownie wykres z Twittera. Obok słupków znajduje się informacja o 6% PKB na zdrowie w 2024 r. Ale wykres sugeruje, że w 2024 to już będzie prawie 8% (o ile na osi są %, przydałby się jakiś opis).

Problem z wykresem: opis nie pasuje do wykresu.

11. Kolorowo

Zejdźmy już może z polityki. Coś lżejszego na koniec. Wykres z profilu mojego pracodawcy – statystyki rekrutacji na UW. Zdobył moje serce podwójną legendą dla kolorów (Białystok i ekonomia dzielą się czerwonym, Radom i sinologia żółtym itp) i wykresem kołowym który nie przedstawia udziałów (studiów stacjonarnych na UW jest więcej niż te 6 wymienione w plasterkach kółka, poza tym z udziałami bardziej już kojarzy się liczba miejsc na kandydata niż kandydatów na miejsce). To nie jest tak, że dowolne kilka liczb można rzucić na wykres kołowy!


Problem z wykresem: szerokość białego wycinka koła sugeruje, że coś jest około 1/6 całości. Ale ta intuicja nie ma związku z prezentowanymi wartościami.


Ja swoich dwóch faworytów już mam. Zwycięski wykres trafi do Eseju Info-pomyłka. Jeżeli uda mi się zidentyfikować autora wykresu, to wyślę mu też jeden egzemplarz Esejów na pamiątkę. Ogłoszenie wyników plebiscytu po nowym roku.

Dziękuję wszystkim osobom, które przesłały mi swoje propozycje, nawet jeżeli nie znalazły się w powyższym zestawieniu. Ale sami widzicie, że konkurencja jest duża.

To kto powinien wygrać?

Który wykres zasługuje na tytuł ,,Zniekształcenie roku 2018''?

View Results

Loading ... Loading ...

Data, movies and ggplot2

Yet another boring barplot?
No!
I’ve asked my students from MiNI WUT to visualize some data about their favorite movies or series.
Results are pretty awesome.
Believe me or not, but charts in these posters are created with ggplot2 (most of them)!

Star Wars

Fan of StaR WaRs? Find out which color is the most popular for lightsabers!
Yes, these lightsabers are created with ggplot2.
Would you guess which characters are overweighed?
Find the R code and the data on the GitHub.

Harry Pixel

Take fames from Harry Potter movies, use k-means to extract dominant colors for each frame, calculate derivative for color changes and here you are.
The R code and the poster are here.
(steep derivatives in color space is a nice proxy for dynamic scenes).

Social Network for Super Heroes

Have you ever wondered how the distribution of super powers looks like among Avengers?
Check put this poster or dive in the data.

Pardon my French, but…

Scrap transcripts from over 100k movies, find out how many curse words you may find in these movies, plot these statistics.
Here are sources and the poster.
(Bonus Question 1: how curse words are related to Obama/Trump presidency?
Bonus Question 2: is the number of hard curse words increasing or not?)

Rick and Morty

Interested in the demography of characters from Rick and Morty?
Here is the R code and the poster.
(Tricky question: what is happening with season 3?)

Twin Peaks

Transcripts from Twin Peaks are full of references to coffee and donuts.
Except the episode in which the Laura’s murdered is revealed (ups, spoiler alert).
Check out this by yourself with these scripts.

The Lion King

Which Disney’s movie is the most popular?
It wasn’t hard to guess.

Box Office

5D scatterplots?
Here you have.

Next time I will ask my students to visualize data about R packages…
Or maybe you have some other ideas?

Zgłoszenia do tegorocznej edycji plebiscytu ,,Najgorszy wykresu roku”

Zbliża się koniec roku, a z nim siódma (!!!) edycja plebiscytu na najgorszy wykres roku (wykres, który jest wart tysiąca łez?).
Jeżeli widzieliście w papierowych lub elektronicznych mediach wykresy zniekształcające dane, powodujące, że prosta informacja staje się nieczytelna lub wprowadzająca w błąd zgłoście ją do konkursu!
Wykres/wizualizacja powinna być opublikowana w 2018 roku.
Zgłoszenia można przesyłać w komentarzach lub na adres email: przemyslawbiecek na serwerze gmail.com.

Mam już kilka ciekawych zgłoszeń, ale czekam na więcej.


Jakie wykresy stawały w szranki w poprzednich latach? (ubiegłoroczny zwycięzca po prawej)

Wykresy Unplugged – pomysł na prezent pod choinkę

Wizualizacja danych to jedna z tych przyjemnych i pożytecznych czynności, która pozwala nam lepiej zrozumieć otaczający nas świat.

Ale nikt nie rodzi się z umiejętnością odczytywania czy tworzenia wykresów. Tę umiejętność trzeba w sobie wyćwiczyć.

Można oczywiście czytać o wizualizacji (np. w Esejach o wizualizacji danych) lub oglądać wykresy (np. na FlowingData), ale jeszcze lepiej byłoby poznawać wykresy w sposób czynny – tworząc je.

Nowa pozycja o wizualizacji danych

Wykresy Unplugged to książka (28 stron A4, pełny kolor) omawiająca osiem najpopularniejszych typów wykresów. Czterech poświęconych wizualizacji rozkładu (wykres kołowy, łodyga – liście, histogram, pudełko-wąsy) oraz czterech poświęconych relacjom (zmiany, kropkowy, kartogram, mozaika).

Każdy wykres ma swoją rozkładówkę. Na lewej stronie opisywane są ciekawostki, sposób budowy oraz przykład dla danego wykresu, a po prawej stronie są przykładowe dane oraz miejsce na narysowanie własnego wykresu.

Tak! Narysowanie!

W tej książce są ćwiczenia do wykonania z użyciem ołówka (i czasem kredek, ewentualnie kolorowych długopisów).

Do wykresów przygotowane są również ćwiczenia i pytania, pozwalające nam na weryfikacje co łatwiej wyciągnąć z tabelki z liczbami a co z wykresu.

Obok wykresów, w tej książce znajdują się przykładowe rozwiązania i dodatkowe rozkładówki omawiające wybrane zagadnienia teoretyczne (dobór kształtów, kolorów historia wizualizacji).

Zazwyczaj zajęcia z wizualizacji danych oparte są o jakieś programy graficzne, tak by szybko można było coś wyklikać. Ale obecne komputerowe narzędzia są bardzo ograniczające. Dużo energii wchodzi w opanowanie narzędzia zamiast w myślenie o danych. Stąd zrodził się pomysł na zbudowanie książki, uzupełnionej o ćwiczenia, które będzie można wykonać bez komputera. Oto i ona – Wykresy Unplugged.

Jak ją zdobyć?

Książkę można kupić bezpośrednio na stronie Wydawnictw Uniwersytetu Warszawskiego, wkrótce dostępna będzie też w Empiku, Merlinie i sklepiku w Centrum Nauki Kopernik.

Książka kierowana jest dla osób ciekawych świata od 10 do 110 lat.

Książka powstała dzięki współpracy z Ewą Baranowską (entuzjastka D3 i grafiki interaktywnej), Piotrem Sobczykiem (autor między innymi Szychta w danych) oraz studiem graficznym storyvisio.

Seria Beta i Bit

Wykresy Unplugged to część serii Beta i Bit – projektu popularyzującego matematykę, informatykę i wnioskowanie oparte o dane. Na wniosek wydziału MiNI PW, za prace nad tym projektem, otrzymałem Medal Komisji Edukacji Narodowej (!!!).
To się nawet dobrze złożyło, ponieważ z końcem roku do sklepów trafiają dwie pozycje z tej serii, Wykresy Unplugged i W pogoni za nieskończonością.
O tej drugiej napiszę na dniach.

Z pamiętnika nauczyciela akademickiego: O pracach domowych

Najbardziej lubię prace domowe, które mogę czytać z zapartym tchem.
Jak to?
Ekscytować się pracami domowymi ponad 50 studentów robiących to samo zadanie?

Zobaczcie sami!

Na zajęciach z Technik Wizualizacji Danych (zajęcia na bazie Esejów o sztuce prezentowania danych) opowiadam studentom jakie wykresy są dobre a jakie złe.
Ale przecież studenci matematyki i informatyki nie biorą niczego na wiarę!
W ramach piątej pracy domowej sprawdzali czy faktycznie wygląd wykresu ma znaczenie.
Poniżej wyniki z kilku przykładowych prac domowych.
Prace polegały na przeprowadzeniu ankiety na temat związany z wykresami.
Zachęcam do zrobienia najpierw ankiety a później przeczytania o wynikach z ankiety.

Torty czy słupki?

Ankieta
Wyniki

Co oni robią na kolosie?

Ankieta
Wyniki

Albo słupki albo tytuł

Ankieta
Wyniki

Tego Nie Zobaczysz

Ankieta
Wyniki

Libre Office nie jest bez wad

Ankieta
Wyniki

Loteria

Ankieta
Wyniki

A może drzewo?

Ankieta
Wyniki

Nawet dziecko to zobaczy

Wyniki

Co jest w pudełku?

Wyniki

Świetne, prawda?

Koderek i BetaBit


W tym roku miałem ponad 20 referatów na 4 kontynentach. Ale największym przeżyciem był dzisiejszy.
Na wydziale MiNI PW opowiadałem o odkrywaniu świata przez wizualizację danych (Da Vinci, Nightingale, Snow i te klimaty) dwóm klasom 8-latków ze Szkoły Podstawowej nr 1.
Około 40 pełnych energii dzieciaków w sali 107 – gdzie mieści się do 250 studentów – super zabawa. Jest to fragment projektu Beta Bit – edukacji w obszarze Data Literacy (matematyka + informatyka) dla małych i dużych.

Kolejne warsztaty z tej serii już w sobotę 21 listopada na Koderku – arcyciekawej konferencji dla dzieci, młodzieży, nauczycieli i dorosłych.
Koderek to multum ciekawych referatów i warsztatów.
W tym roku jest też coś ekstra – labirynt z zagadkami logicznymi.
Pełny program jest tutaj.
Wciąż można się zapisywać.

Dyscypliny czasopism

Dzisiaj bardzo technicznie.
Od jakiegoś czasu, umysły wielu polskich naukowców zaprząta problem: do jakiej dyscypliny naukowej się przypisać?. Wczoraj ministerstwo opublikowało listę przypisań czasopism do dyscyplin (na tej stronie). Lista jest w postaci pliku pdf. Aby dało się z nią pracować zapisałem ją w formacie txt tutaj.
Przyjrzymy się tej liście.

Mamy na niej 44 dyscypliny i 27301 czasopism.
Dla 136 czasopism przypisano wszystkie 44 dyscypliny (np. Science czy Nature). Dla 3/4 czasopism przypisano trzy lub więcej dyscyplin. Poniżej histogram (obcięty do 20 czasopism dla czytelności).

Dla każdej pary dyscyplin policzyłem ile jest czasopism, które są przypisane do obu dyscyplin. Taką tablę współwystępowania można pobrać z tej strony.

A jak już mamy tabelę współwystępowania to trzeba zrobić z niej graf. Poniżej graf wykonany z użyciem pakietu igraph. Wielkość wierzchołka – liczba czasopism, grubość krawędzi – liczba wspólnych czasopism.

Mnie najbardziej interesowały dyscypliny z którymi czuję się jakoś związany. Wycinek powyższej tabeli dla 9 wybranych dyscyplin przedstawiam tutaj.

Jest kilka ciekawostek.

Np. dyscyplinę informatyka ma przypisanych 2510 czasopism, z czego 2506 ma też przypisaną informatyka techniczna i telekomunikacja. Wśród tych czterech z informatyki, ale nie informatyki technicznej mamy Journal of Experimental Algorithmics, Konstruktion i Positivity. Poza tymi nielicznymi wyjątkami, liczba czasopism z przypisaniem informatyka zawiera się w informatyce technicznej.

Matematyka ma duże przecięcie z obiema informatykami. 70% czasopism z przypisaną matematyką, ma też przypisane obie informatyki.

Nauki medyczne mają bardzo duże przecięcie z naukami o zdrowiu (to nie jest zaskoczeniem). Podobnie z biologią i bioinżynierią.

Bardzo dobre czasopisma związane z ML (np. Journal of Machine Learning Research, Journal of Statistical Software) są przypisane do obu informatyk i matematyki.

Część środowiska obawiała się, że jeżeli przypisze się do dyscypliny X to później okaże się, że nie może do tej dyscypliny przypisać części swoich prac. Ale ogólne moje wrażenie jest takie, że czasopisma do dyscyplin przypisane są z rozmachem.
Ministerstwo deklaruje, że nawet jeżeli czasopismo nie jest przypisane do jakieś dyscypliny, to będzie można konkretną pracę do dyscypliny przypisać, tyle, że nie z automatu.
Zobaczymy.
Bioinformatycy publikujący np. w Nucleic Acids Research nie znajdą w wykazie jej dyscyplin ani informatyki ani informatyki technicznej. A że problem (?) z NAR i mnie dotyka, więc pewnie jeszcze o nim napiszę.

Ponoć gdzieś po sieci krąży plik z informacją o punktacji dla poszczególnych czasopism. Chętnie sprawdziłbym jak to współdzielenie dyscyplin wygląda wśród tych najlepszych czasopism.