Wykresy od kuchni

Książka jest w formacie A4, ale nie mogłem się powstrzymać od wydrukowania okładki w formacie B0

Zgodnie z obietnicą, pod choinkę Mikołaj przyniósł Wykresy od kuchni – krótkie wprowadzenie do statystycznej wizualizacji danych.

Wersja elektroniczna jest dostępna pod adresem: https://betaandbit.github.io/Wykresy/

Kody i dane potrzebne do odtworzenia wykresów z tej ksiązki znajdują się pod adresem: https://github.com/BetaAndBit/Wykresy

Książka ma ,,zaledwie” 72 strony, ale pracowałem nad nią od 2016 roku.
Pomysł był prosty: skoro na wspaniałych kuchennych przykładach można mówić o fizyce czy chemii, to dlaczego by nie opowiedzieć o statystyce?
Brzmi prosto?
Te 6 lat to 4 piwoty całej koncepcji.
W między czasie napisałem 3 inne krótkie książki (The Hitchhiker’s Guide to Responsible Machine Learning, Gra w Chaos, W pogoni za nieskończonością – Szeregi) oraz jedną monografię (Explanatory Model Analysis).
Ale temat statystki w kuchni chodził za mną non stop.

Książkę miałem zakontraktowaną na rok 2020, pandemia przesunęła terminy na końcówkę 2021 roku. Więc gdy miesiąc temu, w listopadzie, stwierdziłem, że dotychczasowe opisy się nie kleją i trzeba całość przepisać, pomimo już narysowanych ilustracji, ustalonych terminów z drukarnią i generalnie wyczerpanej cierpliwości współpracowników i rodziny, cóż, dość powiedzieć, że ta decyzja nie zyskała wsparcia otoczenia.

Ale się udało.

Beta i Bit są zgodni, że póki co jest to książka, która pisałem najdłużej, ale widać tak musiało być.
Wykresy od kuchni – sześć krótkich wykładów o wizualizacji danych. Wykładów które kiedyś prowadziłem na Technikach Wizualizacji Danych na Uniwersytecie Warszawskim i Politechnice Warszawskiej. Ale tutaj napisałem je z myślą o uczniach szkoły średniej, głównie z kierunków mat-fiz, którzy są spragnieni przygód malowanych danymi.

Drukarnia prześle pierwszą partię wydruków na początku lutego. Pierwszy egzemplarz będzie można wylicytować na WOŚP, pozostałe będą rozdawane bezpłatnie licealistom uczestniczącym w zajęciach prowadzonych na wydziale MiNI PW.

Gorąco dziękuję Łukaszowi Maciejewskiemu (który zaraził mnie pomysłem do połączenia komiksu i statystyki), Kamila Łyczek (brainstorming pomysłów na łączenie matematyki z kuchnią), Łukasz Rajkowski (za bliską nieskończoności liczbę uwag, komentarzy, pomysłów i sugestii), Ikert Bengoetxea Arruti i Anna Szalwa za fantastyczne ilustracje, Anna Kozak, Mikołaj Spytek i Hubert Ruczyński (cenne komentarze osób prowadzących Techniki Wizualizacji w tym roku) Agata Balak (wsparcie przy kontaktach z drukarnię) i całe MI2DataLab (wsparcie przy projekcie Beta Bit), Barbara Roszkowska Lech (namówienie mnie na udział w projekcie Komiksowa Matematyka).

Wykresy od kuchni — w sam raz pod choinkę

W tym roku, zamiast plebiscytu na najgorszy wykres roku, mamy dla Was małą niespodziankę. Na końcówkę roku przygotowujemy krótką (70-stronicową), bogato ilustrowaną pozycję o wizualizacji danych — Wykresy od kuchni.

Książeczka składa się z sześciu rozdziałów, które odpowiadają wykładom z Technik Wizualizacji Danych, które przez kilka lat prowadziłem na Uniwersytecie Warszawskim i Politechnice Warszawskiej. Jest to też nowsza, odświeżona opowieść o statystycznej wizualizacji danych, o której kiedyś pisałem w książce ,,Odkrywać! Ujawniać! Objaśniać! Zbiór esejów o sztuce przedstawiania danych” (dostępna online http://biecek.pl/Eseje).

Więcej szczegółów już wkrótce, więc stay tuned!

Dni Matematyki na PWr – 22-23 kwietnia 2022

Ogromnie miło nam poinformować, że w tym roku (podobnie jak w poprzednich) mamy zaszczyt być patronem honorowym konferencji Dni Matematyki, organizowanej przez Samorząd Studencki Wydziału Matematyki PW.

Gorąco zapraszamy! Na wydarzenie można zarejestrować się przez wydarzenie na FB: https://www.facebook.com/events/493498632429034.

Kilku szczęśliwych uczestników tej konferencji otrzyma komikso-książkę ,,The Hitchhiker’s Guide to Responsible Machine Learning”, którą w tym roku opublikowała fundacja SmarterPoland.pl.
W wersji online tutaj: https://betaandbit.github.io/RML/.

MI^2 rekrutuje

Screen Shot 2015-05-16 at 00.19.57

Jakiś czas temu pisałem o grupie MI^2 (rozpiętej pomiędzy wydziałami matematyki i informatyki MIM UW a MINI PW).

Trwa rekrutacja do projektów planowanych w tej grupie na ferie zimowe lub letnie. Lista aktualnie zgłoszonych projektów znajduje się na tej stronie.

Aby wziąć udział w projektach nie trzeba być studentem żadnego z tych wydziałów, ale trzeba mieć czas, ochotę i chęć mierzenia się z czasem trudnymi problemami związanymi z analizą danych.

Choinka a SER

ctree

Grudniowy SER był bardzo techniczny i bardzo udany. Prezentacje obu prelegentów można pobrać z GitHuba. Kornel miał kilka animowanych gifów i te będą działały tylko pod Keynote, pdf jest statyczny.

Choinka otwierająca ten wpis została przygotowana w GGplocie przez Czarka Chudziana (kod na GitHub). Wszystkie osoby, które przesłały choinki otrzymają SERowe notesy!

Na koniec roku, jak co roku, przygotowujemy głosowanie na najgorszą infografikę. Mam już kilka niesamowitych kandydatur, ale jeżeli trafiliście na coś wyjątkowo zaciemniającego dane, przekłamującego, zniekształcającego liczby lub po prosty zabawnego to podeślijcie.

Statystyk jak szewc

buty
Dzieci przynoszą ze szkoły dziwne prace domowe, np. do jakiego zawodu podobny jest zawód twojego taty. Po kilku nieudanych próbach (kosmonauta, kierowca formuły 1, strażak) stwierdziłem, że zawód statystyka całkiem przypomina zawód szewca. Dlaczego?

Nie, nie chodzi o to, że dużo pije i przeklina jak coś mu nie wyjdzie (czytaj: dużo przeklina). To stereotypy. Chodzi o to, że w obu cechach rzemieślniczych, można wyróżnić podobne podgrupy.

Czytaj dalej Statystyk jak szewc

Rrrrrrrrr, dam pracę

Kontynuując temat ogłoszeń z ofertami pracy w okolicach R i analizy danych, dziś coś z KNF.

Poszukuję kandydatów do pracy w zespole zajmującym się projektowaniem, implementowaniem i utrzymywaniem modeli ryzyka rynkowego, kredytowego, ubezpieczeń na życie i ubezpieczeń osobowo-majątkowych.

Pożądane cechy kandydata:
– umiejętność pracy w grupie (matematyków)
– solidne opanowanie podstaw statystyki
– minimum kilkumiesięczne doświadczenie w implementowaniu modeli
– doświadczenie z C++ i R
– dociekliwość i kreatywność
– wykształcenie matematyczne lub ekonomiczne (ew. student studiów II stopnia)

Jeśli jesteś wstępnie zainteresowany i spełniasz minimum 4 powyższe cechy, to skontaktuj się ze mną wysyłając maila na adres: wielgosz.marek (na serwerze) gmail.com.

Uczyć się na cudzych błedach

Dostałem kilka dni temu list od Pawła K. w którym znalazło się kilka konstruktywnie krytycznych komentarzy dotyczących raportu Diagnoza Społeczna 2011. List ten zaczynał się od stwierdzenia, że warto udostępniać przykłady różnych ,,wpadek”, ponieważ studiując błędy można uczyć się szybciej, łatwiej też ogląda się cudze błędy niż własne. Ok, zobaczymy.

Przedstawię poniżej wybrane z komentarzy Pawła wraz z kilkoma słowami od siebie. Temat cytowanego raportu dotyczy wykorzystania komputera i internetu, a więc jest bardzo ciekawy.

W raporcie jest kilka problemów ze spójnością wyników prezentowanych na wykresach lub w tekście. Np. z poniższych dwóch wykresów można odczytać jaki % gospodarstw było w roki 2011 wyposażone w komputer.

Tyle, że w pierwszym przypadku odczytamy, że wyposażonych w komputer jest 66% osób a w drugim 58,6% (posiada i korzysta) +17,2% (posiada i nie korzysta)=75,8%. Spora różnica, prawie 10%. Znając strukturę danych raportu można odgadnąć skąd ta różnica się bierze ale osoba nieznająca struktury może być takimi różnicami zaskoczona (w badaniu są dwie osobne ankiety dla gospodarstwa i dla osób, procenty liczone na jednej nie muszą się zgadzać z procentami na drugiej, w tym przypadku jak widać gospodarstwa w których jest komputer są średnio liczniejsze) .

Pan Paweł zauważył też kilka cyfrówek (literówek występujących w liczbach), w opisie rysunku 7.1.1 jest rok 2009 zamiast 2011 a powyżej wykresu w tekście pojawia się informacja o dostępności internetu dla 61,1% zamiast 51.1%.

Interesującym problemem jest tempo ,,nasycania się” gospodarstw domowych komputerami. W raporcie jest napisane, że skomputeryzowanych gospodarstw przybywa, ale w coraz mniejszym tempie. Zobaczmy, pobawmy się liczbami. Pomiędzy latami 2007  – 2009 – 2011 skomputeryzowanych gospodarstw było 53,8%; 60,2%; 66% odpowiednio. Gdyby policzyć różnicę pomiędzy tymi wartościami to okaże się że z roku 2007 na 2009 ,,przybyło” 6,4 p.p. a z roku 2009 na 2011 ,,przybyło” 5.8 p.p. czyli mniej. Ale zobaczmy ile z gospodarstw, które nie miały komputera nabyło komputer, czyli policzymy ilorazy zamiast różnic. (Dla uproszczenia opisu zakładam, że gospodarstwa nie pozbywają się komputerów). Z roku 2007 na 2009 około 13,9% gospodarstw niemających komputera skomputeryzowało się, z roku 2009 do roku 2011 około 16,8% gospodarstw niemających komputera skomputeryzowało się. Patrząc więc na ilorazy można powiedzieć, że tempo komputeryzacji się zwiększa. Czy tempo to różnice czy ilorazy to rzecz do dyskusji, ale ciekawe jest to, że nawet na tempo wzrostu trzech liczb można spojrzeć na przynajmniej dwa sposoby.

Spójrzmy też na rysunek 7.2.3 z tego raportu.

Problem z tym rysunkiem polega na tym, że sugeruje iż więcej 20-letnich polaków korzysta z internetu niż ma do niego dostęp. To trochę zaskakujące! To interesujące zjawisko nie zostało niestety wyjaśnione w tekście, być może chodzi wyłącznie o dostęp do Internetu w domu, ale to tylko domysł.

Swoją drogą, warto  zwrócić uwagę na pionowe linie pokazujące odległość pomiędzy niebieską a czarną krzywą. Dodanie pionowych linii to interesujący zabieg pozwalający na lepsze ocenienie odległości ,,w pionie”. Bez tych linii oko za odległość pomiędzy liniami byłoby skłonne uznawać najmniejszą odległość a nie odległość ,,w pionie”.

Zaskoczeniem dla mnie była obserwacja, że około 75% z 10 latków korzysta z internetu. Sporo. A jeżeli spojrzeć na rysunek 7.4.13 to okaże się, że w domu z internetu korzysta nawet więcej, bo 81% z 10-latków.

 

Ok, czas na wnioski. Błądzić to ludzka rzecz i nie wypada mi za bardzo się pastwić dzisiaj nad literówkami, bo kilka godzin temu dostałem kolejną listę literówek znalezionych w mojej książce (dzięki Krzysiek! errata uaktualniona!). Z drugiej strony raporty Diagnozy Społecznej, są bardzo interesujące, myślę, że wiele osób z nich korzysta i warto dbać by były możliwie bezbłędne (w przeciwieństwie do raportów typu ,,write-only” na których komentowanie szkoda czasu).

Czego więc możemy się nauczyć na błędach innych? Trzeba stworzyć czytelnikowi raportu kanał komunikacji, którym czytelnik mógłby zgłaszać lub sam wprowadzać drobne poprawki / dodawać komentarze /zgłaszać uwagi. Strona wiki z możliwością komentowania byłaby najlepsza, ale pewnie i adres email na który można wysyłać uwagi wystarczy. Może raport dla kolejnej edycji badania pojawi się w formie bardziej interaktywnej?

4+1+5 = 10

 

Tak jak pisałem w poprzednim wpisie, planuję odbyć 10 rozmów na tematy około-blogowe zanim będę kontynuował pisanie na tym blogu.

Pomysł na 10 rozmów, w chwili gdy przyszedł mi do głowy, wydawał się tak nieracjonalny, że wręcz musiałem go wcielić w życie z czystej ciekawości jak się ten eksperyment zakończy.

Do dzisiaj miałem już przyjemność spotkania i porozmawiania z czterema osobami. W większości (ile to jest większość z 4?) nieznanymi mi wcześniej. Do tego obietnica jednego spotkania po długim weekendzie daje już połowę z zaplanowanych spotkań. Ponieważ eksperyment dla mnie był bardzo nowy, podzielę się kilkoma wrażeniami na gorąco.

Pierwsze cztery spotkania pozwoliły mi na spojrzenie na temat analizy danych z RÓŻNYCH stron. Dużo się pisze o interdyscyplinarnych zespołach i o tym jak pomysły osób o różnych doświadczeniach mogą prowadzić do ciekawych rozwiązań. Brałem kilka razy udział w sesjach burzy mózgów osób i myślałem, że wiem co to interdyscyplinarność. Ale tamte panele były znacznie uboższe w pomysły niż te cztery rozmowy, które miałem przyjemność przeżyć. Wiele pewnie jest ku temu powodów, ale z perspektywy kilku dni uważam, że pomysł na te rozmowy był bardzo trafiony. Cztery rozmowy z czterema osobami pozwalają na znacznie szersze spojrzenie na to co się robi. A co dopiero dziesięć.

Co ciekawe im więcej rozmawiam z ludźmi o ich wyobrażeniu czemu służyć powinna statystyka, tym większą widzę przepaść pomiędzy statystyką matematyczną a oczekiwaniami dotyczącymi analizy danych. To nie jest kwestia przesunięcia akcentu to są dwa różne sposoby myślenia. Tak więc rozmowy z nie-’statystykami matematycznymi’ o statystyce bardzo poszerzyły mój horyzont widzenia.

Osoby, które zgodziły się na rozmowę nie są ,,przypadkowe”. Nie każdy, czy wręcz niewiele osób, ma czas, chęć, energię, widzi sens/ma ochotę na taką rozmowę. A jeżeli ktoś już widzi sens/ma ochotę to przeżył najpewniej coś o czym warto usłyszeć. Bardzo dziękuję tej czwórce ( piąty w drodze), za to że znaleźli czas i chęci by się spotkać i porozmawiać.

 

Rozmowy były najczęściej na bardzo ciekawym i wysokim poziomie abstrakcji. Ale aby zachęcić przyszłych poniżej zbiorę wybiórczo kilka suchych, niskopoziomowych propozycji, które się pojawiły.

  • Poprawić design bloga co zwiększy ,,przyswajalność” treści.
  • Walczyć z ,,brudną” statystyką i wciskaniem kitu przez media i polityków.
  • Rzadsze wpisy, np. raz na tydzień.
  • Mniej o cenach mieszkań/samochodów, więcej o tematach społecznych.
  • Przetestować możliwości interaktywnej grafiki w opisie interesującego zjawiska.
  • Poprawić ,dziennikarski warsztat’ blogera, stronę językową, streszczenie do wpisów, kontrolowana długość wpisów.
  • Więcej opinii, mniej suchych wyników. Dotąd pozostawiałem interpretację wyników czytelnikowi ale może warto jakąś zasugerować.
  • Znaleźć kogoś na miejsce ,,pierwszego czytelnika”, który skomentuje wpis zanim on się publicznie ukaże.
  • Wykorzystanie fundacji w celu pozyskania drogą oficjalną różnych danych, użytecznych ale nie dostępnych nigdzie publicznie.
  • Zatrudnienia kilku studentów do przejrzenia mediów elektronicznych i pozbierania dziesiątek przykładów złych grafik.
  • Poświęcenie większej ilości czasu jednemu zjawisku, np. edukacji na poziomie gimnazjum.

Dziękuję też za komentarze pod poprzednim wpisem, celowo na nie nie odpowiadam, mając nadzieję raczej na znacznie bogatszą w środki przekazu rozmowę w świecie rzeczywistym.