Marynarka Wojenna Polski, trzy gry statystyczne dla dzieci

We wtorek we wpisie Marynarka Wojenna przedstawiałem wizualizację stanu naszej marynarki wojennej.

Dziś pomysł na wykorzystanie wydrukowanych sylwetek okrętów marynarki wojennej w trzech grach statystycznych. Okręty wycinamy i przystępujemy do gry.

Czytaj dalej Marynarka Wojenna Polski, trzy gry statystyczne dla dzieci

Marynarka Wojenna Polski. Plakat na Twoją ścianę

Pisałem kiedyś o grze statystycznej dla dzieci polegającej na przewidzeniu jaki zasięg będzie miała kolejna fala. Ta zabawa ma związek z moim przekonaniem, że edukację w stylu 'data literacy’ można i warto rozpoczynać wcześnie. Można to robić z frajdą i w tym kierunku będzie dzisiejszy i czwartkowy wpis.

Moja starsza pociecha coraz bardziej interesuje się rzemiosłem wojennym. W Muzeum Armii zna już wszystkie zakątki. Oczywiście interesuje się też historiami związanymi z polskim wojskiem.
Ponieważ mnie (ale myślę, że nie tylko mnie) łatwiej opowiadać historie mając pod ręką wykres/diagram/szkic, przygotowałem wizualizację stanu polskiej marynarki wojennej.

Klikając na poniższy link można pobrać dokument z nazwami wszystkich okrętów obecnie służących w naszej marynarce wojennej. Każdy okręt ma nazwę i wskazany jest też typ okrętu. Mając nazwę i tym można na Wikipedii znaleźć szczegółowe opisy poszczególnych okrętów.

Czytaj dalej Marynarka Wojenna Polski. Plakat na Twoją ścianę

Kategoryzacja jednostek, aplikcja dla NZ / SI / HS

Problem z hobby polega na tym, że trudno się od niego oderwać.
A na temat:
Z uwagi na zainteresowanie wizualizacją różnych kryteriów oceny jednostek naukowych zrobiłem aplikację, pozwalającą na przeglądanie wyników jednostek dla trzech dziedzin.

Pod adresem http://glimmer.rstudio.com/sondaze/parametryzacja/ znajduje się taka aplikacja:

Ponieważ na serwerze glimmer działa wiele aplikacji (to darmowy hosting), więc po jakimś czasie bezczynności ta apliakcja jest zabijana (okno aplikacji zrobi się szare) i trzeba odświeżyć stronę aplikacji.

Aplikacja ta pozwala na wybranie dziedziny (Nauki o życiu, Ścisłe, Humanistyczne) oraz dwóch kryteriów. Dla takiej kombinacji dostępne mamy trzy zakładki.

Pierwsza przedstawia wykres interaktywny. Przedstawia ona wszystkie jednostki z możliwością podejrzenia nazwy wskazanej jednostki przez najechanie na nią myszką.
Druga zakładka pozwala na pobranie wykresu w formacie pdf.
Trzecia zakładka pozwala na pobranie danych w formacie csv. Gdyby ktoś chciał liczyć korelacje czy coś innego to nie ma sensu by na nowo wyciągał te dane z pdf’a. Skoro już raz ktoś przez to przeszedł. Niepotrzebnie, takie dane od początku w cywilizowanym kraju powinny być publikowane w formacie pozwalającym na ich przetwarzanie.

Kody źródłowe dla tej aplikacji i wszystkie wykresy można pobrać z mojego konta na github, czyli tutaj.

Pięć raportów od wielkanocnego zająca

Tak naprawdę to nie od zająca, ale od Krzyśka Trajkowskiego.
Ale zacznijmy od początku.

Jakiś czas temu [to już cztery lata?] pracowałem nad zbiorem ,,luźnych” notatek w okolicy eksploracji danych, czego wynikiem był dokument ,,Na przełaj przez Data Mining”. Do prac nad tym dokumentem dołączył Krzysiek i w aktualnej [jeszcze nie ukończonej] wersji, połowa rozdziałów jest jego autorstwa.

Poza tą pozycją wspomniany już autor przygotował pięć interesujących dokumentów, które być może zaciekawią czytelników tego bloga.
Poniżej lista dokumentów wraz z odnośnikami do plików pdf.
Miłej lektury.

  1. ,,Przegląd pakietów do optymalizacji liniowej”, Krzysztof Trajkowski (2011).
    Można przeczytać o funkcjach solveLP(linprog), lp(lpSolve), lp.transport(lpSolve), lp.assign(lpSolve).
  2. ,,Przegląd pakietów do optymalizacji nieliniowej”, Krzysztof Trajkowski (2012).
    Można przeczytać o funkcjach optim(stats) i fminsearch(pracma) oraz solve.QP(quadprog), constrOptim(stats), constrOptim.nl(alabama), solnp(Rsolnp) i nloptr(nloptr).
  3. ,,Przegląd pakietów do analizy zmiennych niezależnych”, Krzysztof Trajkowski (2012).
    Można przeczytać o testach parametrycznych i nieparametrycznych dla dwóch lub większej liczby grup.
  4. ,,Przegląd pakietów do analizy zmiennych zależnych”, Krzysztof Trajkowski (2012).
    Można przeczytać o testach parametrycznych i nieparametrycznych dla danych sparowanych/związanych.
  5. ,,Analiza i wizualizacja danych naukowych”, Krzysztof Trajkowski (2013).
    Można przeczytać o pakietach ggplot2 i shape.

Słowa uznania dla autora tych dokumentów można zostawiać w komentarzach.

Kiedy dogonimy zachód… od podszewki

Dzisiaj pokażę jak powstawały wyniki przedstawione we wtorkowym wpisie Kiedy dogonimy zachód?. Będzie trochę o motywacji, dlaczego akurat taki temat, o tym jak ściągnąć dane automatycznie z internetu, o zaletach analizy ,,opóźnienia” i przede wszystkim będzie o robieniu wykresów w programie R.

Czytaj dalej Kiedy dogonimy zachód… od podszewki

Alternatywny ranking państw pod kątem liczby zdobytych medali.

Dziennik The New York Times opracował interesującą infografikę przedstawiającą liczbę zdobytych medali przez różne państwa na olimpiadzie w Londynie.

Wizualizacja o tyle ciekawa, że ranking państw można różnie ustawiać, w zależności od różnic w traktowaniu medali złotych i brązowych. Zamiast więc pokazywać obok siebie kilka różnych rankingów pokazano graf opisujący częściowy porządek pomiędzy państwami.

Wizualizację można zobaczyć pod tym linkiem. Ciekaw opcją jest ,,adjust for population”. Jakby jednak tych wyników nie korygować pozycja naszego kraju nie będzie najwyższa. Jako kraj lepiej wypadamy w olimpiadach matematycznych i informatycznych.

New York Times: Osoby z dziećmi śpią o kilkanaście minut dziennie mniej niż bezdzietne. Czyżby?

The New York Times jest zazwyczaj chwalony za wizualizacje oparte o dane. Jedną z takich prezentacji przedstawię poniżej. Zacznę od zachwytu by po kilku paragrafach znaleźć dziurę w całym. Brzmi interesująco?

Tydzień temu, podczas konferencji useR, Hadley Wickham pokazał kilka interesujących, jego zdaniem wzorcowych, wizualizacji. Jedna z nich bardzo wpadła mi w oko. Link do niej poniżej. Ta interaktywna wizualizacja pokazuje jak różne grupy ludzi spędzają czas. Ile i kiedy śpią, jedzą, pracują, bawią się, oglądają telewizję itp.

Można porównywać różne grupy osób pod kątem ile czasu przeznaczają na prace domowe (średnio kobiety 2x więcej niż mężczyźni), w jakich godzinach zazwyczaj pracują,  czasu przeznaczają na edukację (np. warto zobaczyć w podziale na grupy wiekowe). Bardzo interaktywna, zachęca czytelnika do zabawy w szukanie interesujących zależności. Na pierwszy rzut oka bardzo ładnie przygotowana infografika.

zachęcam do poklikania!

Na chwilę odłóżmy na bok tę infografikę. Jakiś czas temu słuchałem wywiadu z polską dziennikarką, która zapytana o zespół do opracowania infografiki powiedziała, że w pierwszej kolejności zatrudniłaby grafika. Statystyk by się przydał w drugiej kolejności, ale z pewnością nie będzie na niego środków. Opinia ta jest zgodna niestety z opinią większości osób, że infografika powinna być ładna, przykuwająca uwagę a niekoniecznie prezentująca dane. Estetyka przed poprawnością.

Do czego to prowadzi? Mamy ładne, cukierkowe grafiki, które zniekształcają obraz rzeczywistości lub w bardziej optymistycznym przypadku nic o rzeczywistości niewiele mówią.

A jak to stwierdzenie ma się do prezentowanej infografiki? Zobaczmy czy można z niej odczytać czy ilość i godziny snu różnią się w zależności od tego czy ma się dziecko, dwójkę lub więcej dzieci, czy też nie ma się dzieci. Osoby które przeżyły narodziny dziecka prawdopodobnie są przekonane, że przy małym dziecku ilość snu poważnie spada. A co na to nasza infografika?

Dowiedzieć możemy się z niej, że średnio osoby bezdzietne śpią o 10 minut dłużej niż osoby z jednym dzieckiem i o 14 minut niż osoby z dwójką dzieci.

Czyżby?

Jaki jest problem z tą analizą? Nie uwzględnia ona zróżnicowania porównywanych grup pod względem innych cech. Np. wieku. Otóż osoby młodsze średnio śpią dłużej (co zresztą wyraźnie widać na tej wizualizacji). Średnio osoby bez dzieci są młodsze niż osoby z dziećmi (dzieci się ,,nabywa” z wiekiem). A więc porównując osoby bezdzietne z osobami z dziećmi obserwujemy równocześnie różnice w długości snu wynikającą z różnic w średnim wieku obu grup. Aby dowiedzieć się czy i o ile posiadanie dziecka skraca czas na sen należałoby w analizie uwzględnić i wyeliminować wiek i inne ,,zakłócające” cechy badanych. Można to zrobić używając np modeli liniowych. Problem w tym, że sam grafik tego nie zrobi, do tego potrzebny ktoś z choć podstawowym przygotowaniem analitycznym. Szkoda też że nie rozdzielono osób dzietnych na osoby z najmłodszym dzieckiem do 4 lat  i osoby ze starszymi dziećmi. Myślę, że małe dziecko versus duże dziecko bardziej różnicuje tryb życia niż jedno versus dwa i więcej.

Pointa? Apelując do polskich gazet. Może zamiast zatrudniać tylko grafika warto wygospodarować choć 20% etatu dla statystyka? Może prezentacja będzie mniej piękna ale jest szansa, że będzie przedstawiała właściwie efekt obserwowany w danych. A przecież o to chodzi, by się czegoś dowiedzieć, a nie o to by nacieszyć się estetyką wykresu.

BTW: New York Times i Guardian mają świetne zespoły przygotowujące wizualizacje danych. Pracują one w szalenie krótkim czasie, łatwo więc później szukać dziury w całym. Nie zmienia to jednak faktu, że zespoły obu gazet wykonują masę świetnej pracy. Warto zobaczyć jak ciekawe wizualizacje sa prezentowane na łamach obu gazet, czy raczej ich portali internetowych.

 

Animacje są złe, czyli czym jest ,,change blindness”

Większość osób słyszała o ślepocie barw (ang. color blindness). Problem dotyka kilku procent populacji, najczęściej mężczyzn. Osoby chore mają problem z rozpoznawaniem barw. Z tego też powodu dobre reguły doboru kolorów odradzają używania skali rozpinającej się od czerwieni do zieleni. To zalecenie namiętnie ignorują osoby pracujące z mikromacierzami, które z uporem wartym lepszej sprawy przedstawiają zmiany ekspresji genów na skali zielony – czarny – czerwony.

Do niedawna nie słyszałem jednak o ang. change blindness, czyli nieumiejętności zauważenia zmiany, np. gdy ta zachodzi powoli. Okazuje się, że jest wiele przykładów pokazujących, że w pewnej sytuacji spora część populacji nie zauważa się zmiany, nawet jeżeli jest ona duża.

Kilka przykładów:

  • Ten filmik obrazuje sytuację, gdy badana osoba nie zauważa, że zmienia się jej rozmówca! Trudno w to uwierzyć? Ponoć dotyczy to 50% badanych. Warto zobaczyć filmik.
  • Ten filmik pokazuje płynne przejście pomiędzy dwoma obrazkami różniącymi się znaczącym elementem, a jednak spora część osób nie jest w stanie tej zmiany zauważyć jeżeli zachodzi ona wystarczająco wolno.
  •  Ten filmik pokazuje jak w zależności w który element wykresu patrzymy zmienia się nasza percepcja zmiany kolorów.
Wniosek? Animacja jest często atrakcyjna graficznie, ale wiążą się z nią problemy percepcji. Projektując animację gdy wiemy co ulegnie zmianie możemy mieć problemy w zrozumieniu czy tę zmianę zauważy ktoś, kto nie wie na który element zwracać uwagę. Wniosek jest taki, że w infografikach należy ją stosować z wyjątkową ostrożnością.

Premier League, Twitter a opowiadanie historii bazując na danych

Dzisiaj będzie o emocjach związanych z oglądaniem wykresu opisującego przebieg meczu. Wzrokowcy mogą czytać ten wpis od końca, od wykresu umieszczonego na końcu wpisu. Zanim jednak przejdę do klasycznego wpisu z jednym spójnym wątkiem, zacznę od dwóch wolnych skojarzeń wprowadzających.

Skojarzenie 1. Czy oglądacie wyścigi formuły 1? Ja to czasami robię, ale ponieważ oglądanie bolidów jest nudne, słuchanie komentatorów jest jeszcze nudniejsze, więc moja ulubioną formą oglądania wyścigów jest śledzenie live timing, dostępnego np. tutaj. Piękna sprawa! Na bieżąco można obserwować prędkości i położenia bolidów, graficznie przedstawiona jest sytuacja na torze. Wszystko co zbędne (wygląd bolidów, hałas silników) jest usunięte. Wyścig można śledzić patrząc na tabelkę z liczbami pokazującą czasy w poszczególnych sektorach, prędkości w punktach kontrolnych, odległość od lidera, prędkość wiatru, wilgotność powietrza, stan opon i to jest super!

Skojarzenie 2. Nie interesuję się piłką nożną a tym bardziej ligą angielską. Poniżej jednak przedstawiam wizualizację opisującą przebieg meczu w którym stawką był tytuł mistrza w Premier League. Interesujące w tej wizualizacji jest to, że prezentuje ona analizę emocji z jakimi ludzie oglądali i komentowali wspomniany mecz. Zaskakującym ale miłym doświadczeniem było odkrycie, że przyglądając się dwóm krzywym można poczuć emocje, które przezywali kibice drużyn walczących o mistrzostwo. Poza tym krzywe są dosyć interesujące a każde ich załamanie jest związane z jakimś wydarzeniem. Krzywa opisuje więc serię wydarzeń, streszcza cały przebieg meczu, skrywa ciekawą historię.

Dzisiejszy wpis jest wolnym tłumaczeniem artykułu dostępnego na blogu IBM BigData and Petascale Analytics. Analizę i wykres wykonano w dziale R&D IBM w Warszawie. Ponieważ wizualizacja bardzo mi się podoba więc poniżej przedstawiam streszczenie historii, która się kryje za tą wizualizacją.

Spójrzmy na mecz piłki nożnej przez pryzmat wpisów z Twittera. Spojrzymy nie na byle jaki mecz, ale na mecz o mistrzostwo w Premier League. A że mieszkańcy wysp często korzystają z Twittera to też i danych na które można spojrzeć jest sporo.

Ostatnia seria meczy w Premier League mogła wiele zmienić. Interesują nas trzy mecze:

  • Man City – QPR: Manchester City walczy o tytuł mistrza i musi wygrać aby zdobyć mistrzostwo. QPR walczy o utrzymanie się w lidze, albo QPR albo Bolton z ligi wypadną. 
  • Man United – Sunderland: Aby Manchester United został mistrzem musi wygrać ten mecz i QPR musi wygrać z Man City.
  • Stoke – Bolton: Bolton walczy o utrzymanie się w lidze, musi wygrać ten mecz.

Do ostatnich minut nie było wiadomo kto wypadnie z ligi a kto zdobędzie mistrzostwo. Poniżej krótko opiszę przebieg powyższych meczy. Na poniższym wykresie zaznaczono wpisy na twiterze w których znajdowały się odniesienia do Manchester City lub Manchester United. Warto prześledzić sobie jakim zachowaniem na Twitterze odpowiadają poniższe zdarzenia.

  • 15:20, Manchester United traci bramkę, szanse na tytuł się oddalają.
  • 15:39, Manchester City zdobywa bramkę, od tej chwili jest faworytem jeżeli chodzi o mistrzostwo. Fani są zadowoleni.
  • 16:03, 16:21, Manchester City traci bramkę i jest remis, a następnie traci kolejną bramkę. Jeżeli w tej chwili mecz by się skończył to mistrzem byłby Manchester United. Fani nie są szczęśliwi. Na Twitterze pojawiają się niezbyt pozytywne wpisy na temat Manchester City.
  • 16:45, mecz Stroke – Bolton kończy się remisem, jest już pewne, że Bolton spadnie, QPR nie jest już zagrożone. Tymczasem w ostatnich doliczonych minutach meczu Manchester City strzela dwie bramki QPR. Tym samym wygrywa mecz i zdobywa tytuł mistrza.

Łatwo sobie wyobrazić, że ostatnie minuty meczu wywołały sporo emocji. Całą powyższą historie i wiele dodatkowych szczegółów można odczytać z poniższego wykresu. Na pierwszym panelu przedstawiona jest liczba ćwierków na minutę, po meczu ćwierków dotyczących Manchester City było ponad 8000 na minutę! Drugi panel pokazuje nastawienie ćwierków. W okresie po stracie drugiej bramki przez City ćwierki mają negatywne nastawienie by po zdobyciu mistrzostwa przejść to peanów zachwytu. Trzeci panel pokazuje kilka wybranych ćwierków, które były przećwierkowywane (ech, to słowotwórstwo, chodzi o retweet :-). Cyniczny ćwierk dotyczący kupienia meczu miał przed godziną 17:45 ponad 500 retweetów na minutę!

A Wam jak się podoba oglądanie sportu w taki sposób?

Poniższy wykres lepiej oglądać w pełnej rozdzielczości. W wersji wektorowej SVG jest on dostępny tutaj, w wersji rastrowej PNG większy wykres jest dostępny tutaj.

 

 

Statystyk w Białowieży

 

W poprzednim tygodniu odwiedziłem instytut PAN w Białowieży współprowadząc warsztaty z programu R (tak jak przystało na misjonarza R). Blisko instytutu znajduje się cerkiew prawosławna. W cerkwii tej kupić można broszurę przedstawiającą ważniejsze wydarzenia z historii Białowieży i cerkwi. W tej broszurce natknąłem się na tabelę przedstawiającą liczbę chrztów, ślubów i pogrzebów udzielonych w parafii prawosławnej św. Mikołaja Cudotwórcy w Białowieży w latach 1878-2004.

Jeżeli Wy też odczuwacie dreszcz emocji na widok tabelki z liczbami, to zrozumiecie dlaczego zrobiłem to co zrobiłem. Jeżeli nie odczuwacie, to prawdopodobnie reszta wpisu będzie dla Was jedynie przykładem na kolejny wykres punktowy.

Po powrocie do domu dzielnie przepisałem dane z broszurki. Dane można pobrać z pliku csv, link do tego pliku znajduje się tutaj.

Emocje związane z oglądaniem 508 liczb są niczym w porównaniu z emocjami związanymi z oglądaniem wizualizacji danych, która przedstawia jakąś historię. Postanowiłem zrobić taką wizualizację. Kod w programie R potrzebny by ją wykonać znajduje się tutaj. Po kliknięciu na rysunek poniżej otworzy się jego wersja w wyższej rozdzielczości.


 Zastanówmy się chwilę, co też ciekawego widać na tym wykresie.

  • Obserwacja: dane są niepełne, najdłuższa przerwa dotyczy lat 1914-1917. Historia: od 28 lipca 1914 do 11 listopada 1918 roku trwała I wojna światowa, front działań wojennych przebiegał w pobliżu Białowieży. Okazuje się że w okresie I wojny światowej prawosławna ludność Białowieży była ewakuowana w głąb Rosji. Wywieziono też większość wyposażenia cerkwi.
  • Obserwacja: liczba zgonów i chrztów spada znacząco po roku 1941. Historia: W latach 1939-1941 przeprowadzane są masowe  wysiedlenia na Syberię ludności Białowieży.
  • Obserwacja: Po II wojnie światowej liczba chrztów sukcesywnie spada z roku na rok. Historia: Liczba mieszkańców Białowieży maleje, w tamtym rejonie jest coraz mniej prawosławnych.
  • Obserwacja: bilans chrztów do pogrzebów jest największy w roku 1978. Po tym roku średniorocznie pogrzeby w parafii odbywają się częściej niż chrzty.
  • Obserwacja: w dziesięcioleciu 1922 do 1932 liczba porodów jest wysoka, w okolicach 150 na rok. Historia: Okres międzywojenny, względny spokój, sprzyjające warunki do planowania rodziny. W 1924 w Białowieży umieszczono Dyrekcję Okręgową Lasów Państwowych, więc region nabiera znaczenia.
  • Obserwacja: przed I wojną światową liczba chrztów z roku na rok wzrasta. W 1891 liczba chrztów przekroczyła 100 na rok. Historia: w 1895 wyświęcono nową murowaną cerkiew, która uchodziła za najpiękniejsza w okolicy.
  • Obserwacja: Wyjątkowo duża liczba zgonów zanotowano w latach 1894 i 1900. Historia: jeszcze nie wiem jak to można wyjaśnić.
Btw: Powyżej piszę zgony, choć raczej chodzi o pogrzeby (zgonów było z pewnością więcej). Pozostawiłem jednak oryginalne nazewnictwo ze wspomnianej broszury.