Serwis http://hedonometer.org/ prezentuje interesujące ilustracje o tym jak zmienia się nastrój/nastawienie wypowiedzi w różnych mediach (np. na Twitterze na przestrzeni roku). O analizie nastroju/nastawienia pisaliśmy na tym blogu nie raz, czy to w kontekście wydarzeń na Ukrainie, Euro 2012 czy olimpiadzie. W skrócie, na podstawie słów lub zwrotów z wypowiedzi oceniamy zabarwienie emecjonalne tej wypowiedzi na jednej lub kilku skalach.

Ostatnio znalazłem na hedonometer.org bardzo ciekawe wizualizacje książek dostępnych w ramach projektu Gutenberg (książki, które przeszły do domeny publicznej). Poniżej przykład dla esejów ,,O życiu i literaturze” (Notes on Life and Letters) Josepha Conrada.

Graficznie przedstawiony jest zabarwienie emecjonalne ,,wzdłuż” książki. Na wykresie widać, które fragmenty są weselsze/bardziej pozytywne a które nie. Można również zobaczyć jakich słów jest zdecydowanie więcej/mniej we wskazanych sekcjach i jak te słowa przekładają się na całościowy nastrój.

Screen Shot 2014-09-01 at 15.05.21

Screen Shot 2014-09-01 at 15.05.27

Więcej pod adresem http://hedonometer.org/books.html.

Esej: Od Kuchni

11 wrz
2014

Pod adresem www.biecek.pl/Eseje/ indexKuchnia.html udostępniliśmy esej o tytule ,,Od kuchni”. Piąty z serii ,,Wakacje z wizualizacją” (tak, niektórzy jeszcze mają wakacje).

We wtorek zorganizowaliśmy konkurs związany z tym esejem. W konkursie należało wskazać najładniejszy wykres, z pięciu dostępnych do wyboru. Każdy wykres przedstawiał 36 średnich za pomocą punktów. Każdy wykres wykorzystywał domyślnych ustawienia innej biblioteki/programu, lub zmiany tych ustawień, które można wykonać w 2-3 minuty (oczywiście, każdy z nich można by poprawić, ale nie to było celem).

W zabawie wzięło udział 270 osób. Z tej grupy 68% (183 osoby) uznały, że najbardziej podoba im się wykres wykonany w ggplot2, 8% (22 osoby) wybrały opcje ggplot2 połączoną z biblioteką imitującą minimalizm Tuftego (theme_tufte), 10% (28 osób) wybrało wykres wykonany w Excelu (pomimo problemów z osiami), 11% (29 osób) wybrało wykres przygotowany w Tableau (jedna z bardziej popularnych rysowarek) a 3% (8 osób) wybrało opcje plot.ly

plot_651547531

Pomysł na konkurs pojawił się po lekturze pracy Ihad Inbar, Noam Tractinsky and Joachim Meyer. Minimalism in information visualization: attitudes towards maximizing the data-ink ratio., która pokazuje, że przy całym naszym zachwycie minimalizemem Tuftego, większość osób woli mniej minimalistyczne wykresy. Okazuje się, że w grupie osób, które zechciały wziąć udział w ankiecie imitacja pomysłów Tuftego zajęła drugie miejsce, ale od końca. Zdecydowanym liderem jest domyślny wykres wyprodukowany przez bibliotekę ggplot2 (pomimo swoich wad, oparciu się o kolory nie kształty i to szare tło).

Pozytywnie zaskoczyła mnie liczba komentarzy pod poprzednim postem. Jednym z ciekawych komentarzy była sugestia, by na wykresie wykorzystać paski zamiast punktów (paski lepiej wypełniają obszar wykresu i jest na czym zawiesić oko). I tutaj dochodzimy do eseju ,,od kuchni”. W samym eseju omawiamy różne skale pomiarowe: ilorazową, interwałową i jakościową. Zastanawiamy się jakie charakterystyki pozwalają na poprawne przedstawienie wartości. Jeżeli nie mamy pomiarów w skali ilorazowej, to nie możemy używać pasków. Niestety pomiary PV umiejętności w badaniach PISA czy PIAAC nie są w skali ilorazowej, nie mają naturalnego punktu 0 i nie możemy wykorzystywać długości.

W konkursie wygrał numerek 70, czyli osoba o mailu radek.********@gmail.com. Gratulujemy! Skontaktujemy się mailowo. Niedługo kolejne konkursy.

Ciekawostka: Dlaczego ten esej otwiera 44 zdjęć wieży Eiffela? Byłem jakiś czas temu w Paryżu i chciałem zrobić dobre zdjęcie wieży Eiffela (tak wiem, nuda). Stwierdziłem, że najlepiej będzie zrobić dużo zdjęć wieży i zestawić je obok siebie, by porównać które i dlaczego mi się bardziej podoba.

Ten esej to część zbioru ,,Odkrywać! Ujawniać! Objaśniać!” wydanego przez Fundację, dostępnego już w sprzedaży. O tym jak go kupić można przeczytać na stronie http://biecek.pl/Eseje/ indexZakup.html. Co trzy tygodnie na stronie http://biecek.pl/Eseje/ będziemy publikować kolejny rozdział w postaci elektronicznej, bezpłatnie, na otwartej licencji CC BY&SA.

Za dwa dni odkrywamy Esej ,,Od Kuchni”, ze zbiorem wskazówek dotyczących projektowania wykresów. Ponieważ ostatni konkurs wypadł bardzo ciekawie, postanowiłem kolejny urządzić w podobnej formule. Ponownie więc mamy konkurs, w którym można wygrać papierową wersję Esejów o wizualizacji danych.

Aby wziąć udział w konkursie, należy odpowiedzieć na poniższe pytanie.
Reguły:
1. W losowaniu biorą udział wszystkie odpowiedzi, nie ma poprawnych i niepoprawnych!.
2. Jedna osoba może wziąć udział tylko raz w tej zabawie.
3. Liczą się tylko głosy oddane dziś i jutro (9-10 września).
4. Spośród odpowiedzi wylosuję jedną osobę, która otrzyma papierowe wydanie Esejów.

A jakie jest pytanie?

Poniżej jest przedstawionych pięć różnych layoutów proponowanych przez różne narzędzia do prezentacji danych. Każdy z nich przedstawia te same dane, o średnim wyniku poziomu umiejętności matematycznych w różnych krajach i różnych grupach wiekowych na bazie badania PIAAC (nomen omen ciekawe dane).

Zadanie: wskazać wykres, który Twoim zdaniem wygląda najlepiej (wybrać opcję w formularzu na końcu wpisu).


Opcja A

fig1


Opcja B

fig2


Opcja C


Opcja D

fig6


Opcja E



(btw: Zdaję sobie sprawę, że z każdym z tych wykresów coś jest nie tak i można by go poprawić. Ale dzięki temu wybór jest ciekawszy.)

Powodzenia w losowaniu. Książka czeka.

[Jeżeli powyższy formularz się nie wyświetla, proszę wysłać odpowiedź przez tę stronę]

Pod koniec maja odbyło się czwarte Spotkanie Entuzjastów R. Spotkanie było bardzo udane, ale przez nawał pracy związanej z Esejami… zapomniałem wrzucić materiały ze spotkania na sieć.

Teraz, przygotowując się do kolejnej serii spotkań w nowym roku akademickim (najbliższe już w październiku, niedługo ogłoszenie), uzupełniam braki.

Nagrania wideo i prezentacje z czwartego spotkania można obejrzeć i pobrać ze strony http://smarterpoland.pl/SER/ (oraz mirrora http://beta.icm.edu.pl/SER/).

Read the rest of this entry »

,,Panika pojawiła się na rynku w czwartek, kiedy na teren naszych wschodnich sąsiadów wtargnęły regularne wojska rosyjskie”. To cytat z portalu money.pl, z artykułu ,,Sytuacja na Ukrainie wystraszyła inwestorów z GPW, ale na krótko”. W artykule jest więcej o czwartkowej sesji na GPW z punktu widzenia indeksu WIG20, moją uwagę zwróciło między innymi zdanie ,,Była to najgorsza sesja w tym miesiącu. Powodem było wejście regularnych wojsk rosyjskich na terytorium Ukrainy”.

Oczywiście żółte światło ostrzegawcze zapaliło się gdy tylko zobaczyłem zwrot ,,powodem było”. Czy to skrót od ,,powodem były decyzje inwestorów, spowodowane decyzjami innych inwestorów, którzy uznali, że wydarzenia na Ukrainie spowodują spadki”?

Tylko jaka część z tego spadku to korekta wzrostów z początku tygodnia (pn +0.44, wt +0.77) a jaka część to ,,panika”? I koniec końców czy to -1.86 to rzeczywiście panika (zgodnie z SJP panika to ,,nagły, niepohamowany, często nieuzasadniony strach, ogarniający zwykle większą liczbę ludzi”)?

Całkiem niedawno, w eseju o percepcji danych, opisywałem przykłady nadinterpretacji różnych zdarzeń. Mając na świeżo opis doszukiwania się wpływu schwytania Hussajna na sytuacje na giełdzie, stwierdziłem, że warto przyjrzeć się bliżej temu co działo się ostatnio na WIG20.

Z portalu http://www.gpwinfostrefa.pl/ pobieram dane za ostatnie 10 lat (od września 2004 do sierpnia 2014) i rysuję zmiany indeksu WIG20. Na czerwono próg -1.86.

No cóż, czasem jest gorzej, czasem jest lepiej. W okresie tych 10 lat dzienna zmiana WIG20 w 8% przypadków była niższa niż -1.86. Czyli nie jest to jakieś niezwykłe zjawisko na giełdzie.

Ktoś może powiedzieć, że horyzont 10 lat jest absurdalny, bo na rynku akcji liczy to co się dzieje w tej chwili. Odnoszenie się do poprzednich lat i jakichś kryzysów tylko umniejsza wagi silnej reakcji giełdy na obecną sytuację.

Zobaczmy więc co się działo od początku roku, czyli mniej więcej okresu różnych wydarzeń na Ukrainie.

Na niebiesko linia wygładzonego trendu. W ostatnim miesiącu raczej na plusie, choć na Ukrainie sytuacja przez cały sierpień nie była zbyt optymistyczna.

Disclaimer dla tych co czytają za szybko:
1. Wpis powstał w piątek. W poniedziałek WIG 20 zakończył dzień z wynikiem +1.08%. Z ,,paniki” niewiele pozostało. Ale z pewnością analitycy jakoś to wyjaśnią.
2. Z pewnością wydarzenia na Ukrainie mają wpływ na nasz rynek.
3. Powyższy wpis to jedynie krytyczne spojrzenie na twierdzenie ,,Panika pojawiła się na rynku w czwartek, … Powodem było wejście regularnych wojsk rosyjskich na terytorium Ukrainy”.

I kod w R. Zwracam uwagę na theme_tufte(), która mi się bardzo podoba.

library(ggthemes)
library(ggplot2)
library(xlsx)
 
WIG20 <- read.xlsx("PL9999999987.xls", sheetIndex = 1)
WIG20$Data <- as.Date(as.character(WIG20$Data))
ggplot(WIG20, aes(x=Data, y=Zmiana, group= Nazwa)) + 
  geom_line() + theme_tufte() + 
  geom_hline(yintercept= -1.86, col="darkred")
 
ggplot(tail(WIG20,170), aes(x=Data, y=Zmiana, group= Nazwa)) + 
  geom_line() + geom_point() + theme_tufte() + 
  geom_smooth(span=0.4, method="loess", se=TRUE) +
  geom_hline(yintercept= 0, col="gray")

Wyszukuję ostatnio nietypowe przykłady zastosowań statystyki.
Trafiłem przy okazji tych poszukiwań, na ciekawe badania dotyczące zależności pomiędzy cechami twarzy a postrzeganym wiekiem.

Czy silniejszym makijażem brwi lub ust można dodać sobie lub odjąć kilka lat?

W pracy ,,Aspects of Facial Contrast Decrease with Age and Are Cues for Age Perception” z PLOS ONE, badacze porównują kontrasty lub kolory wokół brwi, oczu, ust z prawdziwym i postrzeganym wiekiem kobiety.

Oczywiście te cechy korelują z wiekiem, ciekawe jest jednak jak ładnie ilościowo można tą korelacją pokazać.

Więcej wyjaśnień i opis metodyki w cytowanym powyżej artykule, poniżej dwa wykresy.

Screen

t001

Czu to ciekawa ilustracja regresji liniowej?
A może znacie lepszą?

Czytanie dodaje urody

26 sie
2014

Czasami wszystko wokół kojarzy się ze statystyką.

Np. taki plakat jak poniżej. Poza tym, że jest reklamą festiwalu książki, jest też piękną ilustracją różnicy pomiędzy korelacją a przyczynowo-skutkowością. Można nawet doszukać się sieci Bayesowskiej.

czytanieDodajeUrody

Pod adresem www.biecek.pl/Eseje/ indexDane.html udostępniliśmy esej o tytule ,,Percepcja danych”. Czwarty z serii ,,Wakacje z wizualizacją”.

We wtorek zorganizowaliśmy konkurs związany z tym esejem. W konkursie należało wskazać najczęstszą przyczynę zgonów, z trzech możliwych do wyboru, lub przyznać, że się nie zna najczęstszej przyczyny.

W zabawie wzięło udział 161 osób. Z tej grupy 52% (84 osoby) uznały, że najczęstszą przyczyną z wymienionych jest wypadek samochodowy, 40% (65 osób) uznało, że grypa lub zapalenie płuc, 6% (9 osób), że próby samobójcze, a niecałe 2% (3 osoby), przyznały, że nie wiedzą. Oczywiście próba jest reprezentatywna dla czytelników tego bloga (według google analytics są to głównie osoby z Warszawy) a nie dla jakiejś większej populacji.

plot_503071237

A co w rzeczywistości było najczęstszą przyczyną zgonów w 2010? Zgodnie z tym zbiorem danych w Polsce w 2010 roku grypa lub zapalenie płuc było przyczyną 3,42% zgonów, samobójstwo 2,21% zgonów, a wypadek drogowy 2.12% zgonów.

Zderzenie odpowiedzi w ankiecie i danych statystycznych jest bardzo ciekawe z kilku powodów.
Po pierwsze najczęstszą odpowiedzią był wypadek drogowy, który w rzeczywistości jest z tych trzech najrzadszą przyczyną.
Po drugie ponad połowa osób nie wiedziała ale jednak wybrała inną opcję niż ‚nie wiem’ (a więc była przekonana, że +- wie, nie musiała strzelać)!

Jak to wyjaśnić?

Szczegółowo problem z percepcją ryzyk i prawdopodobieństw opisujemy właśnie w czwartym eseju. Opisujemy tam wiele innych ciekawych problemów, więc zapraszam do lektury. Moim zdaniem percepcja danych i zależności jest jednym z najciekawszych problemów z wizualizacją danych.

W konkursie wygrał numerek 92, czyli osoba o mailu pawel.*********@***b.pl. Gratulujemy! Skontaktujemy się mailowo. Niedługo kolejne konkursy.

Ciekawostka: Dlaczego ten esej otwiera zdjęcie ze Świątyni Uspokojonego Smoka, sławnej z ogrodu Zen? Mam kilka równoległych wyjaśnień. Sława tej świątyni, podobnie jak sława obrazu Mona Lisa (o kilka lat młodszego, również opisywanego w czwartym eseju) wydaje się być zupełnie przypadkowa a jednocześnie w retrospekcji łatwa do wytłumaczenia. Ogród, podobnie jak wiele zbiorów danych, jest znany z bogactwa możliwości interpretacji. Również, często ten ogród jest opisywany jako idealna abstrakcja, podobnie jak dane są abstrakcją. Coś pokazują, ale jednocześnie rzadko oferują idealną ostrość obrazu.

Ten esej to część zbioru ,,Odkrywać! Ujawniać! Objaśniać!” wydanego przez Fundację, dostępnego już w sprzedaży. O tym jak go kupić można przeczytać na stronie http://biecek.pl/Eseje/ indexZakup.html. Co trzy tygodnie na stronie http://biecek.pl/Eseje/ będziemy publikować kolejny rozdział w postaci elektronicznej, bezpłatnie, na otwartej licencji CC BY&SA.

Za dwa dni odkrywamy Esej o percepcji danych. Z tej okazji mamy mały konkurs. Tym razem stawka jest wyższa, można wygrać papierową wersję Esejów o wizualizacji danych.

Aby wziąć udział w konkursie, należy odpowiedzieć na poniższe pytanie.
Reguły:
1. W losowaniu biorą udział wszystkie odpowiedzi, nie tylko poprawne! Proszę więc nie szperać po rocznikach statystycznych ale odpowiedzieć zgodnie z przekonaniami / wyobrażeniami.
2. Jedna osoba może wziąć udział tylko raz w tej zabawie.
3. Liczą się tylko głosy oddane dziś i jutro (19-20 sierpnia).
4. Spośród odpowiedzi wylosuję jedną osobę, która otrzyma papierowe wydanie Esejów.

Skąd to pytanie i jaka jest odpowiedz?
Odpowiedź znajdziecie w czwartym eseju i czwartkowym wpisie. Interesują mnie częstości intuicyjnych odpowiedzi na poszczególne pytania. Dlatego odpowiadajcie zgodnie z intuicją. W losowaniu biorą udział wszystkie odpowiedzi, nie tylko poprawne.

Powodzenia w losowaniu. Książka czeka.

[Jeżeli powyższy formularz się nie wyświetla, proszę wysłać odpowiedź przez tę stronę]

Przygotowanie pięciominutowego wystąpienia zajmuje często więcej czasu niż dwugodzinnego wykładu. Będąc ograniczonym pod względem ilości materiału, który możemy przedstawić, musimy wybrać najistotniejsze elementy, dopracować kolejność ich prezentacji oraz argumentacje.
Z tego też powodu, moje ulubione zadania zaliczeniowe dla studentów to: przygotuj sprawozdanie na maksymalnie 5 stron; przygotuj wizualizację mieszczącą się na stronie formatu A3; opracuj jednostronicowe podsumowanie określonej biblioteki R. Bardzo łatwo w takich projektach odczytać czy autor zna i potrafi pokazać odpowiedź na sedno problemu.

Z podobnego powodu lubię kolekcjonować tzw. cheatsheety, czyli ściągawki z wyciągiem najistotniejszych komend/funkcji określonego programu/pakietu. Dwie, które ostatnio przyciągnęły moją uwagę, to opracowane przez Garretta Grolemunda streszczenia R Markdown i Shiny.
Miniaturki poniżej.

top