,,Panika pojawiła się na rynku w czwartek, kiedy na teren naszych wschodnich sąsiadów wtargnęły regularne wojska rosyjskie”. To cytat z portalu money.pl, z artykułu ,,Sytuacja na Ukrainie wystraszyła inwestorów z GPW, ale na krótko”. W artykule jest więcej o czwartkowej sesji na GPW z punktu widzenia indeksu WIG20, moją uwagę zwróciło między innymi zdanie ,,Była to najgorsza sesja w tym miesiącu. Powodem było wejście regularnych wojsk rosyjskich na terytorium Ukrainy”.

Oczywiście żółte światło ostrzegawcze zapaliło się gdy tylko zobaczyłem zwrot ,,powodem było”. Czy to skrót od ,,powodem były decyzje inwestorów, spowodowane decyzjami innych inwestorów, którzy uznali, że wydarzenia na Ukrainie spowodują spadki”?

Tylko jaka część z tego spadku to korekta wzrostów z początku tygodnia (pn +0.44, wt +0.77) a jaka część to ,,panika”? I koniec końców czy to -1.86 to rzeczywiście panika (zgodnie z SJP panika to ,,nagły, niepohamowany, często nieuzasadniony strach, ogarniający zwykle większą liczbę ludzi”)?

Całkiem niedawno, w eseju o percepcji danych, opisywałem przykłady nadinterpretacji różnych zdarzeń. Mając na świeżo opis doszukiwania się wpływu schwytania Hussajna na sytuacje na giełdzie, stwierdziłem, że warto przyjrzeć się bliżej temu co działo się ostatnio na WIG20.

Z portalu http://www.gpwinfostrefa.pl/ pobieram dane za ostatnie 10 lat (od września 2004 do sierpnia 2014) i rysuję zmiany indeksu WIG20. Na czerwono próg -1.86.

No cóż, czasem jest gorzej, czasem jest lepiej. W okresie tych 10 lat dzienna zmiana WIG20 w 8% przypadków była niższa niż -1.86. Czyli nie jest to jakieś niezwykłe zjawisko na giełdzie.

Ktoś może powiedzieć, że horyzont 10 lat jest absurdalny, bo na rynku akcji liczy to co się dzieje w tej chwili. Odnoszenie się do poprzednich lat i jakichś kryzysów tylko umniejsza wagi silnej reakcji giełdy na obecną sytuację.

Zobaczmy więc co się działo od początku roku, czyli mniej więcej okresu różnych wydarzeń na Ukrainie.

Na niebiesko linia wygładzonego trendu. W ostatnim miesiącu raczej na plusie, choć na Ukrainie sytuacja przez cały sierpień nie była zbyt optymistyczna.

Disclaimer dla tych co czytają za szybko:
1. Wpis powstał w piątek. W poniedziałek WIG 20 zakończył dzień z wynikiem +1.08%. Z ,,paniki” niewiele pozostało. Ale z pewnością analitycy jakoś to wyjaśnią.
2. Z pewnością wydarzenia na Ukrainie mają wpływ na nasz rynek.
3. Powyższy wpis to jedynie krytyczne spojrzenie na twierdzenie ,,Panika pojawiła się na rynku w czwartek, … Powodem było wejście regularnych wojsk rosyjskich na terytorium Ukrainy”.

I kod w R. Zwracam uwagę na theme_tufte(), która mi się bardzo podoba.

library(ggthemes)
library(ggplot2)
library(xlsx)
 
WIG20 <- read.xlsx("PL9999999987.xls", sheetIndex = 1)
WIG20$Data <- as.Date(as.character(WIG20$Data))
ggplot(WIG20, aes(x=Data, y=Zmiana, group= Nazwa)) + 
  geom_line() + theme_tufte() + 
  geom_hline(yintercept= -1.86, col="darkred")
 
ggplot(tail(WIG20,170), aes(x=Data, y=Zmiana, group= Nazwa)) + 
  geom_line() + geom_point() + theme_tufte() + 
  geom_smooth(span=0.4, method="loess", se=TRUE) +
  geom_hline(yintercept= 0, col="gray")

Wyszukuję ostatnio nietypowe przykłady zastosowań statystyki.
Trafiłem przy okazji tych poszukiwań, na ciekawe badania dotyczące zależności pomiędzy cechami twarzy a postrzeganym wiekiem.

Czy silniejszym makijażem brwi lub ust można dodać sobie lub odjąć kilka lat?

W pracy ,,Aspects of Facial Contrast Decrease with Age and Are Cues for Age Perception” z PLOS ONE, badacze porównują kontrasty lub kolory wokół brwi, oczu, ust z prawdziwym i postrzeganym wiekiem kobiety.

Oczywiście te cechy korelują z wiekiem, ciekawe jest jednak jak ładnie ilościowo można tą korelacją pokazać.

Więcej wyjaśnień i opis metodyki w cytowanym powyżej artykule, poniżej dwa wykresy.

Screen

t001

Czu to ciekawa ilustracja regresji liniowej?
A może znacie lepszą?

Czytanie dodaje urody

26 sie
2014

Czasami wszystko wokół kojarzy się ze statystyką.

Np. taki plakat jak poniżej. Poza tym, że jest reklamą festiwalu książki, jest też piękną ilustracją różnicy pomiędzy korelacją a przyczynowo-skutkowością. Można nawet doszukać się sieci Bayesowskiej.

czytanieDodajeUrody

Pod adresem www.biecek.pl/Eseje/ indexDane.html udostępniliśmy esej o tytule ,,Percepcja danych”. Czwarty z serii ,,Wakacje z wizualizacją”.

We wtorek zorganizowaliśmy konkurs związany z tym esejem. W konkursie należało wskazać najczęstszą przyczynę zgonów, z trzech możliwych do wyboru, lub przyznać, że się nie zna najczęstszej przyczyny.

W zabawie wzięło udział 161 osób. Z tej grupy 52% (84 osoby) uznały, że najczęstszą przyczyną z wymienionych jest wypadek samochodowy, 40% (65 osób) uznało, że grypa lub zapalenie płuc, 6% (9 osób), że próby samobójcze, a niecałe 2% (3 osoby), przyznały, że nie wiedzą. Oczywiście próba jest reprezentatywna dla czytelników tego bloga (według google analytics są to głównie osoby z Warszawy) a nie dla jakiejś większej populacji.

plot_503071237

A co w rzeczywistości było najczęstszą przyczyną zgonów w 2010? Zgodnie z tym zbiorem danych w Polsce w 2010 roku grypa lub zapalenie płuc było przyczyną 3,42% zgonów, samobójstwo 2,21% zgonów, a wypadek drogowy 2.12% zgonów.

Zderzenie odpowiedzi w ankiecie i danych statystycznych jest bardzo ciekawe z kilku powodów.
Po pierwsze najczęstszą odpowiedzią był wypadek drogowy, który w rzeczywistości jest z tych trzech najrzadszą przyczyną.
Po drugie ponad połowa osób nie wiedziała ale jednak wybrała inną opcję niż ‚nie wiem’ (a więc była przekonana, że +- wie, nie musiała strzelać)!

Jak to wyjaśnić?

Szczegółowo problem z percepcją ryzyk i prawdopodobieństw opisujemy właśnie w czwartym eseju. Opisujemy tam wiele innych ciekawych problemów, więc zapraszam do lektury. Moim zdaniem percepcja danych i zależności jest jednym z najciekawszych problemów z wizualizacją danych.

W konkursie wygrał numerek 92, czyli osoba o mailu pawel.*********@***b.pl. Gratulujemy! Skontaktujemy się mailowo. Niedługo kolejne konkursy.

Ciekawostka: Dlaczego ten esej otwiera zdjęcie ze Świątyni Uspokojonego Smoka, sławnej z ogrodu Zen? Mam kilka równoległych wyjaśnień. Sława tej świątyni, podobnie jak sława obrazu Mona Lisa (o kilka lat młodszego, również opisywanego w czwartym eseju) wydaje się być zupełnie przypadkowa a jednocześnie w retrospekcji łatwa do wytłumaczenia. Ogród, podobnie jak wiele zbiorów danych, jest znany z bogactwa możliwości interpretacji. Również, często ten ogród jest opisywany jako idealna abstrakcja, podobnie jak dane są abstrakcją. Coś pokazują, ale jednocześnie rzadko oferują idealną ostrość obrazu.

Ten esej to część zbioru ,,Odkrywać! Ujawniać! Objaśniać!” wydanego przez Fundację, dostępnego już w sprzedaży. O tym jak go kupić można przeczytać na stronie http://biecek.pl/Eseje/ indexZakup.html. Co trzy tygodnie na stronie http://biecek.pl/Eseje/ będziemy publikować kolejny rozdział w postaci elektronicznej, bezpłatnie, na otwartej licencji CC BY&SA.

Za dwa dni odkrywamy Esej o percepcji danych. Z tej okazji mamy mały konkurs. Tym razem stawka jest wyższa, można wygrać papierową wersję Esejów o wizualizacji danych.

Aby wziąć udział w konkursie, należy odpowiedzieć na poniższe pytanie.
Reguły:
1. W losowaniu biorą udział wszystkie odpowiedzi, nie tylko poprawne! Proszę więc nie szperać po rocznikach statystycznych ale odpowiedzieć zgodnie z przekonaniami / wyobrażeniami.
2. Jedna osoba może wziąć udział tylko raz w tej zabawie.
3. Liczą się tylko głosy oddane dziś i jutro (19-20 sierpnia).
4. Spośród odpowiedzi wylosuję jedną osobę, która otrzyma papierowe wydanie Esejów.

Skąd to pytanie i jaka jest odpowiedz?
Odpowiedź znajdziecie w czwartym eseju i czwartkowym wpisie. Interesują mnie częstości intuicyjnych odpowiedzi na poszczególne pytania. Dlatego odpowiadajcie zgodnie z intuicją. W losowaniu biorą udział wszystkie odpowiedzi, nie tylko poprawne.

Powodzenia w losowaniu. Książka czeka.

[Jeżeli powyższy formularz się nie wyświetla, proszę wysłać odpowiedź przez tę stronę]

Przygotowanie pięciominutowego wystąpienia zajmuje często więcej czasu niż dwugodzinnego wykładu. Będąc ograniczonym pod względem ilości materiału, który możemy przedstawić, musimy wybrać najistotniejsze elementy, dopracować kolejność ich prezentacji oraz argumentacje.
Z tego też powodu, moje ulubione zadania zaliczeniowe dla studentów to: przygotuj sprawozdanie na maksymalnie 5 stron; przygotuj wizualizację mieszczącą się na stronie formatu A3; opracuj jednostronicowe podsumowanie określonej biblioteki R. Bardzo łatwo w takich projektach odczytać czy autor zna i potrafi pokazać odpowiedź na sedno problemu.

Z podobnego powodu lubię kolekcjonować tzw. cheatsheety, czyli ściągawki z wyciągiem najistotniejszych komend/funkcji określonego programu/pakietu. Dwie, które ostatnio przyciągnęły moją uwagę, to opracowane przez Garretta Grolemunda streszczenia R Markdown i Shiny.
Miniaturki poniżej.

Słów kilka od organizatorów PAZURa.

Już za dwa miesiące odbędzie się Polski Akademicki Zlot Użytkowników R w Poznaniu! W związku z tym mamy dla Państwa kilka ważnych informacji.

Do tej pory mamy 50 zgłoszeń na udział w konferencji. Dla zainteresowanych mamy dobre wiadomości! Są jeszcze miejsca na warsztaty szkoleniowe, jak również na referaty dłuższe (20 minutowe) i krótsze (5 minutowe). W związku z tym serdecznie zapraszamy Państwa do aktywnego uczestnictwa w konferencji i zgłaszania się na warsztaty oraz przesyłania propozycji referatów poprzez formularz na stronie lub mailowo na adres pazur [at] konf.ue.poznan.pl.

Jednocześnie chcielibyśmy przypomnieć o możliwości udziału w konkursie wizualizacji danych dotyczących skoków narciarskich. Konkurs przeznaczony jest dla studentów (I i II stopień) oraz tegorocznych absolwentów. Do wygrania nagrody książkowe ufundowane przez fundację SmarterPoland.pl. Gorąco zachęcamy do udziału, jak również do przekazania tej informacji zainteresowanym osobom.

Chcieliśmy przypomnieć o ważnych terminach, które znajdują się poniżej.

01.09.2014 – zakończenie rejestracji na warsztaty
15.09.2014 – zakończenie rejestracji na konferencję oraz dokonywania wpłat za warsztaty
22.09.2014 – ogłoszenie listy uczestników warsztatów oraz harmonogramu konferencji
06.10.2014 – zakończenie wysyłania prac konkursowych
15.10.2014 – warsztaty towarzyszące konferencji
16 – 17.10.2014 – konferencja

Zachęcamy do śledzenia strony konferencji http://estymator.ue.poznan.pl/pazur/index.html.

W razie jakichkolwiek pytań prosimy o kontakt mailowy (pazur [at] konf.ue.poznan.pl)

Do zobaczenia w październiku !

Jakiś czas temu pisałem o konferencji Big Data, organizowanej przez Computerworld, podczas której miałem przyjemność przedstawienia wyników z prostej eksploracji danych dotyczących wydarzeń na Ukrainie (chodzi o ten wpis).

Możliwości grafiki statystycznej okazały się interesujące dla wielu osób, w konsekwencji wspólnie z Computerworld przygotowujemy dwudniowe warsztaty poświęcone wizualizacji danych. Prelegentami będą Marcin Marciniak (prowadzący między innymi TechnoBloga) i ja (prowadzący tego bloga).

Warsztaty są przygotowane z myślą o analitykach, programistach i statystykach (warto znać jakiś język programowania, najlepiej R, i mieć przynajmniej podstawowe doświadczenie w analizie danych).

Więcej informacji o warsztatach znaleźć można tutaj.

WSAD to skrót od Warszawskiej Szkoły Analizy Danych, bardzo interesującego projektu, między innymi szkoły letniej, którego celem jest zwiększenie umiejętności analizy danych. Szkoła letnia już za nami, adresowana była ona głównie do doktorantów.

Teraz, w ramach WSAD przygotowywany jest MOOC, skrót od Massive open online course, czyli platforma (a dokładniej rozszerzenie platformy COME) i dwa kursy elektroniczne dotyczące analizy danych.
Oba, planowane w ramach MOOC kursy, będą adresowane do szerszej publiki. W tym osób, które mają w pracy jakiś kontakt z danymi, nie mają gruntownego statystycznego wykształcenia i chciałyby uzupełnić braki w edukacji.

Udział w kursach będzie bezpłatny.

Pomagam w organizacji obu internetowych kursów. Jeden z nich ma dotyczyć ‚Statistical literacy’ z przykładami w użyciu takich zbiorów danych jak Eurostat czy European Social Survey (lub innych, zobaczymy). Drugi dotyczyć będzie wizualizacji danych. Prace nad tymi kursami nabiorą rozpędu prawdopodobnie koniec sierpnia/początek września.

Poszukuję osób, które chciałyby pomóc przy dopracowaniu szkieletu i opracowaniu materiałów jednego z tych kursów.
Poszukiwana jest jedna osoba/ dwie osoby o znacznym doświadczeniu w nauczaniu analizy danych, najlepiej ze znajomością R i jakąś wiedzą o kursach typu MOOC.
Finansowanie i zaplecze techniczne pozwoli na opracowanie naprawdę fajnych kursów.

Osoby zainteresowane pracą przy opracowaniu materiałów, proszone są o przesłanie mi [przemyslaw.biecek na gmail.com] maila do dnia 16 sierpnia, z kilkoma zdaniami o sobie, opisem doświadczenia w nauczaniu i najlepiej linkami/próbkami opracowanych materiałów. Proszę w temacie maila napisać [MOOC].

Mamy cykliczne spotkania użytkowników R w Warszawie (SER), Poznaniu (PAZUR, spotkania co miesiąc a w październiku odbędzie się większa konferencja), były spotkania we Wrocławiu (WZUR). Czas na Kraków!

Inicjatorem jest Bartosz Sękiewicz. Planowana data rozpoczęcia to październik/listopad. Planowane miejsce spotkań to Wydział Matematyki i Informatyki UJ.

Osoby zainteresowane spotkaniami lub chcące dowiedzieć się czegoś więcej, powinny kontaktować się z pomysłodawcą mailowo: bartosz.pawel.sekiewicz@gmail.com lub telefonicznie (telefon mogę przekazać priv mailowo).

Serdecznie dopinguję tej inicjatywie. W Krakowie dużo się dzieje w przetwarzaniu i analizie danych, aż dziw że jeszcze nie ma spotkań użytkowników R. Niespokojne duchy z Krakowa, zainteresowane R powinny się spotkać i to zmienić.

  • In: R
top