Hakaton ‘Puls miasta’ @ WhyR 2017

WhyR to Ogólnopolska Konferencja Użytkowników R, która odbędzie się 27-29 września 2017 na Politechnice Warszawskiej (więcej o WhyR). Dzień przed konferencją (26 września) planujemy przeprowadzić bardzo ciekawy hakaton z wykorzystaniem naprawdę dużych miejskich danych.

Jakich danych?
Hakaton realizowany jest w ramach projektu VaVeL (więcej o VaVeL) w którym partnerem jest Ośrodek Badań dla Biznesu PW (więcej o OBB), dzięki czemu będziemy mieli dostęp do danych z najróżniejszych sensorów w Warszawie. Jakich sensorów? Przykładowo dane o położeniu każdego tramwaju i autobusu w praktycznie każdej chwili (live + spora historia), dane o natężeniu ruchu pieszego w różnych punktach miasta, z publicznych kanałów informacyjnych i z wielu innych źródeł (rysunek po prawej to ślad z jednego dnia po sensorach z tramwaju 22). Masa danych. Mikołaj w tym roku przychodzi we wrześniu.

Jak to ogarnąć?
W ramach warsztatów poprowadzimy bezpłatne mini-wykłady z technologii BigData-owych, takich jak Hadoop czy Hive, dzięki czemu uczestnicy będą mogli i będą wiedzieć jak dostać się do tych gigantycznych zasobów. Ale nawet jeżeli ktoś nie przepada za żółtymi słoniami będzie mógł pracować na przetworzonych skrawkach danych lub też będzie mógł wesprzeć zespół od strony wizualizacji, burzy mózgów, tworzenia aplikacji mobilnych czy innych aplikacji.

Co będziemy robić?
Zbieramy różne pomysły na hackaton, ale liczymy też na burzę mózgów podczas samego wydarzenia. Analiza danych oceniających zatłoczenie przystanków na Mordorze? Aplikacja informująca ile się średnio spóźnia linia 10 w okolicach godziny 16? Wizualizacja transferu mieszkańców w różnych godzinach. Zobaczymy co z tego wyjdzie.

Jak się zarejestrować?
Więcej informacji o rejestracji pojawi się po feriach zimowych. Z pewnością warto śledzić stronę konferencji WhyR.

All your models belong to us: how to combine package archivist and function trace()

Let’s see how to collect all linear regression models that you will ever create in R.

It’s easy with the trace() function. A really powerful, yet not that popular function, that allows you to inject any R code in any point of a body of any function.
Useful in debugging and have other interesting applications.
Below I will show how to use this function to store a copy of every linear model that is created with lm(). In the same way you may store copies of plots/other models/data frames/anything.

To store a persistent copy of an object one can simply use the save() function. But we are going to use the archivist package instead. It stores objects in a repository and give you some nice features, like searching within repository, sharing the repository with other users, checking session info for a particular object or restoring packages to versions consistent with a selected object.

To use archivist with the trace() function you just need to call two lines. First one will create an empty repo, and the second will execute ‘saveToLocalRepo()’ at the end of each call to the lm() function.

Now, at the end of every lm() function the fitted model will be stored in the repository.
Let’s see this in action.

All models are stored as rda files in a disk based repository.
You can load them to R with the asearch() function.
Let’s get all lm objects, apply the AIC function to each of them and sort along AIC.

The aread() function will download the selected model.

Now you can just create model after model and if needed they all can be restored.

Read more about the archivist here: http://pbiecek.github.io/archivist/.

78% statystyk jest zmyślonych

Czy zastanawialiście się ile ze statystyk o których się słyszy/o których się czyta, jest wyssanych z palca?

Zapytałem googla ,,how much statistics are made up”. Skrupulatnie zebrałem wyniki z pierwszych 13 stron, między innymi businessinsider, uncyclopedia czy answers.

Wyniki oczywiście wczytałem do programu statystycznego R w wersji 3.2.4 i wykonałem wykres w ggplot2, wersja 2.1.

Interesujące! Ponad połowa odwiedzonych serwisów zawiera informacje, że więcej niż 78% statystyk jest zmyślonych.

Aby upewnić się, że nie jest to przypadek zrobiłem test Kołomogorowa Smirnowa badający zgodność z rozkładem jednostajnym i wyszło…..

p-wartość 0.012!!!

Czyli istotnie statystycznie!
(i nie pytajcie co, przecież jest istotne statystycznie!)

Gdyby ktoś chciał odtworzyć te wyniki, to zebrane dane: c(0.74, 0.85, 0.24, 0.43, 0.98, 1, 0.4, 0.8, 0.97, 0.73, 0.95, 0.79, 0.43, 0.64, 0.83).

Czy przekroczą 55 milionów?

Już jutro finał 24. Wielkiej Orkiestry Świątecznej Pomocy. Z roku na rok WOŚP zbiera coraz więcej środków, w tym roku na wsparcie oddziałów pediatrycznych i opieki medycznej seniorów. Jak myślicie ile pieniędzy uda się zebrać?
Zobaczmy co na ten temat mają do powiedzenia modele liniowe ;-)

Screen Shot 2016-01-09 at 02.34.59

Czytaj dalej Czy przekroczą 55 milionów?

[R + finanse]: Jak wczytywać i prezentować dane giełdowe? (1)

Dziś na blogu gościnny wpis przygotowany przez Marcina Piterę. Jest to mam nadzieję, że pierwszy z serii wpisów opisujących przystępnie interesujące zagadnienia związane z analizą danych. W tym przypadku finansowych.

Marcin Pitera

Cześć! W najbliższym czasie przedstawię wam serię wpisów, które pokażą, jak używać R w w kontekście danych finansowych, matematyki finansowej, czy analizy ilościowej. Zajmiemy się na przykład obróbką danych finansowych, optymalizacją portfelową, czy modelami GARCH. W tym wpisie zaczniemy od podstaw, czyli importu oraz prezentacji najczęściej obrabianych danych finansowych, tzn. danych i wykresów typu OHLC (Open-High-Low-Close).

Czytaj dalej [R + finanse]: Jak wczytywać i prezentować dane giełdowe? (1)

Czy Internet pozwala przewidzieć wyniki wyborów?


Dziś mamy gościnny wpis poświęcony analizie danych wyborczych a na wtorek mamy zaplanowany gościnny wpis poświęcony analizie danych finansowych.

Dzisiejszy wpis przygotował dr Albert Hupa z IRCenter i są do niego dołączone dane z sondaży wyborczych, z Google Trends, z wypowiedzi na mediach społecznościowych, oraz badania CAWI wśród internautów. Dane z różnych źródeł, można trochę się nimi pobawić by zobaczyć czy i jakie są zależności pomiędzy sondażami, dyskusjami w internecie a końcowym wynikiem wyborów.

dr Albert Hupa, prezes IRCenter

Czy Internet pozwala przewidzieć wyniki wyborów?
Nie. To będzie możliwe dopiero wtedy, kiedy wszyscy dorośli Polacy zaczną korzystać z internetu i będą tam interesować się polityką. Jednak Internet pozwala zrozumieć trendy w zainteresowaniach młodszych i/lub bardziej zaangażowanych wyborców. Na dłuższą metę nie chodzi o to, żeby po prostu przewidywać wyniki i mniej płacić za sondaże, tylko o to, żeby móc wpływać na rzeczywistość. IRCenter publikuje dane dla ostatnich Wyborów Parlamentarnych i kilka wniosków z ich analizy.

Czytaj dalej Czy Internet pozwala przewidzieć wyniki wyborów?

Czy jesteś hakeRem danych?

IMG_20151113_140015 (1)
Przygotowałem gRę inspirowaną opowiadaniem Pieczara Pietraszki. Gracz wczuwa się w Bita, który szuka hasła Pietraszki na serwerze Proton (aby później …, co jest dalej, przeczytać można w opowiadaniu).
Aby zdobyć hasło trzeba rozwiązać cztery zagadki oparte o analizę danych.
Poziom zagadek określiłbym jako niebanalny ;-). Nawet dla osób, które już sporo programują.

Aby zagrać w tę gRę należy wykonać dwa kroki.
1. Zainstalować pakiet proton w R.

Czytaj dalej Czy jesteś hakeRem danych?

Jak oni głosowali?hackaton -najbliższa sobota- 26.09.2015

Kontynuując temat hack-day ,,Jak oni głosowali”. W najbliższą sobotę spotykamy się by analizować dane o głosowaniach i wypowiedziach posłów w obecnej kadencji sejmu
W związku z tym kilka ogłoszeń organizacyjnych.

1. WAŻNE, podczas spotkania nie zapewniamy komputerów. Studenci MiNI mogą korzystać ze swoich kont w salach komputerowych, ale nastawiamy się na prace w salach otwartych z tablicami, tak by wygodnie poruszać się pomiędzy stolikami. Najlepiej przynieść własny laptop a na nim wszystko co jest potrzebne. Będzie dostęp do wifi!

2. Spotkanie odbędzie się w godzinach 10-16 na wydziale MiNI PW (Koszykowa 75) na drugim piętrze. Zaanektujemy jedną lub kilka sal, w zależności od potrzeb.

3. Warto wcześniej przyjrzeć się danym, szczegółowy opis jak z nich korzystać znajduje się w pliku
https://github.com/mi2-warsaw/sejmRP/blob/master/sejmRP/vignettes/INSTRUCTION.pdf
W szczególności można sprawdzić te dwie funkcje
get_filtered_votes()
get_statements_table()

4. W miarę możliwości prosimy o sygnał kto będzie kto nie, najlepiej rezerwować się przez stronę meetup

Jak oni głosowali? – Analiza głosowań w Sejmie VII kadencji

Saturday, Sep 26, 2015, 10:00 AM

No location yet.

52 Entuzjaści R Attending

Sobotni hack-day. Spotkajmy się i przeanalizujmy głosowania posłów VII kadencji Sejmu. Głosowania i stenogramy z wypowiedzi będą udostępnione przez pakiet SejmRP [https://github.com/mi2-warsaw/sejmRP]Pomysły na analizy można wrzucać na github jako issues (z tagiem question).Więcej informacji wkrótce.

Check out this Meetup →

5. Będzie pizza i snacki

Czytaj dalej Jak oni głosowali?hackaton -najbliższa sobota- 26.09.2015

Jak oni głosowali? MiNI data-hackaton 26.09.2015

Piotr Smuda i Tomasz Mikołajczyk, w ramach projektu grupy MI2, przygotowali pakiet SejmRP pozwalający na pobieranie danych o głosowaniach oraz wypowiedziach posłów VII kadencji Sejmu. Pakiet niedługo trafi na CRAN, ale póki co można instalować go z githuba. Dane są przechowywane w bazie danych, można więc odczytywać je również w innych językach, np. pythonie.

Mając tak ciekawe dane, aż chciałoby się im bliżej przyjrzeć. Zróbmy to wspólnie i wymieńmy doświadczeniami / obserwacjami / wnioskami. Na 26 września (sobota) planujemy małe spotkanie pod hasłem ,,Jak oni głosowali?” na wydziale MiNI PW poświęcone analizom i wizualizacji tych danych.

Czytaj dalej Jak oni głosowali? MiNI data-hackaton 26.09.2015

PLGrid, czyli o 9+ latach obliczeń i 2 TB danych

Duże dane są najczęściej kojarzone z logami serwerów lub strumieniami danych z portali społecznościach.
Ale duże wolumeny danych są generowane też przez wysokoprzepustowe metody pomiarowe np. w biologii molekularnej.

Miałem ostatnio taki problem.
Kurierem dojechał dysk, na którym było 2 TB spakowanych danych genetycznych, wygenerowany przez metodę RNAseq. W skrócie te dane to duuuużo krótkich (~75 znaków) napisów złożonych z literek TCGA. Pierwszym krokiem analiz jest tzw. mapowanie, czyli określenie gdzie na genomie człowieka (taki długi napis o długości ponad 3 000 000 000 znaków) znajdują się te krótkie napisy (z ewentualnie drobnymi różnicami). Robi się to po to by określić, które geny są aktywne i jak bardzo. Taką informację można następnie przetwarzać bardziej klasycznymi technikami dla danych ilościowych, duże pole do popisu.

Ale aby móc się popisywać trzeba najpierw te dane mapować, a samo mapowanie potrafi być czasochłonne. Dla tych 2 TB danych, wstępne szacunki wykazały, że mapowanie całych danych wejściowych na jednym rdzeniu potrwałoby ponad 9 lat i 4 miesiące!!!
Około 80 tys. godzin obliczeniowych!!!
A ja chciałbym rozpocząć analizy po weekendzie.

Czytaj dalej PLGrid, czyli o 9+ latach obliczeń i 2 TB danych