Jak oni głosowali? MiNI data-hackaton 26.09.2015

Piotr Smuda i Tomasz Mikołajczyk, w ramach projektu grupy MI2, przygotowali pakiet SejmRP pozwalający na pobieranie danych o głosowaniach oraz wypowiedziach posłów VII kadencji Sejmu. Pakiet niedługo trafi na CRAN, ale póki co można instalować go z githuba. Dane są przechowywane w bazie danych, można więc odczytywać je również w innych językach, np. pythonie.

Mając tak ciekawe dane, aż chciałoby się im bliżej przyjrzeć. Zróbmy to wspólnie i wymieńmy doświadczeniami / obserwacjami / wnioskami. Na 26 września (sobota) planujemy małe spotkanie pod hasłem ,,Jak oni głosowali?” na wydziale MiNI PW poświęcone analizom i wizualizacji tych danych.

Czytaj dalej Jak oni głosowali? MiNI data-hackaton 26.09.2015

PLGrid, czyli o 9+ latach obliczeń i 2 TB danych

Duże dane są najczęściej kojarzone z logami serwerów lub strumieniami danych z portali społecznościach.
Ale duże wolumeny danych są generowane też przez wysokoprzepustowe metody pomiarowe np. w biologii molekularnej.

Miałem ostatnio taki problem.
Kurierem dojechał dysk, na którym było 2 TB spakowanych danych genetycznych, wygenerowany przez metodę RNAseq. W skrócie te dane to duuuużo krótkich (~75 znaków) napisów złożonych z literek TCGA. Pierwszym krokiem analiz jest tzw. mapowanie, czyli określenie gdzie na genomie człowieka (taki długi napis o długości ponad 3 000 000 000 znaków) znajdują się te krótkie napisy (z ewentualnie drobnymi różnicami). Robi się to po to by określić, które geny są aktywne i jak bardzo. Taką informację można następnie przetwarzać bardziej klasycznymi technikami dla danych ilościowych, duże pole do popisu.

Ale aby móc się popisywać trzeba najpierw te dane mapować, a samo mapowanie potrafi być czasochłonne. Dla tych 2 TB danych, wstępne szacunki wykazały, że mapowanie całych danych wejściowych na jednym rdzeniu potrwałoby ponad 9 lat i 4 miesiące!!!
Około 80 tys. godzin obliczeniowych!!!
A ja chciałbym rozpocząć analizy po weekendzie.

Czytaj dalej PLGrid, czyli o 9+ latach obliczeń i 2 TB danych

Jaki film chciałbyś/chciałabyś obejrzeć?

W ramach przedmiotu R i Duże Dane, który prowadzę na MiNI PW, studenci mieli do wykonania dwa projekty. Pierwszym była analiza tego co i kiedy mówi się o kandydatach na prezydenta. Drugim było zbudowanie systemu sugerującego jaki film warto obejrzeć (w zależności od tego jakie filmy się lubi).

Studenci budowali od zera system, rekomendujący filmy podobne do jednego-kilku wybranych. Począwszy od zeskrobywania z IMDB, wikipedii czy innych źródeł informacji o filmach, przez wybór miary oceny podobieństwa pomiędzy filmami, walkę z problemami obliczeniowymi (mając 5 – 10 tys filmów, każdy opisany przez dziesiątki cech konstrukcja podobieństwa nie jest taka prosta), redukcję wymiaru, aż po budowę aplikacji, która pozwoli na rekomendację filmu. Bardzo duży projekt jak na pół semestru, ale 'Big’ było w nazwie.

Wspólnie zdecydowaliśmy się też na dodatkowy eksperyment. Mianowicie część składową oceny (od 0 do 10 punktów) oddajemy w ręce internautów.

Czytaj dalej Jaki film chciałbyś/chciałabyś obejrzeć?

Maraton zespołowej analizy danych – rejestracja

MiNImaraton-wydarzenie

W najbliższą sobotę wystartuje maraton zespołowej analizy danych.

Chcemy zderzyć dociekliwych i otwartych na nowe wyzwania analityków z trzema ciekawymi problemami, które przedstawialiśmy w poprzednich wpisach.

Udział w wydarzeniu jest bezpłatny. Na wydarzenie należy rejestrować się indywidualnie. W grupy zorganizujemy się już na miejscu.

Będzie darmowe jedzenie (;-)), przynajmniej kilku weteranów analizy danych, którzy już zapowiedzieli swoją obecność, eksperci dziedzinowi otwarci na nowe podejścia do analizy danych, oraz wielu wiele osób zainteresowanych analizą danych.

Osoby chcące wziąć udział w tym maratonie, proszone są o rejestrację z użyciem poniższego formularza.

Serdecznie zapraszamy

Czytaj dalej Maraton zespołowej analizy danych – rejestracja

Maraton zespołowej analizy danych – co dane mówią o odwiedzających CNK

Screen Shot 2015-04-20 at 23.29.03

9 maja ruszamy z maratonem analizy danych.
Przygotowaliśmy trzy ciekawe problemy analityczne, dzisiaj odsłonimy trzeci z nich.

Centrum Nauki Kopernik (CNK) to centrum, którego celem jest promowanie i popularyzacja nauki. Podczas maratonu analizy danych postaramy się pomóc w realizacji tego celu. Jak?

Poznaj swojego klienta! Aby skuteczniej realizować swoje cele, CNK musi wiedzieć kto decyduje się na odwiedziny, kto nie decyduje się na odwiedziny, jakie są oczekiwania odwiedzających i w jaki sposób udało się wyjść im naprzeciw (nie tylko CNK, podobne pytania zadaje sobie bardzo wiele firm).

Zbiór danych do trzeciego problemu, to baza z badań ankietowych dotyczących profilu zwiedzającego Centrum Nauki Kopernik. W ankiecie zadano wiele szczegółowych pytań, między innymi, czy wizyta się udała, jakie były oczekiwania ankietowanego, czy ankietowany planuje wrócić, czy często czyta książki, ogląda filmy, chodzi na imprezy kulturalne, jakiej muzyki słucha, czy był sam, czy z dziećmi, czy z rodziną, gdzie mieszka, co robi i tym podobne.

Czytaj dalej Maraton zespołowej analizy danych – co dane mówią o odwiedzających CNK

Maraton zespołowej analizy danych – walczymy z rakiem

Screen Shot 2015-04-20 at 23.29.03

9 maja ruszamy z maratonem analizy danych.
Przygotowaliśmy trzy ciekawe problemy analityczne, dzisiaj pokażemy pierwszy z nich.

Zaczniemy jak u Hitchcocka,
Jeden z najlepszych na świecie zespołów biologów molekularnych, badających odporność nowotworów na chemioterapie,
pracuje z gigantyczną bazą danych o nowotworach The Cancer Genome Atlas Project (ponad 14 tys pacjentów, publicznie dostępne dane ważące kilkanaście GB i znacznie znacznie większe dane chronione).

Mają masę pomysłów do weryfikacji, potrzebują wsparcia przy analizach.
Przyjdą na maraton i razem z Wami będą szukać odpowiedzi na pytanie dlaczego niektóre raki nie odpowiadają na leczenie.

Czytaj dalej Maraton zespołowej analizy danych – walczymy z rakiem

R, rvest i web-harvesting


Źródło flickr

Wyciąganie danych z treści stron internetowych to źródło interesujących informacji. Kiedyś wymagało to sporo samozaparcia i pokracznych skryptów w Perlu walczących z bałaganiarskimi źródłami stron internetowych. Dzisiejsze strony internetowe coraz częściej są zgodne ze standardami, jest też coraz więcej cywilizowanych narzędzi do ich parsowania.

Ostatnio moją olbrzymią sympatię zyskał pakiet rvest pozwalający na bardzo proste wyłuskiwanie danych ze stron. Przedstawię go na przykładzie pobierania ocen odcinków seriali telewizyjnych w zależności od wieku i płci oceniającego. Za tydzień zrobimy użytek z tych danych, ale dzisiaj skupimy się na tym jak te dane pobrać.

W serwisie Internet Movie DataBase (IMDB) na stronach „user ratings” (np. tutaj) znajdują się oceny filmu w rozbiciu na grupy wiekowe i płeć.

Z użyciem pakietu rvest pobranie danych i parsowanie strony html do drzewa html sprowadza się do dwóch linii.

Czytaj dalej R, rvest i web-harvesting

[Dane] The Data and Story Library

Danych jest coraz więcej. Niestety liczba śmieciowych zbiorów przyrasta szybciej niż liczba tych ciekawych, więc nie zawsze jest łatwo znaleźć coś fajnego, np. gdy przygotowuje się nowy kurs.

Tym bardziej ucieszyło mnie to znalezisko:
Na stronach Carnegie Mellon znajduje się repozytorium otagowanych zbiorów danych http://lib.stat.cmu.edu/DASL/. Zbiory podzielone są na metody lub tematy, które ilustrują.

I tak na przykład tutaj jest zbiór siedmiu zbiorów danych ilustrujących co to te rozkłady.

W 11 podróży dookoła świata

Najciekawszym medialnie zbiorem danych tego tego tygodnia, może okazać się zestawienie wyjazdów samochodowych posłów VII kadencji opublikowanych na stronie.
(a może nie, po południu napiszę o innym, jeszcze ciekawszym zbiorze danych).

Siódmy załącznik zestawienia to przejazdy samochodowe. Z innych plików wynika, że podane kwoty dotyczą rozliczenia przejazdów samochodami i nie zawierają diet. Maksymalny ryczałt za 1km to około 83gr, można więc oszacować liczbę zadeklarowanych kilometrów. Niektórzy objechaliby świat dwukrotnie.

wyjazdy

Jak odczytać prognozę pogody w R? API do the Dark Sky

Przygotowując materiały do kursu 'Bądź data-smaRt’ (tytuł roboczy), potrzebowałem prognozy pogody. Krótkie poszukiwania w celu automatycznego i publicznie dostępnego API zaowocowały nową funkcją w pakiecie SmarterPoland, która pozwala na pobranie prognoz godzinnych i dniowych dla temperatury, ciśnienia, zachmurzenia i wielu innych ciekawych parametrów.

W dwóch linijkach, można pobrać prognozy i je narysować w R. Zobaczmy jak.

Czytaj dalej Jak odczytać prognozę pogody w R? API do the Dark Sky