Maraton zespołowej analizy danych – agenda

MiNImaraton-wydarzenie

Już za dziewięć dni wystartuje maraton zespołowej analizy danych.
Podsumujmy co wiemy o tym wydarzeniu.

Wydarzenie jest przygotowane dla studentów i absolwentów zainteresowanych analizą danych. Osób chcących popracować w zespole nad prawdziwym, ważnym i ciekawym projektem, chcących zobaczyć jak i z jakimi narzędziami pracują inni analitycy.
Udział w wydarzeniu jest bezpłatny.
Zgłaszać należy się indywidualnie, do zespołów dobierzemy się podczas wydarzenia.

Projekty zostały przygotowane przy merytorycznej współpracy z pracownikami Międzynarodowego Instytutu Biologii Molekularnej (International Institute of Molecular and Cell Biology), Instytutu Badań Edukacyjnych (Educational Research Insitute), Centrum Nauki Kopernik (Copernicus Science Centre).
Organizatorami są SmarterPoland i wydział MINI Politechniki Warszawskiej.
Sponsorem tego wydarzenia jest CodiLime (DeepSense).

Czytaj dalej Maraton zespołowej analizy danych – agenda

Maraton zespołowej analizy danych – co dane mówią o odwiedzających CNK

Screen Shot 2015-04-20 at 23.29.03

9 maja ruszamy z maratonem analizy danych.
Przygotowaliśmy trzy ciekawe problemy analityczne, dzisiaj odsłonimy trzeci z nich.

Centrum Nauki Kopernik (CNK) to centrum, którego celem jest promowanie i popularyzacja nauki. Podczas maratonu analizy danych postaramy się pomóc w realizacji tego celu. Jak?

Poznaj swojego klienta! Aby skuteczniej realizować swoje cele, CNK musi wiedzieć kto decyduje się na odwiedziny, kto nie decyduje się na odwiedziny, jakie są oczekiwania odwiedzających i w jaki sposób udało się wyjść im naprzeciw (nie tylko CNK, podobne pytania zadaje sobie bardzo wiele firm).

Zbiór danych do trzeciego problemu, to baza z badań ankietowych dotyczących profilu zwiedzającego Centrum Nauki Kopernik. W ankiecie zadano wiele szczegółowych pytań, między innymi, czy wizyta się udała, jakie były oczekiwania ankietowanego, czy ankietowany planuje wrócić, czy często czyta książki, ogląda filmy, chodzi na imprezy kulturalne, jakiej muzyki słucha, czy był sam, czy z dziećmi, czy z rodziną, gdzie mieszka, co robi i tym podobne.

Czytaj dalej Maraton zespołowej analizy danych – co dane mówią o odwiedzających CNK

Maraton zespołowej analizy danych – hackujemy maturę z matematyki

Screen Shot 2015-04-20 at 23.29.03

9 maja ruszamy z maratonem analizy danych.
Przygotowaliśmy trzy ciekawe problemy analityczne, dzisiaj przedstawimy drugi z nich.

W skrócie – hackujemy maturę z matematyki.

Mając dane o wynikach z matury z matematyki (wyniki dla _każdego_ maturzysty z lat 2011, 2014, w sumie ponad 640 000 wyników), oraz płci, roczniku, szkole, gminie, województwie i _wielu_ innych cechach, postaramy się odpowiedzieć na kilka fundamentalnych pytań.

Czytaj dalej Maraton zespołowej analizy danych – hackujemy maturę z matematyki

Maraton zespołowej analizy danych – walczymy z rakiem

Screen Shot 2015-04-20 at 23.29.03

9 maja ruszamy z maratonem analizy danych.
Przygotowaliśmy trzy ciekawe problemy analityczne, dzisiaj pokażemy pierwszy z nich.

Zaczniemy jak u Hitchcocka,
Jeden z najlepszych na świecie zespołów biologów molekularnych, badających odporność nowotworów na chemioterapie,
pracuje z gigantyczną bazą danych o nowotworach The Cancer Genome Atlas Project (ponad 14 tys pacjentów, publicznie dostępne dane ważące kilkanaście GB i znacznie znacznie większe dane chronione).

Mają masę pomysłów do weryfikacji, potrzebują wsparcia przy analizach.
Przyjdą na maraton i razem z Wami będą szukać odpowiedzi na pytanie dlaczego niektóre raki nie odpowiadają na leczenie.

Czytaj dalej Maraton zespołowej analizy danych – walczymy z rakiem

Jakie kolory są częstsze w różnych markach

Tydzień temu szukaliśmy koloru, który cechuje samochody o najmocniejszych silnikach. Okazało się, że czarny i czarny metallic to kolory spotykane w silnych autach.

Ale moc silnika to nie wszystko.
Zobaczmy jaka jest relacja pomiędzy kolorem a marką.
W zbiorze danych auta2012 (pakiet PogromcyDanych) mamy jednak 37 kolorów i 106 marek, jak tu czytelnie pokazać zależność pomiędzy jednym a drugim?

Czytaj dalej Jakie kolory są częstsze w różnych markach

Maraton zespołowej analizy danych

Screen Shot 2015-04-20 at 23.29.03
Pomysł na hackaton analityczny pojawił się jakiś czas temu, dojrzewał, dojrzewał i zaowocował maratonem zespołowej analizy danych.

Ale o co chodzi?

9 maja (tak, zapiszcie tę datę do kalendarza) zderzymy grupę kilkudziesięciu uczestników z trzema rzeczywistymi problemami, z nauki i z biznesu, wymagającymi analizy dużych danych. Pracując przez około 11 godzin (od 9 do 20, ale bez obaw, będzie jedzenie i picie) będziemy szukać rozwiązań dla niebanalnych problemów badawczych.

Co to za problemy?

Będziemy je odsłaniać jeden po drugim w najbliższych dniach. Podczas maratonu każdy problem będzie miał swojego merytorycznego opiekuna, który pomoże szybko wskoczyć w dziedzinę i wyjaśni na czym polega trudność.

Po co?

Czytaj dalej Maraton zespołowej analizy danych

Financial Times a SmarterPoland

6a010534b1db25970b01b7c77c4fdd970b-800wi

Na blogu Revolution Analytics można przeczytać, że Financial Times Data Section używa R i pakietu SmarterPoland aby przedstawiać interaktywną wizualizację danych o bezrobociu (SmarterPoland pośredniczy w dostępie do danych z Eurostatu).

Jak używać używając tego pakietu i dobierać się do dowolnej tabeli z Eurostatu?

Omawiamy ten sposób pobierania danych w czwartym odcinku Pogromców Danych (pierwszy kurs otwarty jeszcze przez 10 dni. Kto się jeszcze nie zapisał niech się zapisuje).

btw: aktualnie funkcje do pobierania danych z eurostatu przenieśliśmy w ramach inicjatywy rOpenGov do pakietu eurostat, od kilku dni też dostępnego na CRAN,

Czytaj dalej Financial Times a SmarterPoland

Jakiego koloru auta są najszybsze?

800px-2012_NAIAS_Red_Porsche_991_convertible_(world_premiere)
       Źródło: wikipedia

Wczoraj zakończył się RECOMB 2015, konferencja poświęcona obliczeniowej biologii molekularnej (z naciskiem na obliczeniowa). Było wiele ciekawych referatów, ale dzisiejszy wpis zainspirowała rozmowa, która przytrafiła mi się przy obiedzie.

Rozmawiając o zależnościach statystycznych, od słowa do słowa pojawiła się hipoteza, że najszybsze samochody to samochody czerwone (oczywiście nie chodzi o wpływ koloru na prędkość ale o połączone preferencje właścicieli dotyczące mocy i koloru). Wyraziłem swoją wątpliwość, której mój rozmówca nie przyjął. A jako ludzie wierzący w dane postanowiliśmy sprawę zbadać głębiej.

W pakiecie PogromcyDanych w zbiorze danych auta2012 dostępne są dane o 200 tys. ofertach sprzedaży aut z roku 2012. Dla większości ofert dostępne są informacje i o kolorze auta i o mocy silnika.

Hmmm, sprawdźmy więc jakiego koloru auta mają najsilniejsze silniki.

Czytaj dalej Jakiego koloru auta są najszybsze?

SER IX – Data science deathmatch: R vs. Python / Rozproszone obliczenia – SparkR

SupER

Najbliższy SER już 23 kwietnia! Zaczynamy o 18:00 od prezentacji, „Data science deathmatch: R vs. Python”, którą przedstawi Filip Cyprowski. Druga prezentację rozpocznie Filip Stachura o 19:00, tytuł referatu to „Rozproszone obliczenia – SparkR”.

Pomiędzy prezentacjami zapraszamy na pizze i stymulujące rozmowy w kuluarach a o godzinie 20:00 zaczynamy afterparty w Kwadracie (http://www.kwadrat.waw.pl/) ul. Poznańska 7 lok. 8 (wejście od ul. Wilczej).

Serdecznie zapraszamy, udział w spotkaniu jest bezpłatny. Tak jak na poprzednich spotkaniach, aby oszacować ilość jedzenia oraz wielkość sali prosimy o wcześniejszą rezerwacje miejsca i rejestrację za pomocą formularza.

Na spotkanie można też się rejestrować przez stronę meetup.