Maraton Analizy Danych, czyli niedzielna notatka z pamiętnika nauczyciela akademickiego


Miałem dzisiaj przyjemność uczestniczyć w pracach jury podczas Maratonu Analizy Danych, wydarzenia zorganizowanego przez koło SNK Data Science Management z SGH. Hakaton trwał 24h, a po maratonie były jeszcze 3h prezentacji. W maratonie wzięły udział zespoły głównie z UW, PW i SGH, choć byli też uczestnicy z innych uczelni, również spoza Warszawy.

Przestrzeń na hakaton bardzo przyjemna (Mysia 3), organizacja świetna (ale czy czegoś innego można się spodziewać po kole z SGH?). To był jeden z bardzo nielicznych hakatonów, w którym duży nacisk położono na faktyczną analizę danych.

Takie imprezy robią na mnie duże wrażenie. Młodzi ludzie, przez cały dzień i całą noc walczą z jakimś problemem, a później jeszcze mają siłę pokazać wyniki innym zespołom.
Ach te studenckie czasy!
Wśród rozwiązań dominował R i Python, sporo było map (oczywiście leaflet), były aplikacje Shiny, a nawet w prezentacjach pojawił się jakiś PowerBI. Od strony metodologicznej dało się wyczuć dwa rodzaje podejść, nazwijmy je umownie podejściem maszynowym (jak model to random forest albo xgboost) i statystycznym (aż po statystykę Morana dla danych przestrzennych). To już same w sobie było świetne, uczestnicy zostali wystawieni na nowe (dla części z nich) algorytmy i podejścia do analizy danych.

Lubię takie wydarzenia, ponieważ pokazują jakie kompetencje posiadają najaktywniejsi studenci (ech, to spaczone spojrzenie nauczyciela akademickiego).
Od strony narzędziowej zespoły prezentowały bardzo wysoki poziom (a to studenci I i II stopnia), niesamowite co udało się zrobić w 24h. Od strony prezentacyjnej poziom też był wysoki. Czytelne sensowne przedstawianie problemu i rozwiązania. Były zespoły, które zdążyły zrobić i analizę i aplikację webową i bardzo graficznie dopracowaną prezentację. Znacznie wyższy poziom niż +-10 lat temu gdy prezentacje projektów bywały drętwe.

Ponieważ jestem człowiekiem, dla którego do szklanki zawsze można jeszcze trochę dolać, więc i tutaj zastanawiałem się jakie kompetencje dotyczące analizy danych można by dalej rozwinąć.

I wyszło mi, że wąskim gardłem było najczęściej samo określenie problemu do rozwiązania. Często (a pisząc często rozszerzam to i na inne znane mi hakatony i na znane mi projekty uczelniane) analiza danych jest ,,data-driven” a nie ,,problem-driven”.
Wychodzi się od dostępnego zbioru danych i zastanawia jaki by tu problem z tych danych rozwiązać. W konsekwencji gdy już wydaje się, że ten problem się rozwiązało, okazuje się, że te dane niespecjalnie się do tego problemu nadawały. Czy to z powodu agregacji, czy zakresów czy czegoś innego.
Pozostawia to pewien niedosyt. Widać było ciekawy problem, widać było wysiłek i umiejętności, ale rozwiązanie nie jest w pełni satysfakcjonujące z uwagi na ,,zniewolenie myślenia przez te konkretne dane”. Rozwiązanie nie jest wymuskane, lśniące, pachnące itp.
Potraktowałbym to jako wskazówkę dla prowadzących przedmioty projektowe na uczeniach, by większy nacisk włożyć na krytyczną ocenę potencjału wykorzystania określonego źródła danych.

Tak czy inaczej Maraton Analizy Danych był fantastycznym wydarzeniem pełnym pozytywnej energii. To była pierwsza edycja, oby były kolejne.
Najbliższy hakaton związany z analizą danych odbędzie się za dwa tygodnie, podczas konferencji Data Science Summit (nasza fundacja jest partnerem!).
Z pewnością też tam będę 😉

Rytm miasta, czyli z jakimi danymi będziemy pracować na Urban Sensors hakaton

animation

Już we wtorek rozpocznie się Urban Sensors, czyli jednodniowy hakaton oparty o miejskie dane z nowej platformy VaVeL.

Poza położeniami autobusów i tramwajów, jedno ze źródeł danych dostępnych dla hakujących, to informacja o liczbie notyfikacji od telefonów komórkowych ze stacjami bazowymi.

datetime,zoneid,intensity,geom4326,geom3857
2017-09-04 00:00:00,1,0.02072913149322,"MULTIPOLYGON(((20.9832771275726 52.259601516439,20.9876244827842 52.259569327517,20.9876244827865 52.259569327511,20.9875959970902 ...
2017-09-04 01:00:00,1,0.0135282957291873,"MULTIPOLYGON(((20.9832771275726 52.259601516439,20.9876244827842 52.259569327517,20.9876244827865 52.259569327511,20.9875959970902 ...
2017-09-04 02:00:00,1,0.011225094014391,"MULTIPOLYGON(((20.9832771275726 52.259601516439,20.9876244827842 52.259569327517,20.9876244827865 52.259569327511,20.9875959970902 ...

Animacja powyżej pokazuje jak aktywność telefonów pulsuje w rytmie dziennym.
Ścisłe centrum jak widać nie chodzi spać.
Miejscami widać dziwniejsze fluktuacje jak np. Dolinka Służewiecka wieczorem 16 września.

Rysunek poniżej przedstawia profil aktywności dla trzech wybranych punktów w okresie kilku dni.

Screen Shot 2017-09-23 at 00.55.18

Jak takie dane ciekawie zintegrować z położeniami autobusów i tramwajów?
Zobaczymy na hakatonie, a najciekawsze rozwiązania pokażemy na blogu.

Do przygotowania pierwszej animacji użyto pakietu animation i programu ImageMagick. Druga to oczywiście dziecko ggplot2 i sf.

Urban Sensors – hakuj dane o komunikacji w Warszawie

Urban Sensors to jednodniowy hakaton nad danymi miejskimi, który odbędzie się w Warszawie 26 września na wydziale MiNI Politechniki Warszawskiej (Koszykowa 75) – dzień przed konferencją WhyR.

Położenie online każdego tramwaju i autobusu

Kręcą Cię miejskie dane? Ten Hakaton to unikalna okazja pracy na dużych danych miejskich (więcej poniżej) wspólnie z pracownikami Urzędu Miasta Warszawa, którzy te dane znają od podszewki. Eksperci z urzędu miasta będą z nami przez czas trwania hakatonu, pomogą ocenić realizowalność nawet najbardziej szalonego pomysłu, zaproponują ciekawe tematy badawcze, wskażą gdzie szukać dodatkowych danych.

Hakaton prowadzony jest w ramach projektu VaVeL, dzięki któremu powstaje nowa unikatowa infrastruktura dostępu do bardzo głębokich danych online o tym co się dzieje w mieście. Podczas hakatonu będziemy pracowali na prototypowej platformie, z dostępem do danych których w takiej skali wcześniej nie było.

Dane z którymi będziemy pracować w pierwszej kolejności to położenie autobusów i tramwajów (GPS) oraz zagęszczenie osób w różnych rejonach Warszawy (na podstawie raportów ze stacji bazowych). Z danymi będzie można pracować w trybie online (online śledzenie gdzie jest teraz który autobus); trybie dostępu do danych historycznych (gigabajty danych o położeniu pojazdów z całego miesiąca); oraz trybie batch (zrzut danych dla dwóch wybranych ciekawych dni, względnie małe pliki).

Co będziemy robić na hakatonie?

Punktem wspólnym projektów na hakaton są dane miejskie, format rozwiązań może być dowolny. Przykładowe pomysły na projekty:
– tramRadar – aplikacja mobilna pokazująca gdzie w okolicy są w obecnej chwili tramwaje i jakie mają opóźnienie (jeżeli mają) na bazie danych online,
– automatycznie generowany dzienny raport z opóźnień w ruchu,
– system machine-learning przewidujący opóźnienie autobusów i tramwajów.
Można oczywiście też przyjść z własnym pomysłem.

Do samego hakatonu pozostało jeszcze trochę czasu. Jeżeli macie ciekawy pomysł na urozmaicenie tego wydarzenia, podzielcie się w komentarzach.

Podczas hakatonu nie planujemy bezpośrednich nagród finansowych.
Ale Urban Sensors to świetna okazja by popracować z danymi miejskimi nad projektem który może być wdrożony i skomercjalizowany, więc sława i pieniądze czekają na osoby, które na tej prototypowej platformie zbudują użyteczne usługi.

Jak się zapisać?

Zapisy na hakaton rozpoczną się 5 września.
Planujemy przyjąć 40-50 osób.
Pierwszeństwo będą miały osoby mogące pochwalić się ciekawymi realizacjami.
Informacja o zapisach pojawi się w pierwszej kolejności na stronie http://whyr.pl/hackathon/.

Jak posłowie zmieniali kluby?

Screen Shot 2015-10-21 at 22.23.45

Jednym z rezultatów hakatonu ,,Jak Oni Głosowali” jest wykres Sankeya, który przygotował Tomasz Mikołajczyk. Na jednej grafice pokazane są przepływy posłów/mandatów pomiędzy klubami.

Hackaton był realizowany we współpracy z MamPrawoWiedzieć. Miło więc donieść, że wykres trafił do jednego z najnowszych raportów tego stowarzyszenia (raport dostępny tutaj). Opis kiedy i dlaczego powstawały nowe i rozpadały się istniejące kluby czyta się jak powieść. Podsumowanie w postaci graficznej umieściłem też poniżej.

Można z tej grafiki odczytać, który klub i kiedy zyskał a który stracił mandaty. Można zaobserwować pojawianie się i zanikanie takich klubów jak Inicjatywa Dialogu, Bezpieczeństwo i Gospodarka. Patrząc na całą kadencję najwięcej mandatów zyskał SLD (+7), PSL (+10) i niezrzeszeni (+21), wiele z nich to transfery z Ruchu Palikota.

przeplywy-tekst

Migracje posłów, kto w Sejmie najczęściej mówi o seksie, czyli podsumowanie hackatonu ,,Jak oni głosowali?”

update2

W sobotę 26 września, na wydziale MiNI, odbył się 7-godzinny hackaton ,,Jak oni głosowali”. Udział wzięło 17 osób (wliczając osoby, które wpadły na krócej). Podzieliliśmy się na cztery grupy, skupione wokół czterech problemów:
Analiza znaczeniowa wypowiedzi posłów, wyszukiwarka wypowiedzi na określone tematy, analiza migracji posłów pomiędzy klubami/kołami poselskimi, analiza głosowań podczas których wynik głosowania zależał od głosów pojedynczych posłów.

Czytaj dalej Migracje posłów, kto w Sejmie najczęściej mówi o seksie, czyli podsumowanie hackatonu ,,Jak oni głosowali?”

Jak oni głosowali?hackaton -najbliższa sobota- 26.09.2015

Kontynuując temat hack-day ,,Jak oni głosowali”. W najbliższą sobotę spotykamy się by analizować dane o głosowaniach i wypowiedziach posłów w obecnej kadencji sejmu
W związku z tym kilka ogłoszeń organizacyjnych.

1. WAŻNE, podczas spotkania nie zapewniamy komputerów. Studenci MiNI mogą korzystać ze swoich kont w salach komputerowych, ale nastawiamy się na prace w salach otwartych z tablicami, tak by wygodnie poruszać się pomiędzy stolikami. Najlepiej przynieść własny laptop a na nim wszystko co jest potrzebne. Będzie dostęp do wifi!

2. Spotkanie odbędzie się w godzinach 10-16 na wydziale MiNI PW (Koszykowa 75) na drugim piętrze. Zaanektujemy jedną lub kilka sal, w zależności od potrzeb.

3. Warto wcześniej przyjrzeć się danym, szczegółowy opis jak z nich korzystać znajduje się w pliku
https://github.com/mi2-warsaw/sejmRP/blob/master/sejmRP/vignettes/INSTRUCTION.pdf
W szczególności można sprawdzić te dwie funkcje
get_filtered_votes()
get_statements_table()

4. W miarę możliwości prosimy o sygnał kto będzie kto nie, najlepiej rezerwować się przez stronę meetup

Jak oni głosowali? – Analiza głosowań w Sejmie VII kadencji

Saturday, Sep 26, 2015, 10:00 AM

No location yet.

52 Entuzjaści R Attending

Sobotni hack-day. Spotkajmy się i przeanalizujmy głosowania posłów VII kadencji Sejmu. Głosowania i stenogramy z wypowiedzi będą udostępnione przez pakiet SejmRP [https://github.com/mi2-warsaw/sejmRP]Pomysły na analizy można wrzucać na github jako issues (z tagiem question).Więcej informacji wkrótce.

Check out this Meetup →

5. Będzie pizza i snacki

Czytaj dalej Jak oni głosowali?hackaton -najbliższa sobota- 26.09.2015

Jak oni głosowali? MiNI data-hackaton 26.09.2015

Piotr Smuda i Tomasz Mikołajczyk, w ramach projektu grupy MI2, przygotowali pakiet SejmRP pozwalający na pobieranie danych o głosowaniach oraz wypowiedziach posłów VII kadencji Sejmu. Pakiet niedługo trafi na CRAN, ale póki co można instalować go z githuba. Dane są przechowywane w bazie danych, można więc odczytywać je również w innych językach, np. pythonie.

Mając tak ciekawe dane, aż chciałoby się im bliżej przyjrzeć. Zróbmy to wspólnie i wymieńmy doświadczeniami / obserwacjami / wnioskami. Na 26 września (sobota) planujemy małe spotkanie pod hasłem ,,Jak oni głosowali?” na wydziale MiNI PW poświęcone analizom i wizualizacji tych danych.

Czytaj dalej Jak oni głosowali? MiNI data-hackaton 26.09.2015

Maraton zespołowej analizy danych

Screen Shot 2015-04-20 at 23.29.03
Pomysł na hackaton analityczny pojawił się jakiś czas temu, dojrzewał, dojrzewał i zaowocował maratonem zespołowej analizy danych.

Ale o co chodzi?

9 maja (tak, zapiszcie tę datę do kalendarza) zderzymy grupę kilkudziesięciu uczestników z trzema rzeczywistymi problemami, z nauki i z biznesu, wymagającymi analizy dużych danych. Pracując przez około 11 godzin (od 9 do 20, ale bez obaw, będzie jedzenie i picie) będziemy szukać rozwiązań dla niebanalnych problemów badawczych.

Co to za problemy?

Będziemy je odsłaniać jeden po drugim w najbliższych dniach. Podczas maratonu każdy problem będzie miał swojego merytorycznego opiekuna, który pomoże szybko wskoczyć w dziedzinę i wyjaśni na czym polega trudność.

Po co?

Czytaj dalej Maraton zespołowej analizy danych