Wykresy Unplugged – pomysł na prezent pod choinkę

Wizualizacja danych to jedna z tych przyjemnych i pożytecznych czynności, która pozwala nam lepiej zrozumieć otaczający nas świat.

Ale nikt nie rodzi się z umiejętnością odczytywania czy tworzenia wykresów. Tę umiejętność trzeba w sobie wyćwiczyć.

Można oczywiście czytać o wizualizacji (np. w Esejach o wizualizacji danych) lub oglądać wykresy (np. na FlowingData), ale jeszcze lepiej byłoby poznawać wykresy w sposób czynny – tworząc je.

Nowa pozycja o wizualizacji danych

Wykresy Unplugged to książka (28 stron A4, pełny kolor) omawiająca osiem najpopularniejszych typów wykresów. Czterech poświęconych wizualizacji rozkładu (wykres kołowy, łodyga – liście, histogram, pudełko-wąsy) oraz czterech poświęconych relacjom (zmiany, kropkowy, kartogram, mozaika).

Każdy wykres ma swoją rozkładówkę. Na lewej stronie opisywane są ciekawostki, sposób budowy oraz przykład dla danego wykresu, a po prawej stronie są przykładowe dane oraz miejsce na narysowanie własnego wykresu.

Tak! Narysowanie!

W tej książce są ćwiczenia do wykonania z użyciem ołówka (i czasem kredek, ewentualnie kolorowych długopisów).

Do wykresów przygotowane są również ćwiczenia i pytania, pozwalające nam na weryfikacje co łatwiej wyciągnąć z tabelki z liczbami a co z wykresu.

Obok wykresów, w tej książce znajdują się przykładowe rozwiązania i dodatkowe rozkładówki omawiające wybrane zagadnienia teoretyczne (dobór kształtów, kolorów historia wizualizacji).

Zazwyczaj zajęcia z wizualizacji danych oparte są o jakieś programy graficzne, tak by szybko można było coś wyklikać. Ale obecne komputerowe narzędzia są bardzo ograniczające. Dużo energii wchodzi w opanowanie narzędzia zamiast w myślenie o danych. Stąd zrodził się pomysł na zbudowanie książki, uzupełnionej o ćwiczenia, które będzie można wykonać bez komputera. Oto i ona – Wykresy Unplugged.

Jak ją zdobyć?

Książkę można kupić bezpośrednio na stronie Wydawnictw Uniwersytetu Warszawskiego, wkrótce dostępna będzie też w Empiku, Merlinie i sklepiku w Centrum Nauki Kopernik.

Książka kierowana jest dla osób ciekawych świata od 10 do 110 lat.

Książka powstała dzięki współpracy z Ewą Baranowską (entuzjastka D3 i grafiki interaktywnej), Piotrem Sobczykiem (autor między innymi Szychta w danych) oraz studiem graficznym storyvisio.

Seria Beta i Bit

Wykresy Unplugged to część serii Beta i Bit – projektu popularyzującego matematykę, informatykę i wnioskowanie oparte o dane. Na wniosek wydziału MiNI PW, za prace nad tym projektem, otrzymałem Medal Komisji Edukacji Narodowej (!!!).
To się nawet dobrze złożyło, ponieważ z końcem roku do sklepów trafiają dwie pozycje z tej serii, Wykresy Unplugged i W pogoni za nieskończonością.
O tej drugiej napiszę na dniach.

Dyscypliny czasopism

Dzisiaj bardzo technicznie.
Od jakiegoś czasu, umysły wielu polskich naukowców zaprząta problem: do jakiej dyscypliny naukowej się przypisać?. Wczoraj ministerstwo opublikowało listę przypisań czasopism do dyscyplin (na tej stronie). Lista jest w postaci pliku pdf. Aby dało się z nią pracować zapisałem ją w formacie txt tutaj.
Przyjrzymy się tej liście.

Mamy na niej 44 dyscypliny i 27301 czasopism.
Dla 136 czasopism przypisano wszystkie 44 dyscypliny (np. Science czy Nature). Dla 3/4 czasopism przypisano trzy lub więcej dyscyplin. Poniżej histogram (obcięty do 20 czasopism dla czytelności).

Dla każdej pary dyscyplin policzyłem ile jest czasopism, które są przypisane do obu dyscyplin. Taką tablę współwystępowania można pobrać z tej strony.

A jak już mamy tabelę współwystępowania to trzeba zrobić z niej graf. Poniżej graf wykonany z użyciem pakietu igraph. Wielkość wierzchołka – liczba czasopism, grubość krawędzi – liczba wspólnych czasopism.

Mnie najbardziej interesowały dyscypliny z którymi czuję się jakoś związany. Wycinek powyższej tabeli dla 9 wybranych dyscyplin przedstawiam tutaj.

Jest kilka ciekawostek.

Np. dyscyplinę informatyka ma przypisanych 2510 czasopism, z czego 2506 ma też przypisaną informatyka techniczna i telekomunikacja. Wśród tych czterech z informatyki, ale nie informatyki technicznej mamy Journal of Experimental Algorithmics, Konstruktion i Positivity. Poza tymi nielicznymi wyjątkami, liczba czasopism z przypisaniem informatyka zawiera się w informatyce technicznej.

Matematyka ma duże przecięcie z obiema informatykami. 70% czasopism z przypisaną matematyką, ma też przypisane obie informatyki.

Nauki medyczne mają bardzo duże przecięcie z naukami o zdrowiu (to nie jest zaskoczeniem). Podobnie z biologią i bioinżynierią.

Bardzo dobre czasopisma związane z ML (np. Journal of Machine Learning Research, Journal of Statistical Software) są przypisane do obu informatyk i matematyki.

Część środowiska obawiała się, że jeżeli przypisze się do dyscypliny X to później okaże się, że nie może do tej dyscypliny przypisać części swoich prac. Ale ogólne moje wrażenie jest takie, że czasopisma do dyscyplin przypisane są z rozmachem.
Ministerstwo deklaruje, że nawet jeżeli czasopismo nie jest przypisane do jakieś dyscypliny, to będzie można konkretną pracę do dyscypliny przypisać, tyle, że nie z automatu.
Zobaczymy.
Bioinformatycy publikujący np. w Nucleic Acids Research nie znajdą w wykazie jej dyscyplin ani informatyki ani informatyki technicznej. A że problem (?) z NAR i mnie dotyka, więc pewnie jeszcze o nim napiszę.

Ponoć gdzieś po sieci krąży plik z informacją o punktacji dla poszczególnych czasopism. Chętnie sprawdziłbym jak to współdzielenie dyscyplin wygląda wśród tych najlepszych czasopism.

Matematyka i wizualizacja danych, czyli plany wydawnicze na koniec 2018

Na końcówkę roku szykujemy dwie bardzo ciekawe pozycje. Póki co zapowiedzi. Napiszę gdy już ukażą się w sprzedaży lub przedsprzedaży.


Pierwsza z nich to ,,W pogoni za Nieskończonością”. To 32 stronicowy komiks o przygodach Bety i Bita.

Tym razem rodzeństwo zmierzy się z Nieskończonością. A że to nie mały problem, więc i publikowany zeszyt jest początkiem (oby) dłuższej serii.

Patrząc na okładkę część z Was pewnie widzi kreskę znanego biologia i popularyzatora przyrody Tomasza Samojlika (autor między innymi książek o Żubrze Pompiku). Drugim rysownikiem jest Sebastian Szpakowski. Treścią matematyczną współopiekował się Łukasz Maciejewski.

Nie dajcie się zwieść. To nie jest komiks dla dzieci! Poruszamy w nim poważne tematy. Zresztą, już niedługo zobaczycie sami.


Druga zapowiedź dotyczy zeszytu ćwiczeń ,,Wykresy unplugged”.

Tym razem 28 osiem stron informacji o wykresach oraz miejsca na samodzielne praktykowanie sztuki wizualizacji danych.

Zeszyt wyposażony jest w 8 kompletów danych i ćwiczeń do samodzielnego wyrysowania. Wyrysowania ołówkiem i kredkami, nie ma co ograniczać się do możliwości nawet najlepszego programu graficznego. Jedynym ograniczeniem niech będzie wyobraźnia!

Obok ćwiczeń jest też kilka wkładek tematycznych o technikach wizualizacji. I w tym wypadku nie dajcie się zwieść kredkom. To zeszyt ćwiczeń dla każdej kreatywnej osoby, nawet zabieganego dyrektora działu Data Science.

Stroną graficzną opiekowała się Magda Małczyńska-Umeda i zespół StoryVisio (autorka między innymi Infostory), merytoryczną opiekowałem się razem z Ewą Baranowską, przy wsparciu Piotra Sobczyka z Szychta w danych.


Czekając na te pozycje można zawsze sięgnąć do pozycji już obecnych na rynku. Np. do Zbioru Esejów o sztuce prezentowania danych. Do zamówienia ze strony Wydawnictw Uniwersytetu Warszawskiego.

RODO + DALEX, kilka słów o moim referacie na DSS


W przyszły piątek (8 czerwca) na wydziale MiNI PW odbędzie się konferencja Data Science Summit.
W sali 107 pomiędzy 10:50 a 11:20 ma miejsce mój referat Wyjaśnij! Jak budować wyjaśnialne modele ML / AI i jak to się ma do RODO?, na który serdecznie zapraszam.

Planuję opowiedzieć o temacie, który wciąga mnie coraz bardziej, czyli wyjaśnialnym AI (XAI). Jak to się ma do RODO i o co chodzi z pogłoskami o ,,prawie do wyjaśnienia”?

To będzie techniczny referat (sorry, żadnych zdjęć kotów czy psów, być może jakieś zdjęcia robotów). Pokażę jak konstruować i używać wykresy breakDown (i powiem dlaczego są lepsze niż LIME czy wartości Shapleya), będzie też mowa o najnowszym wyniku naszego zespołu, czyli wykresach What-If.

Osoby zainteresowane tematem, ale nie planujące udziału w konferencji, zapraszam do lektury dokumentacji DALEXa.

Btw: Na konferencji DSS planowany jest hackaton ,,Conquer urban data”, organizowany przez dr Marcina Lucknera. Hataton wykorzystujący dane z API Warszawy. Warto tam zajrzeć.

Data Science Masters – najlepsze prace magisterskie z Data Science i Uczenia Maszynowego

DataScienceMasters_Mail_Banner 27.11

Do 20 stycznia 2018 można zgłaszać prace do konkursu Data Science Masters.
Zgłaszać można prace magisterskie obronione na dowolnej polskiej uczelni w latach 2016 lub 2017.

Data Science i Uczenie Maszynowe to dwie bardzo szerokie dziedziny. Aby je objąć w Jury znajdują się matematycy i informatycy z czterech różnych uczelni z szeroką gamą zainteresowań, od bioinformatyki, ekonometrii po Big Data czy analizę obrazów.

Łączna pula nagród to 8 500 zł, a prezentacja zwycięskiej pracy jest zaplanowana na dzień liczby Pi, czyli 14 marca.

Celem konkursu jest pokazanie jak ciekawe problemy rozwiązywane są w ramach prac magisterskich w Polsce. Mamy nadzieję, że będą one inspirowały przyszłe tematy prac.

Więcej informacji: https://www.datasciencemasters.edu.pl/

Storytelling w pracy badawczej analityka danych

MarekStaczek

Czy prezentacje statystyk lub narzędzi do analiz statystycznych mogą być porywające? Oczywiście, jeżeli tylko statystyki układają się w historię, a narzędzia służą odkryciu tej historii.

Najlepszym dowodem jest prezentacja Hansa Roslinga na TED 2006 wykorzystująca program Gapminder aby opowiedzieć o zmieniającej się demografii współczesnego świata.
Prezentacja ma ponad 10 lat, a wciąż oglądam ją z zainteresowaniem, ponieważ prof. Hans Rosling, jak nikt inny, zamienił rząd statystyk dotyczących dzietności i czasu życia w barwną wyprawę przez kontynenty i czas.

Idealnie pokazał przy tym możliwości narzędzia Gapminder (Trendalyzer), które kilka miesięcy później odkupił Google.

Warsztaty

Dlatego na wtorkowe seminarium badawcze grupy MI2DataLab zaprosiliśmy mistrza storytellingu – Marka Stączka, autora bloga http://stoslow.pl, oraz firmy szkoleniowej http://www.edisonteam.pl.

Magistranci, doktoranci i sympatycy naszej grupy mieli okazję przez godzinę uczestniczyć w warsztatach, a później mieliśmy sesję pytań i odpowiedzi.
Poniżej opiszę kilka wybranych rodzynków z tego spotkania.

Zainteresowani tematem znajdą sporo ciekawej treści na ww. stronach lub tutaj.

Po co?

Po co wykorzystywać storytelling w przypadku pracy badawczej? Gdy tworzymy nowe rozwiązania, algorytmy, narzędzia analizy danych, zależy nam by były one używane. Czasem wplecenie historii w opowieść o naszych algorytmach może pomóc. Dwa przykłady:

1) Przygotowujemy referat na konferencję. Przeciętna konferencja to 2-3 dni po 6-8 godzin wypełnionych 20-30 minutowymi referatami. W ciągu jednego dnia słyszymy o kilkunastu rozwiązaniach i w oczywisty sposób tylko kilka z nich zapamiętamy. Co zrobić aby to nasze rozwiązanie było zapamiętane? Spróbujemy znaleźć dla naszego rozwiązania znaleźć ciekawe zastosowanie!
Poświęćmy trochę czasu aby słuchacze dokładnie zrozumieli problem, który chcemy rozwiązać. Łatwiej będzie im zapamiętać nasze rozwiązanie gdy w pamięci będą mieli bardzo konkretną potrzebę, która do niego doprowadziła.
Nie tworzymy jeszcze jednego testu post-hoc, ale rozwiązujemy problem dotyczący istotności określania, które kraje mają istotnie różne wyniki w testach PISA.

2) Dobra historia ma bohaterów, których nazwy da się spamiętać. Opisując nasz nowy algorytm nadajmy mu też łatwą do zapamiętania nazwę. Bardzo często nazwy rozwiązań są bardzo długie, nie mieszczą się w jednej linii, długością przypominają streszczenie. ,,Odporny nieparametryczny test dla zbioru hipotez oparty o sekwencyjne kryterium wyboru grup.” Trudno tę nazwę odtworzyć po kilku minutach. Nawet jeżeli uda się komuś zrozumieć co nasze rozwiązanie robi, dobrze by było, by we właściwym czasie pamiętał też jak je znaleźć.

Czy zawsze?

Ciekawe wątki pojawiły się też podczas sesji z pytaniami.

1) Czy storytelling jest zawsze potrzebny? Czy do każdej prezentacji naukowej trzeba koniecznie szukać odpowiedniego story?
No cóż. Moim zdaniem nie.
Na przykład, kiedy jakość rozwiązania można łatwo ocenić za pomocą jednej, łatwo mierzalnej wartości, to lepiej się skupić na tej mierzalnej wartości.
Trzeba było mieć rozwiązanie z najmniejszym błędem predykcji, najmniejszą złożonością obliczeniową czy najlepszą kontrolę błędu?
Wystarczy pokazać, że nasze rozwiązanie jest najlepsze w tym kryterium.
Choć też warto pamiętać, że sytuacji w których jakość rozwiązania mierzy się łatwo jedną liczbą jest bardzo mało.

2) Jak szukać tej ciekawej historii dla naszego rozwiązania?
Gdy oglądamy dobrą prezentację to zazwyczaj nie widzimy, ile pracy trzeba było włożyć w jej przygotowanie. Zazwyczaj świetnych historii trzeba trochę poszukać. A jak już się znajdą to trzeba je doszlifować. Warto je więc opowiadać możliwe często.

Ciekawe konferencje w obszarze uczenia maszynowego w Warszawie

Konferencja WhyR zakończyła się zaledwie dwa tygodnie temu, a na horyzoncie wiele kolejnych ciekawych konferencji dla zainteresowanych uczeniem maszynowym. Cztery najbliższe, dziejące się w Warszawie to:

Screen Shot 2017-10-12 at 14.09.48Machine Learning Level Up to wydarzenie organizowane przez firmę Nethone z grupy DaftCode przy współpracy MI2DataLab. To cykl czterech spotkań po 1,5h. Pierwsze rozpocznie się 19 października. Na najbliższą edycję zapisy są już zakończone, ale można na szukać informacji o kolejnych wydarzeniach na naszym Facebooku.

logo code4life
Konferencja Code4Life odbędzie się 27 października. Konferencja organizowana przez firmę Roche związana z IT oraz rozwiązaniami z rynku usług medycznych. Wiele referatów związanych z przetwarzaniem języka naturalnego.

slider_2_14.11Na 14 listopada można szykować się na ML@Enterprise – wiele warsztatów połączonych z tutorialami (7 godzin), panel ,,ML nad Wisłą”, innymi słowy ciekawe wydarzenie.
I tutaj znajdziemy tematy wokół NLP, ale różnych tematów przewijających się przez tę konferencję jest zdecydowanie więcej.

Screen Shot 2017-10-12 at 14.18.37Miesiąc później, 15 grudnia, na MIM UW odbędzie się konferencja PL in ML: Polish View on Machine Learning organizowana przez koło studenckie ML.

Co się działo na hakatonie Urban Sensors?

IMG_0936

Hakaton Urban Sensors odbył się 26 września, dzień przed konferencją WhyR? Poniżej opiszę z jakimi danymi walczyliśmy i co ciekawego udało się zrobić.

Dane

Podczas tej jednodniowej imprezy pracowaliśmy z miejskimi danymi pochodzącymi z projektu VaVeL. Dokładniej z trzema źródłami danych:

  • Danymi online o położeniu autobusów i tramwajów w Warszawie. Poprzez interface REST pobieraliśmy szczegółową informację o tym gdzie znajdują się obecnie autobusy i tramwaje w Warszawie, ile są spóźnione, w którym kierunku jadą, kto je prowadzi, jaki jest najbliższy przystanek itp.
  • Danymi offline o położeniu autobusów i tramwajów. W plikach tekstowych mieliśmy zebrane informacje o położeniach autobusów i tramwajów przez cały lipiec i wrzesień. To całkiem spore dane. Logi dla jednego dnia zajmują średnio około 2.5GB.
  • Danymi offline z telefonii komórkowej. Dla poszczególnych stref Warszawy mieliśmy informacje ile było zdarzeń w sieci komórkowej w poszczególnych godzinach. Dane pokrywały lipiec i wrzesień. Te dane nie były tak duże jak informacje o ruchu pojazdów, ale były bardzo ciekawe.

IMG_0957

Warsztaty

Hakaton rozpoczął się od dwóch krótkich warsztatów. Pierwszy prowadzony przez Przemysława Biecek opisywał jak dostać się do danych. Drugi prowadzony przez Ewę Baranowską poświęcony był interaktywnej wizualizacji z użyciem biblioteki D3. Materiały wideo z obu warsztatów będą dostępne na stronie hakatonu w połowie października.

IMG_0989

Po warsztatach, uczestników hakatonu przywitali przedstawiciele partnerów projektu VaVeL. W kolejności wystąpienia, byli to: dziekan wydziału MiNI PW prof. Wojciech Domitrz; dyrektor Biura Cyfryzacji Miasta um. st. Warszawy, p. Tadeusz Osowski i dr Jarosław Legierski z Orange Labs.

IMG_1024

Uczestnicy z entuzjazmem zabrali się do pracy z danymi. Intensywna praca trwała do godziny 20 i zakończyła się wieloma ciekawymi rozwiązaniami.
Zadanie nie było proste, dane były gigantyczne i nie wszystkie zespoły zdecydowały się na zaprezentowanie rozwiązań. Ale te zaprezentowane były bardzo ciekawe.

Wyniki

Prezentacje rozpoczął projekt Jana Bajerskiego, pokazujący jak wyglądają wizualizacje przejazdów autobusów i tramwajów na tle danych rozkładowych. Do wizualizacji wykorzystano diagramy Mareya. Z opracowanym narzędziem można się pobawić na stronie http://vis.tram.waw.pl (wersja rozwojowa).
Diagramy Mareya okazują się fantastycznym narzędziem by śledzić czy pojazdy się spóźniają, gdzie są wąskie gardła, jak bardzo się spóźniają, jak wydłuża się czas podróży. Można też łatwo zauważyć, czy autobusy tej samej linii mają tendencje do tworzenia ,,stad” kilku pojazdów jadących blisko siebie.

IMG_1040

Kolejne rozwiązanie przedstawiła Ewa Baranowska. Pozwala ono w czasie rzeczywistym śledzić gdzie znajdują się obecnie autobusy i tramwaje w naszej okolicy. Interaktywna wizualizacja znajduje się na tej stronie.

IMG_1046

Następnie Adam Wróbel przedstawił przeprowadzoną statystyczną analizę opóźnień tramwajów. Modelowanie z użyciem modeli regresyjnych pozwala szukać linii narażonych na wysokie ryzyko opóźnienia. Ciekawym wynikiem była ujemna korelacja przyrostów opóźnienia z przesuniętymi wartościami. Oznacza to, że (zgodnie z intuicją) motorniczy jeżeli ma opóźnienie i może je nadrobić to je nadrabia, a jeżeli jedzie przed rozkładem to zwalnia by zlikwidować nadczas.

IMG_1054

Silny zespół z firmy Pearson w składzie Krzysztof Jędrzejewski, Mikołaj Olszewski, Mikołaj Bogucki, Mateusz Otmianowski, Kacper Łodzikowski przedstawił aplikację shiny, którą udało się błyskawicznie zbudować w czasie hakatonu. Aplikacja o wdzięcznej nazwie CzyZdążę.pl pozwala na sprawdzenie, dla planowanej trasy przejazdu, gdzie obecnie jest najbliższy tramwaj/autobus na który trzeba się spieszyć i ile średnio potrwa przejazd. To było niesamowite oglądać ile udało się temu zespołowi wykonać w ciągu zaledwie kilku godzin.

IMG_1078

Pearson nie był jedyną firmą licznie reprezentowaną na hakatonie. Ciekawe rozwiązanie zaprezentował również zespół analityków z GfK Polonia w składzie Natalia Okińczyc, Barbara Czarnota, Andrzej Surma, Agnieszka Fronczyk. Przygotowali analizę przystanków skazanych na największe opóźnienia wraz z animowanymi wykresami wykonanymi w pakiecie animation.

IMG_1096

Aplikacji skiny było więcej. Ciekawą analizę z użyciem biblioteki leaflet i shiny wykonał zespół z firmy Neuca (Karolina Mazanowska, Kamil Sieklucki). Ich wyniki znaleźć można na GitHubie.

IMG_1019

Obok zespołów analityków z jednej firmy, w hakatonie brały udział zespoły w barwach wydziałowych. Silny zespół 100 składający się głównie ze studentów, doktorantów i absolwentów MIM UW zaprezentował ciekawą analizę danych dotyczącą dużych wydarzeń w mieście i ich wpływu na ruch miejski.
Ich wstępna analiza znajduje się pod tym adresem.

IMG_0948

IMG_1087

Wiele z opracowanych rozwiązań, razem z prezentacjami z warsztatów, można znaleźć w repozytorium GitHub.
Na zakończenie zorganizowaliśmy konkurs na najbardziej innowacyjne rozwiązanie.

Zwyciężył zespół z firmy Pearson, wyprzedzając o zaledwie kilka głosów rozwiązanie zaprezentowane przez Jana Bajerskiego. Zwycięska drużyna otrzymała na pamiątkę Pałac Kultury z nadrukowanym wielkim R.

IMG_1108

Realizacja hakatonu była możliwa dzięki wsparciu ze strony organizatorów: Aleksandry Dąbrowskiej, Alicji Gosiewskiej, Klaudii Korniluk, Marcina Kosińskiego i Konrada Więcko; licznych ekspertów merytorycznych wspierających nas ze strony Urzędu Miasta Warszawa; przedstawicieli MiNI w osobie Grzegorza Bagrowskiego i Jarosława Legierskiego, którzy wiedzieli wszystko o danych; Krzysztof Wittelsa który wspierał nas organizacyjne ze strony Urzędu Miasta oraz całego zespołu projektu VaVeL, który przygotował infrastrukturę z którą mogliśmy pracować.

IMG_1104

Hakaton już się zakończył, ale nie jest to ostatnia inicjatywa związana z analizą tych szalenie ciekawych danych. Wkrótce informacja o kolejnych.

Rytm miasta, czyli z jakimi danymi będziemy pracować na Urban Sensors hakaton

animation

Już we wtorek rozpocznie się Urban Sensors, czyli jednodniowy hakaton oparty o miejskie dane z nowej platformy VaVeL.

Poza położeniami autobusów i tramwajów, jedno ze źródeł danych dostępnych dla hakujących, to informacja o liczbie notyfikacji od telefonów komórkowych ze stacjami bazowymi.

datetime,zoneid,intensity,geom4326,geom3857
2017-09-04 00:00:00,1,0.02072913149322,"MULTIPOLYGON(((20.9832771275726 52.259601516439,20.9876244827842 52.259569327517,20.9876244827865 52.259569327511,20.9875959970902 ...
2017-09-04 01:00:00,1,0.0135282957291873,"MULTIPOLYGON(((20.9832771275726 52.259601516439,20.9876244827842 52.259569327517,20.9876244827865 52.259569327511,20.9875959970902 ...
2017-09-04 02:00:00,1,0.011225094014391,"MULTIPOLYGON(((20.9832771275726 52.259601516439,20.9876244827842 52.259569327517,20.9876244827865 52.259569327511,20.9875959970902 ...

Animacja powyżej pokazuje jak aktywność telefonów pulsuje w rytmie dziennym.
Ścisłe centrum jak widać nie chodzi spać.
Miejscami widać dziwniejsze fluktuacje jak np. Dolinka Służewiecka wieczorem 16 września.

Rysunek poniżej przedstawia profil aktywności dla trzech wybranych punktów w okresie kilku dni.

Screen Shot 2017-09-23 at 00.55.18

Jak takie dane ciekawie zintegrować z położeniami autobusów i tramwajów?
Zobaczymy na hakatonie, a najciekawsze rozwiązania pokażemy na blogu.

Do przygotowania pierwszej animacji użyto pakietu animation i programu ImageMagick. Druga to oczywiście dziecko ggplot2 i sf.

Gdzie jest mój autobus? Urban Sensors hakaton – rejestracja otwarta do poniedziałku


Jeszcze do poniedziałku można się zgłaszać na Urban Sensors – jednodniowy hakaton, który odbędzie się w Warszawie 26 września na wydziale MiNI Politechniki Warszawskiej (Koszykowa 75) – dzień przed konferencją WhyR.

Podczas hakatonu uczestnicy otrzymają tokeny dostępowe do danych online i historycznych o położeniu autobusów i tramwajów w Warszawie.

Poniżej znajduje się wycinek danych z zajawką jakie zmienne są mierzone dla tramwajów. Poza położeniem tramwaju i brygady, mamy informacje o najbliższym i kolejnym przystanku, prędkości pojazdu, kierunku, opóźnieniu, statusie, brygadzie itp.

Więcej o hakatonie przeczytać można tutaj. Formularz rejestracji dostępny jest tutaj.