Z pamiętnika nauczyciela akademickiego… Trening data scienistów a skoki o tyczce

Pochodzi ze strony https://pl.wikipedia.org/wiki/Skok_o_tyczce

Zakończyłem niedawno trwający pół roku eksperyment dydaktyczny dotyczący sposobu oceniania w nauczaniu data scientistów/stosowanych statystyków.
Dziedzina zobowiązuje. Prowadząc zajęcia trzeba eksperymentować w poszukiwaniu lepszych rozwiązań, zbierać dane i na ich podstawie planować zmiany.

Czy oceny są ważne?

Czy w nauczaniu jakiegoś przedmiotu ważne są kryteria oceny?
To dosyć ciekawa kwestia.
Gdy prowadzę szkolenia poza uczelnią, nikt się nie dopytuje po warsztatach ,,Jaka ocenę dostałem?”. Uczestnikom wystarczy świadomość, że czegoś się nauczyli i wiedzą czego.
Ale w jakiś magiczny osób, mury uczelni sprawiają, że kryteria oceny stają się istotne.
Wiele (większość?) studentów traktuje ocenę i kryteria oceny jako pierwszoplanowy wyznacznik co należy na danym kursie robić.
No cóż, można z tym podejściem walczyć, ale nie można go ignorować.
Ten wpis poświęcony jest w całości kryteriom oceny, bez zagłębianie się w treść kursu.

Po co zmiana?

Poprzednio opisywane i testowane formuły oceny zajęć (1, 2, 3, 4, 5 i inne) oparte były o zbiór zadań/aspektów projektu (realizowanego w grupie) niezależnie ocenianych.
Przykładowo dwa lata temu projekt dotyczył zebrania i analizy danych o tym co media piszą o kandydatach na prezydenta.
Niezależnie ocenianym kryterium była (1) jakość kodu R, (2) sposób prezentacji wyników, (3) bogactwo i (4) złożoność pobranych danych, (5)zastosowana metodologia analizy, itp.

Pomimo, że studenci raczej dobrze przyjmowali taki sposób oceny (ciekawe projekty, można je realizować w grupie, nakierowane na praktyczną weryfikacje pozyskanej wiedzy) to mnie nie podobały się dwa elementy.

Po pierwsze każdy z aspektów był bardzo szeroki i złożony, przez co ocena np. w skali 0-10 staje się uznaniowa (ocena złożonego procesu jest zawsze uznaniowa, ale tutaj poziom swobody przeszkadzał mi).
Dlaczego jakość kodu oceniona jest na 5 a nie 6 punktów?
Samo spisywanie argumentów za i przeciw ocenami każdego etapu każdego zespołu zajmowało mi więcej czasu niż przygotowanie materiałów na zajęcia.

Po drugie gdy projekt podzieli się na wiele części i każdą oceni niezależnie, to okazuje się, że zazwyczaj żadna z części nie jest idealna ale tez żadna nie jest beznadziejna, wiec rozkład punktów zbiega do jakiegoś Gaussa.

Trzeba spróbować czegoś innego.

Ale o co chodzi?

Przedmiotem eksperymentu był sposób oceny postępów prac nad określonym zagadnieniem. Ten sposób był testowany w lecie 2016/2017 na wydziałach MiNI PW (Warsztaty Badawcze) i MIM UW (Modele Liniowe).

Sam pomysł na eksperyment najłatwiej przedstawić korzystając z analogii do skoków o tyczce.
Jak ktoś skoczy 6,17m to rekord świata, jak 6 to rekord Polski, 5m to długość tyczki itp.
Aby skoczyć wysoko liczy się wiele czynników, ale to jak wysoko się skoczyło po prostu widać.
Zorganizujmy więc kryteria oceny złożone z poprzeczek umieszczonych na różnych poziomach trudności, tak by w ramach realizacji projektu uczestnicy wiedzieli jak złożony problem potrafią rozwiązać.

A jak to wygląda w akademickich warunkach?
Część zaliczenia związana z projektem (czasem są jeszcze inne składowe – egzamin lub prace domowe) jest podzielona na 5 (na PW) lub 10 (na UW) części – etapów. Aby podejść do realizacji etapu n+1 trzeba wcześniej zrealizować etap n.
Kolejne etapy są coraz trudniejsze i są związane z wykonaniem określonego modelu/zadania.

Etapy oceniane są 0-1, zrealizowanie wszystkich etapów to 100% z projektu.

Gdyby ktoś chciał zobaczyć jak wyglądały poziomy trudności na Warsztatach Badawczych, to może je podejrzeć tutaj: https://github.com/pbiecek/WarsztatyBadawcze/tree/master/MiNI_2017
A na modelach liniowych
https://github.com/pbiecek/LinearModels/tree/master/MIMUW_2017
Starałem się tak kalibrować poziom trudności, by dla doświadczonej osoby był to 1-2 dni solidnej pracy.

Co na to studenci?

Dla obu grup przygotowałem ankietę z pytaniami o to czy trudność była odpowiednio dobrana i czy sposób oceny był adekwatny. Odpowiedzi było znacznie więcej niż połowa zarejestrowanych studentów, więc choć w sumie studentów nie było zbyt wielu (~40) to odpowiedzi traktuję jako reprezentatywne.

Z premedytacją ankieta została wysłana studentom dwukrotnie. Raz na chwilę przed końcowym wystawieniem punktów/ocen i raz po tym jak poznali swoje punkty i oceny.

W przypadku pytania o kalibracje trudności właściwie wszyscy potwierdzili że zadania nie były ani za trudne ani za łatwe, może z lekką przewagą w kierunku ,jednak trudne’. Co było dla mnie dużym zaskoczeniem, ponieważ jedynie pojedynczy studenci zrealizowali 80%+ projektu.

Co ciekawe, odpowiedzi studentów na pytanie ,czy ten sposób oceny jest dobry dla warsztatowej formy zajęć’ różniły się znacznie w zależności od tego czy odpowiedź padła przed czy po ocenie.
Odpowiedzi wysłane przed poznaniem końcowej oceny oscylowały blisko środkowej, neutralnej odpowiedzi ,nadaje się’. Podczas gdy po tym jak studenci poznali swoje punkty i oceny odpowiedzi zaczęły przyjmować skrajne wartości.
Większość ‘idealnie pasuje’ ale znalazła się też jedna odpowiedź ‘te zajęcia wymagają innego sposobu oceniania’, osoby która zgłosiła rozwiązanie, które nie zostało zaakceptowane. To większe zróżnicowanie przypisuję temu, że studenci zobaczyli że nie wystarczy tylko zrobić dany punkt ale trzeba go zrobić dobrze. Zobaczyli też jak wyglądają komentarze – feedback to ich zgłoszeń.
Mnie akurat taki rozkład odpowiedzi cieszy. Zawsze znajdą się niezadowolone osoby, ale dobrze że są też tacy, co akurat na tym przedmiocie odnaleźli coś dla siebie.

Jeżeli chodzi o wyrywki z komentarzy studentów, to przytoczę kilka wskazujących silne strony tego sposobu oceniania

,,…Jasno określone kryteria oceniania i adekwatnie oceniony wkład pracy…”
,,…Informacje zwrotne na każdym etapie też są bardzo cenne…”
,,…Umiejętność prowadzenia dużych projektów jest bardzo ważna, a pomijana w nauczaniu większości przedmiotów na wydziale…”

i te przypisane do słabych stron tego sposobu oceniania.

,,…Ocena binarna sprawia że nie ma motywacji żeby starać się bardziej niż niezbędne minimum…”
,,…Jak to na pańskich zajęciach, projekt zajmuje dużo czasu, pełen semestr takich przedmiotów to by było za dużo…”

Pointa

Generalnie to jestem zadowolony z tej formuły oceniania. Zderzenie z naprawdę dużym projektem, z jasno zarysowanym planem realizacji, z rosnącym poziomem trudności jednocześnie z krokami których łatwość wykonania zależy od jakości rozwiązań w poprzednim etapie – to nowe na uczelni, ciekawe i myślę że kształcące doświadczenie.

Oceny z tego semestru były jednymi z najniższych w ostatnich latach które wystawiłem (niewiele osób wykonało 80% projektu). Dawno już nie było tyle trójek czy braków zaliczenia, a liczbę piątek w dwóch grupach można pokazać na palcach jednej ręki.
Jak się jednak okazuje, studentom (w większości) to nie przeszkadza, a wręcz daje możliwość poważniejszego sprawdzenia się w realizacji dużego, złożonego i wymagającego projektu.

Kilka rzeczy z pewnością zmienię w kolejnym semestrze.

Pierwszą będzie większa komponenta indywidualna. Teraz, przez to, że cały projekt był realizowany w zespole, dało się odczuć że niektóre elementy zespołu bezkarnie wkładały w projekt mniejszy wysiłek. Po kilku latach eksperymentów z ocenianiem zespołowych projektów widzę, że jednak czysta składowa indywidualna jest bardzo ważna.
Drugą będzie wprowadzenie dwóch (prostszych) projektów. Niestety jeden projekt rozciągnięty w czasie powoduje, że mniej przyzwyczajone to tego sposobu pracy osoby zaczynają coś robić pod koniec semestru, gdy już jest na wszystko za późno. Dwa projekty pozwalają zarówno na przeprowadzenie projektu zespołowego jak i indywidualnego.

Doświadczenia / pomysły na inne eksperymenty edukacyjne?
W przyszłym semestrze prowadzę dwa super ciekawe przedmioty (programowanie w R i techniki wizualizacji danych).
To wymarzone miejsce na testowanie pomysłów na projekty edukacyjne.

1 czerwca – otwarcie MI^2 DataLab


Od kilku miesięcy na wydziale MiNI Politechniki Warszawskiej trwają prace nad przygotowaniem DataLabu.
Zajmowały one ostatnio większość mojej uwagi, tym bardziej miło mi poinformować, że oficjalne otwarcie DataLab odbędzie się już w najbliższy czwartek!
Uroczyste przecięcie wstęgi planowane jest na 11:30, a pomiędzy 12:00 – 16:00 będzie można przyjść, rozejrzeć się i porozmawiać o projektach, możliwościach biernej lub czynnej współpracy.

Na otwarcie przygotowane są różne atrakcje, można np. wygrać Lego Mindstorm lub wziąć udział w dwóch warsztatach:
– Pierwszy ,,Reinforcement Learning – jak nauczyć maszynę wygrywać z człowiekiem?” odbędzie się w czwartek 16:30 – 19:00 (liczba miejsc ograniczona, zapisy http://bit.ly/2q75jUi).
– Drugi ,,Tajniki druku 3D dla początkujących” odbędzie się w piątek 14:00-18:00 (liczba miejsc ograniczona, zapisy http://bit.ly/2qKX3bl).
Słyszałem też coś o molekularnym barze.

Ale o co chodzi?

DataLab powstał na wzór MediaLabów i Hakerspaceów.
To miejsce w którym będziemy prowadzić zaawansowane warsztaty, badania i prace rozwojowe związane z tworzeniem nowych narzędzi analizy i wizualizacji danych.
Lab będzie przestrzenią otwartą dla osób, które mają czas, motywację i energię aby pogłębiać swoje umiejętności analityczne, głównie doktorantów, ale też zainteresowanych studentów lub osoby pracujące przy ciekawych projektach.
Journal club, dostęp do nowych technologii, mini-warsztaty hands-on, wyposażona biblioteczka, środowisko nastawione na zaawansowane modelowanie matematyczno-statystyczne, tego możecie się spodziewać po tej przestrzeni do pracy kreatywnej.

Zainteresowany wzięciem udziału a naszych projektach?
Przyjdź na otwarcie!

DataLab wyposażyła nam firma Nethone z grupy Daftcode.

Archipelag Matematyki


Wydział MiNI PW prowadzi MiNI Akademię Matematyki, czyli spotkania i konkursy dla uczniów szkół ponad gimnazjalnych i nauczycieli. W poprzedni piątek miało miejsce uroczyste zakończenie roku na MiNI Akademii Matematyki, podczas którego pokazano kilka bardzo ciekawych filmików wyprodukowanych w ramach projektu Archipelag Matematyki.

Filmiki są pełne matematycznego (i nie tylko) humoru, który o rozpuku rozbawił moje dzieci a uśmiech wywołał nawet u mnie. Poniżej podpinam trzy filmiki dostępne na youtube. Kolejne mają pojawić się wkrótce na tym kanale (dostępne są od jakiegoś czasu, ale ja się o nich dowiedziałem dopiero w piątek na Akademii). Smaczku tym filmikom dodaje fakt, że marynarzy grają zawodowi matematycy z wydziału MiNI.

Archipelag Matematyki Odcinek 01: “Hotel Hilberta”

Archipelag Matematyki Odcinek 02: “Kartograf van der Graaf”

Archipelag Matematyki Odcinek 04: “Syreni śpiew”

Studia doktoranckie z Data Science

Screen Shot 2017-05-07 at 18.11.58

Obrazek po prawej to link do Keep pushing. The illustrated guide to a Ph.D. Matt Might. Warto obejrzeć jako wprowadzenie do poniższego postu.

Wspólne studia doktoranckie MIM UW + MiNI PW

Bezpośrednim powodem przygotowania tego wpisu jest otwarcie jesienią wspólnych studiów doktoranckich przez dwa świetne wydziały matematyczno-informatyczne: Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego oraz Matematyki i Nauk Informacyjnych Politechniki Warszawskiej. Na obu wydziałach można bronić doktoraty albo z informatyki albo z matematyki i oba te wydziały prowadzą studia w obu kierunkach. Ale też na obu wydziałach te dwie ścieżki mają wiele przecięć splatających się wokół czegoś co dziś określa się jako Data Science.

Przygotowuję ten wpis, ponieważ gdy sam robiłem doktorat o pewnych procesach miałem mgliste lub żadne wyobrażenie co doprowadziło do różnych, nie zawsze dobrych, decyzji. To co prawda było już kilkanaście lat temu, ale jak się okazuje pewne wątki są wciąż aktualne a pewne rozterki dotykają kandydatów na studia doktoranckie niezależnie od pokolenia i koniunktury. Od lat pracuję na wydziale, który prowadzi studia doktoranckie, współpracuję z działami badawczymi różnych dużych firm, w których pracują doktoranci i często rozmawiam z osobami przed, w trakcie lub świeżo po doktoracie i wiele z tych osób ma bardzo podobne wątpliwości co do studiów doktoranckich. Stwierdziłem, że szerzej podzielę się moim (bardzo subiektywnym) spojrzeniem na temat wartości takich studiów.

Czytaj dalej Studia doktoranckie z Data Science

123…

Jerzy_Neyman2
Dzisiaj mamy rocznicę 123 urodzin Jerzego Neymana. Jerzy Spława-Neyman to jeden z twórców częstościowego podejścia do testowania, prawdopodobnie najbardziej znany ze sformułowania procesu testowania hipotez jako problem optymalizacji funkcji mocy testu. Współautor lematu Neymana-Pearsona.

Jerzy Neyman doktorat zrobił na Uniwersytecie Warszawskim, jego egzaminatorami byli Wacław Sierpiński i Stefan Mazurkiewicz. Plotka głosi, że ci wybitni matematycy widzieli w Neymanie talent, ale to czym się zajmował nie pasowało do ich definicji matematyki (odwieczny problem na linii matematyka-statystyka). Wysłali go więc do Wielkiej Brytanii aby się sprawdził wśród innych statystyków. Sprawdził się, został np. ForMemRS.

W życiorysie Jerzego Neymana jest wiele polskich akcentów, np. ten, że stworzył w Instytucie Nenckiego laboratorium Biometrii (tak, Nencki to ten Instytut PAN po drugiej stronie ulicy Pasteura). Koniec końców Neyman został jednak profesorem na Berkeley. Zapraszał tam wielu polskich matematyków i statystyków, np. Witolda Kloneckiego, który później opowiadał nam rozmaite anegdotki.

Więcej o Neymanie można przeczytać na stronach AMS lub Wikipedii.

Poland: Into the light

Siedzę sobie na konferencji Contemporary Oncology, słucham keynote’a z Kalifornii (Nicholas Schork) a ten mówi, że niecały miesiąc temu w Nature / Careers (Nature, to prawdopodobnie obok Science najbardziej rozpoznawane naukowe czasopismo), był artykuł o tym jak szybko się rozwija polska nauka (z uwagi na czasopismo głównie chodzi o nauki o życiu).

Artykuł o tytule Poland: Into the light jest w całości dostępny online. Ku pokrzepieniu serc ;-)

Sprawozdania krajowe Komisji Europejskiej

Marcin Grynberg zwrócił moją uwagę na niedawno opublikowane sprawozdania krajowe Komisji Europejskiej poświęcone (między innymi) sytuacji ekonomicznej krajów członkowskich. Sprawozdanie poświęcone Polsce jest dostępne tutaj.
Nieduże (niecałe 50 stron plus załączniki) ale konkretne i ciekawe.
Przykładowo, można w nim znaleźć informacje dotyczące konsekwencji reformy emerytalnej i jej wpływu na wysokość emerytury (polecam wykres 3.3.2) czy prognozy co do wysokości długu publicznego (polecam wykres 3.1.2).
Poniżej odniosę się do trzech innych wątków poruszanych w tym sprawozdaniu. Tematów związanych z nauką, badaniami i edukacją.


Po prawej wykres prezentujący wydatki publiczne na R&D (czy z polska BiR) zestawione z ilością wysoko cytowanych publikacji. Pozycja Polski w tym zestawieniu jest zaznaczona czerwoną kropką.
Komentarz nie jest chyba potrzebny, ograniczę się jedynie do cytatu ze sprawozdania: ‘Niewielki stopień komercjalizacji wyników badań naukowych oraz słabe powiązania między sektorem nauki i sektorem biznesu ograniczają zdolność innowacyjną gospodarki.’





Kolejny wykres, który zwrócił moją uwagę dotyczy liczby uczniów rozpoczynających naukę w 1 klasie szkoły średniej (wykres po lewej).
W 2019 roku ma to być ponad 350 tys. uczniów a w 2024 roku poniżej 100 tys uczniów.
Ponad 4x mniej.
Później te fale uderzą o wrota uczelni wyższych.
Konsekwencja szybkich reform poprzedniego rządu (między innymi dwa lata na przejście z wiekiem rozpoczęcia szkoły podstawowej na 6 lat) i galopujących reform obecnego (1 rok na przejście ze startem podstawówki na 7 lat).
Cytat z raportu: Reforma systemu szkolnictwa od września 2017 r. budzi szereg obaw wśród zainteresowanych podmiotów.


Niektóre wskaźniki wglądają dobrze. Bezrobocie nadal spada, płace średnie (powoli) rosną.
Cytat: Przewiduje się, że spodziewane niekorzystne zmiany na rynku pracy spowodują szybszy wzrost płac i potencjalnie niedobór pracowników.
Cytat: Po kilku latach silnego wzrostu dochodów nierówności zmniejszyły się i ich poziom jest obecnie niższy od średniej unijnej.




Uważam, że jednym z największych wyzwań jest demografia. Więc i to zestawienie wykresów kończę rysunkiem związanym z prognozami demograficznymi. Zgodnie z prognozą zakładającą zerową migrację w ciągu 35 lat liczba osób w wieku produkcyjnym zmniejszy się o 19%. A czy produktywność i innowacyjność przyszłych pracowników zwiększy się wystarczająco by zrekompensować mniejsza liczbę rąk do pracy?



Całe sprawozdanie można pobrać i w języku angielskim i polskim.

histoRia R w Polsce @ tRzecie uRodziny SERa

histoRia
Najbliższe Spotkanie Entuzjastów R (9 marca 2017) będzie wyjątkowe. Świętujemy trzecie urodziny SERów i z tej okazji będzie kilka niespodzianek. Zamiast pizzy będą bąbelki i coś słodkiego, zamiast przerwy zrobimy sesje tematycznych okrągłych stolików aby spokojnie porozmawiać z innymi entuzjastami R, a zamiast referatu o tym co aktualnie dzieje się w R będzie referat o przeszłości, o tym jak wyglądały początki R w Polsce.

Mam poprowadzić ten referat, ale przecież nie znam całej historii R.
Mam więc wielką prośbę do Was!
Pomóżcie mi uzupełnić informacje o tym jak wyglądały początki R w Polsce. Kiedy jakie przedmioty pojawiły się na których uczelniach, kiedy w firmach pojawiły się duże i ciekawe rozwiązania/wdrożenia oparte o R, kiedy miały miejsca ciekawe spotkania związane z R. Kiedy działy się ciekawe rzeczy związane z R, co to były za rzeczy i kto je organizował.

Założyłem na GitHubie stronę do której można dodawać interesujące ciekawostki związane z historią R (https://github.com/mi2-warsaw/SER/blob/master/histoRia/README.md).
Jeżeli wiecie o aktywności, która powinna się w tym zestawieniu znaleźć, proszę dopiszcie, albo przez nowe issue, albo nowy pull request albo przez wysłanie mi emaila na adres przemyslaw.biecek na serwerze gmail.
Mogą to być wydarzenia z już wymienionych typów a mogą to być całkowicie nowe rzeczy.

Dziękuję i do zobaczenia na SERze!

How to hire a Data Scientist?


W poprzednim tygodniu odbyła się konferencja Big Data Technology Summit 2017. Organizatorom udało się osiągnąć dwa cele, było wiele ciekawych merytorycznych referatów oraz wielu ciekawych uczestników z którymi można porozmawiać w kuluarach. Podczas sesji round-table miałem przyjemność poprowadzić stolik How to hire a Data Scientist? Wrażenia z tego stolika opisuję poniżej.

Dyskusja potoczyła się zaskakująco, choć na początku było dosyć klasycznie

Wśród uczestników tego stolika było kilku przedstawicieli biznesu, którzy do swoich firm lub działów szukają data scientistów (dalej juz piszę DS by nie kaleczyć tak bardzo języka), były też osoby zainteresowane rozwojem w tym kierunku.
Na początku było dosyć standardowo, czyli narzekanie, że zrekrutować DSa jest trudno. LinkedIn jest mało skuteczny, bo specjaliści dostają po kilka ogłoszeń tygodniowo i już ignorują większość z nich więc trzeba szukać innych ścieżek.
Na pytanie, co z rekrutacją na możliwie wczesnym etapie, jeszcze studentów na uczelniach, pojawiły się odpowiedzi, że ważna jest obecność firmy na uczelni ale (uczestnicy stolika) nie rekrutują osób na stanowisko DS na wczesnych latach a raczej starają się zdobyć już doświadczonych pracowników.
Samo w sobie to ciekawa deklaracja. Być może aby zostać DSem trzeba najpierw zjeść trochę chleba pracując na bardziej klasycznym stanowisku? A może uczenie się przez całe życie jest wpisane w zawód DS, a łatwiej się uczyć gdy ma się solidne podstawy po ukończonych dobrych studiach.

Z konstruktywnych wniosków pojawiło się np. stwierdzenie, że to co przyciąga DSa to ciekawe projekty i dostęp do ciekawych danych. W perspektywie dłuższego zatrudnienia, jest to silniejszym magnesem niż kolejna podwyżka. Ten motywator działa słabiej podczas pierwszej pracy, która motywowana jest najczęściej tym, że koledzy/żanki na studiach już zarabiają a ja jeszcze nie, ale gdy szukamy specjalistów w DS to właśnie możliwość rozwoju w ciekawym środowisku staje się coraz ważniejsza.
Ale jak dać znać pracownikom, że w firmie dzieją się ciekawe rzeczy? Jednym z rozwiązań (choć wciąż mało popularnym) jest blog pokazujący co ciekawego dzieje się w środku firmy/zespołu.

Później było jeszcze ciekawiej

Z ciekawszych wątków, w dalszej dyskusji pojawiła się np. wątpliwość, czy w ogóle warto szukać i rekrutować DSów?
Po co się zastanawiać jak rekrutować, jeżeli nie mamy pewności, że nasz biznes jest już gotowy aby przyjąć do pracy nowych DSów? Nawet jeżeli mamy nadwyżkę w budżecie na zespół DS, to warto świadomie określić po co nam ten zespół. W przeciwnym razie zdobędziemy kilka osób, które przyjdą, popracują rok, zobaczą że ich analizy są na nic i sobie pójdą.

Jeden z cytatów, który wpadł mi w ucho, to ,,jak wiemy DSy obumierają w samotności”. Czyli aby DSy pracowali efektywnie potrzebują zespołu, a może nawet całego ekosystemu wspierającego i uzupełniającego ich pracę.
Ale to wymaga od biznesu zbudowania zaplecza złożonego z inżynierów, którzy postawią i utrzymają te wszystkie sparki, hive’y, skonfigurują spotowe instancje na AWSie tak by potrzebne dane były zebrane i dostępne.
Jak również zaplecza po stronie kierowników, dyrektorów i zarządu, które pomoże nowe rozwiązanie wdrożyć lub przynajmniej przetestować w biznesie.
Aby zbudować efektywny zespół DS trzeba w wypracować pewną kulturę pracy z danymi, jeżeli nawet nie w całej firmie, to przynajmniej w warstwie zarządczej.

A więc jak rekrutować te jednorożce zwane DSami?

Dobrym kierunkiem jest taka organizacja biznesu, by istniało wsparcie techniczne pozwalające na efektywny dostęp do danych oraz warstwa zarządcza gotowa na wdrożenie zmian sugerowanych przez dane.
Do takiego środowiska DSy same przyjdą jak do wodopoju, bo będą czuli, że ich wysiłek na coś się przełoży. A świat się skurczył i informacja o tym gdzie dzieją się ciekawe rzeczy a gdzie nieciekawe szybko się rozchodzi.

Gdy już takie środowisko zostanie zbudowane, to nie zaszkodzi umieścić ogłoszenia na portalu http://datahero.tech/ lub przyjść czasem na uczelnie z ciekawym referatem (np. na SERy).

Hakaton ‘Puls miasta’ @ WhyR 2017

WhyR to Ogólnopolska Konferencja Użytkowników R, która odbędzie się 27-29 września 2017 na Politechnice Warszawskiej (więcej o WhyR). Dzień przed konferencją (26 września) planujemy przeprowadzić bardzo ciekawy hakaton z wykorzystaniem naprawdę dużych miejskich danych.

Jakich danych?
Hakaton realizowany jest w ramach projektu VaVeL (więcej o VaVeL) w którym partnerem jest Ośrodek Badań dla Biznesu PW (więcej o OBB), dzięki czemu będziemy mieli dostęp do danych z najróżniejszych sensorów w Warszawie. Jakich sensorów? Przykładowo dane o położeniu każdego tramwaju i autobusu w praktycznie każdej chwili (live + spora historia), dane o natężeniu ruchu pieszego w różnych punktach miasta, z publicznych kanałów informacyjnych i z wielu innych źródeł (rysunek po prawej to ślad z jednego dnia po sensorach z tramwaju 22). Masa danych. Mikołaj w tym roku przychodzi we wrześniu.

Jak to ogarnąć?
W ramach warsztatów poprowadzimy bezpłatne mini-wykłady z technologii BigData-owych, takich jak Hadoop czy Hive, dzięki czemu uczestnicy będą mogli i będą wiedzieć jak dostać się do tych gigantycznych zasobów. Ale nawet jeżeli ktoś nie przepada za żółtymi słoniami będzie mógł pracować na przetworzonych skrawkach danych lub też będzie mógł wesprzeć zespół od strony wizualizacji, burzy mózgów, tworzenia aplikacji mobilnych czy innych aplikacji.

Co będziemy robić?
Zbieramy różne pomysły na hackaton, ale liczymy też na burzę mózgów podczas samego wydarzenia. Analiza danych oceniających zatłoczenie przystanków na Mordorze? Aplikacja informująca ile się średnio spóźnia linia 10 w okolicach godziny 16? Wizualizacja transferu mieszkańców w różnych godzinach. Zobaczymy co z tego wyjdzie.

Jak się zarejestrować?
Więcej informacji o rejestracji pojawi się po feriach zimowych. Z pewnością warto śledzić stronę konferencji WhyR.