histoRia R w Polsce @ tRzecie uRodziny SERa

histoRia
Najbliższe Spotkanie Entuzjastów R (9 marca 2017) będzie wyjątkowe. Świętujemy trzecie urodziny SERów i z tej okazji będzie kilka niespodzianek. Zamiast pizzy będą bąbelki i coś słodkiego, zamiast przerwy zrobimy sesje tematycznych okrągłych stolików aby spokojnie porozmawiać z innymi entuzjastami R, a zamiast referatu o tym co aktualnie dzieje się w R będzie referat o przeszłości, o tym jak wyglądały początki R w Polsce.

Mam poprowadzić ten referat, ale przecież nie znam całej historii R.
Mam więc wielką prośbę do Was!
Pomóżcie mi uzupełnić informacje o tym jak wyglądały początki R w Polsce. Kiedy jakie przedmioty pojawiły się na których uczelniach, kiedy w firmach pojawiły się duże i ciekawe rozwiązania/wdrożenia oparte o R, kiedy miały miejsca ciekawe spotkania związane z R. Kiedy działy się ciekawe rzeczy związane z R, co to były za rzeczy i kto je organizował.

Założyłem na GitHubie stronę do której można dodawać interesujące ciekawostki związane z historią R (https://github.com/mi2-warsaw/SER/blob/master/histoRia/README.md).
Jeżeli wiecie o aktywności, która powinna się w tym zestawieniu znaleźć, proszę dopiszcie, albo przez nowe issue, albo nowy pull request albo przez wysłanie mi emaila na adres przemyslaw.biecek na serwerze gmail.
Mogą to być wydarzenia z już wymienionych typów a mogą to być całkowicie nowe rzeczy.

Dziękuję i do zobaczenia na SERze!

How to hire a Data Scientist?


W poprzednim tygodniu odbyła się konferencja Big Data Technology Summit 2017. Organizatorom udało się osiągnąć dwa cele, było wiele ciekawych merytorycznych referatów oraz wielu ciekawych uczestników z którymi można porozmawiać w kuluarach. Podczas sesji round-table miałem przyjemność poprowadzić stolik How to hire a Data Scientist? Wrażenia z tego stolika opisuję poniżej.

Dyskusja potoczyła się zaskakująco, choć na początku było dosyć klasycznie

Wśród uczestników tego stolika było kilku przedstawicieli biznesu, którzy do swoich firm lub działów szukają data scientistów (dalej juz piszę DS by nie kaleczyć tak bardzo języka), były też osoby zainteresowane rozwojem w tym kierunku.
Na początku było dosyć standardowo, czyli narzekanie, że zrekrutować DSa jest trudno. LinkedIn jest mało skuteczny, bo specjaliści dostają po kilka ogłoszeń tygodniowo i już ignorują większość z nich więc trzeba szukać innych ścieżek.
Na pytanie, co z rekrutacją na możliwie wczesnym etapie, jeszcze studentów na uczelniach, pojawiły się odpowiedzi, że ważna jest obecność firmy na uczelni ale (uczestnicy stolika) nie rekrutują osób na stanowisko DS na wczesnych latach a raczej starają się zdobyć już doświadczonych pracowników.
Samo w sobie to ciekawa deklaracja. Być może aby zostać DSem trzeba najpierw zjeść trochę chleba pracując na bardziej klasycznym stanowisku? A może uczenie się przez całe życie jest wpisane w zawód DS, a łatwiej się uczyć gdy ma się solidne podstawy po ukończonych dobrych studiach.

Z konstruktywnych wniosków pojawiło się np. stwierdzenie, że to co przyciąga DSa to ciekawe projekty i dostęp do ciekawych danych. W perspektywie dłuższego zatrudnienia, jest to silniejszym magnesem niż kolejna podwyżka. Ten motywator działa słabiej podczas pierwszej pracy, która motywowana jest najczęściej tym, że koledzy/żanki na studiach już zarabiają a ja jeszcze nie, ale gdy szukamy specjalistów w DS to właśnie możliwość rozwoju w ciekawym środowisku staje się coraz ważniejsza.
Ale jak dać znać pracownikom, że w firmie dzieją się ciekawe rzeczy? Jednym z rozwiązań (choć wciąż mało popularnym) jest blog pokazujący co ciekawego dzieje się w środku firmy/zespołu.

Później było jeszcze ciekawiej

Z ciekawszych wątków, w dalszej dyskusji pojawiła się np. wątpliwość, czy w ogóle warto szukać i rekrutować DSów?
Po co się zastanawiać jak rekrutować, jeżeli nie mamy pewności, że nasz biznes jest już gotowy aby przyjąć do pracy nowych DSów? Nawet jeżeli mamy nadwyżkę w budżecie na zespół DS, to warto świadomie określić po co nam ten zespół. W przeciwnym razie zdobędziemy kilka osób, które przyjdą, popracują rok, zobaczą że ich analizy są na nic i sobie pójdą.

Jeden z cytatów, który wpadł mi w ucho, to ,,jak wiemy DSy obumierają w samotności”. Czyli aby DSy pracowali efektywnie potrzebują zespołu, a może nawet całego ekosystemu wspierającego i uzupełniającego ich pracę.
Ale to wymaga od biznesu zbudowania zaplecza złożonego z inżynierów, którzy postawią i utrzymają te wszystkie sparki, hive’y, skonfigurują spotowe instancje na AWSie tak by potrzebne dane były zebrane i dostępne.
Jak również zaplecza po stronie kierowników, dyrektorów i zarządu, które pomoże nowe rozwiązanie wdrożyć lub przynajmniej przetestować w biznesie.
Aby zbudować efektywny zespół DS trzeba w wypracować pewną kulturę pracy z danymi, jeżeli nawet nie w całej firmie, to przynajmniej w warstwie zarządczej.

A więc jak rekrutować te jednorożce zwane DSami?

Dobrym kierunkiem jest taka organizacja biznesu, by istniało wsparcie techniczne pozwalające na efektywny dostęp do danych oraz warstwa zarządcza gotowa na wdrożenie zmian sugerowanych przez dane.
Do takiego środowiska DSy same przyjdą jak do wodopoju, bo będą czuli, że ich wysiłek na coś się przełoży. A świat się skurczył i informacja o tym gdzie dzieją się ciekawe rzeczy a gdzie nieciekawe szybko się rozchodzi.

Gdy już takie środowisko zostanie zbudowane, to nie zaszkodzi umieścić ogłoszenia na portalu http://datahero.tech/ lub przyjść czasem na uczelnie z ciekawym referatem (np. na SERy).

Hakaton ‘Puls miasta’ @ WhyR 2017

WhyR to Ogólnopolska Konferencja Użytkowników R, która odbędzie się 27-29 września 2017 na Politechnice Warszawskiej (więcej o WhyR). Dzień przed konferencją (26 września) planujemy przeprowadzić bardzo ciekawy hakaton z wykorzystaniem naprawdę dużych miejskich danych.

Jakich danych?
Hakaton realizowany jest w ramach projektu VaVeL (więcej o VaVeL) w którym partnerem jest Ośrodek Badań dla Biznesu PW (więcej o OBB), dzięki czemu będziemy mieli dostęp do danych z najróżniejszych sensorów w Warszawie. Jakich sensorów? Przykładowo dane o położeniu każdego tramwaju i autobusu w praktycznie każdej chwili (live + spora historia), dane o natężeniu ruchu pieszego w różnych punktach miasta, z publicznych kanałów informacyjnych i z wielu innych źródeł (rysunek po prawej to ślad z jednego dnia po sensorach z tramwaju 22). Masa danych. Mikołaj w tym roku przychodzi we wrześniu.

Jak to ogarnąć?
W ramach warsztatów poprowadzimy bezpłatne mini-wykłady z technologii BigData-owych, takich jak Hadoop czy Hive, dzięki czemu uczestnicy będą mogli i będą wiedzieć jak dostać się do tych gigantycznych zasobów. Ale nawet jeżeli ktoś nie przepada za żółtymi słoniami będzie mógł pracować na przetworzonych skrawkach danych lub też będzie mógł wesprzeć zespół od strony wizualizacji, burzy mózgów, tworzenia aplikacji mobilnych czy innych aplikacji.

Co będziemy robić?
Zbieramy różne pomysły na hackaton, ale liczymy też na burzę mózgów podczas samego wydarzenia. Analiza danych oceniających zatłoczenie przystanków na Mordorze? Aplikacja informująca ile się średnio spóźnia linia 10 w okolicach godziny 16? Wizualizacja transferu mieszkańców w różnych godzinach. Zobaczymy co z tego wyjdzie.

Jak się zarejestrować?
Więcej informacji o rejestracji pojawi się po feriach zimowych. Z pewnością warto śledzić stronę konferencji WhyR.

MIMUW vs SuperFarmer

screen-shot-2017-01-04-at-23-02-08
W 1997 roku DeepBlue (IBM) wygrał z mistrzem szachowym Garri Kasparowem.
W 2011 roku Watson (IBM) wygrał w Jeopardy! z dwoma mistrzami Bradem Rutterem i Kenem Jenningsem.
W 2016 roku AlphaGo (Google) wygrał w go z jednym z najlepszych graczy Lee Sedolem.
A w tym semestrze, pod przykrywką zajęć z programowania w R i wizualizacji danych, studenci z MIM UW walczą z grą SuperFarmer. Szukamy strategii wygrywającej (w jakimś sensie).

SuperFarmer to gra wydana przez Granna na bazie gry Hodowla Zwierzątek, którą opracował matematyk, Karol Borsuk, profesor Uniwersytetu Warszawskiego. Zasady są dosyć proste, przez co można grać nawet z małymi dziećmi. Gra jest bardzo dynamiczna i przyjemna nawet dla wytrawnych / starszych graczy.

Póki co, najlepsza znaleziona przez studentów strategia ma medianowy czas gry 34 kroki (tj. w grze jednoosobowej dla najlepszej strategii, połowa gier kończy się zwycięstwem przed 34 krokiem).

rozkladliczbyruchow

Czytaj dalej MIMUW vs SuperFarmer

Muffinki pod choinkę (2.0)!

6014_2
Pierwszy nakład Muffinek rozszedł się błyskawicznie i od ponad tygodnia nie było ich w księgarniach, ale dzięki sprawnej pracy drukarni uzupełniliśmy nakład.

Jak długo żyją Muffinki od wczoraj (ponownie) u dystrybutora, a od dzisiaj w księgarniach. Czas realizacji jest taki, że jeszcze powinny dojść pod choinkę, więc gdyby ktoś był zainteresowany to zachęcam.

Opowiadanie ,,JAK SZYBKO UROSNĘ?” zostało w grudniu opublikowane w Małej Delcie i Delcie. Do pobrania jako html i pdf. Swoją drogą, więcej miałem z tego frajdy niż z publikacji w JSS, Delta rulez!

How to weigh a dog with a ruler? (looking for translators)


We are working on a series of comic books that introduce statistical thinking and could be used as activity booklets in primary schools. Stories are built around adventures of siblings: Beta (skilled mathematician) and Bit (data hacker).

What is the connection between these comic books and R? All plots are created with ggplot2.

The first story (How to weigh a dog with a ruler?) is translated to English, Polish and Czech. If you would like to help us to translate this story to your native language, just write to me (przemyslaw.biecek at gmail) or create an issue on GitHub. It’s just 8 pages long, translations are available on Creative Commons BY-ND licence.

Click images below to get the comic book:
In English
bb_en

In Polish
bb_pl

In Czech
bb_cz

The main point of the first story is to find the relation between Height and Weight of different animals and then assess the weight of dinosaur T-Rex based only on the length of its skeleton. A method called Regression by Eye.

bb_rel

Zgłoszenia na ,,Konkurs na najgorszy wykres roku 2016”

Kontynuując tradycję konkursów na najgorszy wykres roku (tutaj edycja 2015, tutaj 2014, tutaj 2013 czy a tutaj 2012) ogłaszam nabór zgłoszeń na Konkurs na najgorszy wykres roku 2016.

Zgłaszać można dowolny wykres, który był prezentowany w 2016 roku, czy to na portalach internetowych, czy mediach społecznościowych czy konferencjach branżowych.

W tym konkursie, ,,najgorszy” oznacza najbardziej nieczytelny, zniekształcający dane lub wypaczający prezentowaną historię.

Już kilka grafik mam, są naprawdę niezłe, ale im więcej kandydatów tym ciekawsi zwycięzcy. Propozycje wykresów czy infografik proszę przesyłać mailowo lub dodawać w komentarzach poniżej.

Czas na przesyłanie zgłoszeń: do 20 grudnia. Konkurs na najgorszą grafikę jest zaplanowany na ostatni tydzień roku.

Rozwój statystyki w Polsce

bedlewo
(zdjęcie ze strony IMPAN)

Na trwającej właśnie w Będlewie konferencji Statystyka Matematyczna (strona www), obradował ,,Zespół do spraw rozwoju statystyki matematycznej i jej zastosowań’’, który pracuje przy Komisji Statystyki, Komitetu Matematyki Polskiej Akademii Nauk (strona www komisji). Będąc członkiem zespołu stwierdziłem, że pewne punkty zebrania mogą być ciekawe dla szerszego grona statystyków.

Jednym z punktów pracy zespołu, była prezentacja dr. hab. Jacka Leśkowa pt. ,,Możliwości rozwoju statystyki w Polsce”. Prezentacja poświęcona ścieżce awansu naukowego w statystyce w Polsce, problemom związanym z dydaktyką statystyki i perspektywom rozwoju statystyki we współpracy z przemysłem/biznesem. Za zgodą autora umieszczam link do tej prezentacji (link tutaj).

Czytaj dalej Rozwój statystyki w Polsce

RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016


Jutro (czwartek 24 listopada) o 18 w budynku MiNI PW (Koszykowa 75, Warszawa) rozpocznie się XXI Spotkanie Entuzjastów R. Tym razem poświęcony zastosowaniom R, statystyki i informatyki do analizy danych genetycznych i medycznych.

Pierwszym prelegentem będzie Dariusz Ratman z Roche. Tytuł jego prezentacji to: Automating gene expression analysis and visualisation with R/Bioconductor: bringing genomics results to scientists

Drugą prezentację poprowadzą Alicja Szabelska-Beręsewicz, i Joanna Zyprych-Walczak.
Temat: Dyskusja biologa ze statystykiem w towarzystwie R – czyli jak znaleźć przydatne informacje w bezmiarze danych biologicznych.

Czytaj dalej RBioMeSs + Show me Shiny, czyli ostatnie dwa SERy w 2016

Jak szybko urosnę? Czyli co ma wspólnego Singapur i BetaBit


Ze strony projektu BetaBit można pobrać plik pdf z opowiadaniem ,,Jak szybko urosnę?”. Pierwszym opowiadaniem ze zbioru ,,Jak długo żyją Muffinki?”. Niedługo pojawią się wersje elektroniczne kolejnych opowiadań.
Przez stronę projektu można też zakupić papierową wersję opowiadań lub komiksów.


Tematem przewodnim pierwszego opowiadania jest pytanie: kiedy będę wystarczająco wysoki/wysoka aby móc przejechać się kolejką górską? Szybkie kolejki mają ograniczenie na minimalny wzrost i czasem nawet stanie na palcach nie pomaga. A ten temat to świetna wymówka by porozmawiać o rozkładach wzrostu różnych dzieci w tym samym wieku.

Ale co wspólnego ma to opowiadanie z Singapurem?

Jakiś czas temu znajoma z Centrum Nauki Kopernik przywiozła mi z singapurskiego Art Science Museum książeczkę do pracy z dziećmi pod tytułem ,,Big Band Data”.
A co jest w środku? Ćwiczenia praktyczne na pracę z danymi, wizualizację, planowanie procesu analizy danych od ich zebrania po modelowanie.

O tak! Umiejętność korzystania z danych jest w rozwiniętych gospodarkach równie potrzebna jak umiejętność pisania i czytania. Trzeba więc pokazywać od młodych lat co i jak można z danymi zrobić.

Czasem spotykam się z głosami marud, że to pieśń przyszłości i trzeba poczekać jeszcze z 50 lat. Ale właśnie przykład z Singapuru pokazuje, że nie ma na co czekać.
Dzieci są ciekawe świata a ten można im pokazać przez pryzmat liczb.
Ale jeżeli można w Singapurze to można też w Polsce!

Więcej o projekcie BetaBit i dostępnych w nim materiałach można przeczytać na stronie http://betabit.wiki/.