Storytelling w pracy badawczej analityka danych

MarekStaczek

Czy prezentacje statystyk lub narzędzi do analiz statystycznych mogą być porywające? Oczywiście, jeżeli tylko statystyki układają się w historię, a narzędzia służą odkryciu tej historii.

Najlepszym dowodem jest prezentacja Hansa Roslinga na TED 2006 wykorzystująca program Gapminder aby opowiedzieć o zmieniającej się demografii współczesnego świata.
Prezentacja ma ponad 10 lat, a wciąż oglądam ją z zainteresowaniem, ponieważ prof. Hans Rosling, jak nikt inny, zamienił rząd statystyk dotyczących dzietności i czasu życia w barwną wyprawę przez kontynenty i czas.

Idealnie pokazał przy tym możliwości narzędzia Gapminder (Trendalyzer), które kilka miesięcy później odkupił Google.

Warsztaty

Dlatego na wtorkowe seminarium badawcze grupy MI2DataLab zaprosiliśmy mistrza storytellingu – Marka Stączka, autora bloga http://stoslow.pl, oraz firmy szkoleniowej http://www.edisonteam.pl.

Magistranci, doktoranci i sympatycy naszej grupy mieli okazję przez godzinę uczestniczyć w warsztatach, a później mieliśmy sesję pytań i odpowiedzi.
Poniżej opiszę kilka wybranych rodzynków z tego spotkania.

Zainteresowani tematem znajdą sporo ciekawej treści na ww. stronach lub tutaj.

Po co?

Po co wykorzystywać storytelling w przypadku pracy badawczej? Gdy tworzymy nowe rozwiązania, algorytmy, narzędzia analizy danych, zależy nam by były one używane. Czasem wplecenie historii w opowieść o naszych algorytmach może pomóc. Dwa przykłady:

1) Przygotowujemy referat na konferencję. Przeciętna konferencja to 2-3 dni po 6-8 godzin wypełnionych 20-30 minutowymi referatami. W ciągu jednego dnia słyszymy o kilkunastu rozwiązaniach i w oczywisty sposób tylko kilka z nich zapamiętamy. Co zrobić aby to nasze rozwiązanie było zapamiętane? Spróbujemy znaleźć dla naszego rozwiązania znaleźć ciekawe zastosowanie!
Poświęćmy trochę czasu aby słuchacze dokładnie zrozumieli problem, który chcemy rozwiązać. Łatwiej będzie im zapamiętać nasze rozwiązanie gdy w pamięci będą mieli bardzo konkretną potrzebę, która do niego doprowadziła.
Nie tworzymy jeszcze jednego testu post-hoc, ale rozwiązujemy problem dotyczący istotności określania, które kraje mają istotnie różne wyniki w testach PISA.

2) Dobra historia ma bohaterów, których nazwy da się spamiętać. Opisując nasz nowy algorytm nadajmy mu też łatwą do zapamiętania nazwę. Bardzo często nazwy rozwiązań są bardzo długie, nie mieszczą się w jednej linii, długością przypominają streszczenie. ,,Odporny nieparametryczny test dla zbioru hipotez oparty o sekwencyjne kryterium wyboru grup.” Trudno tę nazwę odtworzyć po kilku minutach. Nawet jeżeli uda się komuś zrozumieć co nasze rozwiązanie robi, dobrze by było, by we właściwym czasie pamiętał też jak je znaleźć.

Czy zawsze?

Ciekawe wątki pojawiły się też podczas sesji z pytaniami.

1) Czy storytelling jest zawsze potrzebny? Czy do każdej prezentacji naukowej trzeba koniecznie szukać odpowiedniego story?
No cóż. Moim zdaniem nie.
Na przykład, kiedy jakość rozwiązania można łatwo ocenić za pomocą jednej, łatwo mierzalnej wartości, to lepiej się skupić na tej mierzalnej wartości.
Trzeba było mieć rozwiązanie z najmniejszym błędem predykcji, najmniejszą złożonością obliczeniową czy najlepszą kontrolę błędu?
Wystarczy pokazać, że nasze rozwiązanie jest najlepsze w tym kryterium.
Choć też warto pamiętać, że sytuacji w których jakość rozwiązania mierzy się łatwo jedną liczbą jest bardzo mało.

2) Jak szukać tej ciekawej historii dla naszego rozwiązania?
Gdy oglądamy dobrą prezentację to zazwyczaj nie widzimy, ile pracy trzeba było włożyć w jej przygotowanie. Zazwyczaj świetnych historii trzeba trochę poszukać. A jak już się znajdą to trzeba je doszlifować. Warto je więc opowiadać możliwe często.

Ciekawe konferencje w obszarze uczenia maszynowego w Warszawie

Konferencja WhyR zakończyła się zaledwie dwa tygodnie temu, a na horyzoncie wiele kolejnych ciekawych konferencji dla zainteresowanych uczeniem maszynowym. Cztery najbliższe, dziejące się w Warszawie to:

Screen Shot 2017-10-12 at 14.09.48Machine Learning Level Up to wydarzenie organizowane przez firmę Nethone z grupy DaftCode przy współpracy MI2DataLab. To cykl czterech spotkań po 1,5h. Pierwsze rozpocznie się 19 października. Na najbliższą edycję zapisy są już zakończone, ale można na szukać informacji o kolejnych wydarzeniach na naszym Facebooku.

logo code4life
Konferencja Code4Life odbędzie się 27 października. Konferencja organizowana przez firmę Roche związana z IT oraz rozwiązaniami z rynku usług medycznych. Wiele referatów związanych z przetwarzaniem języka naturalnego.

slider_2_14.11Na 14 listopada można szykować się na ML@Enterprise – wiele warsztatów połączonych z tutorialami (7 godzin), panel ,,ML nad Wisłą”, innymi słowy ciekawe wydarzenie.
I tutaj znajdziemy tematy wokół NLP, ale różnych tematów przewijających się przez tę konferencję jest zdecydowanie więcej.

Screen Shot 2017-10-12 at 14.18.37Miesiąc później, 15 grudnia, na MIM UW odbędzie się konferencja PL in ML: Polish View on Machine Learning organizowana przez koło studenckie ML.

MI^2 Data Talks

MI2 DataLab logo
Z początkiem semestru ruszamy z nowym seminarium badawczym w DataLabie.

Seminarium skierowane jest do osób zainteresowanych pracą badawczą w obszarze tworzenia narzędzi (metodologii i softu) do modelowania statystycznego.

Na zmianę będziemy mieć referaty o:

* jak tworzyć dobre oprogramowanie statystyczne (GiHub, Travis, Continuous Integration, Czysty Kod),
* jak komunikować wyniki swoich badań (przygotowanie prezentacji, artykułu, plakatu na konferencje, cheatsheetu),
* Journal Club.

Lista tematów kolejnych spotkań dostępna jest na stronie http://mi2.mini.pw.edu.pl/index.php/kalendarz-spotkan/

Spotykamy się we wtorki w godzinach 12-14 w DataLab (pokój 44, Koszykowa 75, Warszawa). Zapraszamy.