Jak kształcić Data Scientists / Badaczy Danych?

masterR
W drugiej połowie października miałem przyjemność uczestniczyć w trzech wydarzeniach, które z bardzo różnych perspektyw dotykały tytułowego pytania. Jedno z tych wydarzeń to biznesowa konferencja Think Big Congress BigData CEE. Badacze danych występowali głównie w roli poszukiwanego zasobu. Drugim, była konferencja Badania w edukacji organizowana przez IBE. Spotkanie osób zainteresowanych badaniami w edukacji, nauczaniem w tym również nauczaniem matematyki/informatyki. Dominowały tematy związane ze szkołą podstawową i średnią, ale w kuluarach można było też powymieniać się doświadczeniami z nauczania na uczeniach wyższych. Trzecim wydarzeniem był ostatni SER, na który przyszło wiele osób pracujących z danymi na co dzień. Przyszło powymieniać się nowinkami co tam w trawie piszczy.
Tak się też składa, że prowadząc zajęcia na MIM UW i MiNI PW mam jakiś wpływ na kształcenie czy to statystyków czy informatyków, zdarza mi się też uczestniczyć w dyskusjach dotyczących profilu kształcenia. Poniższy wpis to zbiór trzech wybranych wrażeń, przemyśleń i doświadczeń związanych z organizacją przestrzeni do kształcenia mitologicznych Badaczy Danych. Po jednym na jedną konferencję.

Analityk to osoba wiedząca jak wykorzystać dane aby znaleźć odpowiedzi, badacz danych to osoba wiedząca jak wykorzystać dane aby znaleźć właściwe pytania.

Podczas BigDataCongress Stephen Brobst, CTO Terradata, jako wyróżnik sylwetki badacza danych (w stosunku do zwykłego analityka) wskazał inicjatywę data scientista w stawianiu i weryfikowaniu hipotez. Umiejętność stawiania hipotez, konstruowania eksperymentu weryfikującego hipotezę i krytyczna analiza wyników eksperymentu to chleb powszedni w nauce. A i w biznesie ten sposób postępowania staje się coraz częstszy. Coraz więcej firm stosuje testy A/B badające empirycznie efektywność np. wariantów serwisu www. Coraz częściej chcąc przetestować bardzo wiele czynników dochodzi to potrzeby głębszego zaplanowania eksperymentu, pojawiają się pytania jak długo taki eksperyment powinien trwać itp. Czyste projektowanie eksperymentów, te same pytania co kilkadziesiąt lat temu miał Fisher, tyle że IT dysponuje teraz nieposkromionymi rzekami danych zamiast zacisznego poletka doświadczalnego.

Aby takie eksperymenty planować potrzebna jest inicjatywa. Jak budzić tę inicjatywę w młodych badaczach? Czy da się obudzić taką ciekawość świata, by każda tabela wyglądała jak źródło setek potencjalnych interesujących zależności?
Praca z ciekawymi danymi to jedno, możliwość prowadzenia tej pracy w sposób problemowy, wieloetapowy, iteracyjny to drugie.
Większość odpowiedzi uzyskanych z danych staje się punktem wyjścia do kolejnych pytań. Warto w badaczach wyrobić umiejętność szybkiego iterowania cyklu pytanie / odpowiedź.

Jak tę obserwację wykorzystać w nauczaniu na uczelni? Z pewnością dwa terminy egzaminu po semestralnym kursie nie są idealnym przykładem szybkiego feedbacku. Zamiast tego lepiej sprawdzić się mogą otwarte problemy stawiane w formule projektów.

Staram się zgłaszać dwa projekty na kurs. Projekty warto podzielić na fazy, tak by wyniki i wnioski z pierwszej fazy dało się wykorzystać w drugiej czy trzeciej iteracji. Równocześnie każdy zespół realizujący projekt może podejrzeć ciekawe rozwiązanie od innych zespołów. To bardzo ułatwia spojrzenie na problem z różnych perspektyw.
Przydatne są też prace domowe, najlepiej takie, które wymagają ,,zepsucia czegoś’’. Opracowania scenariusza w którym coś nie działa. Polecenie typu ,,znajdź scenariusz, w którym metoda X nie działa” pozostawia bardzo dużo pole do eksperymentów. Cała hakerka to badanie jak system/metoda zachowuje się w skrajnych sytuacjach. A co jeżeli 90% obserwacji to obserwacje odstające? Zobaczmy!

Czy łatwo tak prowadzić zajęcia? Nie jest łatwo. Pomijając ilość pracy przy sprawdzaniu tylu projektów i prac domowych, większym problemem może być opór studentów na bardzo otwarte problemy. Bez jasnych kryteriów oceny nagle stajemy w sytuacji gdy student traci punkty i otrzymuje niższą ocenę ponieważ czegoś nie zrobił. Ale w poleceniu wcale nie było napisane, że to należało zrobić.

I co wtedy?

Czasem pomaga komentarz, że pracodawcy nie patrzą na oceny ze studiów tylko na umiejętności (chyba, że planujemy studia doktoranckie). Czasem pomaga komentarz, że takie stresowe sytuacje na dłużej się zapamiętuje (brzmi okrutnie, prawda?). Po jakimś czasie może nawet uda się przekonać, że to nie o oceny chodzi w uczeniu się.

Jest wiele alternatyw dla podawczego stylu nauczania.

Podawczy styl nauczania to podawanie studentom wiedzy z poziomu katedry. Styl pracy: 1 (nauczyciel) – n (uczniów). Ja wiem, wy nie wiecie, więc mi tu nic nie kwestionować. Ja mówię, wy słuchacie i notujecie. Ok, nie musicie notować bo prezentacja jest w sieci, ale przynajmniej mi nie przeszkadzacie gdy mówię. Na uczelniach wyższych niestety zdarza się taki tryb pracy. W szkołach podstawowych i średnich też, choć tutaj jest coraz częściej słychać o nauczycielach eksperymentujących z innymi sposobami organizacji przestrzeni do nauki.

Innymi?

Tak, styl podawczy ma jakieś zalety (Nauczyciel ma wiedzę poukładaną i być może jest w stanie ją przekazać w sposób poukładany. Jednak dostępność źródeł jest teraz tak duża, że trudno znaleźć nauczyciela lepszego niż najlepszy podręcznik), ale warto próbować alternatyw.

Alternatywy to między innymi metody aktywizujące. Prowadzić zajęcia w formule warsztatu. Pracować w grupach. Zachęcać do wyrażania i konfrontowania opinii. W matematyce to trudne, ponieważ często prawda jest tylko jedna i jeżeli są dwie opinie, to często przynajmniej jedna z nich jest błędna. Ale w analizie danych różnice w opiniach to paliwo do zadawania kolejnych pytań, stawiania hipotez, planowania eksperymentów, szukaniu odpowiedzi.

Jedną z metod aktywizujących są burze mózgów. Świetnie nadają się do pokazania jak wiele różnych podejść do problemu można wymyślić. Ale przede wszystkim pozwalają na wybranie tego jednego podejścia, które będziemy realizować. Btw: moderowanie burzy mózgów wcale nie jest proste. Tutaj można znaleźć przydatny opis typowych etapów).

Aby było jasne. Nie zachęcam do przeprowadzania burzy mózgów na pierwszych zajęciach. Bez przygotowania ryzykujemy tym, że nikt nie zgłosi żadnego pomysłu i będziemy pół godziny stać przy pustej tablicy. Lub, co jeszcze gorsze, sami będziemy rzucać pomysłami (i znów metoda podawcza). Ale jak już grupa się przyzwyczai do dyskusji – wtedy jak najbardziej warto.

Dobrym przygotowaniem jest nieustanne proszenie studentów o komentowanie, konstruktywne krytykowanie prac innych studentów. Szukając tego co jest wartościowe w pracy studenta B, student A sam uświadomi sobie jak na jego pracę patrzą inni.

Oczywiście aktywizacja jest czymś trudnym. Jedna trzecia studentów jest nieśmiałych, jedna trzecia niezainteresowanych, a trzeci akurat rozchorował się i nie przyszedł. Bardzo często trzeba zacząć od przykładów czym jest, a czym nie jest konstruktywna krytyka.
Kiedyś próbowałem zwiększać liczbę osób komentujących dając punkty za pytania. Z perspektywy czasu uważam to jednak za zły pomysł. Taki system kontroli przez przydzielanie punktów często prowadzi do bardzo wypaczonych zachowań. Lepiej już powtarzać jak mantrę, dlaczego warto ćwiczyć dawanie i otrzymywanie krytycznych komentarzy.

Badacz danych to nie osoba, to zespół

Podczas ostatniego SERa Adolfo Álvarez powiedział ,, Data scientist is not defined by a person, but by a team’’. Historie o jednorożcach łączących w sobie znajomość 50 różnych technologii rozpalają nie jeden umysł, ale każdy kto pracował z danymi wie, że im większy projekt tym więcej osób jest w niego zaangażowanych. W zespole kluczowa jest komunikacja wyników opartych o dane, pytań dotyczących danych i umiejętność współpracy. Jeżeli zadajemy projekt i piętnujemy każdego, kto ośmieli się spojrzeć na, i wykorzystać rozwiązanie innej osoby, to raczej nie uczymy współpracy.

Praktyka, którą staram się wdrażać (nie od razu, ale jak już studenci trochę do mnie przywykną) to praca w często zmieniających się zespołach. Ideał, który czasem udaje się osiągnąć, to podzielenie dwugodzinnych zajęć na dwie części. Przez pierwszą godzinę pracujemy w 2-4 osobowych grupach nad określonym projektem. Podczas drugiej godziny permutujemy zespoły, w nowych zespołach trzeba szybko streścić co ,,stary zespół’’ określonej osoby robił przed przerwą, wybrać użyteczne części tego rozwiązania i połączyć z innymi.
Rozwiązania projektów i prac domowych przesyłamy przez GitHub, dzięki czemu każdy zespół może zobaczyć co ciekawego wymyśliły inne osoby. Przejrzysty jest też sposób oceniania, bo każdy widzi co i jak było oceniane u innych osób.

Oczywiście to, że sposób oceniania jest widoczny dla wszystkich wcale nie znaczy, że wszyscy się z nim zgadzają. Ale to też ciekawe doświadczenie.

Staram się aby kryteria oceny projektów proponowali sami studenci. Zastanawiamy się wspólnie, co sensownie byłoby oceniać i później to oceniam. Wyobraźcie sobie, że bardzo bardzo często dochodzi do sytuacji gdy studenci zgodnie stwierdzają, po oddaniu projektu ale przed jego oceną, że warto oceniać rzecz X, bo jest bardzo ważna. A później okazuje się, że nikt jej nie zrobił!
Ale czyż to nie jest wartościowe doświadczenie, gdy każdy zespół musi zmierzyć się z pytaniem co jego zdaniem powinno być dopracowane w projekcie?

Temat rzeka. Czy prawdziwy Data Scientist jest wykuwany w boju, hartowany na prezentacjach przed zarządem a szlifowany podczas freelancerskich projektów?
Może. Ale warto też na uczelniach tworzyć warunki bojowe, takie nad którymi prowadzący zachowuje odrobinę kontroli. Jeżeli macie ciekawe doświadczenia z zajęć to umieśćcie proszę w komentarzu lub prześlijcie mailem.

Aby uprawiać takie eksperymenty trzeba pracować ze studentami, którzy zgodzą się na wystawiania się poza strefę komfortu. Na szczęście akurat w tym obszarze jest wiele świetnych studentów. Na zakończenie przytoczę wypowiedź jednej z 21 najlepszych maturzystek w tym roku.

Nie wiem jeszcze, jaką uczelnię wybiorę, mam czas do namysłu. Zastanawiam się nad studiowaniem statystyki. To przyszłościowy kierunek. Może zajmę się data science, czyli analizą dużych zbiorów danych? Rynek pracy zmienia się szybko i nie warto planować na wiele lat do przodu. Najważniejsze to mieć otwarty umysł – mówi Sara.
Cała wypowiedź.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">