Jedną z zaproszonych prelegentek na useR 2016 była Deborah Nolan z referatem ,,Statistical Thinking in a Data Science Course’’. Dora jest profesorem na Berkeley, zajmuje się między innymi technikami nauczania statystyki i napisała świetną książkę ,,Teaching Statistics: A Bag of Tricks’’. Jest też orędowniczką wizualizacji danych i poznawania statystyki przez eksperyment. W swoim referacie poruszyła kilka kwestii, które są mi bliskie i które uważam za ważne, więc poniżej przedstawię je miksując z własnymi doświadczeniami z prowadzenia zajęć w poprzednim semestrze. Całą prezentacje Dory można obejrzeć tutaj a grafiki w tym wpisie pochodzą z jej prezentacji.
Swoją drogą, podczas useR zorganizowane były dwie sesje poświęcone nauczaniu statystyki z użyciem R, jedną nawet miałem przyjemność moderować. Lista referatów z tych sesji znajduje się tutaj. Można też obejrzeć nagrania.
Wróćmy do prezentacji Dory.
Jedną z praktyk dotyczących nauczania statystyki z którą chciała się rozliczyć, jest podejście, że analiza eksploracyjna i wizualizacja danych jest dla dzieci, można tego uczyć w przedszkolu, ale nie wypada uczyć tego matematyków na studiach. Na studiach jest miejsce wyłącznie na teorię. Słowo wyłącznie jest tu użyte dosłownie. Nie jeden z nas doświadczył zajęć ze statystyki w których nie pojawiły się żadne [!] dane. Zdaniem Dory teoria jest bardzo ważna, ale drogą do niej są doświadczenia i intuicje zrodzone z EDA.
Czasem, nawet jeżeli dane się pojawiają, to często w charakterze obiadu w puszce. Dane tak przygotowane by zastosować do tych konkretnych danych jedną, jedyną właściwą, konkretną metodę, pokazać wyniki i lecieć dalej.
Tymczasem prawdziwa analiza danych dla niebanalnych problemów wygląda zupełnie inaczej.
Czasem w ogóle nie wiadomo co trzeba zrobić. A nawet jeżeli już wiadomo co zrobić to często nie wiadomo jaką metodą. Samo ustalanie co i jak może stanowić najtrudniejszy problem, który jest do rozwiązania.
Ok, wiemy już, że na zajęciach ze statystyki chcemy użyć danych i że chcemy by problemy były niebanalne. Jak to zrobić? Pomysł jest w sumie prosty, wprowadzić projekty oparte o współczesne, duże, bogate, złożone dane, związane z otwartymi pytaniami badawczymi.
Skąd brać takie projekty? Na naszych zajęciach na MIM UW czy MiNI PW udało się nawiązać współpracę z Ministerstwem Zdrowia, firmą Applica, działem badawczym Centrum Nauki Kopernik, Entuzjastami Edukacji i zespołem USOSa. Każdy z partnerów dał zbiór danych i wsparcie przy pozyskaniu wiedzy dziedzinowej. Dużych i ciekawych danych było więc sporo, do danych były dołączone dosyć otwarte problemy do rozwiązania.
Każdy projekt miał trzy fazy, co pozwoliło na stopniowe usprawnianie opracowanego rozwiązania, podsłuchanie tego co zrobiły inne grupy i ewentualne zaadaptowanie ich rozwiązań. Miłym bonusem była możliwość zaproszenia ekspertów dziedzinowych ze współpracujących instytucje na prezentacje projektów, dzięki czemu można wymienić się doświadczeniami z analiz (udało się między innymi zaprosić dyrektora IBE, capo di tutti capi USOSa, zrobić prezentacje w CNK).
[btw: Teraz szukam partnerów do projektów na przyszły rok, więc jeżeli Wasza firma/organizacja robi ciekawe rzeczy z ciekawymi danymi to zapraszam do kontaktu].
Co ciekawe, dyskusja po referacie Dory krążyła wokół obawy (wspólnej dla wielu krajów) ,,Ale nasi przełożeni są matematykami, nasi koledzy są matematykami, nasi studenci są matematykami, czy im się to spodoba?”. Odpowiedź prowadzącej była prosta. Jednym się spodoba, innym nie. Ale warto dać studentom trochę różnorodności. Bo na obecnie przematematyzowanej statystyce osoby preferujące doświadczalne podejście do analizy danych mogą nie znaleźć inspiracji. Może więc warto im pokazać, że analiza danych ma wiele oblicz i różne oblicza kręcą różne osoby.
Jak te projekty przyjeli moi studenci? Czy chciało im się spędzać godziny nad projektem, by sprawdzać co tam jeszcze można z tych danych wycisnąć? Czy studentom przyzwyczajonym do dowodzenia twierdzeń takie zajęcia mogą się w ogóle spodobać jeżeli za problemem do analizy nie stoi Google albo Microsoft?
Jednym tak innym nie. Znaleźli się studenci traktujący projekty jako zło konieczne. Wczytaj dane, wytrenuj las losowy, pokaż wynik, zapomnij. Ale trafiły się grupy robiące z danymi cuda. Na statystyce II znalazły się grupy, które do predykcji używały modeli mieszanych, regresji Poissona czy thin plate splines, choć żadnej z tych metod nie omawialiśmy na wykładzie [!!! i o to chodzi]. Na R i Duże Dane kilka zespołów wykorzystało łańcuchy markowa (których nie omawialiśmy na naszych zajęciach) i wywiązała się dyskusja czy założenia tej metody są w określonej sytuacji spełnione czy nie.
Jaka jest więc pointa? Dajmy studentom trochę różnorodności. Obok klasycznych matematycznych wykładów ze statystyki zróbmy miejsce na trochę szaleństwa w eksploracje danych mniej lub bardziej na oślep licząc, tak by uczyć się poruszać w gąszczu prawdziwych problemów. A nuż im się ten gąszcz spodoba.