
Miesiąc temu Amerykańskie Towarzystwo Statystyczne (ASA) przedstawiło wskazówki dotyczące programu studiów statystycznych na poziomie undergraduate (licencjat / inżynier). Krótki ale bardzo ciekawy materiał. Polecam zapoznać się ze streszczeniem lub krótką prezentacją.
Najistotniejsze punkty tego dokumentu obejmują przedstawienie rosnącego zapotrzebowania na rozumienie danych w różnych obszarach i w nauce i w przemyśle [dotyczy to zarówno głębokiego specjalistycznego zrozumienia danych, jak i zrozumienia podstawowego wśród ,,zwykłych” analityków, kierowników i specjalistów] oraz konieczność uczenia zróżnicowanego warsztatu i solidnych podstaw.
Trzy inne ważne punkty, zaniedbywane w naszym krajowym kształceniu to:
1. Umiejętności komunikacji. Osoby analizujące dane powinno się nieustannie kształcić w prezentowaniu wyników szerszej i węższej publice. Zarówno jeżeli chodzi o język (unikać żargonu prezentując modele statystyczne), umiejętność wizualizacji danych jak i umiejętność zwięzłego przedstawiania tego co najważniejsze. To jest trudne, to jest bardzo trudne, te umiejętności warto rozwijać.
2. Wykorzystywania rzeczywistych danych. Łatwiej zrozumieć potrzebę analizy danych gdy ilustruje się ją na problemach z otaczającego nas świata. Ze smutkiem trzeba zauważyć, że są wydziały gdzie wykłada się statystykę bez przykładów na żadnych danych. Jest też sporo miejsc, gdzie przykłady sprowadzają się do używania danych typu iris (hej, niedługo będą obchodzić 80-lecie, czy ktoś w ogóle pamięta po co zebrano ten zbiór danych?).
3. Kształcenia ,,inżynierskich” umiejętności przetwarzania danych, łączenia, cięcia, grupowania, filtrowania danych. Operowania na danych z baz danych, hadoopa, web-API, plików tekstowych i binarnych. Większość pracy z danymi to czyszczenie danych, ale podczas czyszczenia poznajemy dane i lepiej potrafimy je później zamodelować. Praca na wyczyszczonych danych przypomina odtwarzanie szablonu, którego oczekuje prowadzący, nie widząc skąd te wymuskane dane się wzięły trudniej zaproponować własne podejście do ich analizy.
Prowadzę w tym semestrze zajęcia, podczas których dużo czasu przeznaczamy na czyszczenie danych, wykorzystujemy aktualnie ,,medialne” dane (wycieczki madryckie, wybory samorządowe) i ćwiczymy nieustanną, nieustanną, nieustanną komunikacje wyników (student2student, student2prowadzący).
Z początku było trudno, nie było prosto przełamać własne nawyki ,,uczenia podającego” (też wrażenia, że takie są oczekiwania studentów), kilka pomysłów zakończyło się fiaskiem (np. próba wprowadzenia systemu peer-review). Z perspektywy czasu widzę jednak, że formuła wprowadzania kolejnych tematów poprzez problemy na aktualnych danych daje znacznie więcej frajdy niż przekazywanie X kilogramów wiedzy objawionej. Nawet jeżeli pod koniec zajęć okazuje się, że o czymś nie zdążyliśmy powiedzieć albo czegoś nie zdążyliśmy skomentować.