Program R przez lata rozwijał się jako narzędzie do nauki analizy danych. Świetnie się do tego nadaje i jest wykorzystywany na coraz większej liczbie uczelni i nie tylko. Im więcej miejsc, tym więcej pomysłów na to, jak przygotować środowisko w którym uczniowie mogą poznać tajniki analizy danych z użyciem R. Można pracować z gołym R i zbiorem skryptów, ale można też doświadczenie edukacyjne znacznie urozmaicić. Podczas konferencji useR 2015 wygłoszono kilka ciekawych referatów, pokazujących jak można wykorzystać R do nauki analizy danych. Poniżej przedstawię kilka tematów, które najbardziej przypadły mi do gustu.
1. Chris Wild z University of Auckland przedstawiał aplikację iNZight, którą nauczyciele w szkołach średnich wykorzystują do wciągnięcia uczniów w świat eksploracji danych, głównie przez wykresy i eksplorację graficzną. Prezentacja Chrisa była dynamiczna, było w niej wiele zdjęć aut marki Maserati, w intencji autora doświadczenia uczniów a analizą danych powinny być równie intensywne co jazda takim Gran Turismo po wąskich nowo-zelandzkich drogach. Aktualnie Chris i zespół pracują nad wersją webową iNZightLite. Oryginał pracował na tcl.tk, ale teraz w szkołach coraz częściej używa się tabletów zamiast normalnych desktopów, więc przechodzą na wersję www. Cała logika jest napisana w R, więc i wersja webowa jest w shiny. Projekt rozwijany jest na githubie. Całość jest w fazie beta i Chris szuka ludzi do pomocy przy testach. Zainstalowałem lokalną kopię do zabawy na serwerze grupy MI^2. Można samemu poeksperymentować z tą aplikacją, lub pokazać ją uczniom. Ciekawy jest np. zbiór danych o pensjach pracowników naukowych, np. gdy się je zacznie analizować w rozbiciu na płeć i stopień zawodowy.
2. Gail Potter z Cal Poly (w wolnym tłumaczeniu Politechnika Kalifornijska) przedstawiała zbiór aplikacji opracowanych w shiny, które pomagają w zrozumieniu określonych tematów. Aktualnie pod adresem http://statistics.calpoly.edu/shiny dostępnych jest 18 aplikacji pozwalających na eksperymenty z różnymi tematami. Niektóre realizacje są niestandardowe, np. gra w korelację (pokazywana jest chmura punktów i gracz musi ,,zgadnąć” współczynnik korelacji), inne bardziej klasyczne, np. te przedstawiające estymację największej wiarygodności czy rozkłady. Slajdy z prezentacji dostępne są tutaj.
3. Colin Rundel z Duke University przedstawiał wykorzystanie GitHuba do nauczania analizy danych. Samo użycie GitHuba nie jest tak pociągające jak użycie całego ekosystemu narzędzi do ciągłej integracji (załóżmy, że jest to polskie tłumaczenie z Continuous Integration) takich jak TravisCI, Wercker czy Drone. Co to za zwierzyniec? Problem z projektami studentów jest taki, że nawet jak wyślą zadanie czy pracę domową to często nie działa ono tak jak powinno. Zanim prowadzący znajdzie czas by zobaczyć zadanie, odpisać mijają dni. Powyższy zwierzyniec może uruchomić zbiór testów weryfikujących czy rozwiązanie jest poprawne a przynajmniej ,,czy się uruchamia”. Praktycznie natychmiastowy feedback dla ucznia i pewne odciążenie dla prowadzącego. Slajdy z prezentacji dostępne są tutaj.
4. Mine Cetinkaya-Rundel, też z Duke University pokazywała jak przygotować wygodne środowiska pracy dla studentów. W jej przypadku sprawdziła się integracja RStudio Web Server z docker. Dla studentów tworzone są osobne pojemniki z RStudio WebServer, przez co zdalnie mogą oni dostać się do sesji RStudio na której mogą pracować. Docker bierze na siebie wirtualizacje. Slajdy dostępne są tutaj.
5. Jonathan Cornelissen z Data Camp (szybko rozwijający się startup szukający swojego miejsca w działce szkoleń online dotyczących analizy danych) prezentował możliwość wykorzystania DataCamp do stworzenia własnego kursu online. Nacisk jest na wysoko interaktywny kurs, prowadzący ma możliwość bardzo szczegółowego śledzenia tempa uczenia się przez uczniów. Może podejrzeć rozwiązania, komentarze, zobaczyć z czym uczniowie mają problem a z czym nie. Po doświadczeniach z Pogromcami Danych, muszę przyznać, że platforma Data Camp wygląda obiecująco. Slajdy dostępne są tutaj.
Dzięki za wpis, jest bardzo interesujący. Zwłaszcza część o automatycznym sprawdzaniu prac domowych. 🙂
Swoją drogą mogą Cię zainteresować poniższe artykuły.
Z okazji 175lecia ASA opublikowano specjalny numer The American Statistician http://www.tandfonline.com/toc/utas20/current
Ciekawy wydaje się artykuł: Challenges and Opportunities for Statistics and Statistical Education: Looking Back, Looking Forward
Dodatkowo RSS stworzyło taki o to dokument (przyznam, że jeszcze się z nim nie zapoznałem) – Embedding Statistics at A level – http://www.rss.org.uk/Images/PDF/publications/embedding-statistics-at-a-level.pdf
Mam w planach przygotować takie automatyczne testy na zajęcia w przyszłym semestrze. Zobaczymy czy się sprawdzą.
Dzięki za linki, ten z ASA jest bardzo ciekawy.
I co znamienne ”where we are now” jest zrobiony w ggplot2 😉
Tylko dlaczego zajmuje prawie pół strony? 🙂