Z pamiętnika nauczyciela akademickiego… Trening data scienistów a skoki o tyczce

Pochodzi ze strony https://pl.wikipedia.org/wiki/Skok_o_tyczce

Zakończyłem niedawno trwający pół roku eksperyment dydaktyczny dotyczący sposobu oceniania w nauczaniu data scientistów/stosowanych statystyków.
Dziedzina zobowiązuje. Prowadząc zajęcia trzeba eksperymentować w poszukiwaniu lepszych rozwiązań, zbierać dane i na ich podstawie planować zmiany.

Czy oceny są ważne?

Czy w nauczaniu jakiegoś przedmiotu ważne są kryteria oceny?
To dosyć ciekawa kwestia.
Gdy prowadzę szkolenia poza uczelnią, nikt się nie dopytuje po warsztatach ,,Jaka ocenę dostałem?”. Uczestnikom wystarczy świadomość, że czegoś się nauczyli i wiedzą czego.
Ale w jakiś magiczny osób, mury uczelni sprawiają, że kryteria oceny stają się istotne.
Wiele (większość?) studentów traktuje ocenę i kryteria oceny jako pierwszoplanowy wyznacznik co należy na danym kursie robić.
No cóż, można z tym podejściem walczyć, ale nie można go ignorować.
Ten wpis poświęcony jest w całości kryteriom oceny, bez zagłębianie się w treść kursu.

Po co zmiana?

Poprzednio opisywane i testowane formuły oceny zajęć (1, 2, 3, 4, 5 i inne) oparte były o zbiór zadań/aspektów projektu (realizowanego w grupie) niezależnie ocenianych.
Przykładowo dwa lata temu projekt dotyczył zebrania i analizy danych o tym co media piszą o kandydatach na prezydenta.
Niezależnie ocenianym kryterium była (1) jakość kodu R, (2) sposób prezentacji wyników, (3) bogactwo i (4) złożoność pobranych danych, (5)zastosowana metodologia analizy, itp.

Pomimo, że studenci raczej dobrze przyjmowali taki sposób oceny (ciekawe projekty, można je realizować w grupie, nakierowane na praktyczną weryfikacje pozyskanej wiedzy) to mnie nie podobały się dwa elementy.

Po pierwsze każdy z aspektów był bardzo szeroki i złożony, przez co ocena np. w skali 0-10 staje się uznaniowa (ocena złożonego procesu jest zawsze uznaniowa, ale tutaj poziom swobody przeszkadzał mi).
Dlaczego jakość kodu oceniona jest na 5 a nie 6 punktów?
Samo spisywanie argumentów za i przeciw ocenami każdego etapu każdego zespołu zajmowało mi więcej czasu niż przygotowanie materiałów na zajęcia.

Po drugie gdy projekt podzieli się na wiele części i każdą oceni niezależnie, to okazuje się, że zazwyczaj żadna z części nie jest idealna ale tez żadna nie jest beznadziejna, wiec rozkład punktów zbiega do jakiegoś Gaussa.

Trzeba spróbować czegoś innego.

Ale o co chodzi?

Przedmiotem eksperymentu był sposób oceny postępów prac nad określonym zagadnieniem. Ten sposób był testowany w lecie 2016/2017 na wydziałach MiNI PW (Warsztaty Badawcze) i MIM UW (Modele Liniowe).

Sam pomysł na eksperyment najłatwiej przedstawić korzystając z analogii do skoków o tyczce.
Jak ktoś skoczy 6,17m to rekord świata, jak 6 to rekord Polski, 5m to długość tyczki itp.
Aby skoczyć wysoko liczy się wiele czynników, ale to jak wysoko się skoczyło po prostu widać.
Zorganizujmy więc kryteria oceny złożone z poprzeczek umieszczonych na różnych poziomach trudności, tak by w ramach realizacji projektu uczestnicy wiedzieli jak złożony problem potrafią rozwiązać.

A jak to wygląda w akademickich warunkach?
Część zaliczenia związana z projektem (czasem są jeszcze inne składowe – egzamin lub prace domowe) jest podzielona na 5 (na PW) lub 10 (na UW) części – etapów. Aby podejść do realizacji etapu n+1 trzeba wcześniej zrealizować etap n.
Kolejne etapy są coraz trudniejsze i są związane z wykonaniem określonego modelu/zadania.

Etapy oceniane są 0-1, zrealizowanie wszystkich etapów to 100% z projektu.

Gdyby ktoś chciał zobaczyć jak wyglądały poziomy trudności na Warsztatach Badawczych, to może je podejrzeć tutaj: https://github.com/pbiecek/WarsztatyBadawcze/tree/master/MiNI_2017
A na modelach liniowych
https://github.com/pbiecek/LinearModels/tree/master/MIMUW_2017
Starałem się tak kalibrować poziom trudności, by dla doświadczonej osoby był to 1-2 dni solidnej pracy.

Co na to studenci?

Dla obu grup przygotowałem ankietę z pytaniami o to czy trudność była odpowiednio dobrana i czy sposób oceny był adekwatny. Odpowiedzi było znacznie więcej niż połowa zarejestrowanych studentów, więc choć w sumie studentów nie było zbyt wielu (~40) to odpowiedzi traktuję jako reprezentatywne.

Z premedytacją ankieta została wysłana studentom dwukrotnie. Raz na chwilę przed końcowym wystawieniem punktów/ocen i raz po tym jak poznali swoje punkty i oceny.

W przypadku pytania o kalibracje trudności właściwie wszyscy potwierdzili że zadania nie były ani za trudne ani za łatwe, może z lekką przewagą w kierunku ,jednak trudne’. Co było dla mnie dużym zaskoczeniem, ponieważ jedynie pojedynczy studenci zrealizowali 80%+ projektu.

Co ciekawe, odpowiedzi studentów na pytanie ,czy ten sposób oceny jest dobry dla warsztatowej formy zajęć’ różniły się znacznie w zależności od tego czy odpowiedź padła przed czy po ocenie.
Odpowiedzi wysłane przed poznaniem końcowej oceny oscylowały blisko środkowej, neutralnej odpowiedzi ,nadaje się’. Podczas gdy po tym jak studenci poznali swoje punkty i oceny odpowiedzi zaczęły przyjmować skrajne wartości.
Większość ‘idealnie pasuje’ ale znalazła się też jedna odpowiedź ‘te zajęcia wymagają innego sposobu oceniania’, osoby która zgłosiła rozwiązanie, które nie zostało zaakceptowane. To większe zróżnicowanie przypisuję temu, że studenci zobaczyli że nie wystarczy tylko zrobić dany punkt ale trzeba go zrobić dobrze. Zobaczyli też jak wyglądają komentarze – feedback to ich zgłoszeń.
Mnie akurat taki rozkład odpowiedzi cieszy. Zawsze znajdą się niezadowolone osoby, ale dobrze że są też tacy, co akurat na tym przedmiocie odnaleźli coś dla siebie.

Jeżeli chodzi o wyrywki z komentarzy studentów, to przytoczę kilka wskazujących silne strony tego sposobu oceniania

,,…Jasno określone kryteria oceniania i adekwatnie oceniony wkład pracy…”
,,…Informacje zwrotne na każdym etapie też są bardzo cenne…”
,,…Umiejętność prowadzenia dużych projektów jest bardzo ważna, a pomijana w nauczaniu większości przedmiotów na wydziale…”

i te przypisane do słabych stron tego sposobu oceniania.

,,…Ocena binarna sprawia że nie ma motywacji żeby starać się bardziej niż niezbędne minimum…”
,,…Jak to na pańskich zajęciach, projekt zajmuje dużo czasu, pełen semestr takich przedmiotów to by było za dużo…”

Pointa

Generalnie to jestem zadowolony z tej formuły oceniania. Zderzenie z naprawdę dużym projektem, z jasno zarysowanym planem realizacji, z rosnącym poziomem trudności jednocześnie z krokami których łatwość wykonania zależy od jakości rozwiązań w poprzednim etapie – to nowe na uczelni, ciekawe i myślę że kształcące doświadczenie.

Oceny z tego semestru były jednymi z najniższych w ostatnich latach które wystawiłem (niewiele osób wykonało 80% projektu). Dawno już nie było tyle trójek czy braków zaliczenia, a liczbę piątek w dwóch grupach można pokazać na palcach jednej ręki.
Jak się jednak okazuje, studentom (w większości) to nie przeszkadza, a wręcz daje możliwość poważniejszego sprawdzenia się w realizacji dużego, złożonego i wymagającego projektu.

Kilka rzeczy z pewnością zmienię w kolejnym semestrze.

Pierwszą będzie większa komponenta indywidualna. Teraz, przez to, że cały projekt był realizowany w zespole, dało się odczuć że niektóre elementy zespołu bezkarnie wkładały w projekt mniejszy wysiłek. Po kilku latach eksperymentów z ocenianiem zespołowych projektów widzę, że jednak czysta składowa indywidualna jest bardzo ważna.
Drugą będzie wprowadzenie dwóch (prostszych) projektów. Niestety jeden projekt rozciągnięty w czasie powoduje, że mniej przyzwyczajone to tego sposobu pracy osoby zaczynają coś robić pod koniec semestru, gdy już jest na wszystko za późno. Dwa projekty pozwalają zarówno na przeprowadzenie projektu zespołowego jak i indywidualnego.

Doświadczenia / pomysły na inne eksperymenty edukacyjne?
W przyszłym semestrze prowadzę dwa super ciekawe przedmioty (programowanie w R i techniki wizualizacji danych).
To wymarzone miejsce na testowanie pomysłów na projekty edukacyjne.

2 myśli na temat “Z pamiętnika nauczyciela akademickiego… Trening data scienistów a skoki o tyczce”

  1. Bardzo ciekawy wpis, mam tez swoje przemyślenia w tej kwestii ale postaram się to na spokojnie opisać w mailu.

    W tym semestrze miałem zajęcia z wykorzystaniem kaggle. Projekt wydawał mi się ciekawy ale to co było największym problemem to znajmomosc pakietów statystycznych w ogóle. Nie tylko R chociaż w tym prowadziłem zajęcia. To był największy problem z projektem.

    W jakiś sposób sprawdzasz przed zajęciami znajomość narzędzi? Stosujesz jakieś wyrównanie poziomu?

    Oczywiście były tez skrajne komentarze w stylu “nie mam czasu uczyć się R bo mam inne przedmioty” ale i pozytywne “nauczyliśmy się jak korzystać z narzędzi do analizy danych”.

    Wydaje mi się ze niezależnie jak fajny będzie projekt to jest kluczowy element, który tak naprawdę uniemożliwia sprawne prowadzenie zajęć czy projektu.

    1. Zdarza się, że studenci przychodzą z różnymi umiejętnościami.
      Szczególnie na UW, na kurs trafiają studenci matematyki, bioinformatyki, informatyki i doktoranci z innych wydziałów. Wskazanie R jako w wymaganiach do kursu nie zawsze wystarczy.
      Osobom, które nie znają zupełnie R sugeruje przerobienie Pogromców Danych (teraz jest to trudniejsze bo autoryzacja nie działa i pewnie nikt już tego nie poprawi) lub jakiegoś kursu z Coursera.
      Bardzo pomaga też to, że od początku studenci pracują w zespołach,
      więc osoby bardziej doświadczone (czasem) pokazują jak coś zrobić tym miej doświadczonym, lub przynajmniej gdzie szukać dodatkowych materiałów.

      Na PW zrobiliśmy nawet taki eksperyment, że na pierwszych zajęciach każdy student miał do zrobienia serię zagadek proton() z pakietu BetaBit (https://cran.r-project.org/web/packages/BetaBit/index.html)
      a później na bazie wyników (studenci wysyłali mi kod z rozwiązaniami) starałem się sugerować grupy by balansować doświadczenia i wykorzystywane funkcje/paradygmaty (od razu widać kto przez lata pracował w C++ i traktuje R jako dziwny klon C++ tworząc pętle w pętli w pętli itp).

Odpowiedz na „MaciejAnuluj pisanie odpowiedzi

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">