Data Science Masters – najlepsze prace magisterskie z Data Science i Uczenia Maszynowego

DataScienceMasters_Mail_Banner 27.11

Do 20 stycznia 2018 można zgłaszać prace do konkursu Data Science Masters.
Zgłaszać można prace magisterskie obronione na dowolnej polskiej uczelni w latach 2016 lub 2017.

Data Science i Uczenie Maszynowe to dwie bardzo szerokie dziedziny. Aby je objąć w Jury znajdują się matematycy i informatycy z czterech różnych uczelni z szeroką gamą zainteresowań, od bioinformatyki, ekonometrii po Big Data czy analizę obrazów.

Łączna pula nagród to 8 500 zł, a prezentacja zwycięskiej pracy jest zaplanowana na dzień liczby Pi, czyli 14 marca.

Celem konkursu jest pokazanie jak ciekawe problemy rozwiązywane są w ramach prac magisterskich w Polsce. Mamy nadzieję, że będą one inspirowały przyszłe tematy prac.

Więcej informacji: https://www.datasciencemasters.edu.pl/

Z pamiętnika nauczyciela akademickiego – Irracjonalne wybory

TL;DR

Wybory studentów są czasem nieracjonalne, przynajmniej z mojego punktu widzenia. Ale czasem to znaczenie lepiej i bardzo mnie to cieszy.

Dłuższa wersja

Na przedmiocie Techniki Wizualizacji Danych mam w tym roku bardzo silną grupę matematyków ze specjalności SMAD (statystyka i analiza danych) i informatyków ze specjalności PAD (przetwarzanie i analiza danych). W semestrze mamy trzy projekty i spodziewałem się, że wyniki każdego będą tak ciekawe, że je tutaj opiszę.

Ale…

W terminie oddanie pierwszego projektu zadałem też całkiem wciągającą pracę domową. Projekt dotyczył wizualizacji danych komunikacji miejskiej VaVeL, praca domowa dotyczyła przeprowadzenia badania sprawdzającego jak ludzie odczytują dane z wykresów. Z projektu można było dostać do 100 punktów, praca domowa jest punktowana 10 punktów, z możliwością dodatkowego bonusu 10 punktów jeżeli będzie bardzo dobra. Projekt był dosyć silnie skierowany na konkretny dobór danych, praca domowa pozostawiała bardzo szerokie pole do interpretacji.
Czasu oczywiście niewiele, warto zrobić jedno i drugie ale projekt to 100 punktów a praca domowa max 20.
Na co studenci poświęcili więcej czasu?
Racjonalnie (więcej o tym na samym końcu) byłoby się skupić głownie na projekcie. Ale patrząc na wyniki, więcej czasu i serca widać w pracach domowych. Badania, które wykonali na pracę domową były tak ciekawe, że to właśnie o nich napiszę poniżej.

Ale o co chodzi

Punktem wyjścia do pracy domowej był esej Percepcja obrazu oraz trudność w wyobrażenia sobie co odbiorca widzi na naszym wykresie, jeżeli nie jest obciążony naszą wiedzą, co na tym wykresie chcieliśmy pokazać. Na wykładzie omawialiśmy sobie jak nasz mózg widzi wykresy, jak rozumie dane i co potrafi z wykresu odczytać a czego nie.
Zadaniem było przeprowadzenie badania na kolegach/koleżankach, badania oceniającego które wykresy są lepiej (=precyzyjniej) odczytywane.

I co z tego wyszło

Jedna z grup (Alicja Gosiewska, Kinga Jamróz, Maja Kalinowska, Karolina Marcinkowska) przygotowała internetową ankietę weryfikującą co internauci widzą a czego nie widzą a następnie zebrała wyniki w raporcie.

Ankietę można znaleźć w internecie TUTAJ i bardzo polecam ją zrobić. Jest świetnie przygotowana, zaskakująca i to po prostu dobra zabawa.

Wyniki z zebranych badań w postaci raportu są dostępne TUTAJ.
Uwierzcie, że po zrobieniu ankiety, będziecie chcieli wiedzieć jak zrobili ją inni.

Ciekawych prac domowych było oczywiście więcej.
Zespół (Mateusz Mazurkiewicz, Wojciech Rosiński, Dawid Stelmach) sprawdzał czy wykresy słupkowe sa faktycznie takie dobre jak je prowadzący rysuje.
Ta praca mierzy się z wykresami typu tree plot (Ahmed Abdelkarim, Aleksandra Hernik, Iwona Żochowska)
Z piktogramami (czy ISOTYPE) mierzyła się grupa (Paweł Pollak, Karol Prusinowski, Karol Szczawiński)
A zespół (Anton Lenartovich, Mateusz Mechelewski) rozstrzygał komu podobają się wykresy typu płatki śniegu.

A co do tytułowej irracjonalności.
Na jesienną pluchę polecam książkę Dana Ariely (dostępna też jako audiobook) Predictably Irrational: The Hidden Forces That Shape Our Decisions.
Oczywiście zachowania studentów wcale nie są irracjonalne. Zamiast wybrać zadanie z większą liczbą punktów wybrali zadanie ciekawsze w dłuższej perspektywie jest lepszym wyborem.
A to, jak pisałem na wstępie, bardzo mnie ucieszyło.

intsvy: PISA for research and PISA for teaching

The Programme for International Student Assessment (PISA) is a worldwide study of 15-year-old school pupils’ scholastic performance in mathematics, science, and reading. Every three years more than 500 000 pupils from 60+ countries are surveyed along with their parents and school representatives. The study yields in more than 1000 variables concerning performance, attitude and context of the pupils that can be cross-analyzed. A lot of data.

OECD prepared manuals and tools for SAS and SPSS that show how to use and analyze this data. What about R? Just a few days ago Journal of Statistical Software published an article ,,intsvy: An R Package for Analyzing International Large-Scale Assessment Data”. It describes the intsvy package and gives instructions on how to download, analyze and visualize data from various international assessments with R. The package was developed by Daniel Caro and me. Daniel prepared various video tutorials on how to use this package; you may find them here: http://users.ox.ac.uk/~educ0279/.

PISA is intended not only for researchers. It is a great data set also for teachers who may employ it as an infinite source of ideas for projects for students. In this post I am going to describe one such project that I have implemented in my classes in R programming.

I usually plan two or three projects every semester. The objective of my projects is to show what is possible with R. They are not set to verify knowledge nor practice a particular technique for data analysis. This year the first project for R programming class was designed to experience that ,,With R you can create an automated report that summaries various subsets of data in one-page summaries”.
PISA is a great data source for this. Students were asked to write a markdown file that generates a report in the form of one-page summary for every country. To do this well you need to master loops, knitr, dplyr and friends (we are rather focused on tidyverse). Students had a lot of freedom in trying out different things and approaches and finding out what works and how.

This project has finished just a week ago and the results are amazing.
Here you will find a beamer presentation with one-page summary, smart table of contents on every page, and archivist links that allow you to extract each ggplot2 plots and data directly from the report (click to access full report or the R code).

FR

Here you will find one-pagers related to the link between taking extra math and students’ performance for boys and girls separately (click to access full report or the R code).

ZKJ

And here is a presentation with lots of radar plots (click to access full report or the R code).

GMS

Find all projects here: https://github.com/pbiecek/ProgramowanieWizualizacja2017/tree/master/Projekt_1.

And if you are willing to use PISA data for your students or if you need any help, just let me know.

Storytelling w pracy badawczej analityka danych

MarekStaczek

Czy prezentacje statystyk lub narzędzi do analiz statystycznych mogą być porywające? Oczywiście, jeżeli tylko statystyki układają się w historię, a narzędzia służą odkryciu tej historii.

Najlepszym dowodem jest prezentacja Hansa Roslinga na TED 2006 wykorzystująca program Gapminder aby opowiedzieć o zmieniającej się demografii współczesnego świata.
Prezentacja ma ponad 10 lat, a wciąż oglądam ją z zainteresowaniem, ponieważ prof. Hans Rosling, jak nikt inny, zamienił rząd statystyk dotyczących dzietności i czasu życia w barwną wyprawę przez kontynenty i czas.

Idealnie pokazał przy tym możliwości narzędzia Gapminder (Trendalyzer), które kilka miesięcy później odkupił Google.

Warsztaty

Dlatego na wtorkowe seminarium badawcze grupy MI2DataLab zaprosiliśmy mistrza storytellingu – Marka Stączka, autora bloga http://stoslow.pl, oraz firmy szkoleniowej http://www.edisonteam.pl.

Magistranci, doktoranci i sympatycy naszej grupy mieli okazję przez godzinę uczestniczyć w warsztatach, a później mieliśmy sesję pytań i odpowiedzi.
Poniżej opiszę kilka wybranych rodzynków z tego spotkania.

Zainteresowani tematem znajdą sporo ciekawej treści na ww. stronach lub tutaj.

Po co?

Po co wykorzystywać storytelling w przypadku pracy badawczej? Gdy tworzymy nowe rozwiązania, algorytmy, narzędzia analizy danych, zależy nam by były one używane. Czasem wplecenie historii w opowieść o naszych algorytmach może pomóc. Dwa przykłady:

1) Przygotowujemy referat na konferencję. Przeciętna konferencja to 2-3 dni po 6-8 godzin wypełnionych 20-30 minutowymi referatami. W ciągu jednego dnia słyszymy o kilkunastu rozwiązaniach i w oczywisty sposób tylko kilka z nich zapamiętamy. Co zrobić aby to nasze rozwiązanie było zapamiętane? Spróbujemy znaleźć dla naszego rozwiązania znaleźć ciekawe zastosowanie!
Poświęćmy trochę czasu aby słuchacze dokładnie zrozumieli problem, który chcemy rozwiązać. Łatwiej będzie im zapamiętać nasze rozwiązanie gdy w pamięci będą mieli bardzo konkretną potrzebę, która do niego doprowadziła.
Nie tworzymy jeszcze jednego testu post-hoc, ale rozwiązujemy problem dotyczący istotności określania, które kraje mają istotnie różne wyniki w testach PISA.

2) Dobra historia ma bohaterów, których nazwy da się spamiętać. Opisując nasz nowy algorytm nadajmy mu też łatwą do zapamiętania nazwę. Bardzo często nazwy rozwiązań są bardzo długie, nie mieszczą się w jednej linii, długością przypominają streszczenie. ,,Odporny nieparametryczny test dla zbioru hipotez oparty o sekwencyjne kryterium wyboru grup.” Trudno tę nazwę odtworzyć po kilku minutach. Nawet jeżeli uda się komuś zrozumieć co nasze rozwiązanie robi, dobrze by było, by we właściwym czasie pamiętał też jak je znaleźć.

Czy zawsze?

Ciekawe wątki pojawiły się też podczas sesji z pytaniami.

1) Czy storytelling jest zawsze potrzebny? Czy do każdej prezentacji naukowej trzeba koniecznie szukać odpowiedniego story?
No cóż. Moim zdaniem nie.
Na przykład, kiedy jakość rozwiązania można łatwo ocenić za pomocą jednej, łatwo mierzalnej wartości, to lepiej się skupić na tej mierzalnej wartości.
Trzeba było mieć rozwiązanie z najmniejszym błędem predykcji, najmniejszą złożonością obliczeniową czy najlepszą kontrolę błędu?
Wystarczy pokazać, że nasze rozwiązanie jest najlepsze w tym kryterium.
Choć też warto pamiętać, że sytuacji w których jakość rozwiązania mierzy się łatwo jedną liczbą jest bardzo mało.

2) Jak szukać tej ciekawej historii dla naszego rozwiązania?
Gdy oglądamy dobrą prezentację to zazwyczaj nie widzimy, ile pracy trzeba było włożyć w jej przygotowanie. Zazwyczaj świetnych historii trzeba trochę poszukać. A jak już się znajdą to trzeba je doszlifować. Warto je więc opowiadać możliwe często.

MI^2 Data Talks

MI2 DataLab logo
Z początkiem semestru ruszamy z nowym seminarium badawczym w DataLabie.

Seminarium skierowane jest do osób zainteresowanych pracą badawczą w obszarze tworzenia narzędzi (metodologii i softu) do modelowania statystycznego.

Na zmianę będziemy mieć referaty o:

* jak tworzyć dobre oprogramowanie statystyczne (GiHub, Travis, Continuous Integration, Czysty Kod),
* jak komunikować wyniki swoich badań (przygotowanie prezentacji, artykułu, plakatu na konferencje, cheatsheetu),
* Journal Club.

Lista tematów kolejnych spotkań dostępna jest na stronie http://mi2.mini.pw.edu.pl/index.php/kalendarz-spotkan/

Spotykamy się we wtorki w godzinach 12-14 w DataLab (pokój 44, Koszykowa 75, Warszawa). Zapraszamy.

Gdzie jest mój autobus? Urban Sensors hakaton – rejestracja otwarta do poniedziałku


Jeszcze do poniedziałku można się zgłaszać na Urban Sensors – jednodniowy hakaton, który odbędzie się w Warszawie 26 września na wydziale MiNI Politechniki Warszawskiej (Koszykowa 75) – dzień przed konferencją WhyR.

Podczas hakatonu uczestnicy otrzymają tokeny dostępowe do danych online i historycznych o położeniu autobusów i tramwajów w Warszawie.

Poniżej znajduje się wycinek danych z zajawką jakie zmienne są mierzone dla tramwajów. Poza położeniem tramwaju i brygady, mamy informacje o najbliższym i kolejnym przystanku, prędkości pojazdu, kierunku, opóźnieniu, statusie, brygadzie itp.

Więcej o hakatonie przeczytać można tutaj. Formularz rejestracji dostępny jest tutaj.

Prezentacje publiczne

Czy zdarza Ci się prezentować na publicznym forum wyniki swoich badań/analiz? Jeżeli tak, to ten wpis może Cię zainteresować.

Miesiąc temu, na konferencji UseR2017 miałem referat dotyczący wizualizacji modeli uczenia maszynowego. Temat spotkał się ze sporym zainteresowaniem, na tę 15 minutową prelekcję zapisało się ponad 500 osób.
Jak się do takiej prezentacji przygotować?
Poniżej podzielę się kilkoma doświadczeniami i materiałami.

Książki

704501127o
Jakiś czas temu otrzymałem od PWN książkę Piotra Wasylczyka ,,Prezentacje naukowe – Praktyczny poradnik’’ (link do strony pwn). Książkę otrzymałem bezpłatnie z prośbą o komentarz i prawdopodobnie z nadzieją na reklamę.
Książkę przeczytałem i muszę powiedzieć wprost, że jest świetna, z pewnością będę polecał dyplomantom.
Dla początkujących to lektura obowiązkowa. Znajduje się w niej wiele praktycznych porad dotyczących tego jak przygotować slajdy na prezentacje, jak przygotować plan wystąpienia, jak przygotować siebie, jak rozpocząć prezentacje, jak mówić do różnych odbiorców. Wszystkie te wątki z konkretnymi ćwiczeniami.

Zaznaczyć muszę, że nie zgadzam się z wszystkimi opiniami przedstawionymi w tej książce. Np. Piotr Wasylczuk argumentuje, że nie ma sensu na początku prezentacji omawiać planu prezentacji, a moim zdaniem w wielu sytuacjach to pomaga słuchaczowi ustawić oczekiwania. Ale nawet opinie z którymi się nie zgadzamy prowokują nas do głębszego zastanowienia się nad danym tematem. Warto poznać argumenty autora.

To co mi się w tej książce podoba to skupienie na celu prezentacji, liczne ćwiczenia oraz bardzo wiele przykładów i ilustracji ,,z życia’’.
Autora w akcji można zobaczyć np. na nagraniu finału FameLab 2016.
Część z umieszczonych tam ćwiczeń planuję sprawdzić na zajęciach ze studentami. Książkę można przejrzeć w MI2DataLabie.

cover
Oczywiście książek o efektywnej komunikacji jest więcej. Ostatnio, duże wrażenie zrobiła na mnie książka Trees, maps, and theorems Jean-Luc Doumonta. Pozycja dosyć droga (80 EUR, >10x więcej niż ,,Prezentacje naukowe’’) ale bardzo ciekawie zaprojektowana. Być może określenie ,,książka’’ nie jest właściwe, bardziej pasowałoby ,,album’’.
Złośliwi powiedzą, że co druga strona to spis treści a gigantyczne marginesy są niezbędne by względnie małą liczbę słów rozciągnąć na 169 stron. Ale eksperymentowanie ze składem pozwala na lepsze uhonorowanie przedstawianej treści.

Zdanie na temat tego projektu można wyrobić sobie po lekturze kilku stron umieszczonych pod adresem http://www.treesmapsandtheorems.com/ lub po obejrzeniu prezentacji autora na TEDxGhent https://www.youtube.com/watch?v=VK74BIaxkYE.

Okladka-724x1024Zdarza mi się oglądać dobre wystąpienia, poprowadzone wokół ciekawego tematu, ale spalone przez złą prezentację danych – które miały być głównym wynikiem. Dziwaczne wykresy z ozdobnikami, z których nie sposób cokolwiek odczytać. Jeżeli wyniki liczbowe stanowią ważny punkt naszego wystąpienia to trzeba je pokazać w sposób pozwalający na szybkie i poprawne zrozumienie. Nie zawsze jest to proste. W tym obszarze polecam ,,Zbiór esejów o sztuce prezentowania danych” który napisałem jakiś czas temu. W postaci HTML jest dostępna na tej stronie.

Blogi i wideo

Wiele ciekawych pomysłów na format prelekcji można też znaleźć w blogosferze. Polecam blog StoSłów http://www.stoslow.pl/ prowadzony przez Marka Stączka (EdisonTeam). Marek prowadzi warsztaty z wystąpień publicznych i jest duża szansa, że poprowadzi taki warsztat w tym roku w naszym DataLabie.
Ostatnio pisał na blogu na temat zwięzłości wypowiedzi. Oczywistą oczywistością jest to, że do prezentacji trzeba się przygotować. Mniej oczywiste jest to, że im krótsza prezentacja tym dłużej trwa przygotowanie. Dwugodzinny wykład wymaga zazwyczaj krótkiego przypomnienia sobie kluczowych wyników ale już dziesięcio- piętnasto- minutowa prezentacja to czasem kilka(naście) dni przygotowań (więcej tutaj).


Oczywiście świetnym źródłem inspiracji dotyczących wystąpień publicznych jest konferencja TED. Zdarzają się tam prezentacje o niczym, ale jest też bardzo wiele perełek, w których ciekawa treść została fantastycznie przedstawiona. Np. prezentacja Susan Cain o introwertykach pokazuje, że nawet jeżeli tłumy widzów nas przerażają, to możemy przygotować świetną prezentację na ważny dla nas temat.

Świetny jest też odczyt J.K. Rowling na zakończenie roku na Stanfordzie. Odczyt ten jest czytany w większości z kartki a więc w sprzeczności z typową radą ,,nie czytaj z kartki”. Ale dotyczy historii ważnej dla Rowling i interesującej dla słuchacza. W głosie autorki słychać emocje, a sama prelekcja zapada w pamięć. Całość zobaczyć można tutaj.

Warsztaty

Książki i blogi to ciekawe źródło inspiracji, ale nie zastąpią ćwiczeń praktycznych oraz informacji zwrotnych od bardziej doświadczonych kolegów/koleżanek.

Zawsze można w swojej okolicy poszukać przydatnego kursu dotyczącego publicznych wystąpień. Na rynku takich kursów jest wiele, np. prowadzone przez wspominanego wyżej Marka Stączka. Dla doktorantów i pracowników naukowych często uczelnie organizują specjalistyczne warsztaty.
Np. w ofercie Uniwersytetu Warszawskiego dla pracowników i doktorantów znajdują się świetne zajęcia z emisji głosu prowadzone przez Instytut Polonistyki Stosowanej (brałem udział, gorąco polecam). W USOSie jest też kurs oferowany dla studentów, ale akurat z nim nie miałem do czynienia.

Jakiś czas temu Nowoczesny Uniwersytet UW (http://www.nuw.uw.edu.pl/) organizował warsztaty z Dobromirem Dziewulakiem dla doktorantów i pracowników naukowko-dydaktycznych. Byłem, polecam. Swoją drogą, Dobromir prowadzi blog w serwisie Wszystko Co Najważniejsze poświęcony dydaktyce – ciekawa lektura.

Jakiś czas temu Fundacja na rzecz Nauki Polskiej w ramach projektu Skills organizowała warsztaty i szkolenia dla naukowców. Akurat trafiłem na warsztaty prowadzone przez aktora – Jacka Rozenka, bardzo ciekawe doświadczenie. Projekt co prawda się zakończył, ale warto śledzić stronę FNP, być może temat będzie kontynuowany, tym bardziej, że Fundacja bardzo stawia na rozwój naukowców.

Take home

Prezentacje naukowe to oczywiście temat rzeka.
Ale w rzekach łatwo utonąć.
Trzy moim zdaniem najważniejsze wątki to.

(1) Pamiętaj co chcesz powiedzieć.
Bez względu na to, jak długa jest Twoja prezentacja, najprawdopodobniej większość osób zapamięta z niej maksymalnie trzy zadania – punkty. Zapisz sobie kluczowe punkty, które chciałbyś by były zapamiętane. Przygotuj prezentacje tak by ułatwić zrozumienie dlaczego akurat te punkty są ważne. Nie przesadzaj z treścią. Mów w sposób prosty i zrozumiały.

(2) Bądź przygotowany.
Dobra prezentacja wymaga przygotowania. Im jest ważniejsza, tym dłużej się ją przygotowuje. Im krócej ma trwać, tym dłużej się ją przygotowuje. Gdy doktorant jedzie na międzynarodową konferencję pokazać w 20 minut wyniki nad którymi pracował przez dwa lata, nie jest niczym dziwnym spędzenie kilku dni (!) nad jedną konferencyjną prezentacją. Gdy prezentacja jest bardzo krótka (5 min), dobrym pomysłem może być nauczenie się jej na pamięć. Nie musisz mówić z pamięci każdego słowa, ale zawsze masz w pamięci gotowe zdania gdyby akurat skończyła się wena. Jeżeli prezentacja ma być dłuższa, dobrym pomysłem jest poprowadzenie jej wcześniej przed mniejszym i znanym Ci audytorium – np. na seminarium grupowym. Po takim treningu, właściwa prezentacja już Cię nie zaskoczy.

(3) Bądź wypoczęty i zrelaksowany.
Wyśpij się, zjedz lekki posiłek, miej pod ręką wodę aby zwilżyć gardło. Pamiętaj, że na prelekcje przyszły osoby przyjaźnie nastawione, które chcą posłuchać tego co masz do powiedzenia. Stres jest twoim wrogiem i naucz się go oswajać. W małych dawkach pobudza i może być użyteczny. Kilka głębokich oddechów, proste ćwiczenia ruchowe mogą bardzo pomóc. Jeżeli się zatniesz zrób krótką przerwę i wróć do tematu. Pamiętaj co i dlaczego chcesz powiedzieć.

Co widać w lesie losowym?


Miesiąc temu ruszył MI2DataLab, kuźnia/warsztat z narzędziami do analizy danych.
Dzisiaj mieliśmy pierwszą, po oficjalnym otwarciu, obronę pracy magisterskiej w grupie MI2.

Aleksandra Paluszyńska z MIM UW obroniła pracę Structure mining and knowledge extraction from random forest with applications to The Cancer Genome Atlas.
W pracy opisała metodologię stojącą za opracowanym przez nią pakietem randomForestExplainer. Pakiet służy do wizualnej diagnostyki lasów losowych. Analizy ważnych zmiennych, ważnych interakcji, brzegowych zależności itp.

Pracę przeczytać można tutaj.

Pakiet można pobrać i zainstalować z CRAN lub GitHuba.

Krótka winietka opisująca pakiet jest dostępna tutaj.

Z pakietu warto skorzystać – już żaden las losowy nie będzie miał przed nami tajemnic.

Z pamiętnika nauczyciela akademickiego… Trening data scienistów a skoki o tyczce

Pochodzi ze strony https://pl.wikipedia.org/wiki/Skok_o_tyczce

Zakończyłem niedawno trwający pół roku eksperyment dydaktyczny dotyczący sposobu oceniania w nauczaniu data scientistów/stosowanych statystyków.
Dziedzina zobowiązuje. Prowadząc zajęcia trzeba eksperymentować w poszukiwaniu lepszych rozwiązań, zbierać dane i na ich podstawie planować zmiany.

Czy oceny są ważne?

Czy w nauczaniu jakiegoś przedmiotu ważne są kryteria oceny?
To dosyć ciekawa kwestia.
Gdy prowadzę szkolenia poza uczelnią, nikt się nie dopytuje po warsztatach ,,Jaka ocenę dostałem?”. Uczestnikom wystarczy świadomość, że czegoś się nauczyli i wiedzą czego.
Ale w jakiś magiczny osób, mury uczelni sprawiają, że kryteria oceny stają się istotne.
Wiele (większość?) studentów traktuje ocenę i kryteria oceny jako pierwszoplanowy wyznacznik co należy na danym kursie robić.
No cóż, można z tym podejściem walczyć, ale nie można go ignorować.
Ten wpis poświęcony jest w całości kryteriom oceny, bez zagłębianie się w treść kursu.

Po co zmiana?

Poprzednio opisywane i testowane formuły oceny zajęć (1, 2, 3, 4, 5 i inne) oparte były o zbiór zadań/aspektów projektu (realizowanego w grupie) niezależnie ocenianych.
Przykładowo dwa lata temu projekt dotyczył zebrania i analizy danych o tym co media piszą o kandydatach na prezydenta.
Niezależnie ocenianym kryterium była (1) jakość kodu R, (2) sposób prezentacji wyników, (3) bogactwo i (4) złożoność pobranych danych, (5)zastosowana metodologia analizy, itp.

Pomimo, że studenci raczej dobrze przyjmowali taki sposób oceny (ciekawe projekty, można je realizować w grupie, nakierowane na praktyczną weryfikacje pozyskanej wiedzy) to mnie nie podobały się dwa elementy.

Po pierwsze każdy z aspektów był bardzo szeroki i złożony, przez co ocena np. w skali 0-10 staje się uznaniowa (ocena złożonego procesu jest zawsze uznaniowa, ale tutaj poziom swobody przeszkadzał mi).
Dlaczego jakość kodu oceniona jest na 5 a nie 6 punktów?
Samo spisywanie argumentów za i przeciw ocenami każdego etapu każdego zespołu zajmowało mi więcej czasu niż przygotowanie materiałów na zajęcia.

Po drugie gdy projekt podzieli się na wiele części i każdą oceni niezależnie, to okazuje się, że zazwyczaj żadna z części nie jest idealna ale tez żadna nie jest beznadziejna, wiec rozkład punktów zbiega do jakiegoś Gaussa.

Trzeba spróbować czegoś innego.

Ale o co chodzi?

Przedmiotem eksperymentu był sposób oceny postępów prac nad określonym zagadnieniem. Ten sposób był testowany w lecie 2016/2017 na wydziałach MiNI PW (Warsztaty Badawcze) i MIM UW (Modele Liniowe).

Sam pomysł na eksperyment najłatwiej przedstawić korzystając z analogii do skoków o tyczce.
Jak ktoś skoczy 6,17m to rekord świata, jak 6 to rekord Polski, 5m to długość tyczki itp.
Aby skoczyć wysoko liczy się wiele czynników, ale to jak wysoko się skoczyło po prostu widać.
Zorganizujmy więc kryteria oceny złożone z poprzeczek umieszczonych na różnych poziomach trudności, tak by w ramach realizacji projektu uczestnicy wiedzieli jak złożony problem potrafią rozwiązać.

A jak to wygląda w akademickich warunkach?
Część zaliczenia związana z projektem (czasem są jeszcze inne składowe – egzamin lub prace domowe) jest podzielona na 5 (na PW) lub 10 (na UW) części – etapów. Aby podejść do realizacji etapu n+1 trzeba wcześniej zrealizować etap n.
Kolejne etapy są coraz trudniejsze i są związane z wykonaniem określonego modelu/zadania.

Etapy oceniane są 0-1, zrealizowanie wszystkich etapów to 100% z projektu.

Gdyby ktoś chciał zobaczyć jak wyglądały poziomy trudności na Warsztatach Badawczych, to może je podejrzeć tutaj: https://github.com/pbiecek/WarsztatyBadawcze/tree/master/MiNI_2017
A na modelach liniowych
https://github.com/pbiecek/LinearModels/tree/master/MIMUW_2017
Starałem się tak kalibrować poziom trudności, by dla doświadczonej osoby był to 1-2 dni solidnej pracy.

Co na to studenci?

Dla obu grup przygotowałem ankietę z pytaniami o to czy trudność była odpowiednio dobrana i czy sposób oceny był adekwatny. Odpowiedzi było znacznie więcej niż połowa zarejestrowanych studentów, więc choć w sumie studentów nie było zbyt wielu (~40) to odpowiedzi traktuję jako reprezentatywne.

Z premedytacją ankieta została wysłana studentom dwukrotnie. Raz na chwilę przed końcowym wystawieniem punktów/ocen i raz po tym jak poznali swoje punkty i oceny.

W przypadku pytania o kalibracje trudności właściwie wszyscy potwierdzili że zadania nie były ani za trudne ani za łatwe, może z lekką przewagą w kierunku ,jednak trudne’. Co było dla mnie dużym zaskoczeniem, ponieważ jedynie pojedynczy studenci zrealizowali 80%+ projektu.

Co ciekawe, odpowiedzi studentów na pytanie ,czy ten sposób oceny jest dobry dla warsztatowej formy zajęć’ różniły się znacznie w zależności od tego czy odpowiedź padła przed czy po ocenie.
Odpowiedzi wysłane przed poznaniem końcowej oceny oscylowały blisko środkowej, neutralnej odpowiedzi ,nadaje się’. Podczas gdy po tym jak studenci poznali swoje punkty i oceny odpowiedzi zaczęły przyjmować skrajne wartości.
Większość ‘idealnie pasuje’ ale znalazła się też jedna odpowiedź ‘te zajęcia wymagają innego sposobu oceniania’, osoby która zgłosiła rozwiązanie, które nie zostało zaakceptowane. To większe zróżnicowanie przypisuję temu, że studenci zobaczyli że nie wystarczy tylko zrobić dany punkt ale trzeba go zrobić dobrze. Zobaczyli też jak wyglądają komentarze – feedback to ich zgłoszeń.
Mnie akurat taki rozkład odpowiedzi cieszy. Zawsze znajdą się niezadowolone osoby, ale dobrze że są też tacy, co akurat na tym przedmiocie odnaleźli coś dla siebie.

Jeżeli chodzi o wyrywki z komentarzy studentów, to przytoczę kilka wskazujących silne strony tego sposobu oceniania

,,…Jasno określone kryteria oceniania i adekwatnie oceniony wkład pracy…”
,,…Informacje zwrotne na każdym etapie też są bardzo cenne…”
,,…Umiejętność prowadzenia dużych projektów jest bardzo ważna, a pomijana w nauczaniu większości przedmiotów na wydziale…”

i te przypisane do słabych stron tego sposobu oceniania.

,,…Ocena binarna sprawia że nie ma motywacji żeby starać się bardziej niż niezbędne minimum…”
,,…Jak to na pańskich zajęciach, projekt zajmuje dużo czasu, pełen semestr takich przedmiotów to by było za dużo…”

Pointa

Generalnie to jestem zadowolony z tej formuły oceniania. Zderzenie z naprawdę dużym projektem, z jasno zarysowanym planem realizacji, z rosnącym poziomem trudności jednocześnie z krokami których łatwość wykonania zależy od jakości rozwiązań w poprzednim etapie – to nowe na uczelni, ciekawe i myślę że kształcące doświadczenie.

Oceny z tego semestru były jednymi z najniższych w ostatnich latach które wystawiłem (niewiele osób wykonało 80% projektu). Dawno już nie było tyle trójek czy braków zaliczenia, a liczbę piątek w dwóch grupach można pokazać na palcach jednej ręki.
Jak się jednak okazuje, studentom (w większości) to nie przeszkadza, a wręcz daje możliwość poważniejszego sprawdzenia się w realizacji dużego, złożonego i wymagającego projektu.

Kilka rzeczy z pewnością zmienię w kolejnym semestrze.

Pierwszą będzie większa komponenta indywidualna. Teraz, przez to, że cały projekt był realizowany w zespole, dało się odczuć że niektóre elementy zespołu bezkarnie wkładały w projekt mniejszy wysiłek. Po kilku latach eksperymentów z ocenianiem zespołowych projektów widzę, że jednak czysta składowa indywidualna jest bardzo ważna.
Drugą będzie wprowadzenie dwóch (prostszych) projektów. Niestety jeden projekt rozciągnięty w czasie powoduje, że mniej przyzwyczajone to tego sposobu pracy osoby zaczynają coś robić pod koniec semestru, gdy już jest na wszystko za późno. Dwa projekty pozwalają zarówno na przeprowadzenie projektu zespołowego jak i indywidualnego.

Doświadczenia / pomysły na inne eksperymenty edukacyjne?
W przyszłym semestrze prowadzę dwa super ciekawe przedmioty (programowanie w R i techniki wizualizacji danych).
To wymarzone miejsce na testowanie pomysłów na projekty edukacyjne.

1 czerwca – otwarcie MI^2 DataLab


Od kilku miesięcy na wydziale MiNI Politechniki Warszawskiej trwają prace nad przygotowaniem DataLabu.
Zajmowały one ostatnio większość mojej uwagi, tym bardziej miło mi poinformować, że oficjalne otwarcie DataLab odbędzie się już w najbliższy czwartek!
Uroczyste przecięcie wstęgi planowane jest na 11:30, a pomiędzy 12:00 – 16:00 będzie można przyjść, rozejrzeć się i porozmawiać o projektach, możliwościach biernej lub czynnej współpracy.

Na otwarcie przygotowane są różne atrakcje, można np. wygrać Lego Mindstorm lub wziąć udział w dwóch warsztatach:
– Pierwszy ,,Reinforcement Learning – jak nauczyć maszynę wygrywać z człowiekiem?” odbędzie się w czwartek 16:30 – 19:00 (liczba miejsc ograniczona, zapisy http://bit.ly/2q75jUi).
– Drugi ,,Tajniki druku 3D dla początkujących” odbędzie się w piątek 14:00-18:00 (liczba miejsc ograniczona, zapisy http://bit.ly/2qKX3bl).
Słyszałem też coś o molekularnym barze.

Ale o co chodzi?

DataLab powstał na wzór MediaLabów i Hakerspaceów.
To miejsce w którym będziemy prowadzić zaawansowane warsztaty, badania i prace rozwojowe związane z tworzeniem nowych narzędzi analizy i wizualizacji danych.
Lab będzie przestrzenią otwartą dla osób, które mają czas, motywację i energię aby pogłębiać swoje umiejętności analityczne, głównie doktorantów, ale też zainteresowanych studentów lub osoby pracujące przy ciekawych projektach.
Journal club, dostęp do nowych technologii, mini-warsztaty hands-on, wyposażona biblioteczka, środowisko nastawione na zaawansowane modelowanie matematyczno-statystyczne, tego możecie się spodziewać po tej przestrzeni do pracy kreatywnej.

Zainteresowany wzięciem udziału a naszych projektach?
Przyjdź na otwarcie!

DataLab wyposażyła nam firma Nethone z grupy Daftcode.