W ramach przedmiotu R i Duże Dane, który prowadzę na MiNI PW, studenci mieli do wykonania dwa projekty. Pierwszym była analiza tego co i kiedy mówi się o kandydatach na prezydenta. Drugim było zbudowanie systemu sugerującego jaki film warto obejrzeć (w zależności od tego jakie filmy się lubi).
Studenci budowali od zera system, rekomendujący filmy podobne do jednego-kilku wybranych. Począwszy od zeskrobywania z IMDB, wikipedii czy innych źródeł informacji o filmach, przez wybór miary oceny podobieństwa pomiędzy filmami, walkę z problemami obliczeniowymi (mając 5 – 10 tys filmów, każdy opisany przez dziesiątki cech konstrukcja podobieństwa nie jest taka prosta), redukcję wymiaru, aż po budowę aplikacji, która pozwoli na rekomendację filmu. Bardzo duży projekt jak na pół semestru, ale 'Big’ było w nazwie.
Wspólnie zdecydowaliśmy się też na dodatkowy eksperyment. Mianowicie część składową oceny (od 0 do 10 punktów) oddajemy w ręce internautów.