IMDB + ggvis, jak to zrobić?

Screen Shot 2015-03-26 at 09.19.24

Dwa tygodnie temu pisaliśmy o tym jak z bazy danych o filmach IMDB pobierać dane pakietem rvest. Tydzień temu pokazaliśmy aplikację wytworzoną z pakietem shiny, pozwalającą na porównanie ocen dwóch różnych grup użytkowników. Dzisiaj ostatni odcinek z cyklu IMDB, pokażemy jak używając pakietu ggvis przygotować grafikę, która pojawia się w aplikacji shiny.

Pakiet ggvis wciąż ma mniejszą siłę ekspresji niż jego starszy brat ggplot2. Ale gdy przychodzi do prezentacji danych na stronie internetowej ggvis wygląda po prostu świetnie.

Czytaj dalej IMDB + ggvis, jak to zrobić?

Których seriali lepiej nie oglądać z żoną / dziewczyną

Tydzień temu pisałem o pakiecie rvest i o tym jak z jego pomocą pobrać dane o ocenach seriali w zależności od wieku i płci oceniającego.

Dzisiaj kontynuujemy temat. Poniżej można pobawić się aplikacją pozwalającą na porównanie ocen serialów w zależności od tego czy kto ocenia (wiek i płeć oceniającego). Są takie seriale, które wszyscy oceniają wysoko / nisko, a są też takie, które jedni oceniają wysoko a inni nie.

Ciekawe różnice wychodzą gdy się zestawi najmłodszą i najstarszą grupę wiekową lub płcie.

Czytaj dalej Których seriali lepiej nie oglądać z żoną / dziewczyną

R, rvest i web-harvesting


Źródło flickr

Wyciąganie danych z treści stron internetowych to źródło interesujących informacji. Kiedyś wymagało to sporo samozaparcia i pokracznych skryptów w Perlu walczących z bałaganiarskimi źródłami stron internetowych. Dzisiejsze strony internetowe coraz częściej są zgodne ze standardami, jest też coraz więcej cywilizowanych narzędzi do ich parsowania.

Ostatnio moją olbrzymią sympatię zyskał pakiet rvest pozwalający na bardzo proste wyłuskiwanie danych ze stron. Przedstawię go na przykładzie pobierania ocen odcinków seriali telewizyjnych w zależności od wieku i płci oceniającego. Za tydzień zrobimy użytek z tych danych, ale dzisiaj skupimy się na tym jak te dane pobrać.

W serwisie Internet Movie DataBase (IMDB) na stronach „user ratings” (np. tutaj) znajdują się oceny filmu w rozbiciu na grupy wiekowe i płeć.

Z użyciem pakietu rvest pobranie danych i parsowanie strony html do drzewa html sprowadza się do dwóch linii.

Czytaj dalej R, rvest i web-harvesting

Dlaczego Game of Thrones rośnie a Family Guy spada


Przygotowałem taką małą apkę, pozwalającą na przyglądanie się trendom w średnich ocenach seriali. Dane o ocenach odcinków pobrałem z bazy danych IMDB.

Kolorami oznaczone są seriale, czarna linia to regresja liniowa, szara kropkowana linia to lokalny wielomianowy trend. Apka jest przygotowana po to by opowiadać licealistom w ramach Matematyki dla Ciekawych Świata o co chodzi z trendem, regresją liniową i testowaniem współczynników. Ale zauważyłem, że zabawa z nią może wciąga (szczególnie jeżeli ogląda się seriale).

Gdyby poniższa aplikacja się nie otwierała (może to potrwać kilka sekund) to można ją znaleźć pod adresem https://smarterpoland.shinyapps.io/serialeIMDB.

Za tydzień pokażę apkę przedstawiającą test dla dwóch średnich na bazie danych o serialach.

Ale jeżeli macie inne pomysły jak wykorzystać dane o serialach o przedstawiania (prostych) technik analizy danych to piszcie.