R, rvest i web-harvesting


Źródło flickr

Wyciąganie danych z treści stron internetowych to źródło interesujących informacji. Kiedyś wymagało to sporo samozaparcia i pokracznych skryptów w Perlu walczących z bałaganiarskimi źródłami stron internetowych. Dzisiejsze strony internetowe coraz częściej są zgodne ze standardami, jest też coraz więcej cywilizowanych narzędzi do ich parsowania.

Ostatnio moją olbrzymią sympatię zyskał pakiet rvest pozwalający na bardzo proste wyłuskiwanie danych ze stron. Przedstawię go na przykładzie pobierania ocen odcinków seriali telewizyjnych w zależności od wieku i płci oceniającego. Za tydzień zrobimy użytek z tych danych, ale dzisiaj skupimy się na tym jak te dane pobrać.

W serwisie Internet Movie DataBase (IMDB) na stronach “user ratings” (np. tutaj) znajdują się oceny filmu w rozbiciu na grupy wiekowe i płeć.

Z użyciem pakietu rvest pobranie danych i parsowanie strony html do drzewa html sprowadza się do dwóch linii.

Czytaj dalej R, rvest i web-harvesting