Screen Shot 2015-03-26 at 09.19.24

Dwa tygodnie temu pisaliśmy o tym jak z bazy danych o filmach IMDB pobierać dane pakietem rvest. Tydzień temu pokazaliśmy aplikację wytworzoną z pakietem shiny, pozwalającą na porównanie ocen dwóch różnych grup użytkowników. Dzisiaj ostatni odcinek z cyklu IMDB, pokażemy jak używając pakietu ggvis przygotować grafikę, która pojawia się w aplikacji shiny.

Pakiet ggvis wciąż ma mniejszą siłę ekspresji niż jego starszy brat ggplot2. Ale gdy przychodzi do prezentacji danych na stronie internetowej ggvis wygląda po prostu świetnie.

Read the rest of this entry »

W tym roku, podobnie jak i w poprzednim, Fundacja SmarterPoland.pl wspiera rzeczowo i duchowo inicjatywę z Politechniki Wrocławskiej:
V Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych (NOMAD).

W związku z tym kilka zdań od organizatorów tych mistrzostw.

Read the rest of this entry »

Tydzień temu pisałem o pakiecie rvest i o tym jak z jego pomocą pobrać dane o ocenach seriali w zależności od wieku i płci oceniającego.

Dzisiaj kontynuujemy temat. Poniżej można pobawić się aplikacją pozwalającą na porównanie ocen serialów w zależności od tego czy kto ocenia (wiek i płeć oceniającego). Są takie seriale, które wszyscy oceniają wysoko / nisko, a są też takie, które jedni oceniają wysoko a inni nie.

Ciekawe różnice wychodzą gdy się zestawi najmłodszą i najstarszą grupę wiekową lub płcie.

Read the rest of this entry »

R i SupER SER

17 mar
2015

SupER

W czwartek kolejny (po zimowej przerwie) SER z żywymi prelegentami.

Pojawiają się nowe pomysły na imprezy stowarzyszone wokół SERa (o czym więcej niedługo). Jest to też dobra chwila na odświeżenie znaku graficznego.

A ponieważ jak przystało na ludzi pracujących na co dzień z danymi jesteśmy ,,data-driven”, stąd krótka ankieta.
Co myślicie o tej propozycji?

Read the rest of this entry »

  • In: R

Dzień liczby PI

14 mar
2015

Dzisiaj jest dzień liczby Pi, w zapisie miesiąc dzień rok: 3.14.15.
Na Pogromców przez pierwsze 24 godziny zapisało się 314 osób.
Przypadek?

  • In: R

Źródło flickr

Wyciąganie danych z treści stron internetowych to źródło interesujących informacji. Kiedyś wymagało to sporo samozaparcia i pokracznych skryptów w Perlu walczących z bałaganiarskimi źródłami stron internetowych. Dzisiejsze strony internetowe coraz częściej są zgodne ze standardami, jest też coraz więcej cywilizowanych narzędzi do ich parsowania.

Ostatnio moją olbrzymią sympatię zyskał pakiet rvest pozwalający na bardzo proste wyłuskiwanie danych ze stron. Przedstawię go na przykładzie pobierania ocen odcinków seriali telewizyjnych w zależności od wieku i płci oceniającego. Za tydzień zrobimy użytek z tych danych, ale dzisiaj skupimy się na tym jak te dane pobrać.

W serwisie Internet Movie DataBase (IMDB) na stronach „user ratings” (np. tutaj) znajdują się oceny filmu w rozbiciu na grupy wiekowe i płeć.

Z użyciem pakietu rvest pobranie danych i parsowanie strony html do drzewa html sprowadza się do dwóch linii.

Read the rest of this entry »

[Wikipedia: Grap – Own work]

Ostatnio miałem przyjemność uczestniczyć w dwóch bardzo różnych konferencjach: BigData Technology Summit i Research: Patrząc / Watching / An sehen examining visual communication.

Na konferencji BigDataTech można było zobaczyć jak wygląda stan ,,Big Data’’ u dużych graczy na polskim (i nie tylko) rynku. Było kilka referatów sprzedażowych, gdzie prelegenci udowadniali, że mają większe lub smarter. Były przykłady aplikacji dużych technologii do biznesowych problemów, np. jednym z odkryć przedstawionych na sesji plenerowej było to, że podczas świąt mniej osób czyta newsy(!). Bardzo często padało stwierdzenie, że warto gromadzić wszystko, Wszystko, WSZYSTKO, bo kto wie, co może się kiedyś przydać (co przez sceptyków może być postrzegane jako objaw syllogomanii, o czym zresztą mówiłem w mojej prezentacji).

Read the rest of this entry »

SERVIII

Wracamy do spotkań SERowych z żywymi prelegentami.

Najbliższe spotkanie 19 marca, zaczynamy o 18:00 od prezentacji, ‚Modelowanie elastyczności cenowych przy użyciu pakietu systemfit’ którą przedstawi Olga Mierzwa.

Druga prezentacja rozpocznie się o 19:00, tytuł referatu to ‚Programowanie obiektowe w R5 na przykładzie wyceny nieruchomości’ a prowadzącą będzie Teresa Ponikowska.

Pomiędzy prezentacjami będzie ciepły posiłek i napoje oraz czas na spokojną rozmowę z ciekawymi uczestnikami (ciekawych osób na SERach jest sporo).

Krótkie bio prelegentów i abstrakt prezentacji.

Read the rest of this entry »

Tydzień temu pisaliśmy o wielowymiarowych modelach liniowych. Rozważaliśmy zagadnienie w którym k wymiarowy wektor zmiennych objaśnianych jest różnicowany przez zmienną grupującą. Aby ocenić czy istnieje jakaś zależność patrzymy na macierze E i H (patrz poprzedni wpis).

Problem, który nam pozostał to fakt, że zmienna objaśniana ma k wymiarów a więc i macierze efektów E i H są wymiaru kxk. Efektywnie, na wykresie możemy oglądać te macierze wyłącznie po rzucie na jakąś dwuwymiarową przestrzeń.

Ale na jaką dwuwymiarową podprzestrzeń patrzeć? Możemy brać dowolne rzuty macierzy E i H i je oglądać, ale czy któryś rzut jest lepszy do oglądania?

Przypomnijmy, że chodzi nam przede wszystkim o to by zobaczyć czy podgrupy zmiennej objaśniającej istotnie różnicują wielowymiarowe zmienne objaśniane. Dlatego naturalnym pomysłem jest redukcja wymiaru w zmiennych objaśnianych tak by zachować jak najwięcej wariancji pomiędzy grupami wyznaczonymi przez zmienną objaśniającą.

Popularną techniką takiej redukcji wymiaru jest Canonical Discriminant Analysis. W przestrzeni zmiennej objaśnianej szuka ona ortogonalnych wektorów wyjaśniających możliwie dużo międzygrupowej wariancji. Jeżeli z takich wektorów wybierzemy dwa pierwsze, to otrzymamy podprzestrzeń, w której analizowane grupy różnią się najsilniej (w sensie wariancji międzygrupowej).

Read the rest of this entry »

top