Robisz to źle, czyli jak źle pokazać liczby zebranych głosów

W ostatnich dniach od trzech osób (dziękuję Krzysztofowi T., Maciejowi B. i Markowi S.) dostałem link do artykułu ,,prezentującego” liczby zebranych głosów przez kandydatów na prezydenta (źródło gazeta.pl).

Sugeruję przyjrzenie się wykresom z tego artykułu połączone z próbą odnalezienia przynajmniej trzech problemów z prezentacją.

Czytaj dalej Robisz to źle, czyli jak źle pokazać liczby zebranych głosów

IMDB + ggvis, jak to zrobić?

Screen Shot 2015-03-26 at 09.19.24

Dwa tygodnie temu pisaliśmy o tym jak z bazy danych o filmach IMDB pobierać dane pakietem rvest. Tydzień temu pokazaliśmy aplikację wytworzoną z pakietem shiny, pozwalającą na porównanie ocen dwóch różnych grup użytkowników. Dzisiaj ostatni odcinek z cyklu IMDB, pokażemy jak używając pakietu ggvis przygotować grafikę, która pojawia się w aplikacji shiny.

Pakiet ggvis wciąż ma mniejszą siłę ekspresji niż jego starszy brat ggplot2. Ale gdy przychodzi do prezentacji danych na stronie internetowej ggvis wygląda po prostu świetnie.

Czytaj dalej IMDB + ggvis, jak to zrobić?

Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych (2015)

W tym roku, podobnie jak i w poprzednim, Fundacja SmarterPoland.pl wspiera rzeczowo i duchowo inicjatywę z Politechniki Wrocławskiej:
V Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych (NOMAD).

W związku z tym kilka zdań od organizatorów tych mistrzostw.

Czytaj dalej Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych (2015)

Których seriali lepiej nie oglądać z żoną / dziewczyną

Tydzień temu pisałem o pakiecie rvest i o tym jak z jego pomocą pobrać dane o ocenach seriali w zależności od wieku i płci oceniającego.

Dzisiaj kontynuujemy temat. Poniżej można pobawić się aplikacją pozwalającą na porównanie ocen serialów w zależności od tego czy kto ocenia (wiek i płeć oceniającego). Są takie seriale, które wszyscy oceniają wysoko / nisko, a są też takie, które jedni oceniają wysoko a inni nie.

Ciekawe różnice wychodzą gdy się zestawi najmłodszą i najstarszą grupę wiekową lub płcie.

Czytaj dalej Których seriali lepiej nie oglądać z żoną / dziewczyną

R i SupER SER

SupER

W czwartek kolejny (po zimowej przerwie) SER z żywymi prelegentami.

Pojawiają się nowe pomysły na imprezy stowarzyszone wokół SERa (o czym więcej niedługo). Jest to też dobra chwila na odświeżenie znaku graficznego.

A ponieważ jak przystało na ludzi pracujących na co dzień z danymi jesteśmy ,,data-driven”, stąd krótka ankieta.
Co myślicie o tej propozycji?

Czytaj dalej R i SupER SER

R, rvest i web-harvesting


Źródło flickr

Wyciąganie danych z treści stron internetowych to źródło interesujących informacji. Kiedyś wymagało to sporo samozaparcia i pokracznych skryptów w Perlu walczących z bałaganiarskimi źródłami stron internetowych. Dzisiejsze strony internetowe coraz częściej są zgodne ze standardami, jest też coraz więcej cywilizowanych narzędzi do ich parsowania.

Ostatnio moją olbrzymią sympatię zyskał pakiet rvest pozwalający na bardzo proste wyłuskiwanie danych ze stron. Przedstawię go na przykładzie pobierania ocen odcinków seriali telewizyjnych w zależności od wieku i płci oceniającego. Za tydzień zrobimy użytek z tych danych, ale dzisiaj skupimy się na tym jak te dane pobrać.

W serwisie Internet Movie DataBase (IMDB) na stronach „user ratings” (np. tutaj) znajdują się oceny filmu w rozbiciu na grupy wiekowe i płeć.

Z użyciem pakietu rvest pobranie danych i parsowanie strony html do drzewa html sprowadza się do dwóch linii.

Czytaj dalej R, rvest i web-harvesting

Garść wrażeń z dwóch ciekawych konferencji

[Wikipedia: Grap – Own work]

Ostatnio miałem przyjemność uczestniczyć w dwóch bardzo różnych konferencjach: BigData Technology Summit i Research: Patrząc / Watching / An sehen examining visual communication.

Na konferencji BigDataTech można było zobaczyć jak wygląda stan ,,Big Data’’ u dużych graczy na polskim (i nie tylko) rynku. Było kilka referatów sprzedażowych, gdzie prelegenci udowadniali, że mają większe lub smarter. Były przykłady aplikacji dużych technologii do biznesowych problemów, np. jednym z odkryć przedstawionych na sesji plenerowej było to, że podczas świąt mniej osób czyta newsy(!). Bardzo często padało stwierdzenie, że warto gromadzić wszystko, Wszystko, WSZYSTKO, bo kto wie, co może się kiedyś przydać (co przez sceptyków może być postrzegane jako objaw syllogomanii, o czym zresztą mówiłem w mojej prezentacji).

Czytaj dalej Garść wrażeń z dwóch ciekawych konferencji

SER VIII – Modelowanie elastyczności cenowych i Programowanie obiektowe w R5 na przykładzie wyceny nieruchomości

SERVIII

Wracamy do spotkań SERowych z żywymi prelegentami.

Najbliższe spotkanie 19 marca, zaczynamy o 18:00 od prezentacji, ’Modelowanie elastyczności cenowych przy użyciu pakietu systemfit’ którą przedstawi Olga Mierzwa.

Druga prezentacja rozpocznie się o 19:00, tytuł referatu to ’Programowanie obiektowe w R5 na przykładzie wyceny nieruchomości’ a prowadzącą będzie Teresa Ponikowska.

Pomiędzy prezentacjami będzie ciepły posiłek i napoje oraz czas na spokojną rozmowę z ciekawymi uczestnikami (ciekawych osób na SERach jest sporo).

Krótkie bio prelegentów i abstrakt prezentacji.

Czytaj dalej SER VIII – Modelowanie elastyczności cenowych i Programowanie obiektowe w R5 na przykładzie wyceny nieruchomości