Wydarzenia na Ukrainie a Twitter i Big Data

Było tak, że ComputerWorld zaprosił mnie do wygłoszenia prezentacji na konferencji Big Data & Business Analytics. Ustaliliśmy, że interesującym studium przypadku do zaprezentowania będą analizy danych z mediów społecznościowych dotyczących wypowiedzi na temat wydarzeń na Ukrainie.

Przez ponad dwa miesiące zbieraliśmy Twitty, wiadomości na Facebooku, artykuły na czytnikach RSS jakoś związane z Ukrainą lub Krymem. Surowych danych zebrało się ponad 300GB, ale po odfiltrowaniu tego co ciekawe i wyznaczeniu interesujących agregatów zeszliśmy do paczki danych o rozmiarze kilkudziesięciu MB.

Do analiz wykorzystałem R i kilka innych narzędzi, między innymi IBM Many Eyes. Na przykładzie tego i kolejnych wpisów chciałbym pokazać jakie przykładowe analizy na tej paczce danych wykonywaliśmy. Dziś na przykład pokażę co można zrobić z użyciem narzędzia Many Eyes.

Wymóg użycia Many Eyes jest taki, że analizowane dane są publiczne i nie mogą być większe niż 5 MB. Z korpusu twittów wybrałem więc 5MB angielskich, interesujących ćwierków i dodałem do Many Eyes. Ten zbiór danych można pobrać z tego adresu, można go też dalej wizualizować używając platformy ME.

Czytaj dalej Wydarzenia na Ukrainie a Twitter i Big Data

Przegląd prasy z ostatnich dwóch miesięcy, czyli rzut okiem na ponad 36 000 artykułów.

Na początku października zacząłem kolekcjonować wpisy przesyłane w formacie RSS z kilku polskich portali informacyjnych. Między innymi (w kolejności alfabetycznej): bankier.pl, gazeta.pl, interia.pl, polityka.pl, rp.pl, tvn24.pl, wiadomosci24.pl, wp.pl, wyborcza.pl i kilka innych najpopularniejszych portali informacyjnych (popularność mierzona liczą odwiedzin zgodnie z alexa.com). Zbierane wpisy zawierają tytuły i streszczenia artykułów pojawiających się na tych portalach. Łącznie w ciągu dwóch miesięcy uzbierało się ponad 36500 wpisów. W formacie RSS nie mają zazwyczaj całej treści artykułu, która pojawia się na portalu, ale mają tytuł i streszczenie/pierwszy akapit. Mając takie streszczenia zobaczmy co ostatnio się działo. Kto o kim, co i dlaczego pisze.

Czytaj dalej Przegląd prasy z ostatnich dwóch miesięcy, czyli rzut okiem na ponad 36 000 artykułów.

Czego chce premier, czyli co IBM Many Eyes widzi w przemówieniu premiera Donalda Tuska.

Drugie expose premiera Donalda Tuska wywołało sporo komentarzy. W mediach znajdują się analizy jak czytać gesty premiera, czy premier stał na jednej czy dwóch nogach, czy był zmęczony, czy był pewny siebie itp.
Aby uzupełnić te szczegółowe analizy przyjrzymy się treści wystąpienia.

Czytaj dalej Czego chce premier, czyli co IBM Many Eyes widzi w przemówieniu premiera Donalda Tuska.