Było tak, że ComputerWorld zaprosił mnie do wygłoszenia prezentacji na konferencji Big Data & Business Analytics. Ustaliliśmy, że interesującym studium przypadku do zaprezentowania będą analizy danych z mediów społecznościowych dotyczących wypowiedzi na temat wydarzeń na Ukrainie.
Przez ponad dwa miesiące zbieraliśmy Twitty, wiadomości na Facebooku, artykuły na czytnikach RSS jakoś związane z Ukrainą lub Krymem. Surowych danych zebrało się ponad 300GB, ale po odfiltrowaniu tego co ciekawe i wyznaczeniu interesujących agregatów zeszliśmy do paczki danych o rozmiarze kilkudziesięciu MB.
Do analiz wykorzystałem R i kilka innych narzędzi, między innymi IBM Many Eyes. Na przykładzie tego i kolejnych wpisów chciałbym pokazać jakie przykładowe analizy na tej paczce danych wykonywaliśmy. Dziś na przykład pokażę co można zrobić z użyciem narzędzia Many Eyes.
Wymóg użycia Many Eyes jest taki, że analizowane dane są publiczne i nie mogą być większe niż 5 MB. Z korpusu twittów wybrałem więc 5MB angielskich, interesujących ćwierków i dodałem do Many Eyes. Ten zbiór danych można pobrać z tego adresu, można go też dalej wizualizować używając platformy ME.
