Zacznę od krótkiego wyjaśnienia skąd pomysł na ten wpis. W komentarzach do piątkowego wpisu użytkownik @Maciej podał odnośnik do przykładowej analizy danych z Twittera z popularnego agregatu blogów o R, czyli R-bloggers. W odpowiedzi na ten komentarz użytkownik @mw zrobił mini profilowanie Martina, użytkownika, którego wpisy przedstawiono w tej przykładowej analizie. Hmmmm, może z takiej analizy aktywności da się coś odczytać.
Od jakiegoś czasu przymierzam się do analizy wypowiedzi polityków, czy to w sejmie, czy poza sejmem. Szukając rożnych materiałów w tym temacie znalazłem blog Michała Buchty z ruchu Autonomii Śląska, który zebrał tutaj nazwy użytkowników Twittera wybranych polityków.
Wykorzystując pakiet twitteR, o którym pisałem np. tutaj pobrałem wiadomości tych użytkowników stosując dwa filtry: interesują mnie wiadomości po 1 stycznia roku 2010 i z przyczyn technicznych nie więcej niż 1500 na jedną osobę (tylko kilku użytkowników miało więcej). Zebrane wiadomości w plikach tekstowych znajdują się w tym katalogu.
Dla każdego użytkownika z listy Michała Buchty zrobiłem rysunek przedstawiający jego aktywność na Twitterze. Każdy użytkownik przedstawiony jest na dwóch rysunkach, podsumowujących jego aktywność z dnia na dzień oraz informację w jakie dni i jakie godziny dana osoba pisze wiadomości.
Jak wygląda aktywność naszych polityków? W jakich godzinach piszą wiadomości? Czy ograniczają aktywność do 8 godzin przez 5 dni w tygodniu czy pracują dłużej? Czy mobilizują się do aktywności miesiąc przed wyborami czy też używają twittera na co dzień? O której wstają i o której kładą się spać. To wszystko można odczytać z poniższych wykresów (ok, trochę przesadzam, wiadomości z jednego konta wciąż mogą pochodzić od kilku różnych osób). Jeżeli ktoś zna aktualniejszą listę polityków lub chciałby wykonać aktualny przydział do partii to pomoc mile widziana. Zapraszam do umieszczania komentarzy co ciekawego można wyciągnąć z wiadomości z Twittera.
Przeglądając poniższe obrazki można zaobserwować kilka ciekawych profili pisania na Twitterze. Przez cały tydzień o każdej godzinie, po pracy, późno w nocy, tylko w środy, tylko w okresie wyborczym itp.
Linki
Kliknięcie na dowolną nazwę użytkownika otworzy rysunek o aktywności danego użytkownika. Kliknięcie rysunku rastrowego otworzy jego wersję wektorową. Na rysunkach przedstawiono dla każdego użytkownika liczbę wiadomości napisanych przez tego użytkownika w jednym dniu (lewy obrazek, każdy obrazek ma inną skalę kolorów przedstawioną po jego prawej stronie). Oraz informację w jakich godzinach w różnych dniach tygodnia dany użytkownik pisze wiadomości.
Kolejność i przyporządkowanie do partii zgodne z listą Michała Buchty. Przyporządkowanie do partii nie jest aktualne (np. Janusz Palikot nie jest w PO).
Kliknięcie na dowolny obrazek otworzy jego wersję wektorową. Znacznie czytelniejszą.
Na rysunkach przedstawiono dla każdego użytkownika liczbę wiadomości napisanych przez tego użytkownika w jednym dniu (lewy obrazek, każdy obrazek ma inną skalę kolorów przedstawioną po jego prawej stronie). Oraz informację w jakich godzinach w różnych dniach tygodnia dany użytkownik pisze wiadomości.
Wykres kalendarza po lewej zmodyfikowaną funkcją Calendar Heatmap (http://blog.revolutionanalytics.com/2009/11/charting-time-series-as-calendar-heat-maps-in-r.html),
Wykres skrzypcowy zmodyfikowaną funkcją violinplot z pakietu UsingR.
Dane są ściągane z użyciem pakietu twitteR, to co jest ciekawe w nim to że API ma limit liczby zapytań na godzinę (150) więc aby ściągnąć dane wszystkich polityków potrzeba było kilkanaście godzin. API na szczęście umożliwia sprawdzenie ile jeszcze zapytań zostało do wykorzystania i za ile sekund będzie można ściągnąć ponownie maksymalną liczbę wpisów.
A tak w ogóle to w weekend wrzucę na cran Rowy pakiet SmarterPoland w którym będą funkcje używane do ściągania i wizualizacji danych.
No, rzeczywiście, coś obrzydliwego….
A nie mówiłem, że analiza danych z Twittera jest prosta 🙂
A propos – bardzo fajny sposób przedstawienia wyników – chętnie bym się dowiedział jak to zrobiłeś?
Takie rzeczy to tylko w eRze :>
Wykres kalendarza po lewej zmodyfikowaną funkcją Calendar Heatmap (http://blog.revolutionanalytics.com/2009/11/charting-time-series-as-calendar-heat-maps-in-r.html),
Wykres skrzypcowy zmodyfikowaną funkcją violinplot z pakietu UsingR.
Dane są ściągane z użyciem pakietu twitteR, to co jest ciekawe w nim to że API ma limit liczby zapytań na godzinę (150) więc aby ściągnąć dane wszystkich polityków potrzeba było kilkanaście godzin. API na szczęście umożliwia sprawdzenie ile jeszcze zapytań zostało do wykorzystania i za ile sekund będzie można ściągnąć ponownie maksymalną liczbę wpisów.
A tak w ogóle to w weekend wrzucę na cran Rowy pakiet SmarterPoland w którym będą funkcje używane do ściągania i wizualizacji danych.
To że w eRze to byłem pewien na 100% 🙂
Dzięki za linka.