Na publikowanych kilka tygodni temu wpisach pisałem o tym, jak wyciągnąć z Twittera informacje o meczach piłki nożnej, czy to z Premier League, czy z Euro 2012. W tym wpisie krótko omówię wyniki przedstawione na blogu warszawskiego oddziału Netezza IBM, dotyczące analizy danych z Twittera pod kątem tego co mówiono o miastach gospodarzach na Twitterze podczas Euro. Wszystkie prezentowane poniżej wykresy pochodzą ze wspomnianego bloga.
Podczas Euro ww. oddział zebrał kilkanaście milionów wiadomości z Twittera. Zdecydowana większość dotyczyła przebiegu rozgrywek piłkarskich, ale turyści zza granicy pisali też o miastach, które odwiedzili, komunikacji publicznej, drogach, zabytkach itp. Spójrzmy co też ci turyści pisali. Podsumowanie przeprowadzonych analiz przedstawia poniższy zbiór wykresów. Pierwszy wykres można zobaczyć w dużej rozdzielczości tutaj (w powiększeniu widać przykładowe, wybrane zdania z Twittera tworzące ramkę rysunku).
Przyjrzyjmy się dwóm ciekawym elementom tej grafiki. Jeden prezentuje skumulowaną widoczność i nastawienie wiadomości dotyczących miast gospodarzy. Wyniki dotyczą okresu trzech tygodni, czarne punkty oznaczają wyniki po pierwszym, drugim i trzecim tygodniu.
Najwięcej wiadomości dotyczy Warszawy, średnio dwukrotnie więcej niż innych miast gospodarzy. Bilans wiadomości pozytywnych minus negatywnych jest podobny dla wszystkich gospodarzy. Wrocław charakteryzuje się najmniejszą liczbą wiadomości (poniżej 20k) ale za to największym procentem wiadomości pozytywnych (procent odpowiada nachyleniu krzywej).
Drugi ciekawy element dotyczy analizy nastawienia dla różnych języków. Nastawienie wiadomości często ocenia się na podstawie listy słów o zabarwieniu pozytywnym i negatywnym. Trudno jednak skalibrować takie listy dla różnych języków by podobnie mierzyć natężenie emocji. Poniżej zastosowano więc inną prostą sztuczkę. Język wiadomości rozpoznano automatycznie, a nastawienie wiadomości w tym języku określono częstością buziek uśmiechniętych / smutnych. Szerokość prostokąta odpowiada liczbie wiadomości w tym języku o danym mieście (od lewej Wrocław, Poznań, Gdańsk) wysokość odpowiada frakcji wiadomości z określonym typem buziek (buźki ławo rozpoznać prostym wyrażeniem regularnym).
I tak np. o Wrocławiu publikowanych było wiele pozytywnych wpisów w językach angielskim, hiszpańskim, czeskim, rosyjskim itp.
Wyniki te dotyczą użytkowników Twittera i nie można ich przenosić na całe nacje. W różnych krajach popularność Twittera jest rożna. Niemniej myślę, że są to ciekawe wykresy. A może macie pomysł co jeszcze na temat miast gospodarzy można wydobyć z danych z Twittera?