Co mówiono o miastach gospodarzach Euro 2012

Na publikowanych kilka tygodni temu wpisach pisałem o tym, jak wyciągnąć z Twittera informacje o meczach piłki nożnej, czy to z Premier League, czy z Euro 2012. W tym wpisie krótko omówię wyniki przedstawione na blogu warszawskiego oddziału Netezza IBM, dotyczące analizy danych z Twittera pod kątem tego co mówiono o miastach gospodarzach na Twitterze podczas Euro. Wszystkie prezentowane poniżej wykresy pochodzą ze wspomnianego bloga.

Podczas Euro ww. oddział zebrał kilkanaście milionów wiadomości z Twittera. Zdecydowana większość dotyczyła przebiegu rozgrywek piłkarskich, ale turyści zza granicy pisali też o miastach, które odwiedzili, komunikacji publicznej, drogach, zabytkach itp. Spójrzmy co też ci turyści pisali. Podsumowanie przeprowadzonych analiz przedstawia poniższy zbiór wykresów. Pierwszy wykres można zobaczyć w dużej rozdzielczości tutaj (w powiększeniu widać przykładowe, wybrane zdania z Twittera tworzące ramkę rysunku).

 

Przyjrzyjmy się dwóm ciekawym elementom tej grafiki. Jeden prezentuje skumulowaną widoczność i nastawienie wiadomości dotyczących miast gospodarzy. Wyniki dotyczą okresu trzech tygodni, czarne punkty oznaczają wyniki po pierwszym, drugim i trzecim tygodniu.

 

 

Najwięcej wiadomości dotyczy Warszawy, średnio dwukrotnie więcej niż innych miast gospodarzy. Bilans wiadomości pozytywnych minus negatywnych jest podobny dla wszystkich gospodarzy. Wrocław charakteryzuje się najmniejszą liczbą wiadomości (poniżej 20k) ale za to największym procentem wiadomości pozytywnych (procent odpowiada nachyleniu krzywej).

Drugi ciekawy element dotyczy analizy nastawienia dla różnych języków. Nastawienie wiadomości często ocenia się na podstawie listy słów o zabarwieniu pozytywnym i negatywnym. Trudno jednak skalibrować takie listy dla różnych języków by podobnie mierzyć natężenie emocji. Poniżej zastosowano więc inną prostą sztuczkę. Język wiadomości rozpoznano automatycznie, a nastawienie wiadomości w tym języku określono częstością buziek uśmiechniętych / smutnych. Szerokość prostokąta odpowiada liczbie wiadomości w tym języku o danym mieście (od lewej Wrocław, Poznań, Gdańsk) wysokość odpowiada frakcji wiadomości z określonym typem buziek (buźki ławo rozpoznać prostym wyrażeniem regularnym).
I tak np. o Wrocławiu publikowanych było wiele pozytywnych wpisów w językach angielskim, hiszpańskim, czeskim, rosyjskim itp.

 

 

Wyniki te dotyczą użytkowników Twittera i nie można ich przenosić na całe nacje. W różnych krajach popularność Twittera jest rożna. Niemniej myślę, że są to ciekawe wykresy. A może macie pomysł co jeszcze na temat miast gospodarzy można wydobyć z danych z Twittera?

6 myśli na temat “Co mówiono o miastach gospodarzach Euro 2012”

    1. Z rozpoznawaniem ironii problem maja nawet ludzie. Dlatego tez nie mialbym zaufania do wartosci bezwzglednych odpowiadajacych dlugosciom slupkow, ale ranking,,, jakies tendencje pokazuje

  1. Może to przez to, że dzisiaj poniedziałek, ale jakoś nie rozumiem wykresu nr 2.

    Np. dla Poznania na osi poziomej mamy ok 40 000, a na pionowej trochę ponad 900.

    Czy to oznacza, że na 40 000 wpisów o 900 więcej jest pozytywnych niż negatywnych?
    Jak się to ma do komentarza z plakatu, że pozytywnych jest ok 3-4 razy więcej?

    1. Nie udalo sie ,,upakwac” wszystkich wynikow na plakacie i ten wykres pokazuje tylko roznice pozytywne – negatywne, dostalem wszczesniej kilka komentarzy o to jaka jest zmiennosc roznica moze byc mala bo wiekszosc komentarzy jest neutralnych lub tez bo pozytywnych i negatywnych jest po rowno. Stad komentarz o proporcjach pozytywnych do negatywnych, ten iloraz jest podobny dla wszystkich miast. Czyli bilans troche ponad 900 odpowiadac bedzie liczbom+- 1200 pozytywnych i 300 negatywnych. Zamiast jednak pokazywac surowe dane pokazano tu tylko bilans. Pozostawiajac miejsca na ustne uzupelnienie

  2. Ciekawe zestawienie. Niestety. W liczbach często mieszka diabeł, tak jak w ludziach. I to bardziej o nich chodzi w zaprezętowanych wynikach: )

    1. W kilkunastu milionach glosow rozne osoby uslysza rozne rzeczy. Ale to raczej motywacja by robic rozne tego typu zestawienia z roznych zrodel przez rozne osoby i porownywac wyniki.
      Wyniki prezentowane na plakacie byly robione przez dwie rozne osoby pracujace w jednym zespole. Juz te wyniki jakos roznia sie od siebie. Aby miec bardziej kompletny obraz trzeba by wiecej par oczu.
      W sumie moze warto lobbowac za tym by IBM udostepnil ten zbior danych. Zajme sie tym jak wroce z urlopu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">