Analiza nastroju a książki Józefa Korzeniowskiego (Joseph Conrad)

Serwis http://hedonometer.org/ prezentuje interesujące ilustracje o tym jak zmienia się nastrój/nastawienie wypowiedzi w różnych mediach (np. na Twitterze na przestrzeni roku). O analizie nastroju/nastawienia pisaliśmy na tym blogu nie raz, czy to w kontekście wydarzeń na Ukrainie, Euro 2012 czy olimpiadzie. W skrócie, na podstawie słów lub zwrotów z wypowiedzi oceniamy zabarwienie emecjonalne tej wypowiedzi na jednej lub kilku skalach.

Ostatnio znalazłem na hedonometer.org bardzo ciekawe wizualizacje książek dostępnych w ramach projektu Gutenberg (książki, które przeszły do domeny publicznej). Poniżej przykład dla esejów ,,O życiu i literaturze” (Notes on Life and Letters) Josepha Conrada.

Graficznie przedstawiony jest zabarwienie emecjonalne ,,wzdłuż” książki. Na wykresie widać, które fragmenty są weselsze/bardziej pozytywne a które nie. Można również zobaczyć jakich słów jest zdecydowanie więcej/mniej we wskazanych sekcjach i jak te słowa przekładają się na całościowy nastrój.

Screen Shot 2014-09-01 at 15.05.21

Screen Shot 2014-09-01 at 15.05.27

Więcej pod adresem http://hedonometer.org/books.html.

Co mówiono o miastach gospodarzach Euro 2012

Na publikowanych kilka tygodni temu wpisach pisałem o tym, jak wyciągnąć z Twittera informacje o meczach piłki nożnej, czy to z Premier League, czy z Euro 2012. W tym wpisie krótko omówię wyniki przedstawione na blogu warszawskiego oddziału Netezza IBM, dotyczące analizy danych z Twittera pod kątem tego co mówiono o miastach gospodarzach na Twitterze podczas Euro. Wszystkie prezentowane poniżej wykresy pochodzą ze wspomnianego bloga.

Podczas Euro ww. oddział zebrał kilkanaście milionów wiadomości z Twittera. Zdecydowana większość dotyczyła przebiegu rozgrywek piłkarskich, ale turyści zza granicy pisali też o miastach, które odwiedzili, komunikacji publicznej, drogach, zabytkach itp. Spójrzmy co też ci turyści pisali. Podsumowanie przeprowadzonych analiz przedstawia poniższy zbiór wykresów. Pierwszy wykres można zobaczyć w dużej rozdzielczości tutaj (w powiększeniu widać przykładowe, wybrane zdania z Twittera tworzące ramkę rysunku).

 

Przyjrzyjmy się dwóm ciekawym elementom tej grafiki. Jeden prezentuje skumulowaną widoczność i nastawienie wiadomości dotyczących miast gospodarzy. Wyniki dotyczą okresu trzech tygodni, czarne punkty oznaczają wyniki po pierwszym, drugim i trzecim tygodniu.

 

 

Najwięcej wiadomości dotyczy Warszawy, średnio dwukrotnie więcej niż innych miast gospodarzy. Bilans wiadomości pozytywnych minus negatywnych jest podobny dla wszystkich gospodarzy. Wrocław charakteryzuje się najmniejszą liczbą wiadomości (poniżej 20k) ale za to największym procentem wiadomości pozytywnych (procent odpowiada nachyleniu krzywej).

Drugi ciekawy element dotyczy analizy nastawienia dla różnych języków. Nastawienie wiadomości często ocenia się na podstawie listy słów o zabarwieniu pozytywnym i negatywnym. Trudno jednak skalibrować takie listy dla różnych języków by podobnie mierzyć natężenie emocji. Poniżej zastosowano więc inną prostą sztuczkę. Język wiadomości rozpoznano automatycznie, a nastawienie wiadomości w tym języku określono częstością buziek uśmiechniętych / smutnych. Szerokość prostokąta odpowiada liczbie wiadomości w tym języku o danym mieście (od lewej Wrocław, Poznań, Gdańsk) wysokość odpowiada frakcji wiadomości z określonym typem buziek (buźki ławo rozpoznać prostym wyrażeniem regularnym).
I tak np. o Wrocławiu publikowanych było wiele pozytywnych wpisów w językach angielskim, hiszpańskim, czeskim, rosyjskim itp.

 

 

Wyniki te dotyczą użytkowników Twittera i nie można ich przenosić na całe nacje. W różnych krajach popularność Twittera jest rożna. Niemniej myślę, że są to ciekawe wykresy. A może macie pomysł co jeszcze na temat miast gospodarzy można wydobyć z danych z Twittera?

Premier League, Twitter a opowiadanie historii bazując na danych

Dzisiaj będzie o emocjach związanych z oglądaniem wykresu opisującego przebieg meczu. Wzrokowcy mogą czytać ten wpis od końca, od wykresu umieszczonego na końcu wpisu. Zanim jednak przejdę do klasycznego wpisu z jednym spójnym wątkiem, zacznę od dwóch wolnych skojarzeń wprowadzających.

Skojarzenie 1. Czy oglądacie wyścigi formuły 1? Ja to czasami robię, ale ponieważ oglądanie bolidów jest nudne, słuchanie komentatorów jest jeszcze nudniejsze, więc moja ulubioną formą oglądania wyścigów jest śledzenie live timing, dostępnego np. tutaj. Piękna sprawa! Na bieżąco można obserwować prędkości i położenia bolidów, graficznie przedstawiona jest sytuacja na torze. Wszystko co zbędne (wygląd bolidów, hałas silników) jest usunięte. Wyścig można śledzić patrząc na tabelkę z liczbami pokazującą czasy w poszczególnych sektorach, prędkości w punktach kontrolnych, odległość od lidera, prędkość wiatru, wilgotność powietrza, stan opon i to jest super!

Skojarzenie 2. Nie interesuję się piłką nożną a tym bardziej ligą angielską. Poniżej jednak przedstawiam wizualizację opisującą przebieg meczu w którym stawką był tytuł mistrza w Premier League. Interesujące w tej wizualizacji jest to, że prezentuje ona analizę emocji z jakimi ludzie oglądali i komentowali wspomniany mecz. Zaskakującym ale miłym doświadczeniem było odkrycie, że przyglądając się dwóm krzywym można poczuć emocje, które przezywali kibice drużyn walczących o mistrzostwo. Poza tym krzywe są dosyć interesujące a każde ich załamanie jest związane z jakimś wydarzeniem. Krzywa opisuje więc serię wydarzeń, streszcza cały przebieg meczu, skrywa ciekawą historię.

Dzisiejszy wpis jest wolnym tłumaczeniem artykułu dostępnego na blogu IBM BigData and Petascale Analytics. Analizę i wykres wykonano w dziale R&D IBM w Warszawie. Ponieważ wizualizacja bardzo mi się podoba więc poniżej przedstawiam streszczenie historii, która się kryje za tą wizualizacją.

Spójrzmy na mecz piłki nożnej przez pryzmat wpisów z Twittera. Spojrzymy nie na byle jaki mecz, ale na mecz o mistrzostwo w Premier League. A że mieszkańcy wysp często korzystają z Twittera to też i danych na które można spojrzeć jest sporo.

Ostatnia seria meczy w Premier League mogła wiele zmienić. Interesują nas trzy mecze:

  • Man City – QPR: Manchester City walczy o tytuł mistrza i musi wygrać aby zdobyć mistrzostwo. QPR walczy o utrzymanie się w lidze, albo QPR albo Bolton z ligi wypadną. 
  • Man United – Sunderland: Aby Manchester United został mistrzem musi wygrać ten mecz i QPR musi wygrać z Man City.
  • Stoke – Bolton: Bolton walczy o utrzymanie się w lidze, musi wygrać ten mecz.

Do ostatnich minut nie było wiadomo kto wypadnie z ligi a kto zdobędzie mistrzostwo. Poniżej krótko opiszę przebieg powyższych meczy. Na poniższym wykresie zaznaczono wpisy na twiterze w których znajdowały się odniesienia do Manchester City lub Manchester United. Warto prześledzić sobie jakim zachowaniem na Twitterze odpowiadają poniższe zdarzenia.

  • 15:20, Manchester United traci bramkę, szanse na tytuł się oddalają.
  • 15:39, Manchester City zdobywa bramkę, od tej chwili jest faworytem jeżeli chodzi o mistrzostwo. Fani są zadowoleni.
  • 16:03, 16:21, Manchester City traci bramkę i jest remis, a następnie traci kolejną bramkę. Jeżeli w tej chwili mecz by się skończył to mistrzem byłby Manchester United. Fani nie są szczęśliwi. Na Twitterze pojawiają się niezbyt pozytywne wpisy na temat Manchester City.
  • 16:45, mecz Stroke – Bolton kończy się remisem, jest już pewne, że Bolton spadnie, QPR nie jest już zagrożone. Tymczasem w ostatnich doliczonych minutach meczu Manchester City strzela dwie bramki QPR. Tym samym wygrywa mecz i zdobywa tytuł mistrza.

Łatwo sobie wyobrazić, że ostatnie minuty meczu wywołały sporo emocji. Całą powyższą historie i wiele dodatkowych szczegółów można odczytać z poniższego wykresu. Na pierwszym panelu przedstawiona jest liczba ćwierków na minutę, po meczu ćwierków dotyczących Manchester City było ponad 8000 na minutę! Drugi panel pokazuje nastawienie ćwierków. W okresie po stracie drugiej bramki przez City ćwierki mają negatywne nastawienie by po zdobyciu mistrzostwa przejść to peanów zachwytu. Trzeci panel pokazuje kilka wybranych ćwierków, które były przećwierkowywane (ech, to słowotwórstwo, chodzi o retweet :-). Cyniczny ćwierk dotyczący kupienia meczu miał przed godziną 17:45 ponad 500 retweetów na minutę!

A Wam jak się podoba oglądanie sportu w taki sposób?

Poniższy wykres lepiej oglądać w pełnej rozdzielczości. W wersji wektorowej SVG jest on dostępny tutaj, w wersji rastrowej PNG większy wykres jest dostępny tutaj.