Statystyczna analiza Euro 2012, Twitter i niespodzianki

Streszczeniem tego wpisu jest cytat ze świetnej książki ,,A mathematician reads the newspaper”, mianowicie: ,,You can only predict things after they’ve happened” (technicznie jest to powiedzenie Ionesco).

Jakiś czas w tym wpisie ,,Premier League a opowiadanie historii bazując na danych” odnosiłem się do bloga zaprzyjaźnionej firmy, opisującego analizy wypowiedzi z Twittera podczas Premier League.

Podobne analizy wspomniany zaprzyjaźniony oddział R&D IBM z Warszawy prowadzi podczas Euro 2012 na swoim blogu. Dzisiaj przekopiuję stamtąd jeden z ciekawszych podsumowań. Roi się od liczb, co jest raczej wadą niż zaletą, ale pomimo to przyjemnie się je ogląda. Oryginalny wpis jak i więcej analiz dotyczących Euro znaleźć można na wspomnianym wyżej blogu.

Co zostało zrobione? Na podstawie wypowiedzi na Twitterze oceniano jakie wyniki typują internauci a następnie zestawiono predykcje internautów z wynikami meczów.

Interesujące jest to, że wyniki pewnych meczów było łatwo odgadnąć (remis Włochy – Chorwacja, wygrana Włoch nad Irlandią) a inne były sporą niespodzianką dla internautów (wynik meczu Holandia – Dania czy Francja – Szewcja).

Ciekawe na ile opinie z Twittera są zgodne z zakładami bukmacherskimi. Może to i pomysł na biznes dla kogoś lubiącego ryzyko?

 

 

New York Times: Osoby z dziećmi śpią o kilkanaście minut dziennie mniej niż bezdzietne. Czyżby?

The New York Times jest zazwyczaj chwalony za wizualizacje oparte o dane. Jedną z takich prezentacji przedstawię poniżej. Zacznę od zachwytu by po kilku paragrafach znaleźć dziurę w całym. Brzmi interesująco?

Tydzień temu, podczas konferencji useR, Hadley Wickham pokazał kilka interesujących, jego zdaniem wzorcowych, wizualizacji. Jedna z nich bardzo wpadła mi w oko. Link do niej poniżej. Ta interaktywna wizualizacja pokazuje jak różne grupy ludzi spędzają czas. Ile i kiedy śpią, jedzą, pracują, bawią się, oglądają telewizję itp.

Można porównywać różne grupy osób pod kątem ile czasu przeznaczają na prace domowe (średnio kobiety 2x więcej niż mężczyźni), w jakich godzinach zazwyczaj pracują,  czasu przeznaczają na edukację (np. warto zobaczyć w podziale na grupy wiekowe). Bardzo interaktywna, zachęca czytelnika do zabawy w szukanie interesujących zależności. Na pierwszy rzut oka bardzo ładnie przygotowana infografika.

zachęcam do poklikania!

Na chwilę odłóżmy na bok tę infografikę. Jakiś czas temu słuchałem wywiadu z polską dziennikarką, która zapytana o zespół do opracowania infografiki powiedziała, że w pierwszej kolejności zatrudniłaby grafika. Statystyk by się przydał w drugiej kolejności, ale z pewnością nie będzie na niego środków. Opinia ta jest zgodna niestety z opinią większości osób, że infografika powinna być ładna, przykuwająca uwagę a niekoniecznie prezentująca dane. Estetyka przed poprawnością.

Do czego to prowadzi? Mamy ładne, cukierkowe grafiki, które zniekształcają obraz rzeczywistości lub w bardziej optymistycznym przypadku nic o rzeczywistości niewiele mówią.

A jak to stwierdzenie ma się do prezentowanej infografiki? Zobaczmy czy można z niej odczytać czy ilość i godziny snu różnią się w zależności od tego czy ma się dziecko, dwójkę lub więcej dzieci, czy też nie ma się dzieci. Osoby które przeżyły narodziny dziecka prawdopodobnie są przekonane, że przy małym dziecku ilość snu poważnie spada. A co na to nasza infografika?

Dowiedzieć możemy się z niej, że średnio osoby bezdzietne śpią o 10 minut dłużej niż osoby z jednym dzieckiem i o 14 minut niż osoby z dwójką dzieci.

Czyżby?

Jaki jest problem z tą analizą? Nie uwzględnia ona zróżnicowania porównywanych grup pod względem innych cech. Np. wieku. Otóż osoby młodsze średnio śpią dłużej (co zresztą wyraźnie widać na tej wizualizacji). Średnio osoby bez dzieci są młodsze niż osoby z dziećmi (dzieci się ,,nabywa” z wiekiem). A więc porównując osoby bezdzietne z osobami z dziećmi obserwujemy równocześnie różnice w długości snu wynikającą z różnic w średnim wieku obu grup. Aby dowiedzieć się czy i o ile posiadanie dziecka skraca czas na sen należałoby w analizie uwzględnić i wyeliminować wiek i inne ,,zakłócające” cechy badanych. Można to zrobić używając np modeli liniowych. Problem w tym, że sam grafik tego nie zrobi, do tego potrzebny ktoś z choć podstawowym przygotowaniem analitycznym. Szkoda też że nie rozdzielono osób dzietnych na osoby z najmłodszym dzieckiem do 4 lat  i osoby ze starszymi dziećmi. Myślę, że małe dziecko versus duże dziecko bardziej różnicuje tryb życia niż jedno versus dwa i więcej.

Pointa? Apelując do polskich gazet. Może zamiast zatrudniać tylko grafika warto wygospodarować choć 20% etatu dla statystyka? Może prezentacja będzie mniej piękna ale jest szansa, że będzie przedstawiała właściwie efekt obserwowany w danych. A przecież o to chodzi, by się czegoś dowiedzieć, a nie o to by nacieszyć się estetyką wykresu.

BTW: New York Times i Guardian mają świetne zespoły przygotowujące wizualizacje danych. Pracują one w szalenie krótkim czasie, łatwo więc później szukać dziury w całym. Nie zmienia to jednak faktu, że zespoły obu gazet wykonują masę świetnej pracy. Warto zobaczyć jak ciekawe wizualizacje sa prezentowane na łamach obu gazet, czy raczej ich portali internetowych.

 

Statystyka obywatelska w Łodzi

Dzisiaj od 18:00 w Łodzi będę mówił oczekiwaniach i możliwościach (przyszłych, przeszłych wykorzystanych i przeszłych utraconych) użycia analizy danych w życiu obywatelskim i w edukacji.

Brzmi mało konkretnie, ale to dlatego, że planowanych jest wiele wątków zakreślających obszar w którym liczę na ciekawą dyskusję.

Prezentacja odbędzie się w ramach cyklu ,,Pracownia nowej edukacji” organizowanego przez łódzki oddział magazynu Krytyka Polityczna.

Czas i miejsce to 22 czerwca, piątek, g. 18.00, Świetlica KP w Łodzi, ul. Piotrkowska 101, dodatkowe informacje o cyklu spotkań znaleźć można tutaj.

Link do prezentacji, którą zamierzam przedstawić znajduje się tutaj.

Cel to poddać dyskusji kilka pomysłów użycia analizy danych do

  • uwrażliwienia obywateli na możliwości i niebezpieczeństwa związane z graficznym przedstawianiem danych,
  • oceny stanu i efektów zmian w systemie edukacji.

Zainteresowanych serdecznie zapraszam.

Animacje są złe, czyli czym jest ,,change blindness”

Większość osób słyszała o ślepocie barw (ang. color blindness). Problem dotyka kilku procent populacji, najczęściej mężczyzn. Osoby chore mają problem z rozpoznawaniem barw. Z tego też powodu dobre reguły doboru kolorów odradzają używania skali rozpinającej się od czerwieni do zieleni. To zalecenie namiętnie ignorują osoby pracujące z mikromacierzami, które z uporem wartym lepszej sprawy przedstawiają zmiany ekspresji genów na skali zielony – czarny – czerwony.

Do niedawna nie słyszałem jednak o ang. change blindness, czyli nieumiejętności zauważenia zmiany, np. gdy ta zachodzi powoli. Okazuje się, że jest wiele przykładów pokazujących, że w pewnej sytuacji spora część populacji nie zauważa się zmiany, nawet jeżeli jest ona duża.

Kilka przykładów:

  • Ten filmik obrazuje sytuację, gdy badana osoba nie zauważa, że zmienia się jej rozmówca! Trudno w to uwierzyć? Ponoć dotyczy to 50% badanych. Warto zobaczyć filmik.
  • Ten filmik pokazuje płynne przejście pomiędzy dwoma obrazkami różniącymi się znaczącym elementem, a jednak spora część osób nie jest w stanie tej zmiany zauważyć jeżeli zachodzi ona wystarczająco wolno.
  •  Ten filmik pokazuje jak w zależności w który element wykresu patrzymy zmienia się nasza percepcja zmiany kolorów.
Wniosek? Animacja jest często atrakcyjna graficznie, ale wiążą się z nią problemy percepcji. Projektując animację gdy wiemy co ulegnie zmianie możemy mieć problemy w zrozumieniu czy tę zmianę zauważy ktoś, kto nie wie na który element zwracać uwagę. Wniosek jest taki, że w infografikach należy ją stosować z wyjątkową ostrożnością.

Statystyka śledcza, powtarzalne badania, Sweave, knitr czyli useR 2012

Gdyby zadać pytanie ,,Czy wyniki analiz statystycznych prezentowane w raportach lub artykułach naukowych powinny być powtarzalne?” większość osób odpowiedziałaby tak. Powinno być jasne jakie są dane źródłowe i jak były przetwarzane zanim uzyskano podany wynik.

Na pytanie ,,Czy wyniki analiz statystycznych prezentowane w raportach lub pracach naukowych można odtworzyć?” odpowiadać powinny tylko osoby przygotowujące raporty lub próbujące odtworzyć wyniki innych. I tutaj z odpowiedziami może być różnie. W skutek wstępnych transformacji, usuwania przypadków ,,odstających”, różnych wariantów normalizacji, zawodnej pamięci bywa tak, że po roku autor nie jest w stanie odtworzyć własnych analiz, a co dopiero inna osoba. Efekt ten jest szczególnie silny gdy używa się narzędzie typu ,,wyklikaj analizę i zapomnij”.

Problem zawodnej pamięci jest mniej poważny niż problemy w analizie. Każdy jest omylny, dostęp do dokładnego opisu jak analizy zostały przeprowadzone pozwala na szybkie znalezienie i naprawienie ewentualnych błędów.

Statystyka śledcza

Statystyka śledcza to robocza nazwa dziedziny w której celem jest zbadanie czy analizę danych można odtworzyć oraz czy analiza została przeprowadzona poprawnie. Dziś na useR Kevin Coombes pokazywał przykłady błędów statystycznych znalezionych w poważnych czasopismach medycznych (takich poważnych błędów jak np pomylenie indeksu identyfikatora nazwy genu o +1 czy pomylenie etykietek zdrowy/chory!). Jak się okazuje wyśledzenie niektórych błędów w artykule kosztuje ponad 1500 godzin pracy statystyka! 1500 godzin to prawie rok pracy na pełnym etacie! A byłoby łatwiej gdyby nie trzeba było przeprowadzać odwrotnej inżynierii pracy statystyka, ale gdyby ta praca była udokumentowana. Bardzo ciekawy przypadek jednego ze znalezionych przez Kevina błędu znaleźć można w pracy http://bioinformatics.mdanderson.org/Supplements/ReproRsch-Chemo/SR0.pdf, materiały dodatkowe pozwalające na całkowite odtworzenie tego znaleziska znajdują się tutaj http://bioinformatics.mdanderson.org/Supplements/ReproRsch-Chemo/.

Powtarzalne badania

Na szczęście są narzędzia pozwalające na zapisanie całej analizy w postaci powtarzalnego skryptu (np. R) oraz zintegrowanie takiego skryptu z narzędziem pozwalającym na wygenerowanie prezentacji, raportu z komentarzami, publikacji, książki, podręcznika w formacie pdf, html, doc i innych. Taka integracja pozwala na dokładne sprawdzenie jaki zestaw analiz był użyty by wygenerować określony wykres / wynik / tabelę.

Do takiej integracji służą między innymi pakiety Sweave i knitr dla programu R.

Statystyk Frank Harell jest jednym z misjonarzy powtarzalnych badań, poprowadził na useR interesujące warsztaty dotyczące obu pakietów.  Obszerne materiały prezentowane podczas warsztatów i wiele ciekawych odnośników do samouczków znaleźć można na tej stronie: http://biostat.mc.vanderbilt.edu/wiki/Main/SweaveLatex.

 

Ilu statystyków spotkać można w akademii medycznej, czyli gorące wrażenia z pierwszego dnia konferencji useR 2012

 

Konferencje użytkowników R z serii useR obywają się w interesujących ośrodkach i skupiają osoby o podobnych zainteresowaniach (do moich ;-)). Tegoroczna odbywa się w Vanderbilt School of Medicine, a więc w uproszczeniu na uniwersytecie medycznym. Na uniwersytecie medycznym konferencja użytkowników programu R?

Tegoroczny program jest bardzo ciekawy i pewnie na dniach napiszę więcej o wybranych referatach. Na początek chciałbym podzielić się dwom wrażeniami z pierwszego dnia.

Zacznę od zagadki. Jeżeli na tutejszym uniwersytecie medycznym pracuje 2164 pracowników naukowych, ilu z nich pracuje jako biostatystycy (a więc wsparcie analityczne dla pozostałych badaczy)?

Odpowiedź to 62 biostatystyków (nie licząc pracowników technicznych, informatyków itp). Czyli około 3% kadry naukowej to biostatystycy! Nie muszę dodawać, że 62 osoby to spora społeczność, intensywnie rozwiająca wiele ciekawych metod analizy i wizualizacji danych włącznie z pakietami w R.

Co można zrobić by polskie akademie medyczne zaczeły wychowywać sobie takie grupy biostatystyków? Na wypadek gdyby ktoś pytał, tak one potrzebują tych statystyków aby prowadzić badania! Dla porównania dodam, że Warszawski Uniwersytet Medyczny liczy ponad 1500 pracowników, nie udało mi się ustalić ilu zatrudnia statystyków ale z rozmów z pracującymi tam lekarzami mam wrażenie znacznie znacznie mniej.

Druga obserwacja to olbrzymie zainteresowanie wizualizacją. Podczas referatów i w kuluarach znaczna część dyskusji dotyczy technik wizualizacji, słabych i silnych stron różnych narzędzi i pakietów graficznych. W porównaniu do poprzednich lat zmiana zainteresowaniach jest widoczna.

 

,,Szkoła to strata czasu”. Czy tak o szkole myślą 15-letni Polacy?

Tak, ten tytuł bardziej przypomina tytuł z Faktu czy portalów (dez)informacyjnych, niż wyważony tytuł bloga informacyjnego ;-). Ale przynajmniej pasuje do treści prezentowanej poniżej.

W poprzednim wpisie pisałem o badaniu PISA w ramach którego w roku 2009 przepytano ponad 500 tyś 15-latków z całego świata z czego prawie 5 tyś z Polski. Pytano o bardzo wiele rzeczy, między innymi o nastawienie do szkoły. Angielskojęzyczną wersję ankiety z oryginalnymi pytaniami znaleźć można tutaj. Dwa pytania zainteresowały mnie szczególnie: Q33A i Q33B, czyli (w wolnym tłumaczeniu) ,,Szkoła uczy mnie rzeczy, które mogą być przydatne w przyszłej pracy” i ,,Szkoła to strata czasu”. Przy obu zdaniach student mógł zaznaczyć ,,bardzo się nie zgadzam”, ,,nie zgadzam się”, ,,zgadzam się”, ,,bardzo się zgadzam”. Ponieważ najczęściej ankietowani zgadzali się z pierwszym zdaniem a nie zgadzali z drugim, więc aby łatwiej przedstawić te wyniki graficznie zamieniłem obie zmienne na binarne, w pierwszym przypadku licząc jaki procent uczniów ,,bardzo się zgadza” z tym, że szkoła przygotowuje do pracy, a w drugim przypadku jaki procent uczniów ,,bardzo się zgadza”, ,,zgadza się” lub ,,nie zgadza się” z tym zdaniem (czyli wszystko poza ,,bardzo się nie zgadzam”). Inny podział poziomów na zmienne binarne nie zmieniał znacząco kolejności państw ale mniej je różnicował, dlatego nie zastosowałem binaryzacji metodą dwa za vs. dwa przeciw.

Poniżej graficzna prezentacja jak te dwa wskaźniki wyglądają dla europejskich państw.

 

Tak, to państwo w prawym dolnym rogu to Polska.

Tak, to źle wróży skoro uczniowie tak myślą o szkole.

Tak, ze zbioru kilkuset współczynników można wybrać takie w których wypadamy znacznie lepiej na tle europejskich krajów.

Tak, ten wpis miał na celu sprowokowanie Was do poklikania w te interaktywne wykresy przedstawiające inne charakterystyki uczniów.

Tak, do badania PISA jeszcze wrócimy i przedstawimy te dane bez tej sztucznej binaryzacji (jak tylko wymyślę jak to zrobić czytelnie, a może Wy macie na to jakiś pomysł?).

W ankiecie dla ucznia jest znacznie więcej pytań. Może któreś z nich szczególnie Was interesuje?

 

Badanie PISA a interaktywna grafika

 

Poniżej przedstawię podsumowanie kilku zmiennych opisujących 15-latków z 74 różnych krajów. Przedstawione poniżej dane zebrano w ramach badania PISA w roku 2009. Są to bardzo ciekawe dane i będziemy do nich jeszcze niejednokrotnie wracać. W tym wpisie jednak zamiast skupiać się na danych lub historii, którą te dane opisują, moim celem będzie przedstawienia interesującego narzędzia do tworzenia interaktywnych wykresów, czyli portalu tableausoftware. Do bardziej szczegółowego omówienia danych z badania PISA wrócimy w przyszłości.

PISA to skrót nazwy Programu Międzynarodowej Oceny Umiejętności Uczniów (Programme for International Student Assessment). Jego celem jest uzyskanie porównywalnych danych o umiejętnościach uczniów z różnych krajów, którzy ukończyli 15 rok życia. PISA bada umiejętności i wiedzę ważną z perspektywy wyzwań, przed jakimi 15-latkowie staną w swym dorosłym życiu (więcej informacji o PISA). Z tej strony można pobrać bazę danych z surowymi danymi oraz skrypty pozwalające na wczytanie tych danych do programów SAS i SPSS (w sumie ponad 1GB danych). Format danych jest dosyć nieprzyjemny do wczytania z poziomu R. Przygotowuję odpowiedni skrypt i pewnie niedługo napiszę o tym jak wczytać całe dane prosto i wygodnie do R. Na razie niewielki wycinek z tych danych, 20 zmiennych, można pobrać w formacie binarnym Rdata z tej strony. Ponieważ moim zdaniem edukacja młodych ludzi jest bardzo, bardzo, bardzo ważna, dlatego też ten zbiór danych stanowi bardzo interesujący kąsek do dalszej analizy i mam nadzieję będziemy wiele razy do niego wracać. Jutro opiszę trochę dokładniej jak były konstruowane zmienne w wycinku danych, który tutaj pokazuję.

Dzisiaj jednak chciałbym napisać nie o danych ale o narzędziu tableausoftware. Podczas ,,10 lunchów” poznałem Daniela O., który podesłał mi namiary na to narzędzie do przygotowywania i udostępniania wizualizacji danych. W tym narzędziu można np. opracować zbiór interaktywnych wykresów a następnie prosto upublicznić te wykresy w postaci strony www. Idealne narzędzie dla dziennikarzy pracujących z danymi (btw: nic nie mam z tego, że tak słodzę. Trial jest za darmo do używania). Pobawiwszy się nim na prostych tabelkach tylko czekałem na okazję by jakieś interesujące dane przedstawić za jego pomocą. I okazja się nadarzyła.

Poniższy rysunek jest linkiem do strony z czterema interaktywnymi wykresami i filtrem w postaci pola wielokrotnego wyboru (checkbox). W jutrzejszym wpisie dokładniej opiszę jak liczone były zmienne, które są tu prezentowane, na razie chodzi mi wyłącznie o pokazanie narzędzia. To tylko drobny pokaz możliwości wspomnianego narzędzia. Interaktywność pozwala na przefiltrowanie punktów lub sprawdzenie jak wybrane państwa przedstawione na jednym wykresie są położone na innych wykresach. Mam też nadzieję, że nawet taka podstawowa interakcja ułatwi zrozumienie i przyciągnie uwagę do tych danych.

Czy tak jest? Czy kusiło Was pobawić się tymi wykresami? Czy mieliście czas by sprawdzić jak wypada Polska na tle innych państw jeżeli listę tych innych Państw ograniczymy np tylko do Europy? Chętnie usłyszę Wasze opinie i wrażenia. Czy warto umieszczać taką interaktywną grafikę, czy lepiej pozostać przy statycznych wykresach (bo RSS czyta się offline, bo nie ma czasu na klikanie)? A może temat wciągnął Was na tyle, że pobraliście komplet wykresów i dane i stworzyliście własną kombinację ciekawych wykresów (można to zrobić, link do pobrania środowiska na dole wizualizacji)?

 

 

 

Premier League, Twitter a opowiadanie historii bazując na danych

Dzisiaj będzie o emocjach związanych z oglądaniem wykresu opisującego przebieg meczu. Wzrokowcy mogą czytać ten wpis od końca, od wykresu umieszczonego na końcu wpisu. Zanim jednak przejdę do klasycznego wpisu z jednym spójnym wątkiem, zacznę od dwóch wolnych skojarzeń wprowadzających.

Skojarzenie 1. Czy oglądacie wyścigi formuły 1? Ja to czasami robię, ale ponieważ oglądanie bolidów jest nudne, słuchanie komentatorów jest jeszcze nudniejsze, więc moja ulubioną formą oglądania wyścigów jest śledzenie live timing, dostępnego np. tutaj. Piękna sprawa! Na bieżąco można obserwować prędkości i położenia bolidów, graficznie przedstawiona jest sytuacja na torze. Wszystko co zbędne (wygląd bolidów, hałas silników) jest usunięte. Wyścig można śledzić patrząc na tabelkę z liczbami pokazującą czasy w poszczególnych sektorach, prędkości w punktach kontrolnych, odległość od lidera, prędkość wiatru, wilgotność powietrza, stan opon i to jest super!

Skojarzenie 2. Nie interesuję się piłką nożną a tym bardziej ligą angielską. Poniżej jednak przedstawiam wizualizację opisującą przebieg meczu w którym stawką był tytuł mistrza w Premier League. Interesujące w tej wizualizacji jest to, że prezentuje ona analizę emocji z jakimi ludzie oglądali i komentowali wspomniany mecz. Zaskakującym ale miłym doświadczeniem było odkrycie, że przyglądając się dwóm krzywym można poczuć emocje, które przezywali kibice drużyn walczących o mistrzostwo. Poza tym krzywe są dosyć interesujące a każde ich załamanie jest związane z jakimś wydarzeniem. Krzywa opisuje więc serię wydarzeń, streszcza cały przebieg meczu, skrywa ciekawą historię.

Dzisiejszy wpis jest wolnym tłumaczeniem artykułu dostępnego na blogu IBM BigData and Petascale Analytics. Analizę i wykres wykonano w dziale R&D IBM w Warszawie. Ponieważ wizualizacja bardzo mi się podoba więc poniżej przedstawiam streszczenie historii, która się kryje za tą wizualizacją.

Spójrzmy na mecz piłki nożnej przez pryzmat wpisów z Twittera. Spojrzymy nie na byle jaki mecz, ale na mecz o mistrzostwo w Premier League. A że mieszkańcy wysp często korzystają z Twittera to też i danych na które można spojrzeć jest sporo.

Ostatnia seria meczy w Premier League mogła wiele zmienić. Interesują nas trzy mecze:

  • Man City – QPR: Manchester City walczy o tytuł mistrza i musi wygrać aby zdobyć mistrzostwo. QPR walczy o utrzymanie się w lidze, albo QPR albo Bolton z ligi wypadną. 
  • Man United – Sunderland: Aby Manchester United został mistrzem musi wygrać ten mecz i QPR musi wygrać z Man City.
  • Stoke – Bolton: Bolton walczy o utrzymanie się w lidze, musi wygrać ten mecz.

Do ostatnich minut nie było wiadomo kto wypadnie z ligi a kto zdobędzie mistrzostwo. Poniżej krótko opiszę przebieg powyższych meczy. Na poniższym wykresie zaznaczono wpisy na twiterze w których znajdowały się odniesienia do Manchester City lub Manchester United. Warto prześledzić sobie jakim zachowaniem na Twitterze odpowiadają poniższe zdarzenia.

  • 15:20, Manchester United traci bramkę, szanse na tytuł się oddalają.
  • 15:39, Manchester City zdobywa bramkę, od tej chwili jest faworytem jeżeli chodzi o mistrzostwo. Fani są zadowoleni.
  • 16:03, 16:21, Manchester City traci bramkę i jest remis, a następnie traci kolejną bramkę. Jeżeli w tej chwili mecz by się skończył to mistrzem byłby Manchester United. Fani nie są szczęśliwi. Na Twitterze pojawiają się niezbyt pozytywne wpisy na temat Manchester City.
  • 16:45, mecz Stroke – Bolton kończy się remisem, jest już pewne, że Bolton spadnie, QPR nie jest już zagrożone. Tymczasem w ostatnich doliczonych minutach meczu Manchester City strzela dwie bramki QPR. Tym samym wygrywa mecz i zdobywa tytuł mistrza.

Łatwo sobie wyobrazić, że ostatnie minuty meczu wywołały sporo emocji. Całą powyższą historie i wiele dodatkowych szczegółów można odczytać z poniższego wykresu. Na pierwszym panelu przedstawiona jest liczba ćwierków na minutę, po meczu ćwierków dotyczących Manchester City było ponad 8000 na minutę! Drugi panel pokazuje nastawienie ćwierków. W okresie po stracie drugiej bramki przez City ćwierki mają negatywne nastawienie by po zdobyciu mistrzostwa przejść to peanów zachwytu. Trzeci panel pokazuje kilka wybranych ćwierków, które były przećwierkowywane (ech, to słowotwórstwo, chodzi o retweet :-). Cyniczny ćwierk dotyczący kupienia meczu miał przed godziną 17:45 ponad 500 retweetów na minutę!

A Wam jak się podoba oglądanie sportu w taki sposób?

Poniższy wykres lepiej oglądać w pełnej rozdzielczości. W wersji wektorowej SVG jest on dostępny tutaj, w wersji rastrowej PNG większy wykres jest dostępny tutaj.

 

 

Fundacja poszukuje wolontariuszy i stażystów do realizacji kilku interesujących projektów.

Uprzejmie proszę o przesłanie tej informacji osobom, które mogą być zainteresowane lub znać kogoś kto byłby zainteresowany takimi praktykami. Kandydaci na stażystów i wolontariuszy proszone są o kontakt mailowy na adres P.Biecek@mimuw.edu.pl.

Podczas proponowanego stażu można rozwinąć umiejętności związane z gromadzeniem danych (parsowanie stron, wczytywanie danych z różnych źródeł i formatów), przechowywaniem danych, eksploracją i przetwarzaniem danych (czyszczenie danych, programowanie), wizualizacją danych (statyczną i dynamiczną) oraz wyciąganiem wniosków/historii z danych. Szczególnie polecamy takie praktyki osobom zainteresowanym informatyką, statystyką, matematyką lub dziennikarstwem.

Fundacja istnieje od roku, jej misją jest zwiększanie potencjału społeczeństwa w obszarze rozumienia, czytania, przetwarzania i prezentacji danych/informacji. Wierzymy, że na solidnych danych można budować lepsze decyzje. Chcemy rozwijać umiejętności zarówno osób przetwarzających i publikujących dane jak i osób czytających zestawienia, raporty, wizualizacje. Planujemy osiągnąć ten cel wytykając błędy i niezrozumienie w komunikacji z użyciem danych, eksponując dobre przykłady solidnej komunikacji/prezentacji informacji oraz tworząc przestrzeń na wymianę doświadczeń, wrażeń, opinii.

Projekty planowane na najbliższe miesiące związane są z badaniem rzetelności i wiarogodności wykresów i wizualizacji przedstawionych przez media. Po prześledzeniu aktualnych oraz archiwalnych artykułów planujemy przygotować zestawienia pokazujące czy, a jeżeli tak to na jakie błędy i przekłamania narażony jest czytelnik. Również na ile przedstawiane liczby są wiarygodne i zgodne z alternatywnymi źródłami. Jeden z pod projektów dotyczy np. badania zgodności sondaży poparcia dla partii wykonywanych przez różne instytucje badawcze.