Co mówiono o miastach gospodarzach Euro 2012

Na publikowanych kilka tygodni temu wpisach pisałem o tym, jak wyciągnąć z Twittera informacje o meczach piłki nożnej, czy to z Premier League, czy z Euro 2012. W tym wpisie krótko omówię wyniki przedstawione na blogu warszawskiego oddziału Netezza IBM, dotyczące analizy danych z Twittera pod kątem tego co mówiono o miastach gospodarzach na Twitterze podczas Euro. Wszystkie prezentowane poniżej wykresy pochodzą ze wspomnianego bloga.

Podczas Euro ww. oddział zebrał kilkanaście milionów wiadomości z Twittera. Zdecydowana większość dotyczyła przebiegu rozgrywek piłkarskich, ale turyści zza granicy pisali też o miastach, które odwiedzili, komunikacji publicznej, drogach, zabytkach itp. Spójrzmy co też ci turyści pisali. Podsumowanie przeprowadzonych analiz przedstawia poniższy zbiór wykresów. Pierwszy wykres można zobaczyć w dużej rozdzielczości tutaj (w powiększeniu widać przykładowe, wybrane zdania z Twittera tworzące ramkę rysunku).

 

Przyjrzyjmy się dwóm ciekawym elementom tej grafiki. Jeden prezentuje skumulowaną widoczność i nastawienie wiadomości dotyczących miast gospodarzy. Wyniki dotyczą okresu trzech tygodni, czarne punkty oznaczają wyniki po pierwszym, drugim i trzecim tygodniu.

 

 

Najwięcej wiadomości dotyczy Warszawy, średnio dwukrotnie więcej niż innych miast gospodarzy. Bilans wiadomości pozytywnych minus negatywnych jest podobny dla wszystkich gospodarzy. Wrocław charakteryzuje się najmniejszą liczbą wiadomości (poniżej 20k) ale za to największym procentem wiadomości pozytywnych (procent odpowiada nachyleniu krzywej).

Drugi ciekawy element dotyczy analizy nastawienia dla różnych języków. Nastawienie wiadomości często ocenia się na podstawie listy słów o zabarwieniu pozytywnym i negatywnym. Trudno jednak skalibrować takie listy dla różnych języków by podobnie mierzyć natężenie emocji. Poniżej zastosowano więc inną prostą sztuczkę. Język wiadomości rozpoznano automatycznie, a nastawienie wiadomości w tym języku określono częstością buziek uśmiechniętych / smutnych. Szerokość prostokąta odpowiada liczbie wiadomości w tym języku o danym mieście (od lewej Wrocław, Poznań, Gdańsk) wysokość odpowiada frakcji wiadomości z określonym typem buziek (buźki ławo rozpoznać prostym wyrażeniem regularnym).
I tak np. o Wrocławiu publikowanych było wiele pozytywnych wpisów w językach angielskim, hiszpańskim, czeskim, rosyjskim itp.

 

 

Wyniki te dotyczą użytkowników Twittera i nie można ich przenosić na całe nacje. W różnych krajach popularność Twittera jest rożna. Niemniej myślę, że są to ciekawe wykresy. A może macie pomysł co jeszcze na temat miast gospodarzy można wydobyć z danych z Twittera?

PSL, infografiki i grafy

W różnych mediach pojawia się ostatnio sporo infografik nawiązujących do sieci powiązań pomiędzy posłami PSL i ich rodzinami a stanowiskami obsadzanymi przez zwycięzców w wyborach. Chciałoby się zobaczyć ten obraz w dużej skali tzn dla wszystkich synekur i dla wszystkich partii. Zostawmy tkanie tego grafu dziennikarzom. Dziś postaram się rozprostować jedną bardzo zakręconą infografikę.

W tym artykule znajduje się poniższy wykres, przedstawiający sieć powiązań pomiędzy PSL a czterema spółkami.

Wykres niewątpliwie wygląda na bardzo skomplikowany i być może to skomplikowanie było celem autora, ale w rzeczywistości sieć tych zależność dosyć łatwo przestawić w postaci tabelarycznej (poniżej).

Po co komplikować rzeczy proste?

Z poniższego wykresu łatwo zobaczyć kto w ilu miejscach i na jakim stanowisku.

Dane z badanie PISA 2009 a pakiet SAScii

Jakiś czas temu rozsyłałem informację o tym, że fundacja SmarterPoland rekrutuje wolontariuszy. Zgłosił się tuzin osób a po trzech tygodniach pozostała szóstka aktywnych osób (znacznie więcej niż się spodziewałem! super!). Pracujemy nad zbiorem danych PISA 2009 i pewnie nie raz jeszcze napiszę tu o uzyskanych wynikach, gdy już będą nadawały się do prezentacji. Wiki projektu znajduje się tutaj.

Jednym z pierwszych wytworzonych artefaktów, o którym chciałbym tutaj napisać jest przetworzony zbiór danych z badania PISA w formacie csv, który łatwo wczytać do programu R lub innych programów (oryginalny nie jest najłatwiejszy do wczytania). Zawiera on podzbiór wybranych kolumn z oryginalnego badania, dzięki czemu zajmuje po rozpakowaniu tylko 400MB i można jeszcze z nim pracować na zwykłym domowym komputerze.

Pod linkami: [students], [parents], [school] znajdują się spakowane pliki z danymi (Uwaga! Spakowane ważą około 85MB). W [tym pliku] znajduje się skrypt programu R pobierający spakowane pliki, rozpakowujący je i wczytujący dane do programu R. Plik z danymi w postaci binarnej R (RData) znajduje się tutaj: [plik Rdata].

Artefakt o tyle ciekawy, że ma stronie projektu PISA dane dostępne są jedynie w postaci łatwej do wczytania do SASa lub SPSSa.

Konwersję wykonał Maciej Beręsewicz. Ciekawostką dla użytkowników R będzie informacja, że użył do tego pakietu SAScii. Użyteczny pakiet, pozwala na wykorzystanie skryptów SASa z definicją jak wczytać dane w postaci tekstowej. Pakiet SAScii parsuje skrypt SASa a następnie wykorzystuje zebrane informacje by wczytać dane bezpośrednio do R. W [tym pliku] jest skrypt wykorzystujący pakiet SAScii.

I na koniec link do bardzo surowych/wstępnych prac/eksperymentów przeprowadzonych przez Tomasza Owczarka, mianowicie do próbnej analizy danych z użyciem [Tableau]. Na razie bez żadnego komentarza, gdy wyniki dojrzeją przedstawię je tutaj z komentarzami.

Jak pokazać czytelnie 5 liczb, czyli sondaże poparcia partii politycznych a gazety

Ponieważ zdarzyło mi się w przeszłości (tu uśmieszek) pokazywać przykłady negatywne: jak nie pokazywać słupków poparcia dla partii politycznych, dlatego (dla równowagi) stwierdziłem, że poszukam przykładów pozytywnych. Przecież takie muszą gdzieś być.

I tak się szczęśliwie złożyło, że dosyć szybko taki przykład znalazłem i poniżej się nim podzielę. Ponieważ łatwiej zauważyć element wykonany źle niż element wykonany dobrze (ten drugi mniej się rzuca w oczy) to nie zabraknie również złych wykresów, których zadaniem jest pokazanie jak dobry jest ten dobry.

Spodobał mi się więc wykres z portalu wiadomości.gazeta.pl przedstawiony poniżej.

Prosty czytelny, kolory można wybaczyć, są linie pomocnicze, jest oś OY nie ma żadnych wątpliwości czy wysokości słupków są poprawne. Pięknie, pięknie, pięknie.

Gdyby ktoś się dziwił skąd ten zachwyt pięcioma słupkami, gdyby wątpił czy pięć liczb można przedstawić nieczytelnie to niech spojrzy na przykłady czy to z portalu tvn.pl (po co oś OX, po co linie pomocnicze)  z portalu gazetaprawna.pl (o zgrozo, dodanie strzałek optycznie wydłużających lub skracających słupki w XXI wieku? przecież to aż w oczy kole). Oba wykresy poniżej.


Czyżby więc udało się znaleźć artykuł idealny, w sposób czytelny i bezdyskusyjny przedstawiający pięć liczb? Tak że sposób ich przedstawienia nie budzi wątpliwości?
(przepraszam za ten styl, ale w głowie wciąż słyszę książkę Tomasza Jachimka ,,Handlarze czasem” czytaną, a jakżeby inaczej, przez Tomasza Jachimka, i trudno mi pisać inaczej)

Niestety nie. I pierwszy z prezentowanych wykresów budzi wątpliwości. Uważne oko zauważy, że liczby na nim sumują się do 75%. Co z resztą? Czyżby głosowali za inną partią czy też wstrzymali się od głosu? Jeżeli to drugie to w liczeniu poparcia należałoby te procenty unormować. I po takim normowaniu okaże się, że 4% PSL zamieni się w 5.3%. Ale czy to ma znaczenie? Tylko takie, że w towarzyszącym wykresowi artykule napisano, że PSL ma notowania powyżej progu wyborczego, no a tutaj 5.3% czy 4% to już robi różnicę.

Za, a nawet przeciw*, czyli o marihuanie i liczbach z portalu procon.org

Czytałem wczoraj artykuł ,,Jak ustrzec dziecko przed narkotykami” (w skrócie trzeba mieć dobry kontakt z dzieckiem), który stał się impulsem do poszukania, jakich argumentów używa się w dyskusji za i przeciw legalizacji marihuany. Przy okazji znalazłem bardzo ciekawy portal http://www.procon.org/.

Wspomniany portal jest prowadzony przez organizację nonprofit . Są na nim zbierane informacje za i przeciw dotyczące wybranych, 43 kontrowersyjnych tematów. Zbierane są opinie, argumenty i materiały, wypowiedzi (np. lekarzy cytowanych z imienia i nazwiska) będące za jak i przeciw. Misją organizacji jest promowanie krytycznego myślenia i uczciwego informowania społeczeństwa n.t. konsekwencji różnych wyborów.

Mając zebrane w jednym miejscu argumenty za i przeciw, łatwiej znaleźć przykłady gdy te same dane są ubarwiane przez tych co ,,za”, tych co ,,przeciw” lub przez oba obozy. Jeszcze łatwiej znaleźć argumenty oderwane od rzeczywistych danych.

Wracając do tematu marihuany. Na portalu http://medicalmarijuana.procon.org/ w liście argumentów ,,za” znajdziemy poniższy rysunek

 

Jaki jest wydźwięk tej informacji? W stanach w których zalegalizowano, zaobserwowano też spadek ,,frakcji nastolatków spożywających”. Wydawać by się mogło, że jest to dobry argument za legalizacją.

Na tym samym portalu znajdziemy taki wykres

Dodanie kontekstu pokazującego, że w stanach gdzie marihuana nie jest legalna zaobserwowano średnio dwukrotnie większy spadek i niższy punkt wyjściowy, zmieniło wydźwięk poprzedniej informacji (choć można się czepiać osi OY).

Fajny przykład prawda? Na portalu procon.org można znaleźć takich więcej.

 

(*) Podoba mi się audycja Kuby Strzyczkowskiego ,,za a nawet przeciw”, żałuję bardzo, że jej forma jest ograniczona do audycji radiowej. Może warto by było zbierane podczas audycji materiały umieszczać na internecie lub do internetu przenieść część dyskusji?

Uczyć się na cudzych błedach

Dostałem kilka dni temu list od Pawła K. w którym znalazło się kilka konstruktywnie krytycznych komentarzy dotyczących raportu Diagnoza Społeczna 2011. List ten zaczynał się od stwierdzenia, że warto udostępniać przykłady różnych ,,wpadek”, ponieważ studiując błędy można uczyć się szybciej, łatwiej też ogląda się cudze błędy niż własne. Ok, zobaczymy.

Przedstawię poniżej wybrane z komentarzy Pawła wraz z kilkoma słowami od siebie. Temat cytowanego raportu dotyczy wykorzystania komputera i internetu, a więc jest bardzo ciekawy.

W raporcie jest kilka problemów ze spójnością wyników prezentowanych na wykresach lub w tekście. Np. z poniższych dwóch wykresów można odczytać jaki % gospodarstw było w roki 2011 wyposażone w komputer.

Tyle, że w pierwszym przypadku odczytamy, że wyposażonych w komputer jest 66% osób a w drugim 58,6% (posiada i korzysta) +17,2% (posiada i nie korzysta)=75,8%. Spora różnica, prawie 10%. Znając strukturę danych raportu można odgadnąć skąd ta różnica się bierze ale osoba nieznająca struktury może być takimi różnicami zaskoczona (w badaniu są dwie osobne ankiety dla gospodarstwa i dla osób, procenty liczone na jednej nie muszą się zgadzać z procentami na drugiej, w tym przypadku jak widać gospodarstwa w których jest komputer są średnio liczniejsze) .

Pan Paweł zauważył też kilka cyfrówek (literówek występujących w liczbach), w opisie rysunku 7.1.1 jest rok 2009 zamiast 2011 a powyżej wykresu w tekście pojawia się informacja o dostępności internetu dla 61,1% zamiast 51.1%.

Interesującym problemem jest tempo ,,nasycania się” gospodarstw domowych komputerami. W raporcie jest napisane, że skomputeryzowanych gospodarstw przybywa, ale w coraz mniejszym tempie. Zobaczmy, pobawmy się liczbami. Pomiędzy latami 2007  – 2009 – 2011 skomputeryzowanych gospodarstw było 53,8%; 60,2%; 66% odpowiednio. Gdyby policzyć różnicę pomiędzy tymi wartościami to okaże się że z roku 2007 na 2009 ,,przybyło” 6,4 p.p. a z roku 2009 na 2011 ,,przybyło” 5.8 p.p. czyli mniej. Ale zobaczmy ile z gospodarstw, które nie miały komputera nabyło komputer, czyli policzymy ilorazy zamiast różnic. (Dla uproszczenia opisu zakładam, że gospodarstwa nie pozbywają się komputerów). Z roku 2007 na 2009 około 13,9% gospodarstw niemających komputera skomputeryzowało się, z roku 2009 do roku 2011 około 16,8% gospodarstw niemających komputera skomputeryzowało się. Patrząc więc na ilorazy można powiedzieć, że tempo komputeryzacji się zwiększa. Czy tempo to różnice czy ilorazy to rzecz do dyskusji, ale ciekawe jest to, że nawet na tempo wzrostu trzech liczb można spojrzeć na przynajmniej dwa sposoby.

Spójrzmy też na rysunek 7.2.3 z tego raportu.

Problem z tym rysunkiem polega na tym, że sugeruje iż więcej 20-letnich polaków korzysta z internetu niż ma do niego dostęp. To trochę zaskakujące! To interesujące zjawisko nie zostało niestety wyjaśnione w tekście, być może chodzi wyłącznie o dostęp do Internetu w domu, ale to tylko domysł.

Swoją drogą, warto  zwrócić uwagę na pionowe linie pokazujące odległość pomiędzy niebieską a czarną krzywą. Dodanie pionowych linii to interesujący zabieg pozwalający na lepsze ocenienie odległości ,,w pionie”. Bez tych linii oko za odległość pomiędzy liniami byłoby skłonne uznawać najmniejszą odległość a nie odległość ,,w pionie”.

Zaskoczeniem dla mnie była obserwacja, że około 75% z 10 latków korzysta z internetu. Sporo. A jeżeli spojrzeć na rysunek 7.4.13 to okaże się, że w domu z internetu korzysta nawet więcej, bo 81% z 10-latków.

 

Ok, czas na wnioski. Błądzić to ludzka rzecz i nie wypada mi za bardzo się pastwić dzisiaj nad literówkami, bo kilka godzin temu dostałem kolejną listę literówek znalezionych w mojej książce (dzięki Krzysiek! errata uaktualniona!). Z drugiej strony raporty Diagnozy Społecznej, są bardzo interesujące, myślę, że wiele osób z nich korzysta i warto dbać by były możliwie bezbłędne (w przeciwieństwie do raportów typu ,,write-only” na których komentowanie szkoda czasu).

Czego więc możemy się nauczyć na błędach innych? Trzeba stworzyć czytelnikowi raportu kanał komunikacji, którym czytelnik mógłby zgłaszać lub sam wprowadzać drobne poprawki / dodawać komentarze /zgłaszać uwagi. Strona wiki z możliwością komentowania byłaby najlepsza, ale pewnie i adres email na który można wysyłać uwagi wystarczy. Może raport dla kolejnej edycji badania pojawi się w formie bardziej interaktywnej?

Sfabrykowane dane a powtarzalne badania

Dwa tygodnie temu w tym wpisie, pisałem o narzędziach wspierających przeprowadzanie powtarzalnych badań. Tzn narzędziach, dzięki którym można prześledzić każdy krok wykonanych analiz. Taką całą ścieżkę może łatwo powtórzyć niezależny weryfikator. W przypadku badań, które prowadzą do prób klinicznych na żywych ludzkich pacjentach naturalne jest oczekiwać by wyniki badań były dokładnie zweryfikowane przez niezależnego badacza. Wspomniałem też o przykładzie sfabrykowanego badania wykrytego przez ,,statystyków śledczych” .

Ostatnio widziałem 15minutowe streszczenie opisujące o co chodziło w tym sfabrykowanym badaniu. Materiał telewizyjny jest trochę podkolorowany, ale w 15 minut pozwala na zrozumienie co się stało. Materiał do obejrzenia na tej stronie.

I na koniec mały komentarz, coś co mi zapadło w pamięć gdy przysłuchiwałem się dyskusji n.t. tego badania. Pytanie było, czy jest coś złego w eksperymentowaniu na pacjentach z terminalnym stanem nowotworu, dla których nie ma i tak innego lekarstwa. Czy to nie jest tak, że warto chwycić się nawet znikomej szansy na wyleczenie, nawet jeżeli badania nad lekiem były niezbyt solidnie przeprowadzone. Odpowiedź była taka, że nie, zdecydowanie nie warto chwytać się losowych badań. Pomijając przypadek tego konkretnego leku, który skutecznie szkodził zamiast skutecznie leczyć, to w przypadku terapii wymagających wykonania biopsji nowotworu płuc jest spore ryzyko uszkodzenia płuc przez co pacjent będzie w gorszym stanie i też nie będzie się kwalifikował do innych sposobów leczenia.

I jeszcze komentarz autora pakietu knitr. Czy to nie dziwne, że (jako badacze) oczekujemy od analityków, że będą prowadzili powtarzalne i dobrze udokumentowane badania, skoro nie wymagamy tego samego od studentów statystyki?

Na stronie http://rpubs.com/ znajduje się serwis pozwalający na proste opublikowanie raportu w knitr.