Konkurs i V Zlot użytkowników R (WZUR) w Warszawie już 1 marca!!!

W najbliższy czwartek (1 marca) na wydziale Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego (Banacha 2) w sali 2180 (to duża sala przy schodach na 1 piętrze), odbędzie się piąte spotkanie użytkowników R z serii WZUR.

Plan spotkania jest następujący:

  • 16:30 – 17:00 – swobodne rozmowy,
  • 17:00 – 17:30 – Grzesiek Maj opowie o obliczeniach równoległych/rozproszonych w R,
  • 17:30 – 17:50 – swobodne rozmowy,
  • 17:50 – 18:20 – Maciek Sykulski opowie o modelowaniu z użyciem kopuli oraz o modelach dwumianowych stosowanych w Merlinie,
  • 18:20 – 18:40 – swobodne rozmowy,
  • 18:40 – 19:10 – Miron Kursa opowie o R jako serwer RPC i może gdzie jest R w ICM,
  • 19:10 – swobodne rozmowy.

Zapowiadają się trzy bardzo ciekawe referaty!!!

Informacja jak dotrzeć na Banacha 2 jest tutaj (uwaga, wejście jest od ulicy Pasteura):

Osoby zainteresowane otrzymywaniem informacji o tym i podobnych spotkaniach użytkowników R proszone są o zapisanie się do
Polskiej Grupy Użytkowników R na serwerach googla, link do grupy jest tutaj.

Jedzenie i napoje zapewnia SmarterPoland oraz Revolution Analytics, firma która wspierała również poprzedni WZUR.

Dodatkowo Revolution Analytics dostarcza gadżety promujące R. Najciekawsze to koszulki z logiem R oraz krzyczące małpki z logiem Revolution (przykładowa małpka widoczna poniżej :- ). Koszulkę otrzymuje, każdy prezentujący referat na WZURze (tak więc zapraszamy do prezentowania różnych ciekawostek).

Konkurs

Małpki można otrzymać za przygotowanie ciekawej wizualizacji w R na podstawie danych opisujących jakiś aspekt życia w Polsce. Dane wejściowe powinny być publicznie dostępne, ale mogą to być też już przetworzone dane z gazety. Zarówno kody w R jak i wynikowe wizualizacje przedstawimy tutaj na blogu. Oferta ważna do wyczerpania się małpek (można przesyłać wizualizacje też po 1 marca).

Do zobaczenia w czwartek.

Informatyzacja w wydaniu urzędów administracji publicznej

Wracam do tematu raportów. Dziś przyjrzę się wynikom z raportu ,,Badanie wpływu informatyzacji na działanie urzędów administracji publicznej w Polsce w 2011 roku” udostępnionego na stronach Ministerstwa Administracji i Cyfryzacji (zobacz tutaj). Krzysiek T. wysłał mi kiedyś link do tego raportu z komentarzem ,,też ciekawy raport”. Zobaczymy.

 

Moje pierwsze wrażenie jest takie, że raport, opublikowany w formie prezentacji jest nudny jak flaki z olejem. Ponad 180 stron z podobnymi do siebie tabelkami w których każde pytanie do ankietowanych pracowników administracji jest rozbijane na te same zmienne a tabelki czasami tylko opatrzone są krótkim komentarzem.

Pierwszą rzeczą, która mnie rozbawiła było hasło na ostatniej stronie ,,Badania nas inspirują”. Ech. Mam nadzieje, że ten raport był prezentowany przez jakiegoś wyjątkowo charyzmatycznego człowieka.

Niemniej na tych 189 stronach znaleźć można sporo interesujących informacji.

Poniżej pokażę rodzynki.

 

Jednym z pytań było jakie zmiany zaobserwowano po zastosowaniu technologii teleinformatycznych. Najbardziej zauważalna rzecz to wzrost obciążenia pracą.

Paradoksalne prawda? Jakie to technologie instalują w tych urzędach skoro zamiast pomagać zwiększają ilość pracy?

Kolejny interesujący element to ,,wzrost innowacyjności pracowników”. Strach myśleć co oznacza większa innowacyjność urzędników a tym bardziej jak może ją stymulować system teleinformatyczny.

Co ciekawe (nieznacznie) więcej osób uważa, że wdrożony system zwiększył a nie zmniejszył koszt obsługi klienta i zwiększył a nie zmniejszył liczbę dokumentów w postaci papierowej. Brzmi nieprawdopodobnie.

 

Kolejne pytanie dotyczyło planów w zakresie obsługi informatycznej. Zdecydowana większość ankietowanych nie miała sprecyzowanych planów. Z wyjątkiem może ankietowanych z  urzędów marszałkowskich, którzy planowali często zatrudnić nowe osoby i/lub zlecić część prac podmiotom zewnętrznym.

 

 

Bardzo zastanawiające są też odpowiedzi na pytanie o podwójny obieg dokumentów.

W 90% przypadkach podwójny obieg dokumentów występuje bardzo często lub często. Po co jest ten wdrożony system teleinformatyczny? Ok, być może jest to wymóg aktualnego prawa. Ale czy to ma sens?

 

 

Na stronie 126 zaprezentowano jakie usługi można wykonać z użyciem systemu teleinformatycznego. Dwie dominujące odpowiedzi to: usługa nie jest świadczona drogą elektroniczną, lub istnieje możliwość pobrania formularza wyłącznie do utworzenia dokumentu papierowego.

 

Ostatni rodzynek dotyczy obserwacji, które można wysnuć z przedstawionych wyników, pomimo iż te zagadnienia nie były celem zainteresowania badaczy. Tak więc badanie było anonimowe, rozesłano formularze z prośbą o wypełnienie i zwrot. ,,Poziom zwrotności” (zabawne sformułowanie) określa jaki procent urzędów odpowiedziało. Co interesujące najrzadziej odpowiadały ministerstwa i urzędy podległe ministerstwom. Odpowiadano ponad dwukrotnie rzadziej niż z urzędów wojewódzkich czy miast na prawach powiatu (czyli duże miasta).

Dlaczego zaangażowanie w ministerstwach było najniższe? Pozostawiam to pytanie na piątkowe dyskusje.

 

Różnorodność ćwierkań polityków na Twitterze

Czas na zakończenie tematu analizy tekstów z twittera i powrót do raportów. Na koniec przyjrzymy się jeszcze dwóm tematom. Jak zróżnicowane słownictwo znaleźć można we wpisach rożnych polityków, oraz jak często politycy piszą o swoich i nie swoich partiach.

Ale najpierw krótkie wprowadzenie. Wczoraj obchodziliśmy Międzynarodowy Dzień Języka Ojczystego (btw: nie należy mylić tego święta z Dniem Dobrej Polszczyzny, który jest w grudniu). Zbiegło się to święto w czasie z mailem, który dostałem od żony polecającym artykuł ,,Mie, mi i naszemu kraju, czyli polszczyzna polityczna” z Dużego Formatu (dostępny też w postaci elektronicznej tutaj). W tym artykule językoznawca z UJ, dr Artur Czesak, charakteryzuje polszczyznę polityków, opowiada co go razi, co drażni, a co mu się podoba.

Poza analizą błędów językowych i regionalizmów znajduje się też ciekawy komentarz dotyczący zasobu słów polityków.
Hmmm, będąc na świeżo z przeglądaniem wiadomości z Twittera zastanowiło mnie, czy w wiadomościach z Twittera mógłbym zobaczyć coś ciekawego nt. bogactwa słownictwa polityków?
Kanał komunikacji dosyć specyficzny, tylko formy krótkie, sporo odnośników i sporo kopii wiadomości od innych użytkowników, ale zobaczmy co wyjdzie.

Punktem wyjściowym jest korpus ćwierków (czy twittów?) zebranych dla podzbioru polskich polityków w tym wpisie. Każde słowo poddano też procesowi hasłowania, by wyodrębnić dla niego rdzeń (używając programu morfologik). Następnie dla każdego polityka policzono:

  • sumaryczną liczbę wyrazów we wszystkich ćwierkach,
  • liczbę różnych wyrazów we wszystkich ćwierkach,
  • sumaryczną liczbę wyrazów rozpoznanych przez program morfologik (a więc poprawnie odmienionych polskich słów),
  • liczbę różnych wyrazów rozpoznanych przez program morfologik (a więc poprawnie odmienionych polskich słów),
  • liczbę różnych rdzeni rozpoznanych przez program morfologik.

Oczywiście średnio im więcej wyrazów tym więcej rożnych wyrazów i więcej różnych rdzeni. Oczywiście ta zależność nie jest liniowa. Ale zobaczmy jak ona wygląda dla rożnych polityków.

[Rysunek 1. Każda kropka to jeden polityk. Na kolejnych osiach przedstawione są statystyki liczby słów lub różnych słów, słów rozpoznanych przez program morfologik we wpisach. Jest wyraźna zależność. Ale zaobserwować można też interesujące przypadki odstające od dominującego trendu. ]

Celem jest zbadanie jak bogate jest słownictwo posłów. Nie ma jednak sensu badać bogactwa tego słownictwa w grupie samych posłów, potrzebny jest punkt odniesienia. Najlepiej dziennikarz, który język polski zna. Pierwszy wybór padł na Adama Małeckiego z radia Trójka. Dużo pisze na Twitterze @TROJKAdaMalecki więc mógł być dobrym punktem odniesienia. Niestety znacznie częściej niż część politycy miał wpisy w języku angielskim, co zaburzało statystyki. Więc za drugi punkt odniesienia wybrałem osobę o nazwie użytkownika @Dziennikarz, który nie wiem czy jest dziennikarzem, ale dużo pisze na Twitterze i zdecydowana większość wpisów jest w języku polskim. Osoby, które mało piszą nie będą interesujące.

 

[Rysunek 2. Liczba wyrazów vs. liczba różnych wyrazów w wiadomościach z Twittera. Kolorowymi liniami oznaczono wyniki dwóch dziennikarzy (są to linie nie punkty ponieważ liczyłem obie charakterystyki przyrostowo, dzięki temu można znaleźć punkt odniesienia dla każdej liczby wyrazów). ]

W większości przypadków politycy używają różnych wyrazów, można więc pokusić się o stwierdzenie, że różnorodność ich słownictwa nie jest ograniczona. Najbardziej odstający przypadek, czyli Jerzy Buzek łatwo wytłumaczyć, mianowicie jako poseł parlamentu europejskiego, a aktualnie przewodniczący Jerzy Buzek pisze wpisy w języku angielskim, który to ma zdecydowanie uboższą fleksję niż nasz język ojczysty.

Aby uniezależnić się od zaburzenia statystyk językiem w którym polityk publikuje odsiejmy wszystkie słowa których nie można znaleźć w słowniku programu morfologik.

[Rysunek 3. Liczba rozpoznanych polskich wyrazów vs. liczba różnych rdzeni polskich wyrazów w wiadomościach z Twittera. Kolorowymi liniami oznaczono wyniki dwóch dziennikarzy. ,,Odstający” wynik użytkownika PremierRP wytłumaczyć można np. tym, że w praktycznie każdym wpisie znajdują się słowa 'Premier’ i 'Rząd’.]

Interpretację pozostawiam czytelnikom.

Wiadomości z Twittera nie są najbardziej reprezentatywną próbka wypowiedzi polityka, ale jak analizy takiego typu są w stanie badać bogactwo słownictwa w sposób obiektywny. Tak więc na listę do zrobienia wpisujemy analizę stenogramów z sejmu i senatu pod kątem bogactwa słownictwa.

 

 

Druga część dotyczy częstości z jaką politycy w swoich ćwierkach używali wyrazów PO lub PiS. Bez analizy kontekstu w jakim znaczeniu padały te nazwy partii, bez analizy form deprecjatywnych, jedynie liczba wystąpień literek PO lub PiS z uwzględnieniem wielkości liter.

[Rysunek 4. Każda kropka to jeden polityk. Kolorem niebieskim zaznaczeni są politycy, którzy na liście Michała Buchty byli w barwach Platformy Obywatelskiej, kolorem pomarańczowym zaznaczeni są politycy, którzy byli w barwach Prawa i Sprawiedliwości (przynależność sprzed roku), na szaro pozostali. Współrzędna OX punktu opisuje jaka frakcja wpisów danego polityka zawierała wyraz PO, współrzędna OY punktu opisuje jaka frakcja wpisów danego polityka zawierała wyraz PiS. Ukośna linia odpowiada równej zawartości wpisów dot obu partii.]

Jak widzimy politycy najczęściej piszą o swoich partiach, choć można znaleźć też takich którzy częściej piszą o ,,tej drugiej”. Sikorski Radek nie jest najlepszym przykładem, ponieważ był i tu i tu, ale Darek Dolczewski czy Marek Suski (za zdrobnienia imion przepraszam, ale to w celu łatwiejszej identyfikacji nazwy użytkownika na Twitterze).

 

Zobaczmy jeszcze, którzy politycy (z listy z poprzedniego wpisu) ćwierkali o acta.

Flaszki i Studencki Festiwal Informatyczny

W najbliższym miesiącu opowiem coś na dwóch imprezach, które mają bardzo ciekawą formę. Dziś napiszę kilka zdań o obu imprezach i też powiem o czym będę na nich mówił. Pierwsza  z imprez ma miejsce w Warszawie, druga w Krakowie.

Warszawska nazywa się Flaszki. Link do strony imprezy znajduje się tutaj. Organizowana jest przez samorząd studentów wydziału Matematyki Informatyki i Mechaniki Uniwersytetu Warszawskiego, czyli MIMUW. Spotkanie składa się ze zbioru krótkich (zgodnie ze stroną 5 minutowych) wystąpień na tematy interesujące dla występującego. Na wskazane stronie są (a przynajmniej jest jeden) plik video z prezentacjami z poprzednich edycji. Nie jest to TED ale może być fajnie. Najbliższe flaszki są 29 lutego 2012, od 18:30, na Wydziale Chemii UW. 

Ja akurat za temat wybrałem ,,Mądrzejsza Polska a przyjemność z szukania dziury w całym” i mam zamiar opowiedzieć o tym jaka to frajda tropić błędy na wykresach. Kto wie, może taki ,,data hacking” rozwinie się.

 

Drugie wystąpienie planowane jest na 8 Studenckim Festiwalu Informatycznym. Tym razem forma dłuższa, 45-60min. Temat to ,,Życie w ocenie danych, wczoraj dziś i jutro”. Mam zamiar pokazać kilka przykładowych analiz danych o różnych rozmiarach, począwszy od małych ankiet kilkudziesięciu liczb aż do zbiorów danych ważących 20 TB. Link do festiwalu znajduje się tutaj. Festiwal trwa trzy dni, ja najprawdopodobniej będę mówił 9 marca. Na festiwal zaproszonych jest kilka ciekawych osób, więc myślę, że warto się tam wybrać i posłuchać co w trawie piszczy. Na stronie festiwalu przedstawione są informacje o wydarzeniach związanych z festiwalem. Urzekł mnie wpis poświęcony opisowi odmownej odpowiedzi Donalda Knutha, wpis ten można zobaczyć tutaj.

Poniżej pierwsza strona planowanej prezentacji.

Aktywność polityków na Twitterze

Zacznę od krótkiego wyjaśnienia skąd pomysł na ten wpis. W komentarzach do piątkowego wpisu użytkownik @Maciej podał odnośnik do przykładowej analizy danych z Twittera z popularnego agregatu blogów o R, czyli R-bloggers. W odpowiedzi na ten komentarz użytkownik @mw zrobił mini profilowanie Martina, użytkownika, którego wpisy przedstawiono w tej przykładowej analizie. Hmmmm, może z takiej analizy aktywności da się coś odczytać.

Od jakiegoś czasu przymierzam się do analizy wypowiedzi polityków, czy to w sejmie, czy poza sejmem. Szukając rożnych materiałów w tym temacie znalazłem blog Michała Buchty z ruchu Autonomii Śląska, który zebrał tutaj nazwy użytkowników Twittera wybranych polityków.

Wykorzystując pakiet twitteR, o którym pisałem np. tutaj pobrałem wiadomości tych użytkowników stosując dwa filtry: interesują mnie wiadomości po 1 stycznia roku 2010 i z przyczyn technicznych nie więcej niż 1500 na jedną osobę (tylko kilku użytkowników miało więcej). Zebrane wiadomości w plikach tekstowych znajdują się w tym katalogu.

Dla każdego użytkownika z listy Michała Buchty zrobiłem rysunek przedstawiający jego aktywność na Twitterze. Każdy użytkownik przedstawiony jest na dwóch rysunkach, podsumowujących jego aktywność z dnia na dzień oraz informację w jakie dni i jakie godziny dana osoba pisze wiadomości.

Jak wygląda aktywność naszych polityków? W jakich godzinach piszą wiadomości? Czy ograniczają aktywność do 8 godzin przez 5 dni w tygodniu czy pracują dłużej? Czy mobilizują się do aktywności miesiąc przed wyborami czy też używają twittera na co dzień? O której wstają i o której kładą się spać. To wszystko można odczytać z poniższych wykresów (ok, trochę przesadzam, wiadomości z jednego konta wciąż mogą pochodzić od kilku różnych osób). Jeżeli ktoś zna aktualniejszą listę polityków lub chciałby wykonać aktualny przydział do partii to pomoc mile widziana. Zapraszam do umieszczania komentarzy co ciekawego można wyciągnąć z wiadomości z Twittera.

Przeglądając poniższe obrazki można zaobserwować kilka ciekawych profili pisania na Twitterze. Przez cały tydzień o każdej godzinie, po pracy, późno w nocy, tylko w środy, tylko w okresie wyborczym itp.

Linki

Kliknięcie na dowolną nazwę użytkownika otworzy rysunek o aktywności danego użytkownika. Kliknięcie rysunku rastrowego otworzy jego wersję wektorową. Na rysunkach przedstawiono dla każdego użytkownika liczbę wiadomości napisanych przez tego użytkownika w jednym dniu (lewy obrazek, każdy obrazek ma inną skalę kolorów przedstawioną po jego prawej stronie). Oraz informację w jakich godzinach w różnych dniach tygodnia dany użytkownik pisze wiadomości.

Kolejność i przyporządkowanie do partii zgodne z listą Michała Buchty. Przyporządkowanie do partii nie jest aktualne (np. Janusz Palikot nie jest w PO).

Platforma Obywatelska

@adamwarzecha, @aowczarczak, @ArekGodlewski, @arturgierada, @BarbaraKudrycka, @beatabublewicz, @CTomczyk, @DarekDolczewski, @EwaKopacz, @GKZorbas, @gornig, @HannaZdanowska, @janusz_sepiol, @JaroslawPieta, @JerzyBuzek, @joannabrodka, @johngodson, @jskrzydlewska, @komorowski, @ktyszkiewicz, @MaciejSonik, @MarekLapinski, @MichalSzczerba, @MichOwczarczak, @Mlynarczyk, @mmarcinkiewicz, @m_wieczorek, @orzechowski_m_b, @Palikot_Janusz, @Platforma_org, @PO_Gliwice, @pomaska, @PremierRP, @radwitkowski, @RafalBruski, @RenataZaremba, @SidoniaJ, @sikorskiradek, @SlawomirNitras, @SlawomirNowak, @StanislawKracik, @TomaszKacprzak, @TomaszSiemoniak

Prawo i Sprawiedliwość

@AdamHofman, @AndrzejDuda, @DawidJackiewicz, @girzynski, @jerzymaterna, @jkaczynski_info, @kaminskimichal, @KBienkowski, @kozakzbigniew, @kppis, @kpogorzelski, @LukasOprawski, @maciejowski_waw, @MarciniukTomasz, @MarekSuski, @mariuszkaminski, @mhorala, @mkraczkowski, @PatrykJaki, @pawelkowalpl, @PawelPoncyljusz, @PilchJacek, @r_czarnecki, @rafalrudnicki, @TomaszZdzikot

Polskie Stronnictwo Ludowe

@LudowcyPSL, @pawlakwaldemar

Prawica Rzeczypospolitej

@marekjurek

Socjaldemokracja Polska

@Filemonowicz

Sojusz Lewicy Demokratycznej

@Arlukowicz, @jszmajdzinski, @Joanna_Senyszyn, @gnapieralski, @mareksiwiec, @naczas, @rydlinski, @wolejniczak1

Stronnictwo Demokratyczne

@stronnictwo

Wolność i Praworządność

@korwinmikke

komitety niepartyjne

@katarzyna_munio, @KDombrowicz, @K_Morawiecki, @KonarskiLukasz, @krzprz1, @MarcinOciepa, @MarekLucyk, @MichalBuchta, @TomaszTutak

Grafiki

Kliknięcie na dowolny obrazek otworzy jego wersję wektorową. Znacznie czytelniejszą.

Na rysunkach przedstawiono dla każdego użytkownika liczbę wiadomości napisanych przez tego użytkownika w jednym dniu (lewy obrazek, każdy obrazek ma inną skalę kolorów przedstawioną po jego prawej stronie). Oraz informację w jakich godzinach w różnych dniach tygodnia dany użytkownik pisze wiadomości.

@adamwarzecha, Adam Warzecha, radny miasta Katowice


@aowczarczak, Agnieszka Owczarczyk, radna miasta Gdańsk


@ArekGodlewski, Arkadiusz Godlewski, kandydat na prezydenta miasta Katowice


@arturgierada, Artur Gierada, poseł z okręgu Kielce


@BarbaraKudrycka, Barbara Kudrycka, minister nauki i szkolnictwa wyższego


@beatabublewicz, Beata Bublewicz, posłanka z okręgu Olsztyn


@CTomczyk, Cezary Tomczyk, poseł z okręgu Sieradz


@DarekDolczewski, Dariusz Dolczewski, radny dzielnicy Białołęka (Warszawa)


@EwaKopacz, Ewa Kopacz, minister zdrowia


@GKZorbas, Grzegorz Kostrzewa Zorbas, radny sejmiku woj. mazowieckiego z okręgu nr 7, kandydat do Parlamentu Europejskiego z okręgu Warszawa I


@gornig, Kajetan Gornig, radny miasta Gliwice


@HannaZdanowska, Hanna Zdanowska, posłanka z okręgu Łódź


@janusz_sepiol, Janusz Sepioł, senator z okręgu Kraków


@JaroslawPieta, Jarosław Pięta, poseł z okręgu Sosnowiec


@JerzyBuzek, Jerzy Buzek, eurodeputowany z okręgu Katowice, przewodniczący Parlamentu Europejskiego


@joannabrodka, Joanna Bródka, kandydata na radną miasta Szczecin


@johngodson, John Godson, radny miasta Łódź


@jskrzydlewska, Joanna Skrzydlewska, eurodeputowana z okręgu Łódź


@komorowski, Bronisław Komorowski, prezydent RP


@ktyszkiewicz, Krzysztof Tyszkiewicz, poseł z okręgu Warszawa I


@MaciejSonik, Maciej Sonik, radny powiatu krapkowickiego


@MarekLapinski, Marek Łapiński, marszałek województwa dolnośląskiego, radny sejmiku z okręgu nr 2


@MichalSzczerba, Michał Szczerba, poseł z okręgu Warszawa I


@MichOwczarczak, Michał Owczarczak, wicewojewoda pomorski


@Mlynarczyk, Dariusz Młynarczyk, radny miasta Turek


@mmarcinkiewicz, Michał Marcinkiewicz, poseł z okręgu Szczecin


@m_wieczorek, Magdalena Wieczorek, radna miasta Katowice


@orzechowski_m_b, Maciej Orzechowski, poseł z okręgu Kalisz


@Palikot_Janusz, Janusz Palikot, poseł z okręgu Lublin


@Platforma_org, partia Platforma Obywatelska RP


@PO_Gliwice, PO Gliwice


@pomaska, Agnieszka Pomaska, posłanka z okręgu Gdańsk


@PremierRP, Kancelaria Premiera


@radwitkowski, Radosław Witkowski, poseł z okręgu Radom


@RafalBruski, Rafał Bruski, wojewoda kujawsko-pomorski, kandydat na prezydenta miasta Bydgoszcz


@RenataZaremba, Renata Zaremba, posłanka z okręgu Szczecin


@SidoniaJ, Sidonia Jędrzejewska, eurodeputowana z okręgu Poznań


@sikorskiradek, Radosław Sikorski, poseł z okręgu Bydgoszcz, minister spraw zagranicznych


@SlawomirNitras, Sławomir Nitras, eurodeputowany z okręgu Gorzów Wielkopolski


@SlawomirNowak, Sławomir Nowak, poseł z okręgu Gdańsk


@StanislawKracik, Stanisław Kracik, wojewoda małopolski, kandydat na prezydenta miasta Kraków


@TomaszKacprzak, Tomasz Kacprzak, radny miasta Łódź (przewodniczący rady)


@TomaszSiemoniak, Tomasz Siemoniak, wiceminister spraw wewnętrznych i administracji


@AdamHofman, Adam Hofman, poseł z okręgu Konin


@AndrzejDuda, Andrzej Duda, kandydat na prezydenta miasta Kraków


@DawidJackiewicz, Dawid Jackiewicz, poseł z okręgu Wrocław


@girzynski, Zbigniew Girzyński, poseł z okręgu Toruń


@jerzymaterna, Jerzy Materna, poseł z okręgu Zielona Góra


@jkaczynski_info, Jarosław Kaczyński, prezes partii, poseł z okręgu Warszawa I


@kaminskimichal, Michał Kamiński, eurodeputowany z okręgu Warszawa I


@KBienkowski, Krzysztof Bieńkowski, radny powiatu przasnyskiego (przewodniczący rady)


@kozakzbigniew,


@kppis, Klub Parlamentarny PiS


@kpogorzelski, Krzysztof Pogorzelski, kandydat do rady miasta Białystok


@LukasOprawski, Łukasz Oprawski, radny dzielnicy Żoliborz (Warszawa)


@maciejowski_waw, Maciej Maciejowski, radny miasta Warszawa


@MarciniukTomasz, Tomasz Marciniuk, radny powiatu siedleckiego


@MarekSuski, MarekSuski, poseł z okręgu Radom


@mariuszkaminski, Mariusz Kamiński, poseł z okręgu Białystok


@mhorala, Marcin Horała, radny miasta Gdynia


@mkraczkowski, Maks Kraczkowski, poseł z okręgu Piła


@PatrykJaki, Patryk Jaki, radny miasta Opole


@pawelkowalpl, Paweł Kowal, eurodeputowany z okręgu Kraków


@PawelPoncyljusz, Paweł Poncyljusz, poseł z okręgu Warszawa I


@PilchJacek, Jacek Pilch, poseł z okręgu Tarnów


@r_czarnecki, Ryszard Czarnecki, eurodeputowany z okręgu Bydgoszcz


@rafalrudnicki, Rafał Rudnicki, radny miasta Białystok


@TomaszZdzikot, Tomasz Zdzikot, radny miasta Warszawa


@LudowcyPSL, partia Polskie Stronnictwo Ludowe


@pawlakwaldemar, Waldemar Pawlak, wicepremier, minister gospodarki, poseł z okręgu Płock


@marekjurek, Marek Jurek, przewodniczący partii, kandydat na prezydenta (2010)


@Filemonowicz, Wojciech Filemonowicz, przewodniczący partii


@Arlukowicz, Bartosz Arłukowicz, poseł z okręgu Szczecin


@jszmajdzinski, Jerzy Szmajdziński, poseł z okręgu Legnica, kandydat na prezydenta


@Joanna_Senyszyn, Joanna Senyszyn, eurodeputowana z okręgu Kraków


@gnapieralski, Grzegorz Napieralski, poseł z okręgu Szczecin, przewodniczący partii


@mareksiwiec, Marek Siwiec, eurodeputowany z okręgu Poznań


@naczas, Łukasz Naczas, kandydat do Parlamentu Europejskiego z okręgu Poznań (2009), radny miasta Gniezno


@rydlinski, Bartosz Rydliński, kandydat do Parlamentu Europejskiego z okręgu Poznań (2009)


@wolejniczak1, Wojciech Olejniczak, eurodeputowany z okręgu Warszawa I


@stronnictwo, profil nieoficjalny


@korwinmikke, Janusz Korwin-Mikke, prezes partii, kandydat na prezydenta miasta Warszawa


@katarzyna_munio, Katarzyna Munio, kandydatka na prezydenta Warszawy


@KDombrowicz, Konstanty Dombrowicz, prezydent Bydgoszczy


@K_Morawiecki, Kornel Morawiecki, kandydat na prezydenta (2o10)


@KonarskiLukasz, Łukasz Konarski, radny Zawiercia, komitet wyborców „Porozumienie Samorządowe Jesteśmy Razem”


@krzprz1, Krzysztof Przybylak, radny miasta Wojkowice, komitet wyborców „Dla Wojkowic”


@MarcinOciepa, Marcin Ociepa, kandydat na prezydenta Opola


@MarekLucyk, Marek Łucyk, radny miasta Gdynia, komitet wyborców Wojciecha Szczurka


@MichalBuchta, Michał Buchta, kandydat na radnego sejmiku województwa śląskiego, Ruch Autonomii Śląska


@TomaszTutak, Tomasz Tutak, radny powiatu lęborskiego (okręg Łeba i Wicko), komitet wyborców „Ziemia Lęborska”

Piątek, chmura słów, TextMining, morfologik i oczywiście R

Dzisiaj jest piątek, więc zamiast zaprzątać sobie głowę liczbami pooglądamy obrazki.

Dwa dni temu, w tym wpisie opisałem jak ściągnąć dane z Twittera i jako przykład ściągnąłem dane z kanału #debataACTA. Pokazałem też kilka podsumowań odkładając na później bardziej złożone analizy. Analizę nastawienia odłożę jeszcze na później, a dzisiaj pokażę jak danych tekstowych zrobić chmurę słów (ang. word cloud) używając R.

Samą chmurę słów można wykonać używając funkcji wordcloud() z pakietu wordcloud. Jako argumenty należy podać listę słów oraz współczynnik skalujący, odpowiadający wielkości danego słowa (najczęściej odpowiadający liczbie wystąpień danego słowa w tekście). Listę słów oraz częstości ich wystąpień można wygenerować używając funkcji str_split() i table(), ale aby było ciekawiej użyję w tym celu pakietu tm, który ma wiele przydatnych narzędzi do analizy tekstu (najwięcej przydatnych narzędzi ma do analizy tekstu angielskiego, ale z polskim też coś można zrobić).

Poniższy fragment kodu wczytuje dane, liczy tablicę częstości a następnie przedstawia ją graficznie z użyciem funkcji wordcloud(),

 

# Odczytaj dane
tweets = read.table(file="debataACTA4_13_luty.csv", sep=";", head=T)
 
# funkcje z pakietu tm i wordcloud
# do tworzenia korpusu wyrazów i ich wizualizacji
actaSlownik = Corpus(DataframeSource(data.frame(tweets[,2])))
actaSlownik = tm_map(actaSlownik, removePunctuation)
actaSlownik = tm_map(actaSlownik, tolower)
tdm = TermDocumentMatrix(actaSlownik)
m = as.matrix(tdm)
v = sort(rowSums(m),decreasing=TRUE)
 
# mając policzone częstości występowania możemy je zwizualizować
wordcloud(names(v), v^0.3, scale=c(5,0.5),random.order=F, colors="black")

 

Wykres otrzymany w ten sposób nie wygląda zbyt dobrze, ponieważ słowa występują w najróżniejszych odmianach a liczenie częstości osobno dla ,premierze’, 'premier’, 'premiera’, 'premierem’ nie wiele daje. Aby wykres wyglądał lepiej chcielibyśmy dla każdego ze słów znaleźć jego rdzeń i zliczać liczbę wystąpień rdzeni a nie różnych form. Jak to zrobić? Potrzebny będzie lematyzator, a dokładniej tzw. stemmer, czyli narzędzie, które dla każdego słowa wyodrębni tzw. 'stem’ (nie znam niestety polskiej terminologii a nie chcę tworzy kwiecistych tłumaczeń) czyli część słowa nie ulegającą odmianie.

Wykorzystam bezpłatny morfologik-stemmer dostępny na blogu http://morfologik.blogspot.com/ rozwijany przez Dawida Weissa i współpracowników. Narzędzie z którego skorzystałem to duży plik tekstowy mający w jednej kolumnie różne formy słów, w drugiej rdzenie a w trzeciej informacje o formie gramatycznej danego słowa. Oczywiście nie wszystkie słowa z twittera można znaleźć w tym zbiorze, nie ma tam np. wszystkich nazwisk. W każdym razie pierwsza transformacja polegała na przemapowaniu słowa na jego rdzeń, jeżeli słowo występuje w słowniku, lub pozostawienie słowa bez zmiany jeżeli w słowniku nie występuje. Dzięki temu z 13334 różnych słów zostaliśmy z 8597 słowami, z czego zdecydowana większość występuje tyko raz i nie znajdzie się na mapie tagów.

Zobaczmy jak wygląda rzeczona mapa.

[Rysunek 1. Chmura słów występujących przynajmniej dwa razy w zapisach z kanału debataACTA. Gdy było to możliwe słowa zostały przekształcone do swoich rdzeni. Wersja wektorowa tego rysunku (uwaga 7MB) znajduje się tutaj]

Dużo tych słów, mało widać, zróbmy więc jeszcze jedną iterację. Usuńmy wszystko co nie jest rzeczownikiem. Szczęśliwie słownik z pakietu morfologik ma informacje o tym czy dane słowo jest czy nie rzeczownikiem, więc zostawiamy tylko słowa, które znajdują się w słowniku i mają 'subst’ w trzeciej kolumnie.

[Rysunek 2. Chmura rzeczowników występujących przynajmniej dwa razy w zapisach z kanału debataACTA. Wersja wektorowa tego rysunku (uwaga 8MB) znajduje się tutaj]

Zróbmy jeszcze jeden eksperyment, mianowicie sprawdźmy jakie inne kanały występowały w wiadomościach z kanału #debataACTA. Zostawiamy więc tylko słowa zaczynające się od znaku #.

 

[Rysunek 3. Chmura nazw kanałów w wiadomościach na kanale debataACTA. Wersja wektorowa tego rysunku (uwaga 7MB) znajduje się tutaj]

#debataACTA, twitteR, Twitter i R

Zaczęło się niewinnie. Dwa tygodnie temu kolega Grzesiek P. powiedział, że analizę nastawienia (ang. Sentiment analysis) na dużych ilościach tekstu robi się banalnie. Tydzień temu kolega Paweł Ch. powiedział, że API twittera ma limit do 70 zapytań na minutę. W piątek przy okazji rozmowy o raporcie ,,Obiegi Kultury” Alek T. zapytał mnie czy mam doświadczenie w analizie danych z Twittera bo chętnie zobaczyłby się działo na kanale (moje autorskie tłumaczenie hashtaga) #debataACTA. Ponieważ nie interesowałem wcześniej się ani analizą nastawienia, ani API twittera ani hashtagami, stwierdziłem, że warto zobaczyć co w trawie ćwierka.

Tak się składa, że dzięki Jeffowi Gentry’emu API Twittera jest łatwo dostępne z poziomu R. Wystarczy załadować pakiet twitteR i kilka prostych funkcji pozwala na łatwą interakcję z ćwierkami z serwisu Twitter.com (ok, dalej będę używał tłumaczenia ,,wiadomościami”).

Zobaczmy prosty przykład.

> # interfejs do API twittera
> library(twitteR)
> # pobierz maksymalnie 1500 wiadomości zawierających etykietę #debataACTA
> # stworzonych 7 lutego 2012
> tweets = searchTwitter('#debataACTA', n=1500, until="2012-02-08", since="2012-02-06")
> # zamień wyniki na ramkę danych i wyświetl treść oraz autora pierwszej z wiadomości
> debataACTA =  twListToDF(tweets)
> debataACTA[1,c(1,4,10)]
                                                                                    text             created screenName
1 Mamy tyle Kultury i Edukacji ile na nia wydajemy 0,75% Budzetu #debataACTA #PremierRP 2012-02-07 15:37:46     TPHMAC

Ten pakiet ma te same ograniczenia co API, czyli 70 zapytań na minutę. Ale każde zapytanie to 25 wiadomości, a więc w sumie możemy ściągnąć do 1500 wiadomości na minutę.

Prostą pętlą, z pewną pomocą internetu, zebrałem wpisy z Twittera z okresu od 4 do 12 lutego 2012 zawierające etykietę #debataACTA. po oczyszczeniu zapisałem je w postaci pliku csv, który można pobrać z adresu tutaj.

Mamy więc dane, przyjrzyjmy się im. Do tematu analizy nastawienia podejdziemy w piątek, a dziś przyjrzyjmy się jak wyglądała aktywność ćwierkających. Na rysunku 1 można zobaczyć ile wpisów pojawiało się z tą etykietą. Temat jak widać skończył się z samą debatą. Na rysunku 2 można zobaczyć bliżej interesujący okres liczby wiadomości nadczas trwania debaty. Rzuca się w oczy szczególnie ta chwila ciszy przed burzą.

[Rysunek 1. Liczba wiadomości zawierających etykietę #debataACTA na godzinę. Kliknij by powiększyć.]

[Rysunek 2. Liczba wiadomości zawierających etykietę #debataACTA na 5 minut (debata rozpoczęła się po godzinie 14). Kliknij by powiększyć.]

Gdyby ktoś chciał sprawdzić o czym mówiono w której minucie to komentarze z znaczkami synchronizacyjnymi znaleźć można np. tutaj.

W sumie mamy ponad 6.5 tysiąca wiadomości. Zobaczmy kto je pisał. Zamiast wpisywać ksywy ćwierkających pokażę ilu z nich generuje odpowiedni procent wszystkich wiadomości.

[Rysunek 3. Na osi y przedstawiono liczbę wiadomości wygenerowanych przez X najaktywniejszych użytkowników. Okazuje się, że 7% piszących (dokładnie 72) generuje 50% wiadomości. A tylko 2% (dokładnie 21) generuje 25% wszystkich wiadomości. Kliknij by powiększyć.]

Ściągnęliśmy dane, zobaczyliśmy podstawowe podsumowania, czas zabrać się za analizę nastawienia. Więcej na ten temat w piątek (muszę ją jeszcze zrobić) a dzisiaj zakończę podsumowaniem z procentowym udziałem wiadomości zawierających ikonę buźki (;-), ;), :-), :))) itp).

[Rysunek 4. Procentowy udział wiadomości zawierających buźkę. Kliknij by powiększyć.]

Jak widać przez pierwsze dwie godziny debaty nie było ćwierkającym do śmiechu.

Na tropach niespójności, czyli kiedy warto zgłaszać artykuły sponsorowane

W poniedziałek coś na rozluźnienie.

W różnych gazetach pojawiają się co jakiś czas artykuły sponsorowane, które pod przykrywką lub (przy odrobinie szczęścia) przy okazji przekazywania jakiejś wiedzy, reklamują bank, fundusz emerytalny, lek, producenta odzieży itp.

Taki zabieg jest bardzo udany o ile w samym artykule nie umieszcza się niespójnych informacji. Jeżeli artykuł jest nieprzemyślany, niespójny to reklama nie będzie skuteczna.

W sobotę przeczytałem taki artykuł ,,Połowa Polaków czuje się komfortowo z posiadanymi oszczędnościami”, przygotowany ponoć na podstawie badań zleconych przez firmę ING. Pomijam tytuł w stylu ,,szklanka jest do połowy pełna”, bardziej interesować będą mnie dwa rysunki z tego artykułu.

[Rysunek 1]

[Rysunek 2]

Przyjrzyjmy się powyższym rysunkom i zabawmy się w grę, ,,znajdź 3 niespójności na powyższych wykresach”.

Aby nie psuć zabawy dodam kilka pustych linii zanim pokażę niespójności, które mi się rzuciły w oczy.

 

 

 

 

 

 

 

1. Na rysunku 2 krajem z najbardziej szczęśliwymi z posiadanych oszczędności obywatelami jest Tajlandia. Nie ma jej na rysunku 1. Nie pasowała jak widać do stwierdzenia o zielonej wyspie. Jeżeli ktoś chce bronić rysunek 1 mówiąc, że zawiera on tylko kraje europejskie, to niech wskaże na nim Luksemburg.

2. Na osi OX przedstawiono wzrost PKB w roku 2011. Różne kraje mają wzrost na poziomie 0-4%, ale mapka w prawym górnym rogu to sławna już mapa z roku 2009, na której poza Polska inne europejskie kraje notowały spadki PKB. Dlaczego nie zdecydowano się na pokazanie tych samych wyników na mapce i na osi OX nie wiadomo.

3. Na osi OY przedstawiony jest wskaźnik komfortu z oszczędności, liczony (zgodnie z opisem) jako % osób czujących się komfortowo – % osób czujących się niekomfortowo. Wartość tego wskaźnika można odczytać dla niektórych państw z rysunku 2. Zobaczmy więc który element flagi odpowiada wartości tego wskaźnika, czy dół, czy środek czy góra flagi. Okazuje się że dla Polski trochę powyżej środka flagi, ale dla Czech i Holandii jest to znacznie bliżej dołu flagi. Położenia flag Francji i Niemiec powinny różnić się o 1% na osi OY.

Może to i nie jest manipulacja, może po prostu grafik uważa, że 2% w górę czy w dół nie ma znaczenia. W sumie takie rzeczy można wybaczyć.

To czego nie można wybaczyć to zdanie z podpisu rysunku 1 ,,Według ekonomistów wpływ na komfort wpływa wysoki wzrost PKB Polski”.  To zdanie ma ciekawy błąd językowy, który poprawić można na kilka sposobów ale za każdym razem pojawi się błąd merytoryczny. Bo z takiej ,,korelacji” nie wynika żadna zależność przyczynowo skutkowa. Ani to, że komfort oszczędnościowy nie wpływa na PKB ani, że wysokie PKB wpływa na komfort.

Zupełnie jak w klasycznym problemie bocianów i liczby urodzeń dzieci. To, że w wioskach w których jest więcej bocianów rodzi się więcej dzieci nie oznacza ani, że bociany przynoszą dzieci ani, że dzieci przyciągają bociany. Oznacza tylko, że w dużych wioskach jest więcej kobiet rodzących dzieci i więcej dachów na gniazda dla bocianów.

 

Na ile protest w sprawie ACTA jest ważny?

Przez cały tydzień krążyliśmy wokół ACTA. Najwyższy czas zamknąć ten temat. Dzisiejszy wpis ma dwie warstwy, w jednej spróbujemy odpowiedzieć na pytanie kto i dlaczego protestuje przeciwko ACTA, a w drugiej zastanowimy się jak czytelne są różne metody graficznego przedstawiania macierzy kontyngencji.

Tydzień temu użytkownik anuszka podał odnośnik do ciekawego wpisu na blogu CentrumCyfrowe.pl. Tytuł i odnośnik do wpisu: ,,Protest w sprawie ACTA to walka młodych o wolność w internecie – potwierdzają wyniki badań”.  W pierwszym akapicie tego wpisu znajduje się zdanie ,,Z przeprowadzonego przez MB SMG/KRC i Centrum Cyfrowe Projeku: Polska badania wynika, że stosunek do protestu ma charakter pokoleniowy. Protest jest szczególnie istotny dla ludzi młodych”. Hmmm… Zaraz zobaczymy.

Do wymienionego wpisu podlinkowane są dane zebrane w badaniu (na reprezentatywnej próbie ponad 1000 polaków). Tym razem zamiast surowych danych mamy dostęp tylko do agregatów, tzn. mamy policzone procenty i liczebności odpowiedzi na kilka pytań z ankiety w podziale na wiek, płeć i miejsce zamieszkania. Mnie interesować będzie podział na grupy wiekowe. Jak wygląda stosunek do ACTA i do praw autorskich u gorącokrwistej młodzieży a jak u osób starszych, które urodziły się w czasach gdy nie było internetu, ale nie było też poszanowania dla własności prywatnej? Zobaczymy. Przedstawię poniżej odpowiedzi ankietowanych na trzy pytania.

,,C2. Na ile protest w sprawie ACTA jest dla Pana(i) ważny?”

W formularzu jest pięć odpowiedzi na to pytanie: ,,jest dla mnie mało ważny nie rozumiem o co w nim chodzi”, ,,jest dla mnie ważny, ale nie na tyle żeby uważnie śledzić co się dzieje”, ,,jest dla mnie ważny, aktywnie śledzę rozwój wydarzeń”, ,,jest dla mnie bardzo ważny – jestem osobiście zaangażowany w protest przeciwko ACTA” i ,,nie wiem”. Są więc cztery odpowiedzi opisujące skalę od mało ważny do bardzo ważny. Ale nie ma odpowiedzi nie obchodzi mnie”. Trochę przypomina to niedawno przedstawiany artykuł dotyczący manipulacji listą możliwych odpowiedzi w ankietach (wpis ,,ankiety a manipulacja”). I pytanie i odpowiedzi sugerują że protest w sprawie ACTA jest ważny pytanie tylko czy bardzo czy tylko trochę.

[Rysunek 1. Wyniki odpowiedzi na pytanie o ważność protestu w sprawie ACTA przedstawione z użyciem analizy korespondencji. Jeżeli trójkąty opisujące grupy wiekowe są blisko zwrotów strzałek opisujących odpowiedzi na pytania, to dana para występuje częściej niż losowo. Z tego typu wykresów odczytuje się współwystępowania, np. widzimy, że odpowiedzi ,,mało ważny” częściej inż inni udzielały osoby po 60 roku życia, odpowiedź ,,jest ważny ale nie na tyle …” częściej padała z ust osób po 45 roku życia, protesty były bardzo ważne dla osób młodych. Wersja wektorowa powyższego rysunku jest tutaj].

Swoją drogą pytanie można różnie rozumieć. Dosłownie oznacza ono na ile ważny jest protest = „ostre wystąpienie przeciw działaniu uważanemu za niesłuszne” (za słownikiem PWN), może być więc odczytane jako poparcie dla formy ostrego wystąpienia. Inna interpretacja tego pytania to czy jest się przeciw ACTA czy za ACTA.

 

,,C3. Czy Pana(i) zdaniem darmowy dostęp do książek, muzyki i filmów przez internet – nawet, jeśli odbywa się z naruszeniem praw autorskich – powinien być elementem swobód obywatelskich?”

Mam znajomego który wierzy, że niewidzialna ręka rynku wszystko wyreguluje. A tym którzy podnoszą rękę na niewidzialną rękę odciąłby tę rękę (dużo tych rąk, ale mam nadzieję, że wiecie o co chodzi). Czytając więc argumenty w stylu ,,Państwo powinno płacić za…” (bo koniec końców ktoś zawsze płaci) zawsze słyszę w tyle głowy jego soczysty komentarz.

Ale można wierzyć w różne rzeczy, zobaczmy co na ten temat myślą nasi ankietowani.

[Rysunek 2. Poparcie dla ,,darmowego” dostępu do książek, muzyki, filmów w Internecie. Im starsze osoby są pytane, tym mniej skłonne są one poprzeć bezpłatny dostęp do filmów, książek i muzyki w Internecie nawet z naruszeniem praw autorskich. Osoby młodsze w większości są 'raczej’ lub 'zdecydowanie’ za. Wersja wektorowa grafiki znajduje się tutaj.]

 

,,C1. Co jest Pana(i) zdaniem głównym źródłem protestu w sprawie Acta?”

Do wyboru były cztery odpowiedzi. Jak dla mnie zabrakło kilku innych wariantów, dotyczących np. informacji komu i kiedy mogą być przekazane informacje o aktywności w Internecie Polaków. No ale w tym badaniu skupiono się na innych problemach. Zobaczmy jakie odpowiedzi wybierali ankietowani.

[Rysunek 3. Im młodsza grupa ankietowanych tym większy procent uważa, że chodzi o wolność. Im starsza grupa ankietowanych tym większy procent (przyznaje?) nie wie o co chodzi]

Za nami szybki rzut oka na odpowiedzi reprezentatywnej próby polaków. Moim zdaniem wykresy mówią same za siebie, daruję więc sobie stronnicze komentarze.

Widzieliśmy trzy wykresy, ciekawy jestem który z nich trzech jest dla Was najbardziej czytelny. Najczęściej w opracowaniach spotyka się wykres słupkowy (ostatni) z uwagi na jego prostotę, a z drugiej strony najbardziej zaawansowana matematyka stoi za analizą korespondencji (wykres pierwszy).

 

Czy internauci czytają książki? A czy je kupują?

Czy zdarza Wam się, że jakieś pytanie chodzi po głowie tak natarczywie, że nie możecie się go w żaden sposób pozbyć i jedyny sposób by dalej funkcjonować to poszukać odpowiedzi? Jeżeli tak, to zrozumiecie dlaczego dziś znów nie będzie prezentacji raportu o badaniach klinicznych.

 

W poniedziałek we wpisie o raporcie ,,Obiegi Kultury” krytycznie odnosiłem się do wartości 89%, która miała opisywać jak wielu z ,,intensywnych internautów” czyta książki. Pisałem, że dużo jest wśród ankietowanych osób młodych (system edukacji zmusza ich do czytania ;-)) dużo jest osób z wyższym wykształceniem itp.

Ale przecież nic nie stoi na przeszkodzie by procent czytających policzyć wśród tych internautów, którzy ani nie są młodzi ani nie mają wyższego wykształcenia. Dane są dostępne, formularze są dostępne (to dobry przykład, jak być powinno). Zobaczymy co wyjdzie.

Komentarz techniczny: najbliższe kilka rysunków jest otrzymanych z użyciem pakietu rms. W modelu regresji logistycznej badane są interakcje pomiędzy wiekiem (spajny 5 stopnia) a wykształceniem. Z poniższych analiz usunąłem osoby z wykształceniem podstawowym ponieważ było ich zbyt mało by wykonać dla nich takie modelowanie. Próba nie jest bardzo duża, dlatego oceny efektów są obarczone dużą niepewnością. Czytaj: Gładkość poniższych krzywych została wymuszona by otrzymać czytelne wyniki.

[Rysunek 1. Frakcja osób deklarujących przeczytanie przynajmniej jednej książki w okresie ostatniego roku, jako funkcja wieku w rozbiciu na grupy wykształcenia. Wersja grafiki w formacie wektorowym znajduje się tutaj.]

Z rysunku 1 można odczytać, że procent osób deklarujących przeczytanie przynajmniej jednej pozycji jest wysoki w każdej grupie wykształcenia w każdym wieku. Nie jest więc tak, że nadreprezentowane grupy młodych i wysoko wykształconych ,,podbiły” procent czytających. Wygląda na to, że bez względu na wiek i wykształcenie internauci czytają dużo.

Pierwszy głód zaspokojony, ale czas na więcej. W ankiecie poza pytaniem o liczbę przeczytanych książek pojawia się też pytanie o liczbę przeczytanych książek papierowych, elektronicznych, książek do słuchania w formacie audio (swojsko nazywanych audiobookami). Przyjrzyjmy się więc bliżej temu kto, co i kiedy czyta/słucha. Poniższe odpowiedzi dotyczą pytań o ostatnie 3 miesiące.

 

[Rysunek 2. Frakcja osób deklarujących przeczytanie przynajmniej jednej książki w formacie papierowym, elektronicznym lub do odsłuchu w okresie ostatnich trzech miesięcy, jako funkcja wieku w rozbiciu na grupy wykształcenia. Wersje wektorowe znajdują się: tutaj ,,czyta papierowe”tutaj ,,czyta elektroniczne”tutaj ,,słucha audiobooki”.]

Frakcja osób czytających książki papierowe jest bliska frakcji osób czytających cokolwiek. Największa zmiana dotyczy grupy ankietowanych o wykształceniu zasadniczym. Co ciekawe forma papierowa dominuje nawet wśród intensywnych internautów.  Jako osoba uzależniona od książek w formacie audio, dziwi mnie, że tak niewiele osób słucha książek w formacie elektronicznym. Jest to świetna rozrywka podczas jazdy na rowerze lub za kierownicą samochodu.

Zbadajmy dokładniej temat książek papierowych, zobaczmy gdzie ankietowani mają kontakt z książkami papierowymi.

[Rysunek 3. Frakcja osób deklarujących zakup, pożyczenie, skserowanie, otrzymanie lub danie przynajmniej jednej książki w formacie papierowym w okresie ostatnich trzech miesięcy, jako funkcja wieku w rozbiciu na grupy wykształcenia. Wersje wektorowe znajdują się: tutaj ,,kupił dla siebie”tutaj ,,pożyczył z biblioteki”tutaj ,,skserował lub pożyczył”tutaj ,,kupił w prezencie”tutaj ,,otrzymał w prezencie”.]

Ciekawe. Co prawda internauci czytają dużo książek, ale nie wiadomo skąd je biorą. Rzadko kupują, rzadko pożyczają, rzadko dostają. Widać te książki w postaci papierowej po prostu się ma 😉

Jak już jesteśmy przy temacie źródeł posiadania. Spójrzmy na osoby, które czytały w ostatnich 3 miesiącach książki w formacie elektronicznym. I zobaczmy ile z nich takie książki kupuje dla siebie legalnie a ile ściąga za darmo z internetu (pytanie A13). Następnie testem chi kwadrat (nie najlepszy ale najpopularniejszy) zobaczymy czy jest jakaś zależność.

Czy kupuje/ściąga książki w postaci elektronicznej?
           | nie kupuje |   kupuje |
-----------------------------------------------
nie sciaga |        69  |       24 |   93 (22%)
sciaga     |       233  |      103 |  336 (78%)
-----------------------------------------------
           |  302 (70%) | 127 (30%)| 429 (100%)

P-wartość dla testu chi kwadrat to 0.4 (dla testu Fishera podobnie), czyli brak istotnej zależności. Nie udało się pokazać, że osoby które więcej ściągają więcej też kupują.

Zobaczmy jak to wygląda w przypadku audiobooków.

Czy kupuje/ściąga książki w postaci audio?
           | nie kupuje |   kupuje |
-----------------------------------------------
nie sciaga |        43  |       30 |   73 (33%)
sciaga     |       100  |       46 |  146 (67%)
-----------------------------------------------
           |  143 (66%) |  76 (34%)| 219 (100%)

Test chi kwadrat zwraca p-wartość 0.2, czyli brak istotnej zależności. Przyglądając się obu tabelkom, widzimy że najczęstszy wybór to ,nie kupuje ale ściąga’.

Jeżeli już jesteśmy w ciągu testów chi kwadrat, to wykonajmy jeszcze jeden, dla muzyki. Zobaczmy jak wygląda zestawienie zmiennej ,słucham oryginalnych płyt CD i kupiłem dla siebie ostatnio przynajmniej jedną’ a zmienna ,ściągam albumy z muzyką z internetu’.

Czy kupuje CD dla siebie/ściąga muzykę?
           |   kupuje  | nie kupuje |
----------------------------------------------
sciaga     |      220  |        487 |  707 (57%)
nie sciaga |       82  |        202 |  284 (23%)
    9      |       51  |        196 |  247 (20%)
-----------------------------------------------
           | 353 (29%) |   885 (71%)| 1238 (100%)

Wartość 9 oznacza prawdopodobnie odmowę udzielenia odpowiedzi, choć nie ma jej opisanej w formularzu. Jeżeli pominąć wiersz z osobami które odpowiedziały 9, to test chi kwadrat zwróci p-wartość na poziomie 0.2.

Ok. Podsumowując wśród internautów nie widać zależności pomiędzy ściąganiem z internetu książek czy muzyki a kupowaniem oryginałów. Wciąż może być różnica pomiędzy internautami i resztą populacji. Z książkami w wersji papierowej wygląda na to, że internauci więcej czytają.

Na koniec jeszcze jeden obrazek odnoszący się do komentarza poprzedniego wpisu. Chodzi o % oryginalnych książek a liczbę książek w ogóle.

[Rysunek 4. Liczba książek na półce a procent oryginalnych książek. Nie ma silnej tendencji, ale wygląda na to, że im więcej książek tym większy procent z nich to oryginały. Kliknij aby otworzyć wersję wektorową.]

[Rysunek 5. Liczba oryginalnych płyt CD na półce a procent oryginalnych płyt. Kliknij aby otworzyć wersję wektorową.]