Czas na zakończenie tematu analizy tekstów z twittera i powrót do raportów. Na koniec przyjrzymy się jeszcze dwóm tematom. Jak zróżnicowane słownictwo znaleźć można we wpisach rożnych polityków, oraz jak często politycy piszą o swoich i nie swoich partiach.
Ale najpierw krótkie wprowadzenie. Wczoraj obchodziliśmy Międzynarodowy Dzień Języka Ojczystego (btw: nie należy mylić tego święta z Dniem Dobrej Polszczyzny, który jest w grudniu). Zbiegło się to święto w czasie z mailem, który dostałem od żony polecającym artykuł ,,Mie, mi i naszemu kraju, czyli polszczyzna polityczna” z Dużego Formatu (dostępny też w postaci elektronicznej tutaj). W tym artykule językoznawca z UJ, dr Artur Czesak, charakteryzuje polszczyznę polityków, opowiada co go razi, co drażni, a co mu się podoba.
Poza analizą błędów językowych i regionalizmów znajduje się też ciekawy komentarz dotyczący zasobu słów polityków.
Hmmm, będąc na świeżo z przeglądaniem wiadomości z Twittera zastanowiło mnie, czy w wiadomościach z Twittera mógłbym zobaczyć coś ciekawego nt. bogactwa słownictwa polityków?
Kanał komunikacji dosyć specyficzny, tylko formy krótkie, sporo odnośników i sporo kopii wiadomości od innych użytkowników, ale zobaczmy co wyjdzie.
Punktem wyjściowym jest korpus ćwierków (czy twittów?) zebranych dla podzbioru polskich polityków w tym wpisie. Każde słowo poddano też procesowi hasłowania, by wyodrębnić dla niego rdzeń (używając programu morfologik). Następnie dla każdego polityka policzono:
- sumaryczną liczbę wyrazów we wszystkich ćwierkach,
- liczbę różnych wyrazów we wszystkich ćwierkach,
- sumaryczną liczbę wyrazów rozpoznanych przez program morfologik (a więc poprawnie odmienionych polskich słów),
- liczbę różnych wyrazów rozpoznanych przez program morfologik (a więc poprawnie odmienionych polskich słów),
- liczbę różnych rdzeni rozpoznanych przez program morfologik.
Oczywiście średnio im więcej wyrazów tym więcej rożnych wyrazów i więcej różnych rdzeni. Oczywiście ta zależność nie jest liniowa. Ale zobaczmy jak ona wygląda dla rożnych polityków.
[Rysunek 1. Każda kropka to jeden polityk. Na kolejnych osiach przedstawione są statystyki liczby słów lub różnych słów, słów rozpoznanych przez program morfologik we wpisach. Jest wyraźna zależność. Ale zaobserwować można też interesujące przypadki odstające od dominującego trendu. ]
Celem jest zbadanie jak bogate jest słownictwo posłów. Nie ma jednak sensu badać bogactwa tego słownictwa w grupie samych posłów, potrzebny jest punkt odniesienia. Najlepiej dziennikarz, który język polski zna. Pierwszy wybór padł na Adama Małeckiego z radia Trójka. Dużo pisze na Twitterze @TROJKAdaMalecki więc mógł być dobrym punktem odniesienia. Niestety znacznie częściej niż część politycy miał wpisy w języku angielskim, co zaburzało statystyki. Więc za drugi punkt odniesienia wybrałem osobę o nazwie użytkownika @Dziennikarz, który nie wiem czy jest dziennikarzem, ale dużo pisze na Twitterze i zdecydowana większość wpisów jest w języku polskim. Osoby, które mało piszą nie będą interesujące.
[Rysunek 2. Liczba wyrazów vs. liczba różnych wyrazów w wiadomościach z Twittera. Kolorowymi liniami oznaczono wyniki dwóch dziennikarzy (są to linie nie punkty ponieważ liczyłem obie charakterystyki przyrostowo, dzięki temu można znaleźć punkt odniesienia dla każdej liczby wyrazów). ]
W większości przypadków politycy używają różnych wyrazów, można więc pokusić się o stwierdzenie, że różnorodność ich słownictwa nie jest ograniczona. Najbardziej odstający przypadek, czyli Jerzy Buzek łatwo wytłumaczyć, mianowicie jako poseł parlamentu europejskiego, a aktualnie przewodniczący Jerzy Buzek pisze wpisy w języku angielskim, który to ma zdecydowanie uboższą fleksję niż nasz język ojczysty.
Aby uniezależnić się od zaburzenia statystyk językiem w którym polityk publikuje odsiejmy wszystkie słowa których nie można znaleźć w słowniku programu morfologik.
[Rysunek 3. Liczba rozpoznanych polskich wyrazów vs. liczba różnych rdzeni polskich wyrazów w wiadomościach z Twittera. Kolorowymi liniami oznaczono wyniki dwóch dziennikarzy. ,,Odstający” wynik użytkownika PremierRP wytłumaczyć można np. tym, że w praktycznie każdym wpisie znajdują się słowa 'Premier’ i 'Rząd’.]
Interpretację pozostawiam czytelnikom.
Wiadomości z Twittera nie są najbardziej reprezentatywną próbka wypowiedzi polityka, ale jak analizy takiego typu są w stanie badać bogactwo słownictwa w sposób obiektywny. Tak więc na listę do zrobienia wpisujemy analizę stenogramów z sejmu i senatu pod kątem bogactwa słownictwa.
Druga część dotyczy częstości z jaką politycy w swoich ćwierkach używali wyrazów PO lub PiS. Bez analizy kontekstu w jakim znaczeniu padały te nazwy partii, bez analizy form deprecjatywnych, jedynie liczba wystąpień literek PO lub PiS z uwzględnieniem wielkości liter.
[Rysunek 4. Każda kropka to jeden polityk. Kolorem niebieskim zaznaczeni są politycy, którzy na liście Michała Buchty byli w barwach Platformy Obywatelskiej, kolorem pomarańczowym zaznaczeni są politycy, którzy byli w barwach Prawa i Sprawiedliwości (przynależność sprzed roku), na szaro pozostali. Współrzędna OX punktu opisuje jaka frakcja wpisów danego polityka zawierała wyraz PO, współrzędna OY punktu opisuje jaka frakcja wpisów danego polityka zawierała wyraz PiS. Ukośna linia odpowiada równej zawartości wpisów dot obu partii.]
Jak widzimy politycy najczęściej piszą o swoich partiach, choć można znaleźć też takich którzy częściej piszą o ,,tej drugiej”. Sikorski Radek nie jest najlepszym przykładem, ponieważ był i tu i tu, ale Darek Dolczewski czy Marek Suski (za zdrobnienia imion przepraszam, ale to w celu łatwiejszej identyfikacji nazwy użytkownika na Twitterze).
Zobaczmy jeszcze, którzy politycy (z listy z poprzedniego wpisu) ćwierkali o acta.