Przegląd prasy z ostatnich dwóch miesięcy, czyli rzut okiem na ponad 36 000 artykułów.

Na początku października zacząłem kolekcjonować wpisy przesyłane w formacie RSS z kilku polskich portali informacyjnych. Między innymi (w kolejności alfabetycznej): bankier.pl, gazeta.pl, interia.pl, polityka.pl, rp.pl, tvn24.pl, wiadomosci24.pl, wp.pl, wyborcza.pl i kilka innych najpopularniejszych portali informacyjnych (popularność mierzona liczą odwiedzin zgodnie z alexa.com). Zbierane wpisy zawierają tytuły i streszczenia artykułów pojawiających się na tych portalach. Łącznie w ciągu dwóch miesięcy uzbierało się ponad 36500 wpisów. W formacie RSS nie mają zazwyczaj całej treści artykułu, która pojawia się na portalu, ale mają tytuł i streszczenie/pierwszy akapit. Mając takie streszczenia zobaczmy co ostatnio się działo. Kto o kim, co i dlaczego pisze.

Dane, które zebrałem są dostępne do pobrania w zakładce [zbiory danych] pod pozycją o nazwie RSS (uwaga ten plik ma 15 MB). Znajduje się tam również instrukcja jak wczytać te dane do programu R, można wiec samodzielnie z nimi eksperymentować. Dane są surowe (czytaj: zanieczyszczone), więc przed użyciem należy je oczyścić.

Z tymi danymi jeszcze będziemy pracować, ale dziś chciałbym pokazać kilka wstępnych wyników. Poniżej pokażę w jakich mediach poświęca się więcej uwagi którym politykom, w jakim kontekście pisze się o nauce, co się działo w Chinach, jakie ceny przyciągają uwagę, czego chce SLD i co pisano o Macieju Sthurze.

Ale po kolei.

Zacznę od pytania, które nurtowało mnie od dawna, mianowicie czy na różnych portalach informacyjnych będzie widać wyraźne faworyzowanie polityków którejś z partii. Czytając wiadomości krążące po sieci, można znaleźć wiele opinii, że ,,obiektywny dziennikarz” to oksymoronem. Ale wrażenia i opinie to jedno a twarde dane to drugie.

Jak powstał poniższy wykres? Sprawdziłem czyje nazwiska pojawiają się najczęściej w polskiej prasie. Pierwsza piątka to Tusk, Komorowski, Obama, Kaczyński i Pawlak. Ponieważ prezydenci zasługują na specjalne traktowanie to usunąłem ich z dalszych rozważań. Dla pozostałych trzech nazwisk zliczyłem liczbę wystąpień w tytułach artykułów z poszczególnych portali a następnie unormowałem te liczby. Po tej obróbce, dla każdego z portali mamy trzy liczby sumujące się do 1 pokazujące ,,widoczność” każdego z tych nazwisk w ramach portalu.

Pokażmy te rozkłady za pomocą wykresu trójkątnego. Zaznaczmy, że badana jest widoczność nazwiska a nie nastawienie treści w jakim się pojawia.

Najczęściej pojawiającym nazwiskiem jest nazwisko premiera, co nie jest zaskoczeniem. Procentowo najwięcej można go spotkać na portalach rp.pl i bankier.pl. Najrzadziej pojawia się na portalu wiadomosci24.pl. Drugie co do popularności jest nazwisko byłego premiera i te pojawia się na portalu wiadomosci24.pl dosyć często, w przeciwieństwie do bankier.pl. Trzecim z rozważanych nazwisk jest nazwisko byłego wicepremiera, które raczej znajdziemy na portalu bankier.pl czy TVN24.pl niż na portalu wp.pl. Można by powiedzieć, że każdy znajdzie coś dla siebie o ile szuka informacji o przewodniczącym którejś z partii. Nie ma widać większego celebryty niż szef partii.

Mając zebrane RSSy, możemy zrobić znaczenie więcej. Użyjmy platformy IBM Many Eyes i funkcji ,word tree’/,drzewo słów’ (używaliśmy jej już między innymi tutaj do wizualizacji drugiego expose premiera).
Drzewo słów pokazuje kontekst w którym znajduje się określone słowo lub sekwencja słów. Można poeksperymentować z tą funkcją na tytułach 36 000 artykułów z poprzednich dwóch miesięcy na tej stronie.

Poniżej pokażę kontekst w którym występowało kilka interesujących słów wraz z krótkimi komentarzami.

Zacznijmy od tego w jakim kontekście pojawia się słowo ,nauka’. (nasza prasa nie ma nawyku pisania pozytywnie o polskiej nauce, a szkoda)

Przyjrzeć się tytułom odnoszącym się do Macieja Stuhra (dostało mu się za Pokłosie, swoją drogą odpowiedź odpowiedź Pasikowskiego na całe zamieszanie – majstersztyk)

Sprawdzić co pisano o becikowym (bez zmian)

Zobaczyć cenami czego interesują się media (mieszkania, gaz i energia to stałe tematy)

A co pisano o Chinach (wybory przeszły niezauważone)

Pobawić się różnymi innymi pomysłami (np słowo egzamin)

Podsumować co z wypowiedzi W. Pawlaka znalazło się w mediach

J.w. ale dla W. Putina

Zobaczyć czego chce SLD

Jeżeli macie inne pomysły na słowa których można poszukać w tytułach to dane i narzędzie do ich analizy online
są dostępne tutaj.

9 thoughts on “Przegląd prasy z ostatnich dwóch miesięcy, czyli rzut okiem na ponad 36 000 artykułów.”

  1. Pierwsza uwaga (czepialska) – w kolejności alfabetycznej – rp.pl za wyborcza.pl 😉
    A druga już merytoryczna – otóż postawiony przez Pana problem, to faworyzowanie polityków przez różne media. Trochę rozbudził Pan mój apetyt, a potem… no właśnie, jak sam Pan podkreśla, przedstawione dane mówią tylko o kim, a nie co i jak się mówi. Czuję pewien niedosyt, ale jak zwykle jestem pod wrażeniem! 🙂

    1. Dziękuję za pierwszą uwagę,
      A co do drugiej: przygotowałem wstępne wyniki dla analizy nastawienia ale wygląda na to że na razie za mało mam danych (około 100-200 artykułów na osobę, z czego nastawienie przypisać można do około 10%)
      Z czasem jednak będę miał więcej danych lub lepsze narzędzie do analizy nastawienia i do tego zbioru wrócę

      W każdym razie dane będą aktualizowane w tej samej formie.
      Może znajdzie się ktoś chętny do współpracy nad nimi

  2. Jestem pod wrażeniem! Szczególnie świetnego wykresu dla trzech zmiennych w R^2 oferowanym przez mój monitor. Pomysłowe do granic możliwości!

  3. Swoją drogą, czy można wiedzieć jak próbował Pan przypisać nastawienie w danym artykule? Czy była to subiektywna ocena po zapoznaniu się z treścią, czy coś bardziej wymyślnego?

    Wracając jeszcze do wykresu, to aż prosi się o próbę wyciągnięcia jakiś wniosków dotyczących profilu badanych portali. Np. wyraźnie większe „zainteresowanie” premierem Tuskiem i Pawlakiem portalu Bankier.pl spowodowane jest zapewne gospodarczo-ekonomicznym charakterem portalu. (Swoją drogą zastanawiał się Pan, jaki to może mieć wpływ na analizę nastawienia?)
    Ciekawie też wygląda aglomeracja kilu portali w bliskiej przestrzeni (Wyborcza, Gazeta, Interia, Wprost, WP). Pytanie które mnie tutaj dręczy, to czy jest to objaw zrównoważonego dziennikarstwa, czy może raczej mniej unikatowych treści i wzajemnym powielaniem informacji.
    Ale to wszystko to już moje własne (nad)interpretacje 🙂

    1. @Jakub: Na razie nastawienie przypisuję na bazie słów kluczy wsytępujących w bliskiej okolicy nazwiska, nie jest to najlepsza metoda więc zanim te wyniki będą pokazane jeszcze nad nią popracuję.

      Przyjąłem sposób działania: otwarcie danych, opisanie kilku wstępnych wyników (to już zrobiono), może znajdzie się ktoś kto na tych danych coś ciekawego odkryje, może mnie uda się jeszcez cos ciekawe go zrobić i wtedy napisać o wynikach.

      Co do różnic pomiędzy źródłami, to w pełni się zgadzam, że wiele treści jest kopiowanych pomiędzy portalami i to wpływa z pewnością na wyniki.

  4. @Jakub
    Narzędzie jest sympatyczne i na tym pozostańmy. Wyciąganie wniosków to już za dużo. Bo np. nie widzę żadnego uzasadnienia dla wrzucenia do jednego worka wp, interii, gazety, i także – rp.pl i wyborczej.pl. Jedne agregują newsy, a drugie są redakcjami gazet, które posiadają stronę internetową. Rssy, rssami, ale paywall blokuje dostęp do pełnej treści. Niektóre rssy dają zajawki, czy dwa akapity, a niektóre pozwalają na pobieranie pełnej treści.
    Sposób wizualizacji danych dla trzech nazwisk jest bardzo pomysłowy.
    Zaś marzy mi się narzędzie do mierzenia nastawienia w obrębie zdania, możliwe byłoby uproszczenie przeprowadzania analizy pól semantycznych.

  5. Jestem fanką infografik dlatego z entuzjazmem i dużą wnikliwością przyjrzałam się wynikom obliczeń tego programu. Przy okazji, jako że ostatnio przestałam czytać informację na temat polityki, poczułam jakby nadrobiła prasówkę z dwóch miesięcy. Jak widzę, wiele merytorycznego mnie nie ominęło 😉

    Nie wiem czy zwrócili Państwo uwagę, że przy niewinnym słówku egzamin, jako najważniejsze wątki wychylają się „egzamin adwokacki” i „egzamin na asp”. Racjonalnie patrząc, powinny być to egzaminy bardzo niszowe w społeczenstwie, a wręcz elitarne. Czy media pisząc o tym napędzają sztuczny popyt na te kierunki wśród uczniów i ich rodziców?

  6. Świetny materiał do dalszych analiz.
    W jaki sposób były zbierane dane? Osobiście próbowałbym jakimś konsolowym agregatorem rss spod linuxa.

    1. Aktualnie było zbierane za pomocą Feedreadera semi automatycznie, ale trwają prace by to zautomatyzować, tak więc pewnie rok 2013 będzie na bieżąco monitorowany automatem.

Pozostaw odpowiedź Jakub Anuluj pisanie odpowiedzi

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *