Sprawozdania krajowe Komisji Europejskiej

Marcin Grynberg zwrócił moją uwagę na niedawno opublikowane sprawozdania krajowe Komisji Europejskiej poświęcone (między innymi) sytuacji ekonomicznej krajów członkowskich. Sprawozdanie poświęcone Polsce jest dostępne tutaj.
Nieduże (niecałe 50 stron plus załączniki) ale konkretne i ciekawe.
Przykładowo, można w nim znaleźć informacje dotyczące konsekwencji reformy emerytalnej i jej wpływu na wysokość emerytury (polecam wykres 3.3.2) czy prognozy co do wysokości długu publicznego (polecam wykres 3.1.2).
Poniżej odniosę się do trzech innych wątków poruszanych w tym sprawozdaniu. Tematów związanych z nauką, badaniami i edukacją.


Po prawej wykres prezentujący wydatki publiczne na R&D (czy z polska BiR) zestawione z ilością wysoko cytowanych publikacji. Pozycja Polski w tym zestawieniu jest zaznaczona czerwoną kropką.
Komentarz nie jest chyba potrzebny, ograniczę się jedynie do cytatu ze sprawozdania: ‘Niewielki stopień komercjalizacji wyników badań naukowych oraz słabe powiązania między sektorem nauki i sektorem biznesu ograniczają zdolność innowacyjną gospodarki.’





Kolejny wykres, który zwrócił moją uwagę dotyczy liczby uczniów rozpoczynających naukę w 1 klasie szkoły średniej (wykres po lewej).
W 2019 roku ma to być ponad 350 tys. uczniów a w 2024 roku poniżej 100 tys uczniów.
Ponad 4x mniej.
Później te fale uderzą o wrota uczelni wyższych.
Konsekwencja szybkich reform poprzedniego rządu (między innymi dwa lata na przejście z wiekiem rozpoczęcia szkoły podstawowej na 6 lat) i galopujących reform obecnego (1 rok na przejście ze startem podstawówki na 7 lat).
Cytat z raportu: Reforma systemu szkolnictwa od września 2017 r. budzi szereg obaw wśród zainteresowanych podmiotów.


Niektóre wskaźniki wglądają dobrze. Bezrobocie nadal spada, płace średnie (powoli) rosną.
Cytat: Przewiduje się, że spodziewane niekorzystne zmiany na rynku pracy spowodują szybszy wzrost płac i potencjalnie niedobór pracowników.
Cytat: Po kilku latach silnego wzrostu dochodów nierówności zmniejszyły się i ich poziom jest obecnie niższy od średniej unijnej.




Uważam, że jednym z największych wyzwań jest demografia. Więc i to zestawienie wykresów kończę rysunkiem związanym z prognozami demograficznymi. Zgodnie z prognozą zakładającą zerową migrację w ciągu 35 lat liczba osób w wieku produkcyjnym zmniejszy się o 19%. A czy produktywność i innowacyjność przyszłych pracowników zwiększy się wystarczająco by zrekompensować mniejsza liczbę rąk do pracy?



Całe sprawozdanie można pobrać i w języku angielskim i polskim.

Techniki wizualizacji danych a rok pracy Sejmu


Jakiś czas temu pisałem o zależności pomiędzy wartością wizualizacji danych a zawartej w nich historii. No dobrze, więc skąd brać ciekawe historie do wizualizacji?

Tych jest pełno dookoła. Przykładowo pomysł na pierwszy projekt z przedmiotu Techniki Wizualizacji Danych podrzucił nam zespół analityków z MamPrawoWiedziec.pl. Mija właśnie pierwszy rok pracy Sejmu. Zobaczmy o czym i jak mówiono, jak głosowano itp.

Pierwszy wykres pokazuje jak często posłowie klubu A wtrącają się w wypowiedzi posłów klubu B. Czasem by krytykować, czasem by wyrazić poparcie.

Poniższy wykres jest interaktywny. Aby uruchomić jego interaktywną wersję trzeba otworzyć tę stronę. Ale ostrzegam, ta interaktywność wciąga.

screen-shot-2016-11-16-at-10-29-20

Drugi wykres jest mniej interaktywny, ale wyładowany treścią po brzegi. Dla pięciu największych klubów pokazuje jak często posłowie wypowiadają się oraz jak często głosują niezgodnie z linią klubu. Skrajne wartości dodatkowo mają zaznaczone nazwisko posła. Poziome linie pokazują jaka jest średnia dyscyplina w klubie. Linia partii w tym przypadku oznacza głos oddany przez większość partii.

Oba powyższe wykresy wykonał zespół Ewa Baranowska, Marta Jóźwik, Magdalena Mazurek. Te akurat najbardziej przypadły mi do gustu z uwagi na estetykę i ilość przedstawionej treści. Pomimo, że póki co głównie omawiamy ggplot2, projekty różnych zespołów eksplorują różne pomysły i techniki. I jak widać efekty są świetne.

Dostęp do danych sejmowych jest prosty dzięki pakietowi sejmRP, który rok temu opracował Piotr Smuda. Jest to API do treści publikowanych na stronach Sejmu (pełne dane dla 7 i 8 kadencji). Pakiet ma kompletną dokumentację i przykłady.

Nic tylko wczytywać i wizualizować.

ps: Dziękuję Annie Ścisłowskiej i Annie Konczewskiej z MamPrawoWiedziec.pl za pomoc merytoryczną.

Obejrzyj dane zanim je pokażesz

Dzisiaj Polityka opublikowała artykuł Rząd zapowiadał, że ograniczy biurokrację. Zamiast tego cudownie się rozmnożył. W artykule są przykłady rosnącej biurokracji, tutaj mierzonej liczbą ministrów i wiceministrów.

Generalnie lubię w Polityce to, że często (w porównaniu z innymi portalami) opierają się na liczbach. Choć niestety rzadko pokazują te liczby za pomocą wykresu, zazwyczaj są to tabele lub takie zestawienie jak po prawej stronie.

Ale, myślę sobie, są dane wiec je pokażę. Przepisałem nazwy krajów i liczby ministrów, z wikipedii pobrałem informacje o wielkości ludności poszczególnych krajów.
Wyniki poniżej.
Widząc taki wykres dwie rzeczy rzucają się w oczy, (1) po Brexicie średnia liczba ministrów na kraj zmaleje, (2) co jest w sumie zaskakujące, liczba ministrów praktycznie nie zależy od ludności kraju (poniżej oś OX jest w skali sqrt a wciąż nie widać zależności).

Screen Shot 2016-06-27 at 22.07.17

Pointa: Z biurokracją trzeba walczyć. Ale akurat dane o liczbie ministrów nie pokazują polskiej biurokracji w najgorszym świetle.

Wykres i dane można pobrać instrukcją

Kwity z Panamy, neo4j oraz cypher – czyli Data Science w akcji


Panama Papers to największy wyciek danych w historii. Ponad 11 milionów dokumentów składa się na 2.6TB. Jak ogarnąć taką ilość danych? Przecież żaden człowiek tego nie przejrzy dokument po dokumencie. Śledztwo prowadzone przez Międzynarodowego Konsorcjum Dziennikarzy Śledczych (ICIJ – The International Consortium of Investigative Journalists) bazowało na algorytmach analizy dużych zbiorów danych.

Na stronie https://panamapapers.icij.org/graphs/ jest kilka wizualizacji kluczowych zestawień z zebranych dokumentów. W jaki sposób analizowano dane o rozmaitych zależnościach pomiędzy rozmaitymi podmiotami na taką skalę?

Do analizy wykorzystano między innymi bazę danych neo4j dedykowaną analizie danych grafowych. Jak pracuje się z takimi bazami danych? Np. korzystając z języka cypher – deklaratywny jezyk inspirowany SQLem, ale zaprojektowany do pracy na grafach.

Na stronie http://neo4j.com/blog/analyzing-panama-papers-neo4j/ znajduje się ciekawa prezentacja jak budowano w tym języku zapytania do analizy danych z Kwitów z Panamy. Świetna lektura i wiele interesujących linków.

Gadki posłów, kto jest aktywny na mównicy, a kto poza nią

TL;DR: Na mównicy najbardziej aktywni są posłowie Nowoczesnej i PSL. Poza mównicą wiele wtrąceń przypada na posłów PiS i PO. Poniższa aplikacja pozwoli Wam zobaczyć jak wyglądają te wtrącenia, ciekawa lektura.

Wspólnie z MamPrawoWiedziec.pl przyglądaliśmy się stenogramom z pierwszych 100 dni działania Sejmu VIII kadencji. Świetnie nadaje się do tego pakiet SejmRP. Sejmowe stenogramy obejmują zarówno wypowiedzi z mównicy, jak i różne wtrącenia z sali.

Jak myślicie, którzy posłowie są najbardziej aktywni na mównicy a którzy poza nią?

Zacznijmy od wykresu dla posłów. Poniżej na osi pionowej zaznaczono liczbę wypowiedzi z mównicy, na osi poziomej liczbę wtrąceń w wypowiedzi innych posłów a kolorem zaznaczono klub.


archivist::aread('mi2-warsaw/sejmRP/UseCase/arepo/d56dddf5c697e89d9d31726055b5d0fe')

Czytaj dalej Gadki posłów, kto jest aktywny na mównicy, a kto poza nią

Godziny głosowań w sejmie VII i VIII kadencji

Późno chodzę spać i często przed snem sprawdzam wiadomości (złe nawyki, może w 2016 się ich pozbędę). Pomimo tych późnych godzin, czasem rano z zaskoczeniem odkrywam, że w międzyczasie w Sejmie uchwalono nową ustawę (o wieku rozpoczęcia szkoły jeszcze napiszę w osobnym poście).

Czy zmieniły się godziny pracy Sejmu? Do której godziny w Sejmie teraz się głosuje? Przyjrzyjmy się danym. Głosowania to nie jedyne zajęcie posłów, ale w sumie dosyć ważne.

Pakiet SejmRP wkrótce będzie udostępniał dane z prac 8. kadencji, póki co można je pobrać ręcznie ze stron 7. kadencji i 8. kadencji. Pobieramy głosowania z pierwszych siedmiu posiedzeń sejmu dla obu kadencji (w obu przypadkach to 16 dni i około 325 głosowań). W poprzedniej kadencji akurat siódme posiedzenie miało ponad 200 głosowań, większość związana z ustawą budżetową, ale nie zaburza to znacząco wyników.

Czytaj dalej Godziny głosowań w sejmie VII i VIII kadencji

Global Innovation Index 2015


W ostatnim numerze Polityki znalazłem odniesienie do rankingu The Global Innovation Index 2015 z jakimś takim smutnym tytułem ,,Polska na szarym końcu Rankingu Innowacyjności 2015”. Czy to jesienna chandra, czy też jest coś na rzeczy? Zobaczmy.

Problem z rankingami mam taki, że często agregują wiele składowych w jeden indeks, który bardzo trudno zinterpretować. Wspomniany indeks innowacyjności to podsumowanie trzypoziomowej hierarchii składowych. Takich jak np. 7.3.4 Liczba wgrań filmów na YouTube lub 4.1.1 Łatwość w otrzymywaniu kredytów lub 1.3.3 Łatwość płacenia podatków. A więc parametry z zupełnie innych światów.

Drugi problem to częsty brak konstruktywnych wniosków w komentarzach. Jeżeli jesteśmy wysoko, komentujący szukają jakich kosmicznych uzasadnień, jeżeli jesteśmy nisko, to użalamy się. Bez sensu. A przecież, jeżeli taki ranking agreguje wiele obszarów, możemy wykorzystać go, aby sprawdzić co jest naszą silną składową, a co jest słabą składową.

Aby ułatwić analizę naszych silnych i słabych stron, na tle innych krajów, przygotowałem poniższą aplikację, pokazującą pozycję w rankingu w 7 głównych podobszarach (w ww. artykule Polityki znajdują się charakterystyki tych podobszarów).

Założę się, że nie zgadniecie co, zgodnie z tym rankingiem, jest najsilniejszą stroną Polski.

Czytaj dalej Global Innovation Index 2015

Czy Internet pozwala przewidzieć wyniki wyborów?


Dziś mamy gościnny wpis poświęcony analizie danych wyborczych a na wtorek mamy zaplanowany gościnny wpis poświęcony analizie danych finansowych.

Dzisiejszy wpis przygotował dr Albert Hupa z IRCenter i są do niego dołączone dane z sondaży wyborczych, z Google Trends, z wypowiedzi na mediach społecznościowych, oraz badania CAWI wśród internautów. Dane z różnych źródeł, można trochę się nimi pobawić by zobaczyć czy i jakie są zależności pomiędzy sondażami, dyskusjami w internecie a końcowym wynikiem wyborów.

dr Albert Hupa, prezes IRCenter

Czy Internet pozwala przewidzieć wyniki wyborów?
Nie. To będzie możliwe dopiero wtedy, kiedy wszyscy dorośli Polacy zaczną korzystać z internetu i będą tam interesować się polityką. Jednak Internet pozwala zrozumieć trendy w zainteresowaniach młodszych i/lub bardziej zaangażowanych wyborców. Na dłuższą metę nie chodzi o to, żeby po prostu przewidywać wyniki i mniej płacić za sondaże, tylko o to, żeby móc wpływać na rzeczywistość. IRCenter publikuje dane dla ostatnich Wyborów Parlamentarnych i kilka wniosków z ich analizy.

Czytaj dalej Czy Internet pozwala przewidzieć wyniki wyborów?