Ustawa 2.0


Ministerstwo Nauki i Szkolnictwa Wyższego wyłoniło trzy zespoły, które pracowały nad założeniami do nowej ustawy o szkolnictwie wyższym, tzw. Ustawie 2.0. Wyniki prac tych zespołów można znaleźć tutaj http://www.nauka.gov.pl/ustawa20/.

Nie jest to prosta lektura. Ale… Dzisiaj Obywatele Nauki opublikowali opinię na temat tych założeń. W tej opinii znajduje się porównanie propozycji prac każdego z trzech zespołów w zestawienie z propozycją ON i w podziale na istotne grupy tematyczne.
To już da się czytać a nawet warto przeczytać. pdf tutaj.

Jednym z wątków, który mnie szczególnie interesował jest temat popularyzacji nauki. Niestety w trzech zgłoszonych propozycjach ten wątek jeżeli się pojawia to skrótowo. Postulaty ON idą w kierunku znacznie poważniejszego potraktowania roli popularyzacji nauki (rozdział VIII). Innym ciekawym wątkiem jest model kariery naukowej, w tym dyskusja czy zostawić habilitacje, czy zostawić profesurę, jakie mogą być doktoraty itp (rozdział III).

Wielka Warszawa będzie miała 22 gminy!

Dzisiaj jest 1 kwietnia, więc sami rozumiecie. Pomimo to, wszystkie poniższe obliczenia są oparte o analizy rzeczywistych danych. Wyniki są w pełni repRodukowalne a skrypty R dostępne tutaj.

Wiele się w mediach pisze o projekcie ”Wielka Warszawa”, ale brakuje w tych dyskusjach konkretnych liczb. Jak wielka powinna być ta wielka Warszawa? Oczywiście największa na świecie (t.j. większa niż inne stolice), ale czy jeszcze większa? (nie większa niż Polska, ale o ile mniejsza?) Temu zagadnieniu poświęcony jest ten wpis.

Nie wiadomo po co powiększać stolicę, nie widać poparcia wśród mieszkańców, a wyniki referendum w Legionowie pokazują sprzeciw. Na potrzeby dalszego wpisu przyjmijmy, że chodzi o powiększenie Warszawy aby zoptymalizować obszar na którym poparcie w wyborach samorządowych dla partii PiS będzie największe (moglibyśmy to policzyć też dla dowolnej innej partii, ale obecnie tylko jedna partia ma zakusy by ten obszar zmieniać). Dodatkowo załóżmy, że środek obszaru jest w centrum Warszawy a sam obszar składa się gmin, których środki są w okręgu o promieniu X. Nasz problem redukuje się do zagadnienia: jak znaleźć X.

Ze tej strony pobieram wyniki wyborów samorządowych z roku 2014. Z tego pliku interesuje mnie dla każdej gminy liczba oddanych ważnych głosów oraz liczba głosów oddanych na partię PiS.
Z tej strony pobieram mapę z kształtami i współrzędnymi gmin.
Trochę R-magii i mamy taki wykres.

wtre

Na powyższym wykresie zaznaczyliśmy ile osób głosowało na PiS vs. na inny komitet w zależności od tego jak duży obszar wokół Warszawy rozważamy.

Jeszcze mało widać, unormujmy więc te dwie wartości i zobaczymy jak zmienia się procent osób głosujących na PiS w wyborach samorządowych 2014 w zależności od odległości od centrum Warszawy.

wpromien2

Ciekawe. Ta dziwaczna funkcja ma maksimum i to w całkiem niedużym promieniu. W Warszawie poparcie dla KW PiS jest mniejsze niż w okolicznych gminach. Ale gdy promień znacząco się zwiększy to okazuje się, że to poparcie znów maleje. Różnice nie są duże, rozpiętość tego wykresu to 2 punkty procentowe, ale zawsze coś. Mamy więc optymalny promień, zawierający 21 gmin wokół Warszawy.

Poniżej mapka z zaznaczonymi gminami w ,,optymalnym” okręgu. Procentem zaznaczono procent głosów na KW PiS wśród wszystkich ważnych głosów.

Czy więc tak będzie wyglądała Wielka Warszawa?

wwarszawa2

PS: Procent mandatów zdobytych przez komitety wyborcze jest dla dużych komitetów większy niż procent poparcie liczony na głosach.
PS2: Trzy najbliższe gminy, które się nie załapały to: Wiązowna, Jabłonna i Piaseczno.

Sprawozdania krajowe Komisji Europejskiej

Marcin Grynberg zwrócił moją uwagę na niedawno opublikowane sprawozdania krajowe Komisji Europejskiej poświęcone (między innymi) sytuacji ekonomicznej krajów członkowskich. Sprawozdanie poświęcone Polsce jest dostępne tutaj.
Nieduże (niecałe 50 stron plus załączniki) ale konkretne i ciekawe.
Przykładowo, można w nim znaleźć informacje dotyczące konsekwencji reformy emerytalnej i jej wpływu na wysokość emerytury (polecam wykres 3.3.2) czy prognozy co do wysokości długu publicznego (polecam wykres 3.1.2).
Poniżej odniosę się do trzech innych wątków poruszanych w tym sprawozdaniu. Tematów związanych z nauką, badaniami i edukacją.


Po prawej wykres prezentujący wydatki publiczne na R&D (czy z polska BiR) zestawione z ilością wysoko cytowanych publikacji. Pozycja Polski w tym zestawieniu jest zaznaczona czerwoną kropką.
Komentarz nie jest chyba potrzebny, ograniczę się jedynie do cytatu ze sprawozdania: ‘Niewielki stopień komercjalizacji wyników badań naukowych oraz słabe powiązania między sektorem nauki i sektorem biznesu ograniczają zdolność innowacyjną gospodarki.’





Kolejny wykres, który zwrócił moją uwagę dotyczy liczby uczniów rozpoczynających naukę w 1 klasie szkoły średniej (wykres po lewej).
W 2019 roku ma to być ponad 350 tys. uczniów a w 2024 roku poniżej 100 tys uczniów.
Ponad 4x mniej.
Później te fale uderzą o wrota uczelni wyższych.
Konsekwencja szybkich reform poprzedniego rządu (między innymi dwa lata na przejście z wiekiem rozpoczęcia szkoły podstawowej na 6 lat) i galopujących reform obecnego (1 rok na przejście ze startem podstawówki na 7 lat).
Cytat z raportu: Reforma systemu szkolnictwa od września 2017 r. budzi szereg obaw wśród zainteresowanych podmiotów.


Niektóre wskaźniki wglądają dobrze. Bezrobocie nadal spada, płace średnie (powoli) rosną.
Cytat: Przewiduje się, że spodziewane niekorzystne zmiany na rynku pracy spowodują szybszy wzrost płac i potencjalnie niedobór pracowników.
Cytat: Po kilku latach silnego wzrostu dochodów nierówności zmniejszyły się i ich poziom jest obecnie niższy od średniej unijnej.




Uważam, że jednym z największych wyzwań jest demografia. Więc i to zestawienie wykresów kończę rysunkiem związanym z prognozami demograficznymi. Zgodnie z prognozą zakładającą zerową migrację w ciągu 35 lat liczba osób w wieku produkcyjnym zmniejszy się o 19%. A czy produktywność i innowacyjność przyszłych pracowników zwiększy się wystarczająco by zrekompensować mniejsza liczbę rąk do pracy?



Całe sprawozdanie można pobrać i w języku angielskim i polskim.

Techniki wizualizacji danych a rok pracy Sejmu


Jakiś czas temu pisałem o zależności pomiędzy wartością wizualizacji danych a zawartej w nich historii. No dobrze, więc skąd brać ciekawe historie do wizualizacji?

Tych jest pełno dookoła. Przykładowo pomysł na pierwszy projekt z przedmiotu Techniki Wizualizacji Danych podrzucił nam zespół analityków z MamPrawoWiedziec.pl. Mija właśnie pierwszy rok pracy Sejmu. Zobaczmy o czym i jak mówiono, jak głosowano itp.

Pierwszy wykres pokazuje jak często posłowie klubu A wtrącają się w wypowiedzi posłów klubu B. Czasem by krytykować, czasem by wyrazić poparcie.

Poniższy wykres jest interaktywny. Aby uruchomić jego interaktywną wersję trzeba otworzyć tę stronę. Ale ostrzegam, ta interaktywność wciąga.

screen-shot-2016-11-16-at-10-29-20

Drugi wykres jest mniej interaktywny, ale wyładowany treścią po brzegi. Dla pięciu największych klubów pokazuje jak często posłowie wypowiadają się oraz jak często głosują niezgodnie z linią klubu. Skrajne wartości dodatkowo mają zaznaczone nazwisko posła. Poziome linie pokazują jaka jest średnia dyscyplina w klubie. Linia partii w tym przypadku oznacza głos oddany przez większość partii.

Oba powyższe wykresy wykonał zespół Ewa Baranowska, Marta Jóźwik, Magdalena Mazurek. Te akurat najbardziej przypadły mi do gustu z uwagi na estetykę i ilość przedstawionej treści. Pomimo, że póki co głównie omawiamy ggplot2, projekty różnych zespołów eksplorują różne pomysły i techniki. I jak widać efekty są świetne.

Dostęp do danych sejmowych jest prosty dzięki pakietowi sejmRP, który rok temu opracował Piotr Smuda. Jest to API do treści publikowanych na stronach Sejmu (pełne dane dla 7 i 8 kadencji). Pakiet ma kompletną dokumentację i przykłady.

Nic tylko wczytywać i wizualizować.

ps: Dziękuję Annie Ścisłowskiej i Annie Konczewskiej z MamPrawoWiedziec.pl za pomoc merytoryczną.

Obejrzyj dane zanim je pokażesz

Dzisiaj Polityka opublikowała artykuł Rząd zapowiadał, że ograniczy biurokrację. Zamiast tego cudownie się rozmnożył. W artykule są przykłady rosnącej biurokracji, tutaj mierzonej liczbą ministrów i wiceministrów.

Generalnie lubię w Polityce to, że często (w porównaniu z innymi portalami) opierają się na liczbach. Choć niestety rzadko pokazują te liczby za pomocą wykresu, zazwyczaj są to tabele lub takie zestawienie jak po prawej stronie.

Ale, myślę sobie, są dane wiec je pokażę. Przepisałem nazwy krajów i liczby ministrów, z wikipedii pobrałem informacje o wielkości ludności poszczególnych krajów.
Wyniki poniżej.
Widząc taki wykres dwie rzeczy rzucają się w oczy, (1) po Brexicie średnia liczba ministrów na kraj zmaleje, (2) co jest w sumie zaskakujące, liczba ministrów praktycznie nie zależy od ludności kraju (poniżej oś OX jest w skali sqrt a wciąż nie widać zależności).

Screen Shot 2016-06-27 at 22.07.17

Pointa: Z biurokracją trzeba walczyć. Ale akurat dane o liczbie ministrów nie pokazują polskiej biurokracji w najgorszym świetle.

Wykres i dane można pobrać instrukcją

Kwity z Panamy, neo4j oraz cypher – czyli Data Science w akcji


Panama Papers to największy wyciek danych w historii. Ponad 11 milionów dokumentów składa się na 2.6TB. Jak ogarnąć taką ilość danych? Przecież żaden człowiek tego nie przejrzy dokument po dokumencie. Śledztwo prowadzone przez Międzynarodowego Konsorcjum Dziennikarzy Śledczych (ICIJ – The International Consortium of Investigative Journalists) bazowało na algorytmach analizy dużych zbiorów danych.

Na stronie https://panamapapers.icij.org/graphs/ jest kilka wizualizacji kluczowych zestawień z zebranych dokumentów. W jaki sposób analizowano dane o rozmaitych zależnościach pomiędzy rozmaitymi podmiotami na taką skalę?

Do analizy wykorzystano między innymi bazę danych neo4j dedykowaną analizie danych grafowych. Jak pracuje się z takimi bazami danych? Np. korzystając z języka cypher – deklaratywny jezyk inspirowany SQLem, ale zaprojektowany do pracy na grafach.

Na stronie http://neo4j.com/blog/analyzing-panama-papers-neo4j/ znajduje się ciekawa prezentacja jak budowano w tym języku zapytania do analizy danych z Kwitów z Panamy. Świetna lektura i wiele interesujących linków.

Gadki posłów, kto jest aktywny na mównicy, a kto poza nią

TL;DR: Na mównicy najbardziej aktywni są posłowie Nowoczesnej i PSL. Poza mównicą wiele wtrąceń przypada na posłów PiS i PO. Poniższa aplikacja pozwoli Wam zobaczyć jak wyglądają te wtrącenia, ciekawa lektura.

Wspólnie z MamPrawoWiedziec.pl przyglądaliśmy się stenogramom z pierwszych 100 dni działania Sejmu VIII kadencji. Świetnie nadaje się do tego pakiet SejmRP. Sejmowe stenogramy obejmują zarówno wypowiedzi z mównicy, jak i różne wtrącenia z sali.

Jak myślicie, którzy posłowie są najbardziej aktywni na mównicy a którzy poza nią?

Zacznijmy od wykresu dla posłów. Poniżej na osi pionowej zaznaczono liczbę wypowiedzi z mównicy, na osi poziomej liczbę wtrąceń w wypowiedzi innych posłów a kolorem zaznaczono klub.


archivist::aread('mi2-warsaw/sejmRP/UseCase/arepo/d56dddf5c697e89d9d31726055b5d0fe')

Czytaj dalej Gadki posłów, kto jest aktywny na mównicy, a kto poza nią

Godziny głosowań w sejmie VII i VIII kadencji

Późno chodzę spać i często przed snem sprawdzam wiadomości (złe nawyki, może w 2016 się ich pozbędę). Pomimo tych późnych godzin, czasem rano z zaskoczeniem odkrywam, że w międzyczasie w Sejmie uchwalono nową ustawę (o wieku rozpoczęcia szkoły jeszcze napiszę w osobnym poście).

Czy zmieniły się godziny pracy Sejmu? Do której godziny w Sejmie teraz się głosuje? Przyjrzyjmy się danym. Głosowania to nie jedyne zajęcie posłów, ale w sumie dosyć ważne.

Pakiet SejmRP wkrótce będzie udostępniał dane z prac 8. kadencji, póki co można je pobrać ręcznie ze stron 7. kadencji i 8. kadencji. Pobieramy głosowania z pierwszych siedmiu posiedzeń sejmu dla obu kadencji (w obu przypadkach to 16 dni i około 325 głosowań). W poprzedniej kadencji akurat siódme posiedzenie miało ponad 200 głosowań, większość związana z ustawą budżetową, ale nie zaburza to znacząco wyników.

Czytaj dalej Godziny głosowań w sejmie VII i VIII kadencji