Piotr Smuda i Tomasz Mikołajczyk, w ramach projektu grupy MI2, przygotowali pakiet SejmRP pozwalający na pobieranie danych o głosowaniach oraz wypowiedziach posłów VII kadencji Sejmu. Pakiet niedługo trafi na CRAN, ale póki co można instalować go z githuba. Dane są przechowywane w bazie danych, można więc odczytywać je również w innych językach, np. pythonie.
Mając tak ciekawe dane, aż chciałoby się im bliżej przyjrzeć. Zróbmy to wspólnie i wymieńmy doświadczeniami / obserwacjami / wnioskami. Na 26 września (sobota) planujemy małe spotkanie pod hasłem ,,Jak oni głosowali?” na wydziale MiNI PW poświęcone analizom i wizualizacji tych danych.
Mając doświadczenia z poprzedniego maratonu, ten chcemy zorganizować trochę inaczej.
– Po pierwsze dane są już dostępne i każdy może się im przyjrzeć wcześniej (i będzie mógł później).
– Prace ukierunkujemy tak, by w ich wyniku powstało coś. Miesiąc później mamy wybory, warto zobaczyć jak wyglądała obecna kadencja z perspektywy twardych danych. To coś to może być interaktywna aplikacja pozwalająca na podejrzenie profilu głosowań posła, raport opisujący podobieństwa i różnice w głosowaniach partii lub wizualizacja podsumowująca całą kadencję (więcej o pomysłach poniżej).
– Celujemy raczej w mniejszą grupę (max 25 osób), najlepiej byłoby zmieścić się do jednej sali, tak by nawet po podzieleniu na zespoły mieć ze sobą i ze swoimi pomysłami kontakt. Zgłaszanie chęci obecności najlepiej deklarować przez stronę meetup, na kilka dni przed spotkaniem potwierdzimy ile osób przyjdzie by być na nie przygotowanym.
– Aby ułatwić komunikację spotkamy się w sali w której nie ma komputerów ani przegródek, tak więc do zainteresowanych prośba by przynieśli własny sprzęt lub dołączyli się do osób, które własny sprzęt mają.
– Spotkamy się na krócej, wstępnie planujemy godziny 10-16. Jeżeli coś będzie niedokończone to dokończymy w kolejnym terminie.
Pomysły na projekty najlepiej umieszczać jako komentarze na stronie github, meetup lub na blogu.
Oczywiście każdy może przyjść ze swoimi pomysłami i na nich się skupić, realizować je samodzielnie lub z innymi. Organizatorzy zatroszczą się o przygotowanie trzech dodatkowych pomysłów o różnym poziomie trudności.
W sieci jest sporo użytecznych materiałów dotyczących głosowań, warto je podlinkowywać w komentarzach. Przykładowo na tej stronie http://mamprawowiedziec.pl/strona/glosowania/kategorie/7 ustawy są podzielone na kilka kategorii, co ułatwi ich analizę. Można wrzucać inne ciekawe źródła inspiracji.
Tydzień później w Krakowie zorganizowany zostanie hackday podczas którego analizowane będą te same dane. Osoby zainteresowane mogą pisać na adres kontakt@erkakrakow.pl oraz śledzić aktualności na profilu facebookowym eRka.
W temacie: https://marcinciura.wordpress.com/2015/07/01/the-vector-space-of-the-polish-parliament-in-pictures/
I z jeszcze wcześniejszej kadencji: https://biokompost.wordpress.com/2011/10/01/statystyczna-mapa-sejmu/
I też kilka przykładów z tego blogu:
http://smarterpoland.pl/index.php/2013/02/kto-w-sejmie-mowi-jezykiem-prostym-a-kto-skomplikowanym/
http://smarterpoland.pl/index.php/2011/12/o-czym-sie-mowi-w-sejmie-i-senacie/
Podczas analiz dobrze by było wyjść poza skalowanie wielowymiarowe wszystkich głosów w jednym worku. Uwzględnić strukturę tego kto i nad czym głosuje.
Czy nie powinniśmy jako obywatele wystąpić z petycją o udostępnienie danych w formacie csv/tabela/excel etc: Data,druk sejmowy,poseł,typ opinii,opinia,
gdzie typ opinii to W-wynik głosowania albo K-komentarz z mównicy ? Najlepiej w ujęciu miesięcznym i kwartalnym.
W końcu to są jawne dane.
Wtedy dosłownie każdy mógłby z nich skorzystać bez pośredników. To by wtedy miało szanse trafić do prasy.
Już teraz jak się czyta same druki sejmowe to człowieka zatka z wrażenia na pomysł Narodowego Dnia Osób po Amputacji, czy jakoś tak.
Przed wyborami pewnie łatwiej byłoby o jakieś podpisy i obietnice wyborcze.
Te dane są teoretycznie dostępne, np. na http://www.sejm.gov.pl/Sejm7.nsf/agent.xsp?symbol=listaglos&IdDnia=1468. Tyle że w innym formacie, który trzeba przekształcić do analiz.
Jednym z celów tego hackatonu jest pokazanie, że z tego typu danych można coś użytecznego wyciągnąć.
Jak już pokaże się użyteczność łatwiej będzie domagać się przygotowywania danych w określonym formacie.
To, że są dostępne w pdf nie znaczy, że są łatwo dostępne do analiz. Chodzi też o czasochłonność. Jakbym chciała sprawdzić jak głosowali w ciągu kwartału posłowie z mojego okręgu – w celu weryfikacji czy zgodnie z obietnicami wyborczymi oraz co powiedzieli na obradach komisji, w których uczestniczyli to zajęłoby to mnóstwo czasu. Jako obywatele mamy prawo domagać się danych w formatach dla nas użytecznych.
Przez pełną użyteczność rozumiem takie dane, że osoba bez żadnego przygotowania informatycznego może z nich wprost korzystać poświęcając na to racjonalnie dużo czasu (zwykły excel od wersji 2007 zaczytuje dane ze strony www- z tabel, z rss).
Fajnie, że umiemy skakać przez podkładane kłody, ale może by je zamiast tego zlikwidować? Tym bardziej, że one mogą, o zgrozo, być podkładane nieumyślnie (No po prostu kto mógł przewidzieć, że ktoś to czyta).
Nie rozumiem dlaczego zbiorcze wyniki głosowań mam brać z innej strony niż sejmowa, skoro ktoś tę stronę utrzymuje za nasze pieniądze. Co innego bardziej wyrafinowane analizy, do których oczywiście też chętnie zajrzę, a których sejm nie zrobi.
@Kalina, w pełni zgadzam się, że dane dotyczące funkcjonowania publicznych organów powinny być dostępne poprzez proste w użyciu API.
I że format tego API powinien być związany z oczekiwaniami osób, które z takich danych chciałyby skorzystać (aby uniknąć sytuacji, gdy coś jest publiczne w teorii ale w gruncie rzeczy dostęp jest czasochłonny).
Odpowiedź Biura Korespondencji i Informacji Kancelarii Sejmu na list z dnia 2015-06-26
Warszawa, 7 sierpnia 2015 r.
[…]
Szanowny Panie,
w związku z Pana pismem z dnia 26 czerwca 2015 roku, uprzejmie informujemy, że istniałaby możliwość wysłania Panu pewnych danych dotyczących głosowań. Zwracamy się przy tym z prośbą o podanie tradycyjnego adresu do korespondencji, z uwagi na brak technicznej możliwości wysłania pliku mailem ze względu na jego objętość.
[…]
Odpisałem, że już nie potrzebuję, a chodziło mi bardziej o udostępnienie danych o głosowaniach w czytelnym
dla komputerów formacie ogółowi obywateli.
Niestety, w warszawskim hackatonie nie będę w stanie uczestniczyć, ale mam pewną propozycję:
Są posłowie którzy (moim zdaniem) nie biorą udziału w głosowaniach z powodów strategicznych – prawdopodobnie dlatego, że nie chcą ujawnić swoich preferencji, a wstrzymanie się od głosu jednak coś mówi.
Na przykład w czasie ostatniego głosowania nad projektem obywatelskim dotyczącym aborcji było nieobecnych 32 posłów PO. W poprzednim głosowaniu tego dnia (20 minut wcześniej) nieobecnych było 15 posłów PO, W następnym (3 minuty później) – 19.
Ciekawe byłoby czy da się sprawdzić/dowieść czy poseł jest nieobecny na głosowaniu z powodów losowych, czy jednak unika głosowania.
Czy możesz dodać to pytanie jako issue na githubie?
[https://github.com/mi2-warsaw/sejmRP/issues]
Łatwiej będzie śledzić wątki, na których możemy pracować podczas hackatonu