Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Kilka dni temu portal money.pl przytoczył wypowiedź premiera, której część podaję poniżej:

Premier nie ma wątpliwości, że reklama OFE powinna być zakazana w czasie, kiedy obywatele będą podejmowali decyzje o tym, czy pozostać w OFE, czy nie. >> Chcemy, żeby obywatel podejmował decyzje na podstawie informacji, a nie propagandy. Ale trwa jeszcze dyskusja. Niedawno też o tym długo dyskutowaliśmy, na ile pozwolić funduszom w przyszłości na rzetelną reklamę <<

Dostęp do rzetelnej informacji to hasło przewodnie także naszej działalności. Przyjrzyjmy się jak wyglądają materiały rządowe dotyczące OFE:

Pod koniec czerwca Ministerstwo Pracy i Polityki Społecznej przygotowało pokaźną paczkę wykresów na temat zmian w OFE. Poniżej przedstawione wykresy zostały opublikowane przez Ministerstwo na tej stronie, a następnie przedstawiane w różnych mediach, między innymi w serwisie Gazety Wyborczej.

Przykład pierwszy: poziome wykresy paskowe

Patrząc na wykres paskowy mamy tendencje do porównywania długości pasków/pudełek. Dlatego aby umożliwić poprawne porównania przedstawianych wartości, odpowiadające im pudełka powinny zaczynać się od zera.

Tymczasem, patrząc na długości pasków dla OFE i ZUS II na poniższym wykresie, stosunek długości odczytamy jako 100:168. Przedstawiane dane wskazują na stosunek 100:129. Lie-factor tego wykresu to około 1.3 („Lie Factor”to współczynnik zdefiniowany przez Edwarda Tuftego, mierzący jak bardzo wykres przekłamuje relacje obecne w danych).

Czytaj dalej Zmiany w OFE a wykresy Ministerstwa Pracy i Polityki Społecznej

Co z tymi sześciolatkami, czyli kto wie lepiej co jest dobre dla dzieci

Dziś w sejmie głosowanie nt. referendum. Z tej okazji w różnych mediach, różne osoby przekonują co jest lepsze dla rodziców, dzieci i gospodarki.

Przytaczane są przy okazji różne argumenty, z których argumentem za obniżeniem roku wejścia w system edukacyjny jest (oficjalnie) to, że w innych krajach dzieci zaczynają naukę wcześniej, (nieoficjalnie) problem z rynkiem pracy, który albo wcześniej zostanie zasilony nowymi pokoleniami albo szybciej wpadnie w problemy. Argumentem przeciw jest (domniemane) nieprzygotowanie niektórych placówek na przyjęcie sześciolatków i (domniemane) niedostosowanie programu do możliwości sześciolatków. Piszę domniemane, ponieważ nie wiadomo, rząd zlecił badanie stopnia przygotowania, ale nie chciał udostępnić danych (od trzech miesięcy staramy się te dane uzyskać i nic).

Opcja, by to rodzice decydowali kiedy ich dziecko powinno rozpocząć szkołę nie wchodzi w grę na dłuższą metę. Z jakiegoś powodu, w demokratycznym społeczeństwie panuje przekonanie, że większość i tak wybrałaby źle. Ciekawy paradoks naszej demokracji.

Mnie w tych wszystkich przepychankach brakuje argumentacji opartej o dane z podaniem źródeł tych danych. A danych, które mogą być pomocne jest wiele. Przyjrzyjmy się liczbom z najnowszego raportu ,,Education at a Glance 2013”. Tabla C1.1 pokazuje w jakim wieku 90% dzieci znajduje się w systemie edukacyjnym. Graficzna prezentacja tej tabeli jest następująca:

Jak widzimy, w większości krajów edukacja 90% dzieci rozpoczyna się wcześniej niż w Polsce. Ale czy to argument za tym, że to dobry ruch?

Nie tak dawno w tym wpisie oglądaliśmy wyniki badań umiejętności dorosłych PIAAC, z których wynika, że najgorzej w badaniu kompetencji dorosłych wypadają mieszkańcy Włoch i Hiszpanii, czyli krajów gdzie w system edukacyjny wchodzi się najwcześniej. Korea, Finlandia to przykłady krajów, gdzie w system edukacyjny wchodzi się późno, ale mimo to dorośli w badaniach kompetencji wypadają bardzo dobrze.

To oczywiście tylko cztery wybrane przykłady, bez zagłębiania się w specyfikę sytuacji gospodarczej i polityki edukacyjnej tych krajów. Nie jestem tutaj adwokatem stwierdzenia, że im wcześniej wychodzi się z systemu edukacji tym gorzej. Pokazuję jedynie, że sam fakt, że wiele krajów robi coś inaczej, to wcale nie znaczy, że robi to lepiej.

A mając dane z wielu krajów, zbierane pieczołowicie przez takie organizacje jak OECD, można by z tych danych zrobić użytek.

Umiejętności Polaków – wyniki Międzynarodowego Badania Kompetencji Osób Dorosłych (PIAAC)

Umiejętności stały się globalną walutą XXI wieku
Angel Gurria, Sekretarz Generalny OECD,
Wstęp do Strategii Umiejętności OECD (OECD, 2012)

Tak rozpoczyna się raport opracowany przez Instytut Badań Edukacyjnych Umiejętności Polaków – wyniki Międzynarodowego Badania Kompetencji Osób Dorosłych (PIAAC) – Raport. Linki do międzynarodowego opracowania danych z programu PIAAC przedstawiłem we wtorkowym wpisie.

Co znajdziemy w raporcie IBE?
Wiele informacji. Cały raport z załącznikami to 160 stron. Poniżej pokażę dwie wybrane obserwacje, które dla mnie były najciekawsze.

Związek pomiędzy umiejętnościami w społeczeństwie a PKB czy wskaźnikiem zatrudnienia.

Okazuje się, że nie widać bezpośredniego związku pomiędzy PKB na mieszkańca a średnim poziomem umiejętności. Trochę to było dla mnie zaskakujące.


[Rozumienie tekstu po lewej, umiejętności numeryczne po prawej]

Za to kraje o wyższym wskaźniku zatrudnienia to często kraje o wyższym średnim wskaźniku umiejętności. Zależność ta jest w dużej części indukowana przez Hiszpanię i Włochy, które w obu rankingach są na samym końcu.

Ostrożnie jednak z formułowaniem przyczynowo skutkowych zależności, zarówno wyższe średnio umiejętności mogą generować miejsca pracy jak i sam fakt pracowania może wpływać na wyższe umiejętności.


[Rozumienie tekstu po lewej, umiejętności numeryczne po prawej]

Poziom umiejętności w różnych krajach.

Drugą, bardzo ciekawą sprawą był sposób przedstawiania umiejętności w krajach. Pierwszy wykres przedstawiał średnie za pomocą wykresów pudełkowych.

Sam wybór wykresu pudełkowego nie jest najlepszy, ponieważ sugeruje błędnie skalę ilorazową (niestety to dosyć częsty problem).
Ale pomijając to, ciekawe jest, że porównując średnie łatwo nam ,,uwierzyć”, że jeden kraj jest lepszy/gorszy niż drugi. Polska na tym wykresie wygląda na dwa razy gorszą niż Belgia (przez długości słupków, które tutaj nie mają rzeczywistego znaczenia).

Czy średnia nie zniekształca opisu? Średnia z dwóch osób o średnich umiejętnościach może być taka sama jak średnia z dwóch osób, jednej o wysokich drugiej o niskich umiejętnościach.

Ten problem rozwiązano przy kolejnych wykresach przedstawiając strukturę umiejętności w podziale na pięć poziomów umiejętności.

Odbiór tego wykresu jest już zupełnie inny niż wykresu ze średnimi. Rzeczywistość przestaje być jednowymiarowa i łatwiej jest taki opis zrozumieć.

Widząc tak przedstawioną strukturę, widać wręcz różne możliwe działania mogące poprawić ogólną sytuację.
Można inwestować w podnoszenie umiejętności osób o niskim poziomie umiejętności. Lub zwiększać udział osób o najwyższych umiejętnościach, licząc że to oni pociągną gospodarkę. Lub pracować ,,na całym froncie”. Co wybrać to już inna sprawa, ale przynajmniej na tym wykresie widzimy możliwości jakie są do wyboru.

Podoba mi się taki sposób prezentacji, więc na koniec zestawienie dla wszystkich krajów (wykres 42 z cytowanego raportu).

PIAAC, warto wiedzieć

Czy wiecie co się wydarzyło 8 października? Było o tym głośno w USA, UK, Kanadzie, Francji i w Niemczech. W polskich mediach temat się nie przebił. A szkoda, bo chodzi o badanie, które może mieć duży wpływ na rozwój naszego kraju.

Co więc się wydarzyło? 8 października organizacja OECD opublikowała pierwszą wersję wyników z badania PIAAC (Programme for the International Assessment of Adult Competencies). Badania w ramach którego w 24 krajach przeprowadzono u osób dorosłych (16-64 lata) ocenę umiejętności numerycznych (rozumowania matematycznego), zrozumienia tekstu i umiejętności rozwiązywania problemów z użyciem technologii. Ponad pięć tysięcy osób z każdego z tych krajów miało do rozwiązania zestaw bardzo praktycznych zadań, np. przeczytanie listy ofert pracy i odpowiedzenie na proste pytanie dot. tych ofert (czytanie ze zrozumieniem), opisu wyprzedaży typu ,,dwie w cenie jednej” i odpowiedzenie na pytanie ile zapłaci się za parę butów (umiejętności numeryczne), użycie strony internetowej firmy w celu zgłoszenia reklamacji (rozwiązywanie problemów). Zobacz przykładowe problemy tutaj.

Wstępne wyniki przedstawione są na tej stronie.

Jak Polacy wypadli w tej ocenie umiejętności?

Wszystko jest względne, zobaczmy więc jak średnio wypadliśmy względem średniej z krajów OECD. Aby było ciekawiej wyniki przedstawimy osobno dla różnych grup wiekowych.

Co ciekawe młodzi Polacy mają średnie wyniki na poziomie średniej OECD, starsi trochę tracą do średniej. Jest to związane z ciekawym zjawiskiem rosnących aspiracji jeżeli chodzi o młodsze (przynajmniej młodsze niż ja) pokolenie.

Ok, ale mało kto wie, które kraje są członkami OECD, więc może coś konkretniejszego? Jak Polska wypada w porównaniu z UK? Czy mieszkańcy wysp mają wyższe umiejętności a tym samym mogą wykonywać (średnio) bardziej wymagające prace?

Ci młodsi mieszkańcy wysp raczej nie. To ciekawe zjawisko, nie tylko dotyczące UK, ale też USA czy Francji, że grupa 16-24 wypada na tle ,,społeczności OECD” gorzej niż starsze grupy (grupy nazywane są też kohortami, ciekawe słowo prawda?).

Liderem rankingu w Europie są Finowie. Średnio radzili sobie oni znacznie lepiej w testach umiejętności niż inne narody.

Słabo radzą sobie Hiszpani i Włosi.

Badanie PIAAC nazywane jest PISA dla dorosłych (PISA to badanie umiejętności szkolnych 15-latków). Samo badanie, jego konstrukcja i prezentacja wyników nie jest może jeszcze doskonała, ale staje się jasne, że w krótkiej przyszłości będą publicznie dostępne i publicznie porównywane dane n.t. poziomu umiejętności pracowników z różnych krajów / regionów / grup. Wpłynie to na rynek pracy i gospodarkę. Temat kryzysu w Europie oraz zagrożone gospodarki krajów z grupy PIGS i nie tylko, powodują, że w ocenie umiejętności osób zdolnych do pracy szuka się pomysłu na rozwiązanie problemów.

Po co nam te wyniki (ich uzyskanie naprawdę dużo kosztuje)?
Jednym takie dane posłużą do pogłębiania kompleksów (znowu wypadliśmy gorzej niż…), innych dowartościuje (ci i ci są głupsi), jeszcze innym pomoże rozsądnie przeznaczyć środki na rzeczywiste podnoszenie umiejętności w społeczeństwie.

Przykładowo w raporcie z badania umieszczono poniższy wykres, pozwalający na ocenę jakiego rodzaju umiejętności ,,będą w cenie” w najbliższej przyszłości.

Czy wykorzystamy te badanie do lepszego rozwoju? Jest to moim zdaniem znacznie ciekawszy temat niż te, które były poruszane w polskich gazetach 8 października.

Instytut Badań Edukacyjnych przygotował polską wersję raportu bazującego na danych PIAAC. Można go zobaczyć pod tym adresem. Napiszę o nim więcej w czwartek.

Zbigniew Herbert, Raport ministerstwa a studium przedmiotu.

Dziś wypada 15 rocznica śmierci Zbigniewa Herberta. Z tej okazji Polskie Radio przygotowało specjalny serwis z informacjami o życiu artysty [link tutaj http://herbert.polskieradio.pl/]. Na tej stronie można naleźć wiele ciekawych materiałów, ale my dziś nie o tym.

Od dłuższego czasu chciałem przygotować na tę okazję coś związanego z Jego wierszami. Powstało kilka wizualizacji częstości występowania słów w wierszach, kontekstowych miar podobieństwa, drzewa współwystępowania. Ale wszystkie one jednak były wewnętrznie sprzeczne z pracami Herberta. Nawet jeżeli nawiązywały do literek, których On używał to nic o Nim nie mówiły. Statystyka jest często używana by pokazać trendy, nurty, najczęstsze wzorce, usunąć niepotrzebne szczegóły. A studium przedmiotu uprawiane przez Herberta polegało na czymś zupełnie przeciwnym. By skupić się na szczegółach tak bardzo, by odsłoniły one swoje piękno, uwolniły przyjemność płynącą z ich studiowania.

No dobrze. Może więc zamiast budować wykres, który pokaże 100 wierszy jednocześnie nie pokazując żadnego, spróbujemy poszukać szczegółów i detali w jakimś obiekcie codziennego użytku?

Raport „Szkolnictwo wyższe w Polsce”

Kilka dni temu Ministerstwo upubliczniło drugą [ostateczną?] wersję raportu „Szkolnictwo wyższe w Polsce”. Informację o niej znaleźć można między innymi tutaj. Napiszę kiedyś więcej o tym raporcie [Samo ministerstwo nazwało ten raport ,,Fotografia polskiego szkolnictwa wyższego 2013” co jest bardzo trafną nazwą, fotografię bowiem w przeciwieństwie do obrazu można robić automatycznie i bezrefleksyjnie, ale to temat na inny wpis]. Dziś chciałbym skupić się na jednym z wniosków z tego raportu. Podążyć go i zobaczyć czy uda nam się coś ciekawego odkryć. Czy znajdziemy przyjemność w wertowaniu stosów liczb? Czy spojrzymy na te same liczby w inny sposób, poszerzając naszą wiedzę o przedmiocie?

Przyjrzymy się atrakcyjności Polski dla zagranicznych studentów [wykres 22 ze wspomnianego raportu].

Moją uwagę przykuły dwa zdania: ,,Zwiększającą się atrakcyjność Polski dla zagranicznych studentów potwierdzają dane dotyczące programu Erasmus” i ,,w efekcie w roku akademickim 2011/12 liczba studentów przyjeżdżających na polskie uczelnie stanowiła już niemal 60% liczby studentów wyjeżdżających z Polski”. Pierwsze napisane w bardzo marketingowym stylu, traktujemy zwiększającą się atrakcyjność jako coś oczywistego i szukamy danych do poparcia tezy. To ma być raport czy broszurka marketingowa?

Na początku zastanowiło mnie, czy wzrost liczby zagranicznych studentów jest związany z rosnącą atrakcyjnością studiów w Polsce, czy też z ,,globalnie rosnącą” mobilnością. Przecież może być tak, że liczba studentów chcących wyjechać z innych krajów rośnie szybciej niż liczba studentów przyjeżdżających do naszego kraju, co znaczyłoby, że atrakcyjność maleje a nie rośnie. A może nasza atrakcyjność rośnie szybciej niż innych krajów? W każdym razie widzimy, że aby zrozumieć co oznacza atrakcyjność musimy spojrzeć na to co się dzieje u sąsiadów.

Inne (lepsze?) źródło danych

Zacząłem szukać innych źródeł danych, pozwalających na porównanie liczb studentów pomiędzy krajami. Dopiero wtedy zauważyłem, że wykres z raportu ministerstwa dotyczy liczby studentów Erazmusa, ale wnioski są prezentowane tak, jakby dotyczyły wszystkich studentów. Może studenci Erazmusa to zdecydowana większość obcokrajowców? A może to nie jest reprezentatywna próba? Zobaczymy.

Szperając po Internecie znalazłem informację o liczbie studentów zagranicznych w raporcie ,,Education at a Glance 2012” (przygotowanym nomen omen przez OECD) [tabela z danymi tutaj].

Przyjrzyjmy się tym liczbom bliżej. Z raportu OECD wynika, że do Polski w roku 2010 przyjechało 18 356 studentów z zagranicy, a w roku 2000 przyjechało ich 6 126. Przyjezdni studenci Erazmusa stanowią więc znacznie mniej niż połowę całkowitej liczby zagranicznych studentów. Co więcej zgodnie z raportem OECD liczba studentów z zagranicy zwiększyła się w okresie 2000-2010 trzykrotnie, podczas gdy patrząc na dane z Erazmusa wzrost wyglądał na ponad 10 krotny.

Ok, może i nie jesteśmy 10 razy bardziej atrakcyjni, ale przynajmniej 3 razy!

Drążmy dalej.
Zgodnie z raportem OECD całkowita liczba studentów wyjeżdżających z Polski w roku 2010 to 48 582. Czyli liczba studentów przyjeżdżających do wyjeżdżających jest daleka od stosunku 0.6 / 1 wynikającego z danych Erazmusa, a wymienionego w raporcie ministerstwa, a wynosi 0.38 / 1 zgodnie z danymi OECD. Swoją drogą, to że tak wielu studentów wyjeżdża z Polski to może i powód do zadowolenia. Jeżeli tylko wrócą ze zdobytym doświadczeniem.

Drążmy dalej. Zaczęliśmy od zastanawiania się, jak przyrost liczby zagranicznych studentów w Polsce (prawie 3 razy) ma się do zmian w liczbie zagranicznych studentów w innych krajach. Zgodnie z raportem OECD liczba studentów zagranicznych wzrosła we wszystkich krajach z 2.07 miliona do 4.12 miliona, czyli prawie dwa razy. W takim razie względna atrakcyjność Polski dla studentów z zagranicy wzrosła 1.5 razy a nie 3x [czy 10x jak początkowo myślałem].

Drążmy dalej.

Czy właściwie jest sens porównywać mobilność w Polsce z mobilnością w Korei (tam liczba zagranicznych studentów wzrosła z 3 do prawie 60 tysięcy) czy z Meksykiem (spadła z 2.5 tys do 1.9 tys)? Rozsądniej jest patrzeć na zmiany względem sąsiednich krajów. Jak sytuacja wygląda u naszych sąsiadów?

Czechy wzrost ponad 6x   (z 5.5 tys do 35 tys)
Estonia wzrost 3x        (z 0.9 tys do 2.6 tys)
Niemcy wzrost o 40%      (z 187 tys do 263 tys)
Slowacja wzrost ponad 5x (z 1.5 tys do 8.4 tys)

Atrakcyjność naszych uczelni dla zagranicznych studentów rośnie wolniej niż u południowych sąsiadów, rośnie szybciej niż u zachodniego sąsiada, ale tylko gdy patrzymy na zmianę procentową. Studentów zagranicznych jest tam znacznie więcej niż u nas.

W komentarzach do tego wpisu znajduje się dyskusja dotycząca specyfiki Czech i Słowacji. W tych krajach ponad połowa studentów zagranicznych pochodzi z kraju sąsiedniego.

Mając te dane można by wręcz uzasadniać twierdzenie, że nasza względna atrakcyjność jest coraz mniejsza!

Z raportu ministerstwa wynika, że ponad jedna trzecia studentów zagranicznych pochodzi z Ukrainy i Białorusi (to nie są kraje OECD, więc nie ma informacji o tym ilu studentów przyjeżdża do nich). Co dodatkowo sugeruje, że o naszej atrakcyjności należy myśleć lokalnie. Zresztą gdy spojrzymy gdzie wyjeżdżają studenci z Ukrainy to okaże się, że Polska jest u nich na trzecim miejscu pod względem popularności [po Rosji i Niemczech], w przypadku Białorusi Polska jest na drugim miejscu nieznacznie ustępując Rosji.

Temat ten można oczywiście dalej drążyć, pozostawiam tę przyjemność już czytelnikom.

Moim zdaniem jest coś urzekającego w takich historiach. Gdy pierwszy wykres coś pokazuje, ale im bardziej zagłębiamy się w daną historię, tym bardziej okazuje się, że rzeczywistość jest inna, ,,odwrotna”, bogatsza, ciekawsza.
Poznawszy tę rzeczywistość możemy teraz wrócić do punktu w którym za pomocą wykresu będziemy chcieli ją pokazać taką jaką ona jest.

Co Polska importuje a co eksportuje?

Kilka dni temu Alek J. podesłał mi ciekawy projekt wykonany przez MIT media lab (link do media labu, tak, MIT, jedna z najlepszych na świecie uczelni technicznych, ma media lab pracujący nad technikami wizualizacji danych. Co więcej to w MIT powstał pierwszy media lab).

Projekt nazywa się ,,The Observatory of Economic Complexity”, pozwala na przedstawienie wymiany produktów pomiędzy państwami, przedstawienie w bardzo prosty i interesujący sposób.

Ten portal pozwala na zobaczenie jak wygląda struktura importu, eksportu rozmaitych krajów w różnych latach.

Świetnie przygotowana praca magisterska [!!!] udostępniona na wolnej licencji.

Agregator RSSów z portali informacyjnych

Pierwszego kwietnia pisaliśmy o ,,szokujących danych o szoku”. Humorystyczny wpis zdradzał przy okazji powstanie narzędzia zbierającego RSSy z różnych polskich portali informacyjnych.
Narzędzie to jest dostępne publicznie, można z niego korzystać do woli. Jak? O tym napisze dziś jego autor Mateusz Kula.

Dla niecierpliwych mały spoiler. Poniższy fragment kodu R pobiera RSSy z okresu od 1 stycznia 2012 do 1 czerwca 2013 z pierwszego źródła RSSów z bazy.

fromDate = "20120101"
toDate = "20130601"
feedId = 1
 
read.table(paste("http://smarterpoland.pl/materialy/rss/joined_data.php?feedId=",
             feedId, "&fromDate=", fromDate, "&toDate=", toDate, sep=""), 
             sep=",", fill=T, h=T)

Na razie możliwość dodawania nowych źródeł jest dostępna tylko dla uprzywilejowanych użytkowników. Jeżeli chcielibyście dodać dowolne źródło RSS do tego agregatora napiszcie mi maila lub podajcie adres źródła w komentarzach.

Ok, zobaczmy jak to narzędzie działa i jak z niego korzystać.

Agregator RSSów z portali informacyjnych

Mateusz Kula

Wstęp

Agregator RSS który napisaliśmy składa się z serwera, interfejsu użytkownika / administratora oraz bazy danych. Program pozwala na zapisanie listy kanałów RSS a następnie regularne odpytywanie. Serwisy RSS odpowiadają w postaci dokumentu XML bądź Atom, który jest parsowany, czyli wyodrębniane są konkretne pola, a następnie zapisywany jako encja w bazie danych. Agregator pozwala na pobranie poprzez przeglądarkę internetową przeparsowanych wiadomości w postaci pliku csv. Wiadomości mogą być pobrane w całości (może być to nawet kilkadziesiąt megabajtów w zależności od ilości feedów oraz czasu przez jaki są śledzone) bądź dla konkretnego feeda (poprzez podanie jego id) oraz z możliwością określenia przedziału czasowego z jakiego mają być pobrane dane.

Serwer

Serwer napisany jest w języku php, co umożliwia szybkie uruchomienie go na niemal dowolnym serwerze linuxowym. Do parsowania pobranych feedów użyliśmy bibliotekę lastRSS, dostępną pod tym adresem http://lastrss.oslab.net/. Jest ona nie tylko mała i łatwa w obsłudze ale posiada też mechanizm zapamiętywania pobranych danych dzięki czemu serwisy są odpytywane tylko celem pobrania nowych danych. Jeżeli na serwerze mamy zainstalowany php, pliki wystarczy skopiować do jakiegoś foldery w public_html i po drobnej konfiguracji są one gotowe do użycia. Aby agregator okresowo aktualizował dane z feedów należy do crona dodać wpis wywołujący skrypt pull_rss_cron.php. Do działania agregatora istotne jest umieszczenie pliku settings.php o dwa poziomy wyżej niż pozostałe. Plik settings.php powinien mieć następującą postać:

Zmienne należy ustawić odpowiednio do posiadanej przez siebie konfiguracji.

Interfejs użytkownika

Interfejs do agregatora napisany jest w javascript z użyciem biblioteki jQuery UI (http://jqueryui.com/) dzięki czemu szybko mogliśmy utworzyć ładnie i spójnie stylistycznie przyciski i okienko dialogowe. Abu zmodyfikować listę obserwowanych rssów należy udać się przeglądarką internetową do skryptu manage.php podmieniając w adresie odpowiednie dla swojej konfiguracji nazwę serwera i folder: http://smarterpoland.pl/materialy/rss/manage.php
Z poziomu skryptu manage.php można jedynie dodawać obserwowane rssy, nie można ich modyfikować ani usuwać co podyktowane jest tym iż jest to publicznie dostępny interfejs i chcieliśmy uniknąć utraty danych przez przypadek bądź złośliwą działalność. Oczywiście jest to marne zabezpieczenie ale wydaje się być adekwatne do ważności przechowywanych danych. W manage.php można odczytać istotną informację o id feeda co może być przydatne podczas pobierania danych.

Baza danych

Jako bazy danych zdecydowaliśmy się użyć MySql z dwoma tabelami. Jedna z nich (feeds) przechowuje listę feedów z ich nazwami i adresami, natomiast druga jest złączona z pierwszą poprzez pole feed_id i zawiera sparsowane encje zawierające link do artykułu, tytuł, opis, guid (indywidualny identyfikator jednoznacznie wyróżniający encję) oraz datę publikacji. MySql, podobnie jak php powinien być dostępny na większości serwerów linuxowych a jeżeli nie jest to bez względu na system można go bezpłatnie pobrać i szybko zainstalować.

Tabela feeds

 

Field Type Null Key Default Extra
id int(11) NO PRI NULL auto_increment
name varchar(128) NO NO NULL  
address varchar(256) NO NO NULL  

 

Tabela feeds_items

 

Field Type Null Key Default Extra
id int(11) NO PRI NULL auto_increment
feed_id int(11) NO MUL NULL  
link varchar(256) YES   NULL  
title varchar(256) YES   NULL  
description varchar(256) YES   NULL  
guid varchar(256) YES   NULL  
publication_date varchar(256) YES   NULL  

 

Pobieranie danych

Aby pobrać dane należy za pomocą przeglądarki internetowej pobrać następujący adres, podmieniając w zależności od swojej konfiguracji nazwę serwera oraz folderu w którym umieszczone są skrypty: http://smarterpoland.pl/materialy/rss/joined_data.php
W ten sposób pobrany będzie plik csv zawierający wszystkie zagregowane artykuły z feedów.

Aby ograniczyć pobierane dane można użyć dodatkowych parametrów zapytania:
• feedId – pobrane będą tylko dane zagregowane dla określonego feeda
• fromDate
• toDate

Nie ma konieczności stosowania wszystkich tych parametrów a więc można na przykład pobrać wszystkie encje dla konkretnego feeda podając tylko feedId bądź artykuły z wszystkich feedów które ukazały się nie później niż pewna data używając tylko parametru toDate. Daty mogą być dowolnymi ciągami, które MySql potrafi przetworzyć na datę, jedną z możliwości jest użycie formatu yyyymmdd oznaczający użycie czterech cyfr określających rok, następnie dwóch cyfr określających miesiąc i na koniec dwóch cyfr określających dzień miesiąca. W przypadku użycia nieprawidłowego formatu daty lub nieistniejącego id feeda w csv znajdziemy zamiast danych informację o błędzie.

Przykładowe zapytanie używające parametrów:
http://smarterpoland.pl/materialy/rss/joined_data.php?feedId=1&fromDate=20120101&toDate=20121212

Mamy więcej, ale o ile więcej? Czyli mały konkurs

W tym tygodniu będzie kilka wykresów z prasy, nazbierało się kilka nieudanych grafik i czas je pokazać. Zaczniemy od tematu świeżego, na który uwagę zwrócił w poprzednim tygodniu Michał D. Wygląda na to, że w budżecie UE na lata 2014-2020 dla Polski znajdzie się więcej Euro niż w poprzednim budżecie. Zobaczmy o ile więcej.

Zróbmy w tym celu mały konkurs. Poniżej znajdują się wykresy z Gazety Wyborczej, które zostały przygotowane przez Kancelarię Prezesa Rady Ministrów (tak sugeruje stopka).

Widząc te trzy wykresy spróbujcie odpowiedzieć na dwa pytania (nie przeliczając nic, bazując na wykresach):
– o ile (+- w procentach) budżet wzrośnie (porównując wartości nominalne, zostawmy inflację w spokoju)?
– na którym z tych wykresów przedstawiony jest największy a na którym najmniejszy wzrost?

Czytaj dalej Mamy więcej, ale o ile więcej? Czyli mały konkurs

Ciekawe informacje o Polsce pod ręką…

Pisząc jakiś czas temu o raporcie z Narodowego Spisu Powszechnego narzekałem, że jest nudny jak flaki z olejem i trudno oczekiwać by przeciętny obywatel z zainteresowaniem go przeczytał. Jest to bolączka wielu raportów, mających postać kilkusetstronicowych cegieł najeżonych tabelkami i wykresami.

Spróbujmy inaczej!

Zbierzmy ciekawe informacje o Polsce i pokażmy je tak, by chciało się po nie sięgać! By towarzyszyły nam w codziennym życiu! By nie nudziły się po 15 sekundach! By prowokowały do poszukania dodatkowych informacji na zadany temat.

Tak powstał projekt kubek, który pożarł mój czas wolny z ostatnich dwóch miesięcy. Dzieło jeszcze nie ukończone, ale posiadające stabilną wersję 1.0.

Zebrałem z różnych źródeł (Eurostat, GUS, Datamarket, Wikipedia i wiele innych) informacje o interesujących mnie wskaźnikach, czy to demograficznych (struktura wieku, oczekiwana długość życia), czy związanych ze służbą zdrowia (śmiertelność noworodków, najczęstsze przyczyny zgonów), czy gospodarką (dług jako % PKB, stopa bezrobocia, zmiana PKB), czy z giełdą (WIG20), czy ze sportem (miejsce Polski w rankingu FIFA czy na ME w siatkówce), czy z edukacją (liczba studentów).
Na wykresach przedstawiłem jak te wskaźniki zmieniały się w czasie.

I tak otrzymany wykres nadrukowałem na kubek.

Kubek otrzymają osoby wspierające fundację, czy to finansowo czy jako wolontariusze przy realizacji dużych projektów.

Mam też zamiar w kolejnych wpisach (ale na razie bez dat) opisać jak powstały poszczególne wykresy, wszystkie są zrobione w R i można je automatycznie aktualizować. Może to być interesujący przegląd sposobów pozyskania danych z różnych internetowych źródeł (co ciekawe, w zależności od źródła, liczby różnią się czasem o 20%).

Ciekawy jestem jakie wskaźniki opisujące sytuację w Kraju Wy chcielibyście mieć na takim kubku?

Polska jest naj, czyli ile miliunijek robimy na jabłkach

Magda zaproponowała ciekawy projekt. Chodzi o znalezienie cech/charakterystyk w których Polska jest ,,naj” w Europie. Ale nie chodzi o napuszone statystyki typu najzdolniejsi informatycy, najwięcej studentów czy największy wzrost PKB, tylko o bardziej neutralne a jednak ciekawe charakterystyki typu liczba kotów czy spożycie mleka.

Dzisiaj więc poszukamy cech w których jesteśmy ,,naj” szperając w Eurostacie w tabelach dotyczących produkcji rolnej różnych państw Unii Europejskiej w roku 2011.
Okazuje się, że w Europie Polska jest niekwestionowanym liderem w zbiorach/produkcji porzeczek czy buraków, jest też największym producentem w Unii pszenżyta, żyta i jabłek.

Czytaj dalej Polska jest naj, czyli ile miliunijek robimy na jabłkach