Środki transportu w świetle danych z Eurostatu … od podszewki

We wtorek przedstawiałem graficznie dane z Eurostatu dotyczące transportu.
Przygotowując się do tych analiz, szukałem pakietu, który umożliwi łatwe wczytanie danych z Eurostatu.
Ale nie znalazłem.
Więc napisałem własny!
Od kilku dni z CRANu można ściągnąć pakiet ‘SmarterPoland’ dla programu R. Można w nim znaleźć kilka użytecznych funkcji do pobierania danych bezpośrednio z Eurostatu.

Poniżej pokażę jak użyć tego pakietu do pobrania spisu tabel z Eurostatu, pobrania danych o transporcie i narysowania wykresu trójkątnego. Wszystkie w czterech prostych krokach.

Zacznijmy od funkcji grepEurostatTOC(wzorzec), która pobiera ze stron Eurostatu listę dostępnych tabel z danymi i wybiera z nich tylko te, które w opisie mają podciąg znaków ‘wzorzec’. Poniżej wypisane są wszystkie tabele dostępne w bazach Eurostatu, które w opisie zawierają napis ‘split of passenger transport’.

Dane z których chcę korzystać są w tabeli ‘tsdtr210′. Użyjemy funkcji getEurostatRCV() do pobrania tej tabeli bezpośrednio z internetowych baz Eurostatu do R, do danych w formacie RCV. W poniższym przypadku format RCV oznacza tyle, że typ transportu jest opisany przez pierwszą kolumnę, kod państwa przez drugą kolumnę, rok przez trzecią kolumnę, a procent używalności danego typu transportu w danym roku i kraju przedstawiony jest w czwartej kolumnie.

Dane z postaci RCV (nazywaną również tzw. ang. molten) na postać tabelaryczną można przekształcić funkcją ‘cast’ z pakietu ‘reshape’. Poniżej przykład uzycia tej funkcji, zamieniamy dane ‘tmp’ na postać tabelaryczną, która w kolumnach będzie miała wartości dla kolejnych lat a w wierszach dla krajów (formuła geo ~ time). Ponieważ w ‘tmp’ znajdują się dane dla trzech środków transportu, to poniżej tworzone są tak naprawdę trzy tabele, w każdej przedstawiane są dane dla określonego środka transportu (argument subset).

Pozostaje już tylko narysować przygotowane dane. Wykorzystam funkcję ‘triax.plot’ z pakietu ‘plotrix’. Na poniższym wykresie punkty są skupione w prawym dolnym rogu (w większości krajów dominuje transport z użyciem samochodu), więc dla większej czytelności najlepiej usunąć lewy i górny róg, tak jak we wtorkowym wpisie.

plot of chunk podsumowanie

I tak pakiet ‘SmarterPoland’ trafił na CRAN.
Na razie potrafi tylko wczytywać dane z Eurostatu, ale w przyszłości będzie się rozrastał (mam nadzieję).
Chętnych do rozwoju tego pakietu zapraszam do współpracy.

5 myśli na temat “Środki transportu w świetle danych z Eurostatu … od podszewki”

  1. Świetny wpis. Nie wiem, w jaki sposób mógłbym się przyczynić do rozwoju tego pakietu, ale jeśli miałby objąć swoim zasięgiem dane z bazy OECD albo GUS (Bank Danych Lokalnych) to byłbym zachwycony. Jestem początkującym użytkownikiem ‘R’

    1. To może zacznijmy od Banku Danych Lokalnych. Czy jest API i opis tego API dla tych danych?
      Jeżeli jest to łatwo będzie je ,,zanurzyć” w R.
      Jakieś API być powinno, widziałem że Sejmometr coś opakowuje.

  2. Postaram się dowiedzieć czegoś od znajomych, którzy pracują w US. Ciekawe czy to łączy się bezpośrednio z BDL czy oni ściągnęli dane i je udostępniają?

    1. Napisz jak się czegoś dowiesz. Można zrobić dump danych jakimiś brutalnymi pająkami (modulo tokeny) ale źle byłoby powtórzyć historię Aarona Swartza i Jstora.
      Może nawet jeżeli API dzisiaj jeszcze nie ma, to jest planowane?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">