Środki transportu w świetle danych z Eurostatu … od podszewki

We wtorek przedstawiałem graficznie dane z Eurostatu dotyczące transportu.
Przygotowując się do tych analiz, szukałem pakietu, który umożliwi łatwe wczytanie danych z Eurostatu.
Ale nie znalazłem.
Więc napisałem własny!
Od kilku dni z CRANu można ściągnąć pakiet ‚SmarterPoland’ dla programu R. Można w nim znaleźć kilka użytecznych funkcji do pobierania danych bezpośrednio z Eurostatu.

Poniżej pokażę jak użyć tego pakietu do pobrania spisu tabel z Eurostatu, pobrania danych o transporcie i narysowania wykresu trójkątnego. Wszystkie w czterech prostych krokach.

Zacznijmy od funkcji grepEurostatTOC(wzorzec), która pobiera ze stron Eurostatu listę dostępnych tabel z danymi i wybiera z nich tylko te, które w opisie mają podciąg znaków ‚wzorzec’. Poniżej wypisane są wszystkie tabele dostępne w bazach Eurostatu, które w opisie zawierają napis ‚split of passenger transport’.

Dane z których chcę korzystać są w tabeli ‚tsdtr210’. Użyjemy funkcji getEurostatRCV() do pobrania tej tabeli bezpośrednio z internetowych baz Eurostatu do R, do danych w formacie RCV. W poniższym przypadku format RCV oznacza tyle, że typ transportu jest opisany przez pierwszą kolumnę, kod państwa przez drugą kolumnę, rok przez trzecią kolumnę, a procent używalności danego typu transportu w danym roku i kraju przedstawiony jest w czwartej kolumnie.

Dane z postaci RCV (nazywaną również tzw. ang. molten) na postać tabelaryczną można przekształcić funkcją ‚cast’ z pakietu ‚reshape’. Poniżej przykład uzycia tej funkcji, zamieniamy dane ‚tmp’ na postać tabelaryczną, która w kolumnach będzie miała wartości dla kolejnych lat a w wierszach dla krajów (formuła geo ~ time). Ponieważ w ‚tmp’ znajdują się dane dla trzech środków transportu, to poniżej tworzone są tak naprawdę trzy tabele, w każdej przedstawiane są dane dla określonego środka transportu (argument subset).

Pozostaje już tylko narysować przygotowane dane. Wykorzystam funkcję ‚triax.plot’ z pakietu ‚plotrix’. Na poniższym wykresie punkty są skupione w prawym dolnym rogu (w większości krajów dominuje transport z użyciem samochodu), więc dla większej czytelności najlepiej usunąć lewy i górny róg, tak jak we wtorkowym wpisie.

plot of chunk podsumowanie

I tak pakiet ‚SmarterPoland’ trafił na CRAN.
Na razie potrafi tylko wczytywać dane z Eurostatu, ale w przyszłości będzie się rozrastał (mam nadzieję).
Chętnych do rozwoju tego pakietu zapraszam do współpracy.

5 thoughts on “Środki transportu w świetle danych z Eurostatu … od podszewki”

  1. Świetny wpis. Nie wiem, w jaki sposób mógłbym się przyczynić do rozwoju tego pakietu, ale jeśli miałby objąć swoim zasięgiem dane z bazy OECD albo GUS (Bank Danych Lokalnych) to byłbym zachwycony. Jestem początkującym użytkownikiem ‚R’

    1. To może zacznijmy od Banku Danych Lokalnych. Czy jest API i opis tego API dla tych danych?
      Jeżeli jest to łatwo będzie je ,,zanurzyć” w R.
      Jakieś API być powinno, widziałem że Sejmometr coś opakowuje.

  2. Postaram się dowiedzieć czegoś od znajomych, którzy pracują w US. Ciekawe czy to łączy się bezpośrednio z BDL czy oni ściągnęli dane i je udostępniają?

    1. Napisz jak się czegoś dowiesz. Można zrobić dump danych jakimiś brutalnymi pająkami (modulo tokeny) ale źle byłoby powtórzyć historię Aarona Swartza i Jstora.
      Może nawet jeżeli API dzisiaj jeszcze nie ma, to jest planowane?

Pozostaw odpowiedź izydor Anuluj pisanie odpowiedzi

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *