Mapy statystyczne. Opracowanie i prezentacja danych. GUS

Dzisiaj obchodzimy Dzień Statystyki Polskiej.
I tak się złożyło, że od Macieja Beręsewicza dostałem też link do bardzo ciekawego podręcznika GUS: Mapy statystyczne. Opracowanie i prezentacja danych (więcej informacji tutaj).

Podręcznik to ponad 250 stron podzielonych na 6 głównych rozdziałów. W środku jest wiele ciekawych grafik jak i wiele przykładów poprawnych i niepoprawnych opracowań. Nie trzeba się z każdym przykładem zgadzać, ale warto każdy z nich znać. Dla kartografów to pozycja obowiązkowa ale i statystykom nie zaszkodzi.

PS: Pamiętajcie o dzisiejszych trzecich urodzinach SERa. Siłą R jest jego energiczna i rozbudowana społeczność użytkowników i developerów. Dzisiaj świętujemy.

Sprawozdania krajowe Komisji Europejskiej

Marcin Grynberg zwrócił moją uwagę na niedawno opublikowane sprawozdania krajowe Komisji Europejskiej poświęcone (między innymi) sytuacji ekonomicznej krajów członkowskich. Sprawozdanie poświęcone Polsce jest dostępne tutaj.
Nieduże (niecałe 50 stron plus załączniki) ale konkretne i ciekawe.
Przykładowo, można w nim znaleźć informacje dotyczące konsekwencji reformy emerytalnej i jej wpływu na wysokość emerytury (polecam wykres 3.3.2) czy prognozy co do wysokości długu publicznego (polecam wykres 3.1.2).
Poniżej odniosę się do trzech innych wątków poruszanych w tym sprawozdaniu. Tematów związanych z nauką, badaniami i edukacją.


Po prawej wykres prezentujący wydatki publiczne na R&D (czy z polska BiR) zestawione z ilością wysoko cytowanych publikacji. Pozycja Polski w tym zestawieniu jest zaznaczona czerwoną kropką.
Komentarz nie jest chyba potrzebny, ograniczę się jedynie do cytatu ze sprawozdania: ‘Niewielki stopień komercjalizacji wyników badań naukowych oraz słabe powiązania między sektorem nauki i sektorem biznesu ograniczają zdolność innowacyjną gospodarki.’





Kolejny wykres, który zwrócił moją uwagę dotyczy liczby uczniów rozpoczynających naukę w 1 klasie szkoły średniej (wykres po lewej).
W 2019 roku ma to być ponad 350 tys. uczniów a w 2024 roku poniżej 100 tys uczniów.
Ponad 4x mniej.
Później te fale uderzą o wrota uczelni wyższych.
Konsekwencja szybkich reform poprzedniego rządu (między innymi dwa lata na przejście z wiekiem rozpoczęcia szkoły podstawowej na 6 lat) i galopujących reform obecnego (1 rok na przejście ze startem podstawówki na 7 lat).
Cytat z raportu: Reforma systemu szkolnictwa od września 2017 r. budzi szereg obaw wśród zainteresowanych podmiotów.


Niektóre wskaźniki wglądają dobrze. Bezrobocie nadal spada, płace średnie (powoli) rosną.
Cytat: Przewiduje się, że spodziewane niekorzystne zmiany na rynku pracy spowodują szybszy wzrost płac i potencjalnie niedobór pracowników.
Cytat: Po kilku latach silnego wzrostu dochodów nierówności zmniejszyły się i ich poziom jest obecnie niższy od średniej unijnej.




Uważam, że jednym z największych wyzwań jest demografia. Więc i to zestawienie wykresów kończę rysunkiem związanym z prognozami demograficznymi. Zgodnie z prognozą zakładającą zerową migrację w ciągu 35 lat liczba osób w wieku produkcyjnym zmniejszy się o 19%. A czy produktywność i innowacyjność przyszłych pracowników zwiększy się wystarczająco by zrekompensować mniejsza liczbę rąk do pracy?



Całe sprawozdanie można pobrać i w języku angielskim i polskim.

Jutro SER a dzisiaj trendy na rynku pracy dla Data Scientistów

Jutro o godzinie 18 na MiNI (Koszykowa 75, Warszawa) zaczynamy 18. (o matko, już osiemnastka!) Spotkania Entuzjastów R. Będzie i o programowaniu z Rcpp i o analizie danych. Można zarejestrować się tutaj.
Zapraszamy!

Współorganizatorka SERów, Olga Mierzwa, miała wczoraj prezentację o rynku pracy dla Data Scientistów. Poniżej kilka zdań od Olgi.

Screen Shot 2016-05-18 at 18.56.29


Olga Mierzwa

Wczoraj odbyło się 15 spotkanie Data Science Warsaw, podczas którego miałam przyjemność opowiadać o trendach na rynku pracy data science na podstawie doświadczeń z współprowadzenia datahero.tech. Na meetup przyszło ok. 80 osób, a oprócz mnie o komunikowaniu danych opowiadali Piotr Arak z Polityka Insight i Vadim Makarenko z BiqData.
Prezentacja “Trendy rynku pracy Data Science” przedstawiała sytuację na rynku pracy w Polsce w oparciu o analizy pracuj.pl i datahero.tech. Pokazała przykładowe informacje jakie można wyciągnąć analizując GitHuba, Stackoverflow oraz Upwork.

Czy jesteś ciekaw jakie funkcje i pakiety R wykorzystują polscy użytkownicy GitHuba?
O co najczęściej pytają użytkownicy na Stackoverflow pracując w R i Pythonie? A co jest już passé?
A może ile zarabia Data Science Freelancer w Polsce czy na świecie?

Prezentacja dostępna jest pod linkiem: http://slides.com/olgamierzwa/deck-1.

Podziękowania dla Grupy MI2 za udostępnienie analiz pracuj.pl.

78% statystyk jest zmyślonych

Czy zastanawialiście się ile ze statystyk o których się słyszy/o których się czyta, jest wyssanych z palca?

Zapytałem googla ,,how much statistics are made up”. Skrupulatnie zebrałem wyniki z pierwszych 13 stron, między innymi businessinsider, uncyclopedia czy answers.

Wyniki oczywiście wczytałem do programu statystycznego R w wersji 3.2.4 i wykonałem wykres w ggplot2, wersja 2.1.

Interesujące! Ponad połowa odwiedzonych serwisów zawiera informacje, że więcej niż 78% statystyk jest zmyślonych.

Aby upewnić się, że nie jest to przypadek zrobiłem test Kołomogorowa Smirnowa badający zgodność z rozkładem jednostajnym i wyszło…..

p-wartość 0.012!!!

Czyli istotnie statystycznie!
(i nie pytajcie co, przecież jest istotne statystycznie!)

Gdyby ktoś chciał odtworzyć te wyniki, to zebrane dane: c(0.74, 0.85, 0.24, 0.43, 0.98, 1, 0.4, 0.8, 0.97, 0.73, 0.95, 0.79, 0.43, 0.64, 0.83).

Klasyfikacja i regresja z pakietem caret – ściągawka

Pakiet caret (akronim od Classification And REgression Training) to świetne narzędzie do budowy modeli, testowania, wyboru zmiennych i innych zadań często wykonywanych do analizy danych.

W ramach zaliczenia przedmiotu Data Mining dwie osoby przygotowały dwie ściągawki z funkcjonalności tego pakietu. Obie poniżej. Wersje pdf można pobrać po kliknięciu.

Dwustronicowe opracowanie przygotowane przez Neven Piculjan.

I jednostronicowe streszczenie przygotowane przez Ziad Al Bkhetan.

Graficzna prezentacja danych statystycznych – wykresy z opracowania GUS

Screen Shot 2016-01-05 at 00.48.12
TL;DR
1. GUS opracował na licencji CC raport ,,Graficzna prezentacja danych statystycznych”.
2. Jest tam kilka ciekawych grafik.


GUS w ramach współpracy z Gruzją przygotował opracowanie ,,Graficzna prezentacja danych statystycznych” dostępne na tej stronie (raport jest na licencji CC-BY!).

Opracowanie opisane jest jako: podręcznik dobrych praktyk w zakresie udostępniania danych statystycznych, w którym omówiono sposoby graficznej prezentacji danych, ze szczególnym uwzględnieniem map statystycznych oraz analizowania i wizualizowania danych regionalnych za pomocą geograficznych systemów informacji.

W opracowaniu jest dużo ciekawych uwag, wskazówek i komentarzy, warto go przeczytać. Pomimo 177 stron czyta go się bardzo szybko, większość treści to wykresy. Nacisk położony jest na kartogramy i kartodiagramy, można się o nich wiele dowiedzieć. O grafice statystycznej jest tylko kilka stron.

Dziś na blogu kilka wykresów z tego raportu. Wybrałem te, które najbardziej przypadły mi go gustu.

Czytaj dalej Graficzna prezentacja danych statystycznych – wykresy z opracowania GUS

Międzynarodowe Standardy Komunikacji Biznesowej – The International Business Communication Standards

Screen Shot 2016-01-05 at 02.31.49
TL;DR
1. Konsorcjum IBCS-A pracuje nad zbiorem standardów The International Business Communication Standards
2. Standardy są otwarte i dostępne na licencji CC na stronie http://www.ibcs-a.org/standards
3. Świetny zbiór konkretnych wskazówek do stosowania w komunikacji biznesowej i nie tylko.

Czytaj dalej Międzynarodowe Standardy Komunikacji Biznesowej – The International Business Communication Standards

Wykresy, Lenin a sprawa polska

thumb_IMG_0530_1024
dr Julian Daszkowski zauważył, że w Esejach o sztuce przedstawiania danych brakuje polskich akcentów. I podsunął mi książkę Ł. Byzowa ,,Graficzne metody w statystyce planowaniu i ewidencji”. To prawdopodobnie pierwsza książka poświęcona prezentacji danych w języku polskim. Oryginał w języku rosyjskim powstał w 1940 roku (!!!), na język polski została przetłumaczona w roku 1951. Dosyć trudno dostać jej egzemplarz, ale na szczęście jeden jest w bibliotece MIM UW (jedyny na UW).

Książka jest genialna. Rozpoczyna ją przedmowa redaktora na temat tego, czy po 11 latach od oryginalnej publikacji, w roku 1951 książka wciąż jest aktualna. A jak się zaraz okaże, duże części są aktualne nawet dziś po 76 latach. W kwestii perspektywy, rok 1940 to dwa lata przed urodzeniem się Edwarda Tufte i 37 lat przed tym jak John Tukey napisał Exploratory Data Analysis. Ok, co wiec znajdziemy w tej nadgryzionej czasem książce?

Czytaj dalej Wykresy, Lenin a sprawa polska

Global Innovation Index 2015


W ostatnim numerze Polityki znalazłem odniesienie do rankingu The Global Innovation Index 2015 z jakimś takim smutnym tytułem ,,Polska na szarym końcu Rankingu Innowacyjności 2015”. Czy to jesienna chandra, czy też jest coś na rzeczy? Zobaczmy.

Problem z rankingami mam taki, że często agregują wiele składowych w jeden indeks, który bardzo trudno zinterpretować. Wspomniany indeks innowacyjności to podsumowanie trzypoziomowej hierarchii składowych. Takich jak np. 7.3.4 Liczba wgrań filmów na YouTube lub 4.1.1 Łatwość w otrzymywaniu kredytów lub 1.3.3 Łatwość płacenia podatków. A więc parametry z zupełnie innych światów.

Drugi problem to częsty brak konstruktywnych wniosków w komentarzach. Jeżeli jesteśmy wysoko, komentujący szukają jakich kosmicznych uzasadnień, jeżeli jesteśmy nisko, to użalamy się. Bez sensu. A przecież, jeżeli taki ranking agreguje wiele obszarów, możemy wykorzystać go, aby sprawdzić co jest naszą silną składową, a co jest słabą składową.

Aby ułatwić analizę naszych silnych i słabych stron, na tle innych krajów, przygotowałem poniższą aplikację, pokazującą pozycję w rankingu w 7 głównych podobszarach (w ww. artykule Polityki znajdują się charakterystyki tych podobszarów).

Założę się, że nie zgadniecie co, zgodnie z tym rankingiem, jest najsilniejszą stroną Polski.

Czytaj dalej Global Innovation Index 2015

Przedpremiera: Niesamowite przygody Bety i Bita

Wczoraj zakończył się rok szkolny, więc i dzisiejszy wpis jest związany z edukacją.

Pracuję (z Magdą Chudzian) nad zbiorem opowiadań dla szeroko rozumianej młodzieży (gimnazjum+liceum). Opowiadania te w fabularnym stylu przedstawią rozmaite koncepcje związane z wnioskowaniem opartym o dane czy analizą danych. Te umiejętności warto ćwiczyć, przydają się i w życiu i na maturze. A jak pokazują różne badania, w naszych szkołach mogłoby być z nimi lepiej. W zamierzeniu i opowiadania i towarzysząca im gra edukacyjna ma te umiejętności rozwijać.

Premiera pierwszego opowiadania planowana jest na 1 września 2015. Gra i pozostałe opowiadania będą miały premierę najprawdopodobniej w 2016 roku. Szukam teraz testowych czytelników, czyli gimnazjalistów/licealistów, którzy lubią czytać i podzielą się wrażeniami z przedpremierowego dostępu do pierwszego z opowiadań.

Znacie takie ciekawe dusze?
Dajcie im znać, że wysyłając maila o tytule ‚Beta czytelnik’ na adres [Przemyslaw.Biecek na serwerze gmail.com] otrzymają bezpłatny i przedpremierowy dostęp do opowiadania ,,Jaskinia Pietraszki’’ (w formie www i ebook).

Czytaj dalej Przedpremiera: Niesamowite przygody Bety i Bita