Jutro SER a dzisiaj trendy na rynku pracy dla Data Scientistów

Jutro o godzinie 18 na MiNI (Koszykowa 75, Warszawa) zaczynamy 18. (o matko, już osiemnastka!) Spotkania Entuzjastów R. Będzie i o programowaniu z Rcpp i o analizie danych. Można zarejestrować się tutaj.
Zapraszamy!

Współorganizatorka SERów, Olga Mierzwa, miała wczoraj prezentację o rynku pracy dla Data Scientistów. Poniżej kilka zdań od Olgi.

Screen Shot 2016-05-18 at 18.56.29


Olga Mierzwa

Wczoraj odbyło się 15 spotkanie Data Science Warsaw, podczas którego miałam przyjemność opowiadać o trendach na rynku pracy data science na podstawie doświadczeń z współprowadzenia datahero.tech. Na meetup przyszło ok. 80 osób, a oprócz mnie o komunikowaniu danych opowiadali Piotr Arak z Polityka Insight i Vadim Makarenko z BiqData.
Prezentacja “Trendy rynku pracy Data Science” przedstawiała sytuację na rynku pracy w Polsce w oparciu o analizy pracuj.pl i datahero.tech. Pokazała przykładowe informacje jakie można wyciągnąć analizując GitHuba, Stackoverflow oraz Upwork.

Czy jesteś ciekaw jakie funkcje i pakiety R wykorzystują polscy użytkownicy GitHuba?
O co najczęściej pytają użytkownicy na Stackoverflow pracując w R i Pythonie? A co jest już passé?
A może ile zarabia Data Science Freelancer w Polsce czy na świecie?

Prezentacja dostępna jest pod linkiem: http://slides.com/olgamierzwa/deck-1.

Podziękowania dla Grupy MI2 za udostępnienie analiz pracuj.pl.

78% statystyk jest zmyślonych

Czy zastanawialiście się ile ze statystyk o których się słyszy/o których się czyta, jest wyssanych z palca?

Zapytałem googla ,,how much statistics are made up”. Skrupulatnie zebrałem wyniki z pierwszych 13 stron, między innymi businessinsider, uncyclopedia czy answers.

Wyniki oczywiście wczytałem do programu statystycznego R w wersji 3.2.4 i wykonałem wykres w ggplot2, wersja 2.1.

Interesujące! Ponad połowa odwiedzonych serwisów zawiera informacje, że więcej niż 78% statystyk jest zmyślonych.

Aby upewnić się, że nie jest to przypadek zrobiłem test Kołomogorowa Smirnowa badający zgodność z rozkładem jednostajnym i wyszło…..

p-wartość 0.012!!!

Czyli istotnie statystycznie!
(i nie pytajcie co, przecież jest istotne statystycznie!)

Gdyby ktoś chciał odtworzyć te wyniki, to zebrane dane: c(0.74, 0.85, 0.24, 0.43, 0.98, 1, 0.4, 0.8, 0.97, 0.73, 0.95, 0.79, 0.43, 0.64, 0.83).

Klasyfikacja i regresja z pakietem caret – ściągawka

Pakiet caret (akronim od Classification And REgression Training) to świetne narzędzie do budowy modeli, testowania, wyboru zmiennych i innych zadań często wykonywanych do analizy danych.

W ramach zaliczenia przedmiotu Data Mining dwie osoby przygotowały dwie ściągawki z funkcjonalności tego pakietu. Obie poniżej. Wersje pdf można pobrać po kliknięciu.

Dwustronicowe opracowanie przygotowane przez Neven Piculjan.

I jednostronicowe streszczenie przygotowane przez Ziad Al Bkhetan.

Graficzna prezentacja danych statystycznych – wykresy z opracowania GUS

Screen Shot 2016-01-05 at 00.48.12
TL;DR
1. GUS opracował na licencji CC raport ,,Graficzna prezentacja danych statystycznych”.
2. Jest tam kilka ciekawych grafik.


GUS w ramach współpracy z Gruzją przygotował opracowanie ,,Graficzna prezentacja danych statystycznych” dostępne na tej stronie (raport jest na licencji CC-BY!).

Opracowanie opisane jest jako: podręcznik dobrych praktyk w zakresie udostępniania danych statystycznych, w którym omówiono sposoby graficznej prezentacji danych, ze szczególnym uwzględnieniem map statystycznych oraz analizowania i wizualizowania danych regionalnych za pomocą geograficznych systemów informacji.

W opracowaniu jest dużo ciekawych uwag, wskazówek i komentarzy, warto go przeczytać. Pomimo 177 stron czyta go się bardzo szybko, większość treści to wykresy. Nacisk położony jest na kartogramy i kartodiagramy, można się o nich wiele dowiedzieć. O grafice statystycznej jest tylko kilka stron.

Dziś na blogu kilka wykresów z tego raportu. Wybrałem te, które najbardziej przypadły mi go gustu.

Czytaj dalej Graficzna prezentacja danych statystycznych – wykresy z opracowania GUS

Międzynarodowe Standardy Komunikacji Biznesowej – The International Business Communication Standards

Screen Shot 2016-01-05 at 02.31.49
TL;DR
1. Konsorcjum IBCS-A pracuje nad zbiorem standardów The International Business Communication Standards
2. Standardy są otwarte i dostępne na licencji CC na stronie http://www.ibcs-a.org/standards
3. Świetny zbiór konkretnych wskazówek do stosowania w komunikacji biznesowej i nie tylko.

Czytaj dalej Międzynarodowe Standardy Komunikacji Biznesowej – The International Business Communication Standards

Wykresy, Lenin a sprawa polska

thumb_IMG_0530_1024
dr Julian Daszkowski zauważył, że w Esejach o sztuce przedstawiania danych brakuje polskich akcentów. I podsunął mi książkę Ł. Byzowa ,,Graficzne metody w statystyce planowaniu i ewidencji”. To prawdopodobnie pierwsza książka poświęcona prezentacji danych w języku polskim. Oryginał w języku rosyjskim powstał w 1940 roku (!!!), na język polski została przetłumaczona w roku 1951. Dosyć trudno dostać jej egzemplarz, ale na szczęście jeden jest w bibliotece MIM UW (jedyny na UW).

Książka jest genialna. Rozpoczyna ją przedmowa redaktora na temat tego, czy po 11 latach od oryginalnej publikacji, w roku 1951 książka wciąż jest aktualna. A jak się zaraz okaże, duże części są aktualne nawet dziś po 76 latach. W kwestii perspektywy, rok 1940 to dwa lata przed urodzeniem się Edwarda Tufte i 37 lat przed tym jak John Tukey napisał Exploratory Data Analysis. Ok, co wiec znajdziemy w tej nadgryzionej czasem książce?

Czytaj dalej Wykresy, Lenin a sprawa polska

Global Innovation Index 2015


W ostatnim numerze Polityki znalazłem odniesienie do rankingu The Global Innovation Index 2015 z jakimś takim smutnym tytułem ,,Polska na szarym końcu Rankingu Innowacyjności 2015”. Czy to jesienna chandra, czy też jest coś na rzeczy? Zobaczmy.

Problem z rankingami mam taki, że często agregują wiele składowych w jeden indeks, który bardzo trudno zinterpretować. Wspomniany indeks innowacyjności to podsumowanie trzypoziomowej hierarchii składowych. Takich jak np. 7.3.4 Liczba wgrań filmów na YouTube lub 4.1.1 Łatwość w otrzymywaniu kredytów lub 1.3.3 Łatwość płacenia podatków. A więc parametry z zupełnie innych światów.

Drugi problem to częsty brak konstruktywnych wniosków w komentarzach. Jeżeli jesteśmy wysoko, komentujący szukają jakich kosmicznych uzasadnień, jeżeli jesteśmy nisko, to użalamy się. Bez sensu. A przecież, jeżeli taki ranking agreguje wiele obszarów, możemy wykorzystać go, aby sprawdzić co jest naszą silną składową, a co jest słabą składową.

Aby ułatwić analizę naszych silnych i słabych stron, na tle innych krajów, przygotowałem poniższą aplikację, pokazującą pozycję w rankingu w 7 głównych podobszarach (w ww. artykule Polityki znajdują się charakterystyki tych podobszarów).

Założę się, że nie zgadniecie co, zgodnie z tym rankingiem, jest najsilniejszą stroną Polski.

Czytaj dalej Global Innovation Index 2015

Przedpremiera: Niesamowite przygody Bety i Bita

Wczoraj zakończył się rok szkolny, więc i dzisiejszy wpis jest związany z edukacją.

Pracuję (z Magdą Chudzian) nad zbiorem opowiadań dla szeroko rozumianej młodzieży (gimnazjum+liceum). Opowiadania te w fabularnym stylu przedstawią rozmaite koncepcje związane z wnioskowaniem opartym o dane czy analizą danych. Te umiejętności warto ćwiczyć, przydają się i w życiu i na maturze. A jak pokazują różne badania, w naszych szkołach mogłoby być z nimi lepiej. W zamierzeniu i opowiadania i towarzysząca im gra edukacyjna ma te umiejętności rozwijać.

Premiera pierwszego opowiadania planowana jest na 1 września 2015. Gra i pozostałe opowiadania będą miały premierę najprawdopodobniej w 2016 roku. Szukam teraz testowych czytelników, czyli gimnazjalistów/licealistów, którzy lubią czytać i podzielą się wrażeniami z przedpremierowego dostępu do pierwszego z opowiadań.

Znacie takie ciekawe dusze?
Dajcie im znać, że wysyłając maila o tytule ‚Beta czytelnik’ na adres [Przemyslaw.Biecek na serwerze gmail.com] otrzymają bezpłatny i przedpremierowy dostęp do opowiadania ,,Jaskinia Pietraszki’’ (w formie www i ebook).

Czytaj dalej Przedpremiera: Niesamowite przygody Bety i Bita

Jak zmieniało się poparcie przed wyborami prezydenckimi 2015?

Pięć dni temu zorganizowaliśmy konkurs, na zebranie danych z sondaży przed wyborami prezydenckimi 2015. Dzięki Bartoszowi S. i Łukaszowi W. (wędrują do Was wejściówki na ZIP) mamy zebrane wyniki z kilkudziesięciu sondaży. Poniższa aplikacja pozwala na eksplorację tych wyników.

Czytaj dalej Jak zmieniało się poparcie przed wyborami prezydenckimi 2015?

Spark + R = SparkR

spark-project-header1
Spark podbija coraz więcej serc. Nic dziwnego, skoro z wielu stron płyną komentarze o znaczącym (o rząd wielkości) przyśpieszeniu czasu potrzebnego na analizę dużych zbiorów danych.
Mamy rozbudowany mechanizm składowania (cache) obiektów w pamięci, dzięki czemu wykonując iteracyjnie operacje na tych samych danych nie ma potrzeby katowania dysku.

Jak dla mnie pewną wadą tej platformy było to, że aplikacje w Sparku należało pisać w Java, Scala lub Pythonie. To bardzo fajne języki, ale używam wielu specjalistycznych narzędzi statystycznych dostępnych w programie R i nie chciałbym ich przepisywać na python a tym bardziej na Java.

Szczęśliwie jednak, powstał łącznik dla R, powalający na integracje R i Sparka. Takie połączenie zapączkowało ponad rok temu, zainicjował je Shivaram Venkataraman z Berkeley. Z czasem kilka innych osób dołączyło do rozwoju pakietu SparkR
http://amplab-extras.github.io/SparkR-pkg/.

Dziś podzielę się pierwszymi wrażeniami z używania tego pakietu.

Czytaj dalej Spark + R = SparkR