0 -> 1

MTH
Rysunek po prawej stronie to zdjęcie okładki książki Scotta Berkuna. Ładnie oddaje urok chwili, w której rodzą się nowe pomysły.
Scott pisze wiele na temat zarządzania projektami innowacyjnymi i na temat samej innowacyjności. Warto poczytać i posłuchać.

Przypomniała mi się ta książka i ten obrazek gdy oglądałem trzeci projekt studentów z Technik Wizualizacji Danych [MiNI PW] i Programowanie i Wizualizacja w R [MIM UW].
To dwa różne kursy, ale zrobiłem im wspólny trzeci projekt i wspólną prezentację – wynikowe plakaty wiszą na 2. piętrze wydziału MiNI.
Zadanie było sformułowane mgliście i ogólne: przygotuj plakat formatu A2 pokazujące wybrany temat dotyczący Polski lub Europy. Możesz użyć ggplot2.
Zostało sporo miejsca dla autorów na sprecyzowanie pomysłu i formy prezentacji.
Co z tego wyszło? Poniżej część zgłoszonych plakatów.

Jeżeli któryś przypadnie Ci drogi czytelniku do gustu, to do końca tygodnia możesz na niego zagłosować. Wystarczy, że zeskanujesz telefonem kod QR umieszony w prawym górnym rogu (część punktów z projektu studenci otrzymują za otrzymane głosy, jedno urządzenie liczy się jako jeden głos).
Ciekaw jestem na ile preferencje szerszej grupy odbiorców będą się zgadzać z moimi.

Tematy większości plakatów są bardzo ciekawe, wykonanie bardzo dobre. Kliknij by powiększyć.

p3v01ppvp3v14p3v13p3v12p3v11p3v10p3v09p3v08p3v07p3v06p3v05p3v04p3v03p3v02p3v15p3v16v13

Najgorszy wykres 2017 roku

Zbliża się Sylwester, czas więc wybrać najgorszą prezentację danych opublikowaną w roku 2017.
Konkurs na najgorszą wizualizację przeprowadzamy co roku od 2012 (edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012). W tym roku było wiele ciekawych zgłoszeń przesłanych przez facebook, emailem, od studentów przedmiotu Techniki Wizualizacji Danych. Ze zgłoszeń wybrałem 10 niezwykłych wykresów, mogących moim zdaniem śmiało rywalizować o tytuł najgorszego wykresu ever.

Zasada plebiscytu jest prosta. Do końca roku można wskazywać swoje typy na najgorszy wykres, głosując za pomocą ankiety umieszczonej na końcu tego wpisu (w jednym dniu można głosować tylko raz. Jednocześnie można wskazać do 5 kandydatów). Po nowym roku zobaczymy, który wykres otrzymał najwięcej głosów. To on otrzyma tytuł “Zniekształcenie roku 2017″. Aby ułatwić głosowanie, każdy kandydat ma skrótową wpadającą w ucho nazwę.

1. Detale są bez znaczenia

Ten wykres pochodzi z tvn24. Za pomocą słupków przedstawiono nakłady na zdrowie jako % PKB. Co jednak ciekawe, długość słupków wcale nie jest proporcjonalna do prezentowanych liczb. Słupki systematycznie sobie rosną zaznaczając wyłącznie kolejność. Wartość zakodowana przez pierwszy słupek różni się od wartości zakodowanej przez czwarty tylko o 1,2 pp. Różnica pomiędzy dwoma ostatnimi to 1,5 pp. Długość słupków tylko wprowadza w błąd. Wartości liczbowe zostały zignorowane – jak widać to tylko detale.

Screen Shot 2017-10-24 at 21.55.04

2. 12%

Ten wykres pochodzi z benchmarku nvidia. Wygląda na to, że wzrost wydajności jest naprawdę duży (pierwszy słupek jest 3x mniejszy od ostatniego), przynajmniej dopóki nie spojrzy się na oś. Więcej podobnych ciekawych zniekształceń jest opisanych tutaj.

nvidia

3. Gdzie jest Wally?

Mapki (czyli kartogramy) są wspaniałe, wyglądają elegancko, często są kolorowe i jeszcze powodują przyjemne uczucie zrozumienia, przecież ‘łał widziałem gdzieś ten kształt – to chyba kontury Polski’.
Do pewnych analiz kartogramy się jednak zupełnie nie nadają, a jedną z nich jest porównywanie dwóch kartogramów.
Np. jak znaleźć istotne różnice na poniższych kartogramach?
Przykład pochodzi z biqdata.

Screen Shot 2017-10-23 at 15.47.11

4. Będzie lepiej!

Wykresy słupkowe to jedna z najprostszych w użyciu technik prezentacji danych. Trudno zrobić je źle, a jednak, poniższy wykres pokazuje, że się da. Prezentuje dane z lat 2016/2017 oraz prognozy. A prognozy nie dość, że są optymistyczne, to jeszcze narysowane w taki sposób…
Źródło

Screen Shot 2017-01-25 at 15.17.38

5. Jak tankować, to tylko na Śląsku

Za Forbes podajemy wykres ze średnimi cenami benzyny w różnych województwach. Gdzieś musi być drożej, a gdzieś musi być taniej, ale czy z poniższego wykresu łatwo odczytać, że maksymalna różnica cen pomiędzy województwami to 5%?

tabelka-ceny-paliw

6. Nie interesuję się

Poniższy wykres pochodzi z portalu oko.press i prezentuje odpowiedzi na pytanie które wydarzenia można uznać za najważniejsze w 2016 roku.
Jeden z nielicznych przypadków w których legenda jest 3 razy większa niż wykres, sam wykres całkowicie nieczytelny, właściwie jedyne co można odczytać to, że na pytanie ,,Które wydarzenie było najważniejsze” w poprzednim roku najczęstsza odpowiedź to ,,Nie wiem, nie interesuję się, nie zastanawiałem się”.

screen-shot-2016-12-31-at-10-12-02

7. Walec

Jak przedstawić cztery liczby by wyglądały poważnie? Dodajmy dwie kategorie, masę cyfr najlepiej nic nie wnoszących i koniecznie pokażmy dane w 3D. Gdy jeszcze zastosujemy różne agregacje dla różnych słupków oraz dwie kategorie, wtedy będziemy mogli być pewni, że z wykresu niewiele da się odczytać.

Żródło wyjaśnia związek tego wykresu ze smogiem w Wadowicach.

Screen Shot 2017-10-24 at 22.04.01

8. Ślub tylko w miesiącu z r i roku z 0

W serwisie Bankier znaleźć można taki zaskakujący wykres przedstawiający liczbę małżeństw.
Z jakichś niezwykłych powodów autor wykresu zdecydował się pomiędzy pomiarami dodać dołki aby wykres był ciekawszy.

Screen Shot 2017-02-14 at 16.38.49

9. Wrocław na tle innych miast

Na portalu wroclaw.pl znaleźć można porównanie finansów Wrocławia z pięcioma innymi dużymi miastami. Dane ciekawe, ale sposób prezentacji dziwaczny (w raporcie jest więcej takich kwiatków). Np. co można odczytać z poniższej szarlotki (podpowiedź, segmenty szarlotki NIE są posortowane po wielkości)?

Screen Shot 2017-12-28 at 01.03.31

10. Będzie impreza

Na portalu biznes.onet umieszczono portret zamożnego Polaka. Poniższy wykres pokazuje rozkład wielkości miesięcznych oszczędności. Nie przypuszczałem, że to powiem, ale: te dane znacznie lepiej byłoby pokazać na wykresie kołowym. A tutaj, skąd te kolory, skąd te wielkości?

kola

Który wykres zasługuje na tytuł ,,Zniekształcenie roku 2017''?

View Results

Loading ... Loading ...

Mapy statystyczne. Opracowanie i prezentacja danych. GUS

Dzisiaj obchodzimy Dzień Statystyki Polskiej.
I tak się złożyło, że od Macieja Beręsewicza dostałem też link do bardzo ciekawego podręcznika GUS: Mapy statystyczne. Opracowanie i prezentacja danych (więcej informacji tutaj).

Podręcznik to ponad 250 stron podzielonych na 6 głównych rozdziałów. W środku jest wiele ciekawych grafik jak i wiele przykładów poprawnych i niepoprawnych opracowań. Nie trzeba się z każdym przykładem zgadzać, ale warto każdy z nich znać. Dla kartografów to pozycja obowiązkowa ale i statystykom nie zaszkodzi.

PS: Pamiętajcie o dzisiejszych trzecich urodzinach SERa. Siłą R jest jego energiczna i rozbudowana społeczność użytkowników i developerów. Dzisiaj świętujemy.

Sprawozdania krajowe Komisji Europejskiej

Marcin Grynberg zwrócił moją uwagę na niedawno opublikowane sprawozdania krajowe Komisji Europejskiej poświęcone (między innymi) sytuacji ekonomicznej krajów członkowskich. Sprawozdanie poświęcone Polsce jest dostępne tutaj.
Nieduże (niecałe 50 stron plus załączniki) ale konkretne i ciekawe.
Przykładowo, można w nim znaleźć informacje dotyczące konsekwencji reformy emerytalnej i jej wpływu na wysokość emerytury (polecam wykres 3.3.2) czy prognozy co do wysokości długu publicznego (polecam wykres 3.1.2).
Poniżej odniosę się do trzech innych wątków poruszanych w tym sprawozdaniu. Tematów związanych z nauką, badaniami i edukacją.


Po prawej wykres prezentujący wydatki publiczne na R&D (czy z polska BiR) zestawione z ilością wysoko cytowanych publikacji. Pozycja Polski w tym zestawieniu jest zaznaczona czerwoną kropką.
Komentarz nie jest chyba potrzebny, ograniczę się jedynie do cytatu ze sprawozdania: ‘Niewielki stopień komercjalizacji wyników badań naukowych oraz słabe powiązania między sektorem nauki i sektorem biznesu ograniczają zdolność innowacyjną gospodarki.’





Kolejny wykres, który zwrócił moją uwagę dotyczy liczby uczniów rozpoczynających naukę w 1 klasie szkoły średniej (wykres po lewej).
W 2019 roku ma to być ponad 350 tys. uczniów a w 2024 roku poniżej 100 tys uczniów.
Ponad 4x mniej.
Później te fale uderzą o wrota uczelni wyższych.
Konsekwencja szybkich reform poprzedniego rządu (między innymi dwa lata na przejście z wiekiem rozpoczęcia szkoły podstawowej na 6 lat) i galopujących reform obecnego (1 rok na przejście ze startem podstawówki na 7 lat).
Cytat z raportu: Reforma systemu szkolnictwa od września 2017 r. budzi szereg obaw wśród zainteresowanych podmiotów.


Niektóre wskaźniki wglądają dobrze. Bezrobocie nadal spada, płace średnie (powoli) rosną.
Cytat: Przewiduje się, że spodziewane niekorzystne zmiany na rynku pracy spowodują szybszy wzrost płac i potencjalnie niedobór pracowników.
Cytat: Po kilku latach silnego wzrostu dochodów nierówności zmniejszyły się i ich poziom jest obecnie niższy od średniej unijnej.




Uważam, że jednym z największych wyzwań jest demografia. Więc i to zestawienie wykresów kończę rysunkiem związanym z prognozami demograficznymi. Zgodnie z prognozą zakładającą zerową migrację w ciągu 35 lat liczba osób w wieku produkcyjnym zmniejszy się o 19%. A czy produktywność i innowacyjność przyszłych pracowników zwiększy się wystarczająco by zrekompensować mniejsza liczbę rąk do pracy?



Całe sprawozdanie można pobrać i w języku angielskim i polskim.

Najgorszy wykres 2017 roku

Zbliża się Sylwester, czas więc wybrać najgorszą prezentację danych opublikowaną w roku 2017.
Konkurs na najgorszą wizualizację przeprowadzamy co roku od 2012 (edycja 2016, edycja 2015, edycja 2014, edycja 2013, edycja 2012). W tym roku było wiele ciekawych zgłoszeń przesłanych przez facebook, emailem, od studentów przedmiotu Techniki Wizualizacji Danych. Ze zgłoszeń wybrałem 10 niezwykłych wykresów, mogących moim zdaniem śmiało rywalizować o tytuł najgorszego wykresu ever.

Zasada plebiscytu jest prosta. Do końca roku można wskazywać swoje typy na najgorszy wykres, głosując za pomocą ankiety umieszczonej na końcu tego wpisu (w jednym dniu można głosować tylko raz. Jednocześnie można wskazać do 5 kandydatów). Po nowym roku zobaczymy, który wykres otrzymał najwięcej głosów. To on otrzyma tytuł “Zniekształcenie roku 2017″. Aby ułatwić głosowanie, każdy kandydat ma skrótową wpadającą w ucho nazwę.

1. Detale są bez znaczenia

Ten wykres pochodzi z tvn24. Za pomocą słupków przedstawiono nakłady na zdrowie jako % PKB. Co jednak ciekawe, długość słupków wcale nie jest proporcjonalna do prezentowanych liczb. Słupki systematycznie sobie rosną zaznaczając wyłącznie kolejność. Wartość zakodowana przez pierwszy słupek różni się od wartości zakodowanej przez czwarty tylko o 1,2 pp. Różnica pomiędzy dwoma ostatnimi to 1,5 pp. Długość słupków tylko wprowadza w błąd. Wartości liczbowe zostały zignorowane – jak widać to tylko detale.

Screen Shot 2017-10-24 at 21.55.04

2. 12%

Ten wykres pochodzi z benchmarku nvidia. Wygląda na to, że wzrost wydajności jest naprawdę duży (pierwszy słupek jest 3x mniejszy od ostatniego), przynajmniej dopóki nie spojrzy się na oś. Więcej podobnych ciekawych zniekształceń jest opisanych tutaj.

nvidia

3. Gdzie jest Wally?

Mapki (czyli kartogramy) są wspaniałe, wyglądają elegancko, często są kolorowe i jeszcze powodują przyjemne uczucie zrozumienia, przecież ‘łał widziałem gdzieś ten kształt – to chyba kontury Polski’.
Do pewnych analiz kartogramy się jednak zupełnie nie nadają, a jedną z nich jest porównywanie dwóch kartogramów.
Np. jak znaleźć istotne różnice na poniższych kartogramach?
Przykład pochodzi z biqdata.

Screen Shot 2017-10-23 at 15.47.11

4. Będzie lepiej!

Wykresy słupkowe to jedna z najprostszych w użyciu technik prezentacji danych. Trudno zrobić je źle, a jednak, poniższy wykres pokazuje, że się da. Prezentuje dane z lat 2016/2017 oraz prognozy. A prognozy nie dość, że są optymistyczne, to jeszcze narysowane w taki sposób…
Źródło

Screen Shot 2017-01-25 at 15.17.38

5. Jak tankować, to tylko na Śląsku

Za Forbes podajemy wykres ze średnimi cenami benzyny w różnych województwach. Gdzieś musi być drożej, a gdzieś musi być taniej, ale czy z poniższego wykresu łatwo odczytać, że maksymalna różnica cen pomiędzy województwami to 5%?

tabelka-ceny-paliw

6. Nie interesuję się

Poniższy wykres pochodzi z portalu oko.press i prezentuje odpowiedzi na pytanie które wydarzenia można uznać za najważniejsze w 2016 roku.
Jeden z nielicznych przypadków w których legenda jest 3 razy większa niż wykres, sam wykres całkowicie nieczytelny, właściwie jedyne co można odczytać to, że na pytanie ,,Które wydarzenie było najważniejsze” w poprzednim roku najczęstsza odpowiedź to ,,Nie wiem, nie interesuję się, nie zastanawiałem się”.

screen-shot-2016-12-31-at-10-12-02

7. Walec

Jak przedstawić cztery liczby by wyglądały poważnie? Dodajmy dwie kategorie, masę cyfr najlepiej nic nie wnoszących i koniecznie pokażmy dane w 3D. Gdy jeszcze zastosujemy różne agregacje dla różnych słupków oraz dwie kategorie, wtedy będziemy mogli być pewni, że z wykresu niewiele da się odczytać.

Żródło wyjaśnia związek tego wykresu ze smogiem w Wadowicach.

Screen Shot 2017-10-24 at 22.04.01

8. Ślub tylko w miesiącu z r i roku z 0

W serwisie Bankier znaleźć można taki zaskakujący wykres przedstawiający liczbę małżeństw.
Z jakichś niezwykłych powodów autor wykresu zdecydował się pomiędzy pomiarami dodać dołki aby wykres był ciekawszy.

Screen Shot 2017-02-14 at 16.38.49

9. Wrocław na tle innych miast

Na portalu wroclaw.pl znaleźć można porównanie finansów Wrocławia z pięcioma innymi dużymi miastami. Dane ciekawe, ale sposób prezentacji dziwaczny (w raporcie jest więcej takich kwiatków). Np. co można odczytać z poniższej szarlotki (podpowiedź, segmenty szarlotki NIE są posortowane po wielkości)?

Screen Shot 2017-12-28 at 01.03.31

10. Będzie impreza

Na portalu biznes.onet umieszczono portret zamożnego Polaka. Poniższy wykres pokazuje rozkład wielkości miesięcznych oszczędności. Nie przypuszczałem, że to powiem, ale: te dane znacznie lepiej byłoby pokazać na wykresie kołowym. A tutaj, skąd te kolory, skąd te wielkości?

kola

Który wykres zasługuje na tytuł ,,Zniekształcenie roku 2017''?

View Results

Loading ... Loading ...

Jutro SER a dzisiaj trendy na rynku pracy dla Data Scientistów

Jutro o godzinie 18 na MiNI (Koszykowa 75, Warszawa) zaczynamy 18. (o matko, już osiemnastka!) Spotkania Entuzjastów R. Będzie i o programowaniu z Rcpp i o analizie danych. Można zarejestrować się tutaj.
Zapraszamy!

Współorganizatorka SERów, Olga Mierzwa, miała wczoraj prezentację o rynku pracy dla Data Scientistów. Poniżej kilka zdań od Olgi.

Screen Shot 2016-05-18 at 18.56.29


Olga Mierzwa

Wczoraj odbyło się 15 spotkanie Data Science Warsaw, podczas którego miałam przyjemność opowiadać o trendach na rynku pracy data science na podstawie doświadczeń z współprowadzenia datahero.tech. Na meetup przyszło ok. 80 osób, a oprócz mnie o komunikowaniu danych opowiadali Piotr Arak z Polityka Insight i Vadim Makarenko z BiqData.
Prezentacja “Trendy rynku pracy Data Science” przedstawiała sytuację na rynku pracy w Polsce w oparciu o analizy pracuj.pl i datahero.tech. Pokazała przykładowe informacje jakie można wyciągnąć analizując GitHuba, Stackoverflow oraz Upwork.

Czy jesteś ciekaw jakie funkcje i pakiety R wykorzystują polscy użytkownicy GitHuba?
O co najczęściej pytają użytkownicy na Stackoverflow pracując w R i Pythonie? A co jest już passé?
A może ile zarabia Data Science Freelancer w Polsce czy na świecie?

Prezentacja dostępna jest pod linkiem: http://slides.com/olgamierzwa/deck-1.

Podziękowania dla Grupy MI2 za udostępnienie analiz pracuj.pl.

78% statystyk jest zmyślonych

Czy zastanawialiście się ile ze statystyk o których się słyszy/o których się czyta, jest wyssanych z palca?

Zapytałem googla ,,how much statistics are made up”. Skrupulatnie zebrałem wyniki z pierwszych 13 stron, między innymi businessinsider, uncyclopedia czy answers.

Wyniki oczywiście wczytałem do programu statystycznego R w wersji 3.2.4 i wykonałem wykres w ggplot2, wersja 2.1.

Interesujące! Ponad połowa odwiedzonych serwisów zawiera informacje, że więcej niż 78% statystyk jest zmyślonych.

Aby upewnić się, że nie jest to przypadek zrobiłem test Kołomogorowa Smirnowa badający zgodność z rozkładem jednostajnym i wyszło…..

p-wartość 0.012!!!

Czyli istotnie statystycznie!
(i nie pytajcie co, przecież jest istotne statystycznie!)

Gdyby ktoś chciał odtworzyć te wyniki, to zebrane dane: c(0.74, 0.85, 0.24, 0.43, 0.98, 1, 0.4, 0.8, 0.97, 0.73, 0.95, 0.79, 0.43, 0.64, 0.83).

Klasyfikacja i regresja z pakietem caret – ściągawka

Pakiet caret (akronim od Classification And REgression Training) to świetne narzędzie do budowy modeli, testowania, wyboru zmiennych i innych zadań często wykonywanych do analizy danych.

W ramach zaliczenia przedmiotu Data Mining dwie osoby przygotowały dwie ściągawki z funkcjonalności tego pakietu. Obie poniżej. Wersje pdf można pobrać po kliknięciu.

Dwustronicowe opracowanie przygotowane przez Neven Piculjan.

I jednostronicowe streszczenie przygotowane przez Ziad Al Bkhetan.

Graficzna prezentacja danych statystycznych – wykresy z opracowania GUS

Screen Shot 2016-01-05 at 00.48.12
TL;DR
1. GUS opracował na licencji CC raport ,,Graficzna prezentacja danych statystycznych”.
2. Jest tam kilka ciekawych grafik.


GUS w ramach współpracy z Gruzją przygotował opracowanie ,,Graficzna prezentacja danych statystycznych” dostępne na tej stronie (raport jest na licencji CC-BY!).

Opracowanie opisane jest jako: podręcznik dobrych praktyk w zakresie udostępniania danych statystycznych, w którym omówiono sposoby graficznej prezentacji danych, ze szczególnym uwzględnieniem map statystycznych oraz analizowania i wizualizowania danych regionalnych za pomocą geograficznych systemów informacji.

W opracowaniu jest dużo ciekawych uwag, wskazówek i komentarzy, warto go przeczytać. Pomimo 177 stron czyta go się bardzo szybko, większość treści to wykresy. Nacisk położony jest na kartogramy i kartodiagramy, można się o nich wiele dowiedzieć. O grafice statystycznej jest tylko kilka stron.

Dziś na blogu kilka wykresów z tego raportu. Wybrałem te, które najbardziej przypadły mi go gustu.

Czytaj dalej Graficzna prezentacja danych statystycznych – wykresy z opracowania GUS

Międzynarodowe Standardy Komunikacji Biznesowej – The International Business Communication Standards

Screen Shot 2016-01-05 at 02.31.49
TL;DR
1. Konsorcjum IBCS-A pracuje nad zbiorem standardów The International Business Communication Standards
2. Standardy są otwarte i dostępne na licencji CC na stronie http://www.ibcs-a.org/standards
3. Świetny zbiór konkretnych wskazówek do stosowania w komunikacji biznesowej i nie tylko.

Czytaj dalej Międzynarodowe Standardy Komunikacji Biznesowej – The International Business Communication Standards