Czy jesteś hakeRem danych?

IMG_20151113_140015 (1)
Przygotowałem gRę inspirowaną opowiadaniem Pieczara Pietraszki. Gracz wczuwa się w Bita, który szuka hasła Pietraszki na serwerze Proton (aby później …, co jest dalej, przeczytać można w opowiadaniu).
Aby zdobyć hasło trzeba rozwiązać cztery zagadki oparte o analizę danych.
Poziom zagadek określiłbym jako niebanalny ;-). Nawet dla osób, które już sporo programują.

Aby zagrać w tę gRę należy wykonać dwa kroki.
1. Zainstalować pakiet proton w R.

Czytaj dalej Czy jesteś hakeRem danych?

Międzynarodowy Konkurs Umiejętności Statystycznych

W tym roku miałem przyjemność zasiadać w komitecie naukowym polskiej edycji Międzynarodowego Konkursu Umiejętności Statystycznych.

Celem konkursu jest rozwijanie umiejętności uczniów w opisywaniu ich środowiska za pomocą statystyk oraz używanie statystyk jako narzędzia do uczenia się o ich codziennym życiu. Konkurs organizowany jest w kategorii gimnazjum i szkoły ponadgimnazjalne. Więcej o konkursie przeczytać można na tej stronie.

Za zgodą organizatorów umieszczam link do zwycięskich prac (uwaga 15MB), a poniżej przedstawiam laureatów w obu kategoriach, oraz nagrodzone prace. Niesamowite, że zostały one wykonane przez gimnazjalistów i licealistów. Warsztat i słownictwo jeszcze będzie dojrzewało, ale dociekliwość, przygotowanie zbieranych danych i sposób wnioskowania robi wrażenie.

Czytaj dalej Międzynarodowy Konkurs Umiejętności Statystycznych

Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych (2015)

W tym roku, podobnie jak i w poprzednim, Fundacja SmarterPoland.pl wspiera rzeczowo i duchowo inicjatywę z Politechniki Wrocławskiej:
V Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych (NOMAD).

W związku z tym kilka zdań od organizatorów tych mistrzostw.

Czytaj dalej Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych (2015)

Konkurs na najmniej udany wykres 2014 roku

Rok temu, w grudniu, organizowaliśmy konkurs na wykres przekłamujący dane. Podobny konkurs organizowaliśmy dwa lata temu. W tym roku nieco zmieniliśmy formułę. Zamiast szukać przekłamań, tropimy błędy, które utrudniają odczytanie informacji z wykresów. Każdemu może przydarzyć się nieczytelny wykres, ale te wykresy pochodzą z miejsc, gdzie błądzenie powinno być rzadsze, czyli z raportów ministerstw i poważniejszych mediów.

W szrankach stanie więcej wykresów niż w poprzednich edycjach konkursu. Wiele z nich nadesłanych zostało przez czytelników (za co bardzo dziękuję). Znaleziska z poprzednich lat wypełniły esej ,,info-pomyłka” ze zbioru esejów o wizualizacji, zwycięzcy tego głosowania trafią do kolejnej wersji eseju.

Ponieważ statystycy zajmujący się wizualizacją danych praktycznie jednym głosem krytykują wykresy kołowe, prezentację kandydatów zaczniemy właśnie od nich.

Czytaj dalej Konkurs na najmniej udany wykres 2014 roku

Międzynarodowy Konkurs Umiejętności Statystycznych

ISPL

Od jakiegoś czasu interesuję się wczesną edukacją w obszarze analizy danych (o czym mam nadzieję, niedługo napiszę więcej). Niedawno natrafiłem na bardzo ciekawą inicjatywę dla szkół gimnazjalnych i ponadgimnazjalnych, mianowicie na Międzynarodowy Konkurs Umiejętności Statystycznych.

Krajowy koordynator tego konkursu, pani Katarzyna Logwiniuk, przygotowała specjalnie dla nas krótki opis tego konkursu.


Czytaj dalej Międzynarodowy Konkurs Umiejętności Statystycznych

Co zabija Polaków? Odpowiedz i wygraj książkę o wizualizacji danych!

Za dwa dni odkrywamy Esej o percepcji danych. Z tej okazji mamy mały konkurs. Tym razem stawka jest wyższa, można wygrać papierową wersję Esejów o wizualizacji danych.

Aby wziąć udział w konkursie, należy odpowiedzieć na poniższe pytanie.
Reguły:
1. W losowaniu biorą udział wszystkie odpowiedzi, nie tylko poprawne! Proszę więc nie szperać po rocznikach statystycznych ale odpowiedzieć zgodnie z przekonaniami / wyobrażeniami.
2. Jedna osoba może wziąć udział tylko raz w tej zabawie.
3. Liczą się tylko głosy oddane dziś i jutro (19-20 sierpnia).
4. Spośród odpowiedzi wylosuję jedną osobę, która otrzyma papierowe wydanie Esejów.

Skąd to pytanie i jaka jest odpowiedz?
Odpowiedź znajdziecie w czwartym eseju i czwartkowym wpisie. Interesują mnie częstości intuicyjnych odpowiedzi na poszczególne pytania. Dlatego odpowiadajcie zgodnie z intuicją. W losowaniu biorą udział wszystkie odpowiedzi, nie tylko poprawne.

Powodzenia w losowaniu. Książka czeka.

[Jeżeli powyższy formularz się nie wyświetla, proszę wysłać odpowiedź przez tę stronę]

IV Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych

Miło nam poinformować, że Fundacja SmarterPoland.pl została w tym roku sponsorem IV Niezależnych Ogólnopolskich Mistrzostw w Analizie Danych (w skrócie NOMAD)! Przedsięwzięcie to, chociaż stosunkowo młode, gromadzi studentów zainteresowanych praktycznym wykorzystaniem statystyki w ciekawych zadaniach, oraz naprawdę duże grono licealistów, którzy traktują kombinatorykę jako coś więcej jak niepotrzebny dział edukacji. NOMAD, czyli jedyne tego rodzaju zawody statystyczne, opiera się na formule ACM ICPC, i pozwala na pisanie odpowiedzi na zadania w wybranym języku: C/C++, Python, Mono Basic, Pascal, Octave a co chyba najciekawsze, w R i SAS Analytics Pro.

Czytaj dalej IV Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych

Ile kosztuje człowiek? Co widać w danych o edukacji? czyli o tysiącach dolarów i euro do wygrania.

W czasach, gdy posiadanie dużych danych staje się coraz prostsze i tańsze, rośnie zapotrzebowanie na wyłuskiwanie z tych danych interesujących zależności i czytelne prezentacje zależności opisywanych przez dane.

Dziś będzie o dwóch konkursach, w których mając pomysł na wizualizacje można wygrać niemałe pieniądze.

Na potrzeby okładki przyszłej książki ,,Knowledge is Beautiful” uruchomiono konkurs na wizualizacje danych przedstawiających cenę życia człowieka w różnych epokach. W zależności od płci, wieku, umiejętności, miejsca czy epoki cena waha się od niecałych 100$ do 100 000$.
Jak znaleźć w tych danych historię i ją pokazać?
Więcej informacji tutaj: http://www.informationisbeautifulawards.com/challenge/.
Trzy kategorie, w sumie można wygrać ponad 3 000 USD.
Nie trzeba być projektantem, jest też konkurs na sam pomysł (napkin category).

Drugi konkurs będzie oficjalnie ogłoszony za miesiąc, ale może kogoś zainteresują wstępne informacje.
OECD ogłosi konkurs na wizualizacje danych PISA 2012 z użyciem programu R.
Zwycięzca wyłoniony będzie podczas konferencji useR 2014 (w tym roku Kalifornia).
Będą dwie kategorie (nagroda publiczności i ekspertów), do wygrania 1000 Euro.
Konkurs będzie polegał na wizualnej prezentacji odpowiedzi na pytania badawcze, lista pytań pytań pojawi się wkrótce, ale można już ćwiczyć zabawę z danymi, do pobrania https://github.com/pbiecek/PISA2012lite.

Konkurs na najgorszą prezentację danych w roku 2013

Rok temu przeprowadziliśmy konkurs na najgorszą prezentację danych roku 2012. Kandydatów było ośmiu a wybór był trudny. Przewagą kilku głosów wygrał bardzo dziwny wykres paskowy. O konkursie i wynikach przeczytać można tutaj ,,Konkurs na najgorszą prezentacje danych z roku 2013”.

Czas powtórzyć ten konkurs na zbiorze wykresów z roku 2013. Do wyboru jest osiem wykresów przedstawionych poniżej. Dla każdego kandydata dodałem krótki opis i odnośnik do dłuższego opisu. Na dole strony znajduje się sonda do której gorąco zapraszam. Można oddać jeden głos, ale można w nim wskazać kilka odpowiedzi. Podobnie jak w ubiegłym roku, autor zwycięskiego wykresu (o ile uda się go zidentyfikować) otrzyma książkę o wizualizacji danych i tytuł twórcy najgorszej wizualizacji 2013.

W tegorocznym zestawieniu ponad połowa wykresów została opracowana przez ministerstwa. Paradoksalnie, odczytuję to jako pozytywny sygnał. Dobrze, że rządzący chcą w czytelny sposób i w oparciu o liczby komunikować co się dzieje. Z czasem mam nadzieję, że będą to robić coraz lepiej (bo teraz robią to źle).

Kandydat nr 1. Piramida finansowa (Ministerstwo Finansów)

Piramida przedstawiająca propozycje finansowe PiS, ale wykonana przez Ministerstwo Finansów kierowane przez PO. Pomijając sposób wyznaczania liczb, problem z tym wykresem polega na tym, że proporcje na nim przedstawione nie odpowiadają proporcjom prezentowanym liczb (plus punkt w konkursie za sugestywny dobór kształtu i kolorów). Wykres szerzej opisany w tym wpisie.

Kandydat nr 2. Ile można zarobić w ZUS (Ministerstwo Pracy)

Oczywiście w ZUS zarabiają tylko pracownicy ZUS, oczekiwanie na waloryzacje składek to nie zarabianie. Więc za poczucie humoru widoczne w tytule, tej grafice, opracowanej przez Ministerstwo Pracy, należą się dodatkowe punkty.
A techniczny problem z tym wykresem polega na nieodpowiednich proporcjach długości słupków do przedstawianych liczb. Temat szerzej opisany w tym wpisie.

Kandydat nr 3. Wydatki na badania i rozwój (Ministerstwo Nauki)

Jak pokazać duże wzrosty? Zsumować dane z kilku lat. Poniższy wpis pokazuje, że prognozowane wydatki na badania i rozwój w latach 2013-2016 będą wyższe niż te w roku 2012. Szkoda tylko, że po podzieleniu prognoz przez liczbę lat okazuje się, że lepiej to już było.
Szerzej opisany w tym wpisie.

Kandydat nr 4. Najbardziej aktywni (Ministerstwo Nauki)

Ten wykres pokazuje dwa współczynniki. Względem ,,liczba zgłoszonych wniosków” jesteśmy na pozycji 15 na 27 państw, względem ,,współczynnik sukcesu” na pozycji 21 na 27 państw. Nie przeszkadza to autorowi w oznaczeniu nas jako ,,najbardziej aktywnych”. Ciekawe jak autor nazwie kraje z końca listy, ,,średnio/bardzo aktywne”? Szerzej opisany w tym wpisie.

Kandydat nr 5. Mamy więcej, ale o ile więcej? (Kancelaria Prezesa Rady Ministrów)

Ponownie problem z wykresami paskowymi na skali bez zera. Dobierając różne zakresy wartości na osiach uniemożliwiono porównanie w jakich obszarach zyskamy więcej a w jakich mniej.
Szerzej opisany w tym wpisie.

Kandydat nr 6. Ile zyskamy w OFE (Gazeta.pl)

Prawy wykres ma inną skalę niż środkowy. Na prawym jedna kratka to 10% a na środkowym 5%. W tej perspektywnie 15% zysk z OFE wygląda jak 6,9% zysk z ZUS.
Temat szerzej opisany w tym wpisie.

Kandydat nr 7. Wykresy paskowe, ciąg dalszy (IIBR)

Jak czytać poniższe wykresy paskowe? Dlaczego one wszystkie mają tą samą szerokość? Dlatego, że zmienia się wysokość pudełek. Gdyby jeszcze trochę bardziej ścisnąć te pudełka to zupełnie nic nie dałoby się odczytać z tego wykresu.

Kandydat nr 8. Robisz to źle, reklama (Ergo Hestia)

I coś z branży reklamowej, imho jedna z gorszych reklam opartych o liczby jaką widziałem. Pomijam już to, że wykresy paskowe są w pseudo-trzech wymiarach, że oś pozioma jest niewłaściwa i że brakuje zera.
Tutaj jest problem z pomysłem. Zamiast pokazywać, że klienci się najmniej skarżą lepiej by było pokazać, że są najbardziej zadowoleni[dlaczego skreślone? patrz dyskusja poniżej] Zamiast pokazywać słupki o długości związanej z ze wskaźnikiem skarg lepiej zaproponować kreatywny sposób przedstawienia w pozytywnym świetle małej liczby skarg (komunikat dłuższy pasek = lepiej jest łatwiejszy i działa szybciej niż odczytanie że w tym przypadku jest odwrotnie). Nawet słupki odpowiadające 100-wskaźnik skarg wyglądałyby lepiej, ale z pewnością da się to przedstawić lepiej niż słupkami.

Które z tych grafik zasługują na miano najgorszej prezentacji danych 2013?

Wybierz najgorszą wizualizację danych w roku 2013

View Results

Loading ... Loading ...

Wyniki konkursu na najgorszą wizualizację danych 2012 i pierwszy kandydat do edycji 2013

Czas zakończyć konkurs na najgorszą wizualizację z roku 2012. Wyniki ankiety internetowej poniżej. Najwięcej głosów zebrał wykres z raportu ,,email marketing”. Przedstawicielowi firmy GetResponse (która opracowała ten raport) wysyłam jako nagrodę dyplom i książkę Edwarda Tuftego ,,The Visual Display of Quantitative Information”.

Moimi faworytami były wykresy z raportów opracowanych przez ministerstwa lub GUS, od tych instytucji chciałoby się oczekiwać więcej niż od zwykłych firm. No nic, w tym roku nie wygrały, zobaczymy co będzie za rok.

W każdym razie wszystkim nominowanym gratuluję a głosującym bardzo dziękuję.

Mam nadzieję, że w roku 2013 uda nam się znaleźć równie ciekawe grafiki.
Jedną taką już dostałem od Piotra S. Grafika pochodzi z wersji papierowej gazety, ale w wersji elektronicznej dostępna jest tu.
Problemy z osiami?
Nie należy porównywać długości słupków dla zysków ZUS i OFE, ponieważ prawy wykres ma 2,5 razy węższą oś poziomą (przez co częsty 14% zysk wygląda słabo w porównaniu do 12% z ZUS).
Z jakiegoś powodu uznano, że nie warto wyrównać słupków w wierszach i tak po lewej stronie mamy trzynaście słupków (lata 2000-2012) a po prawej na tej samej przestrzeni dwanaście słupków (lata 2000-2011).