Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych (2015)

W tym roku, podobnie jak i w poprzednim, Fundacja SmarterPoland.pl wspiera rzeczowo i duchowo inicjatywę z Politechniki Wrocławskiej:
V Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych (NOMAD).

W związku z tym kilka zdań od organizatorów tych mistrzostw.

Czytaj dalej Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych (2015)

Konkurs na najmniej udany wykres 2014 roku

Rok temu, w grudniu, organizowaliśmy konkurs na wykres przekłamujący dane. Podobny konkurs organizowaliśmy dwa lata temu. W tym roku nieco zmieniliśmy formułę. Zamiast szukać przekłamań, tropimy błędy, które utrudniają odczytanie informacji z wykresów. Każdemu może przydarzyć się nieczytelny wykres, ale te wykresy pochodzą z miejsc, gdzie błądzenie powinno być rzadsze, czyli z raportów ministerstw i poważniejszych mediów.

W szrankach stanie więcej wykresów niż w poprzednich edycjach konkursu. Wiele z nich nadesłanych zostało przez czytelników (za co bardzo dziękuję). Znaleziska z poprzednich lat wypełniły esej ,,info-pomyłka” ze zbioru esejów o wizualizacji, zwycięzcy tego głosowania trafią do kolejnej wersji eseju.

Ponieważ statystycy zajmujący się wizualizacją danych praktycznie jednym głosem krytykują wykresy kołowe, prezentację kandydatów zaczniemy właśnie od nich.

Czytaj dalej Konkurs na najmniej udany wykres 2014 roku

Międzynarodowy Konkurs Umiejętności Statystycznych

ISPL

Od jakiegoś czasu interesuję się wczesną edukacją w obszarze analizy danych (o czym mam nadzieję, niedługo napiszę więcej). Niedawno natrafiłem na bardzo ciekawą inicjatywę dla szkół gimnazjalnych i ponadgimnazjalnych, mianowicie na Międzynarodowy Konkurs Umiejętności Statystycznych.

Krajowy koordynator tego konkursu, pani Katarzyna Logwiniuk, przygotowała specjalnie dla nas krótki opis tego konkursu.


Czytaj dalej Międzynarodowy Konkurs Umiejętności Statystycznych

Co zabija Polaków? Odpowiedz i wygraj książkę o wizualizacji danych!

Za dwa dni odkrywamy Esej o percepcji danych. Z tej okazji mamy mały konkurs. Tym razem stawka jest wyższa, można wygrać papierową wersję Esejów o wizualizacji danych.

Aby wziąć udział w konkursie, należy odpowiedzieć na poniższe pytanie.
Reguły:
1. W losowaniu biorą udział wszystkie odpowiedzi, nie tylko poprawne! Proszę więc nie szperać po rocznikach statystycznych ale odpowiedzieć zgodnie z przekonaniami / wyobrażeniami.
2. Jedna osoba może wziąć udział tylko raz w tej zabawie.
3. Liczą się tylko głosy oddane dziś i jutro (19-20 sierpnia).
4. Spośród odpowiedzi wylosuję jedną osobę, która otrzyma papierowe wydanie Esejów.

Skąd to pytanie i jaka jest odpowiedz?
Odpowiedź znajdziecie w czwartym eseju i czwartkowym wpisie. Interesują mnie częstości intuicyjnych odpowiedzi na poszczególne pytania. Dlatego odpowiadajcie zgodnie z intuicją. W losowaniu biorą udział wszystkie odpowiedzi, nie tylko poprawne.

Powodzenia w losowaniu. Książka czeka.

[Jeżeli powyższy formularz się nie wyświetla, proszę wysłać odpowiedź przez tę stronę]

IV Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych

Miło nam poinformować, że Fundacja SmarterPoland.pl została w tym roku sponsorem IV Niezależnych Ogólnopolskich Mistrzostw w Analizie Danych (w skrócie NOMAD)! Przedsięwzięcie to, chociaż stosunkowo młode, gromadzi studentów zainteresowanych praktycznym wykorzystaniem statystyki w ciekawych zadaniach, oraz naprawdę duże grono licealistów, którzy traktują kombinatorykę jako coś więcej jak niepotrzebny dział edukacji. NOMAD, czyli jedyne tego rodzaju zawody statystyczne, opiera się na formule ACM ICPC, i pozwala na pisanie odpowiedzi na zadania w wybranym języku: C/C++, Python, Mono Basic, Pascal, Octave a co chyba najciekawsze, w R i SAS Analytics Pro.

Czytaj dalej IV Niezależne Ogólnopolskie Mistrzostwa w Analizie Danych

Ile kosztuje człowiek? Co widać w danych o edukacji? czyli o tysiącach dolarów i euro do wygrania.

W czasach, gdy posiadanie dużych danych staje się coraz prostsze i tańsze, rośnie zapotrzebowanie na wyłuskiwanie z tych danych interesujących zależności i czytelne prezentacje zależności opisywanych przez dane.

Dziś będzie o dwóch konkursach, w których mając pomysł na wizualizacje można wygrać niemałe pieniądze.

Na potrzeby okładki przyszłej książki ,,Knowledge is Beautiful” uruchomiono konkurs na wizualizacje danych przedstawiających cenę życia człowieka w różnych epokach. W zależności od płci, wieku, umiejętności, miejsca czy epoki cena waha się od niecałych 100$ do 100 000$.
Jak znaleźć w tych danych historię i ją pokazać?
Więcej informacji tutaj: http://www.informationisbeautifulawards.com/challenge/.
Trzy kategorie, w sumie można wygrać ponad 3 000 USD.
Nie trzeba być projektantem, jest też konkurs na sam pomysł (napkin category).

Drugi konkurs będzie oficjalnie ogłoszony za miesiąc, ale może kogoś zainteresują wstępne informacje.
OECD ogłosi konkurs na wizualizacje danych PISA 2012 z użyciem programu R.
Zwycięzca wyłoniony będzie podczas konferencji useR 2014 (w tym roku Kalifornia).
Będą dwie kategorie (nagroda publiczności i ekspertów), do wygrania 1000 Euro.
Konkurs będzie polegał na wizualnej prezentacji odpowiedzi na pytania badawcze, lista pytań pytań pojawi się wkrótce, ale można już ćwiczyć zabawę z danymi, do pobrania https://github.com/pbiecek/PISA2012lite.

Konkurs na najgorszą prezentację danych w roku 2013

Rok temu przeprowadziliśmy konkurs na najgorszą prezentację danych roku 2012. Kandydatów było ośmiu a wybór był trudny. Przewagą kilku głosów wygrał bardzo dziwny wykres paskowy. O konkursie i wynikach przeczytać można tutaj ,,Konkurs na najgorszą prezentacje danych z roku 2013”.

Czas powtórzyć ten konkurs na zbiorze wykresów z roku 2013. Do wyboru jest osiem wykresów przedstawionych poniżej. Dla każdego kandydata dodałem krótki opis i odnośnik do dłuższego opisu. Na dole strony znajduje się sonda do której gorąco zapraszam. Można oddać jeden głos, ale można w nim wskazać kilka odpowiedzi. Podobnie jak w ubiegłym roku, autor zwycięskiego wykresu (o ile uda się go zidentyfikować) otrzyma książkę o wizualizacji danych i tytuł twórcy najgorszej wizualizacji 2013.

W tegorocznym zestawieniu ponad połowa wykresów została opracowana przez ministerstwa. Paradoksalnie, odczytuję to jako pozytywny sygnał. Dobrze, że rządzący chcą w czytelny sposób i w oparciu o liczby komunikować co się dzieje. Z czasem mam nadzieję, że będą to robić coraz lepiej (bo teraz robią to źle).

Kandydat nr 1. Piramida finansowa (Ministerstwo Finansów)

Piramida przedstawiająca propozycje finansowe PiS, ale wykonana przez Ministerstwo Finansów kierowane przez PO. Pomijając sposób wyznaczania liczb, problem z tym wykresem polega na tym, że proporcje na nim przedstawione nie odpowiadają proporcjom prezentowanym liczb (plus punkt w konkursie za sugestywny dobór kształtu i kolorów). Wykres szerzej opisany w tym wpisie.

Kandydat nr 2. Ile można zarobić w ZUS (Ministerstwo Pracy)

Oczywiście w ZUS zarabiają tylko pracownicy ZUS, oczekiwanie na waloryzacje składek to nie zarabianie. Więc za poczucie humoru widoczne w tytule, tej grafice, opracowanej przez Ministerstwo Pracy, należą się dodatkowe punkty.
A techniczny problem z tym wykresem polega na nieodpowiednich proporcjach długości słupków do przedstawianych liczb. Temat szerzej opisany w tym wpisie.

Kandydat nr 3. Wydatki na badania i rozwój (Ministerstwo Nauki)

Jak pokazać duże wzrosty? Zsumować dane z kilku lat. Poniższy wpis pokazuje, że prognozowane wydatki na badania i rozwój w latach 2013-2016 będą wyższe niż te w roku 2012. Szkoda tylko, że po podzieleniu prognoz przez liczbę lat okazuje się, że lepiej to już było.
Szerzej opisany w tym wpisie.

Kandydat nr 4. Najbardziej aktywni (Ministerstwo Nauki)

Ten wykres pokazuje dwa współczynniki. Względem ,,liczba zgłoszonych wniosków” jesteśmy na pozycji 15 na 27 państw, względem ,,współczynnik sukcesu” na pozycji 21 na 27 państw. Nie przeszkadza to autorowi w oznaczeniu nas jako ,,najbardziej aktywnych”. Ciekawe jak autor nazwie kraje z końca listy, ,,średnio/bardzo aktywne”? Szerzej opisany w tym wpisie.

Kandydat nr 5. Mamy więcej, ale o ile więcej? (Kancelaria Prezesa Rady Ministrów)

Ponownie problem z wykresami paskowymi na skali bez zera. Dobierając różne zakresy wartości na osiach uniemożliwiono porównanie w jakich obszarach zyskamy więcej a w jakich mniej.
Szerzej opisany w tym wpisie.

Kandydat nr 6. Ile zyskamy w OFE (Gazeta.pl)

Prawy wykres ma inną skalę niż środkowy. Na prawym jedna kratka to 10% a na środkowym 5%. W tej perspektywnie 15% zysk z OFE wygląda jak 6,9% zysk z ZUS.
Temat szerzej opisany w tym wpisie.

Kandydat nr 7. Wykresy paskowe, ciąg dalszy (IIBR)

Jak czytać poniższe wykresy paskowe? Dlaczego one wszystkie mają tą samą szerokość? Dlatego, że zmienia się wysokość pudełek. Gdyby jeszcze trochę bardziej ścisnąć te pudełka to zupełnie nic nie dałoby się odczytać z tego wykresu.

Kandydat nr 8. Robisz to źle, reklama (Ergo Hestia)

I coś z branży reklamowej, imho jedna z gorszych reklam opartych o liczby jaką widziałem. Pomijam już to, że wykresy paskowe są w pseudo-trzech wymiarach, że oś pozioma jest niewłaściwa i że brakuje zera.
Tutaj jest problem z pomysłem. Zamiast pokazywać, że klienci się najmniej skarżą lepiej by było pokazać, że są najbardziej zadowoleni[dlaczego skreślone? patrz dyskusja poniżej] Zamiast pokazywać słupki o długości związanej z ze wskaźnikiem skarg lepiej zaproponować kreatywny sposób przedstawienia w pozytywnym świetle małej liczby skarg (komunikat dłuższy pasek = lepiej jest łatwiejszy i działa szybciej niż odczytanie że w tym przypadku jest odwrotnie). Nawet słupki odpowiadające 100-wskaźnik skarg wyglądałyby lepiej, ale z pewnością da się to przedstawić lepiej niż słupkami.

Które z tych grafik zasługują na miano najgorszej prezentacji danych 2013?

Wybierz najgorszą wizualizację danych w roku 2013

View Results

Loading ... Loading ...

Wyniki konkursu na najgorszą wizualizację danych 2012 i pierwszy kandydat do edycji 2013

Czas zakończyć konkurs na najgorszą wizualizację z roku 2012. Wyniki ankiety internetowej poniżej. Najwięcej głosów zebrał wykres z raportu ,,email marketing”. Przedstawicielowi firmy GetResponse (która opracowała ten raport) wysyłam jako nagrodę dyplom i książkę Edwarda Tuftego ,,The Visual Display of Quantitative Information”.

Moimi faworytami były wykresy z raportów opracowanych przez ministerstwa lub GUS, od tych instytucji chciałoby się oczekiwać więcej niż od zwykłych firm. No nic, w tym roku nie wygrały, zobaczymy co będzie za rok.

W każdym razie wszystkim nominowanym gratuluję a głosującym bardzo dziękuję.

Mam nadzieję, że w roku 2013 uda nam się znaleźć równie ciekawe grafiki.
Jedną taką już dostałem od Piotra S. Grafika pochodzi z wersji papierowej gazety, ale w wersji elektronicznej dostępna jest tu.
Problemy z osiami?
Nie należy porównywać długości słupków dla zysków ZUS i OFE, ponieważ prawy wykres ma 2,5 razy węższą oś poziomą (przez co częsty 14% zysk wygląda słabo w porównaniu do 12% z ZUS).
Z jakiegoś powodu uznano, że nie warto wyrównać słupków w wierszach i tak po lewej stronie mamy trzynaście słupków (lata 2000-2012) a po prawej na tej samej przestrzeni dwanaście słupków (lata 2000-2011).

Konkurs na najgorszą wizualizację danych 2012

Zapraszam do wyboru najgorszej (w sensie przeinaczającej dane) wizualizacji danych. Do wyboru jest osiem wykresów przedstawionych poniżej. Dla każdego kandydata dodałem krótki opis i odnośnik do dłuższego opisu, a na dole strony znajduje się sonda do której zapraszam. Można oddać jeden głos a w nim wskazać kilka odpowiedzi. Zwycięska grafika otrzyma tytuł ,,Zniekształcenie roku 2012”. Konkurs trwa do 7 stycznia. Jestem bardzo ciekaw, która z tych pozycji Wam przypadnie najbardziej (najmniej?) do gustu.

Kandydat nr 1. Użytkowanie nieruchomości (interia)

Szerzej opisany w tym wpisie. Wykres sugeruje szybko rosnące koszty użytkowania nieruchomości. Ale po policzeniu procentów okazuje się, że wzrosty są na poziomie inflacji.

Kandydat nr 2. Email marketing (raport)

Szerzej opisany w tym wpisie. Nie wiadomo o co chodzi z tymi słupkami. Dwa najwyższe odpowiadają dwóm najmniejszym wartościom.

Kandydat nr 3. Upicie się (Młodzi 2011)

Szerzej opisany w tym wpisie. Główny problem tego wykresu to większa liczba słupków niż etykiet państw. Nie sposób odczytać który słupek to które państwo.

Kandydat nr 4. Programy lojalnościowe (egospodarka)

Szerzej opisany w tym wpisie. Na wykresie różnica o 0.3% wygląda na olbrzymią różnicę.

Kandydat nr 5. Wsparcie dla uczniów (premier.gov.pl)

Szerzej opisany w tym wpisie. Na wykresie książek po dwóch latach jest dwa razy więcej, ale zmiana w finansowaniu (11% na rok) jest niższa niż rosnąca cena książek (15% na rok). Czyli efektywnie powinno być mniej książek z roku na rok.

Kandydat nr 6. Wskaźniki zatrudnienia (GUS)

Szerzej opisany w tym wpisie. Słupkowy wykres 3D uniemożliwia odczytanie czegokolwiek. Całości dopełnia ściśnięty prawy wykres, przez co nie można nijak porównać wysokości słupków pomiędzy wykresami.

Kandydat nr 7. Średnia pensja (money.pl)

Szerzej opisany w tym wpisie. Brak osi OY, źle policzone procenty i mamy wykres utrudniający porównanie czegokolwiek. W artykule pisano, że pensje nauczycieli rosną szybciej niż średnie wynagrodzenie, ale czy tak jest?

Kandydat nr 8. Karta nauczyciela (gazeta prawna)

Szerzej opisany w tym wpisie. Procenty odpowiadają promieniom okręgów, ale nasza percepcja domyślnie odczytuje pola, przez co nijak liczby nie pasują do grafiki.

To była ,,parszywa ósemka” z ostatnich wpisów.
Który z tych rysunków Waszym zasługuje na zaszczytny tytuł ,,Zniekształcenie roku 2012”?

Wybierz najgorszą wizualizację danych w roku 2012

View Results

Loading ... Loading ...

SFI, TED, IBM i konkursy

 

W skrócie dzisiejszy wpis składać się będzie z peanów zachwytu nad jakością organizacji 8 Studenckiego Festiwalu Informatycznego (SFI). Później zejdę na temat TEDów organizowanych w Krakowie a na koniec przedstawię dwa małe konkursiki, które ogłosiłem na SFI. Wciąż są otwarte i umożliwiają wygranie kilku gadżetów od firmy IBM.

SFI

Ośmy Studencki Festiwal Informatyczny rozpoczął się w ostatni czwartek a zakończył w sobotę. Miałem przyjemność w piątek rano opowiedzieć o analizie małych zbiorów danych, powiedzmy o rozmiarach do kilku megabajtów (tutaj przedstawiłem kilka wykresów prezentowanych na tym blogu), zbiorów danych o średniej wielkości, powiedzmy do gigabajta (tutaj opowiedziałem o kilku pomysłach na analizę danych z systemu USOS) i o analizie zbiorów danych o rozmiarach liczonych w tera czy peta bajtach (tutaj opowiedziałem o analizach danych z technik genotypowania kolejnej generacji, to źródło naprawdę dużych danych). Materiały do mojej prezentacji można pobrać klikając na poniższy odnośnik.

 

W czasie trwania festiwalu miałem okazję przyjrzeć się stronie organizacyjnej i też porozmawiać o niej z organizatorami. I muszę przyznać, że zostawiła ona na mnie spore wrażenie. Grono organizatorów składa się z ponad 30 osób, które są świetnie skoordynowane, co widać chociażby po tym, że każdy wie co należy do jego obowiązków. Niby sprawa oczywista, ale tak rzadko spotykana w tak dużych grupach. Organizatorzy zorganizowali po raz kolejny dużej wielkości festiwal, bezpłatny dla uczestników, moim zdaniem jeżeli chodzi o organizację to poprowadzony na poziomie największych międzynarodowych konferencji. Była i krótkofalowa komunikacja pomiędzy organizatorami i hostessy, radio, prezentacje nagrywane na wideo, zapowiedź obróbki wideo na poziomie VideoLectures, baloniki ;), wielkie banery na gmachach głównych krakowskich uczelni, aktywny bloga itp. Wszystko robione przez studentów i dla studentów. Ponoć to największe tego typu wydarzenie w tej części Europy (niestety zapomniałem o jak dużą część chodziło). W skrócie: świetna robota.

TED

Na festiwalu gęsto było od energii do tworzenia start-upów, niestandardowych rozwiązań, różnych innowacyjnych projektów. Nikt tu (tam?) nie miał wątpliwości, że Kraków jest miejscem gdzie najlepsze pomysły rodzą się i ścierają ze sobą. Dowiedziałem się między innymi o bardzo aktywnym TEDxKraków (37 prezentacji na stronie), o TEDxKrakow Cinema (nie słyszałem o tym wcześniej, w kinie ludzie spotykają się by obejrzeć np. 3 TEDy 20minutowe a później na ich temat dyskutują, brzmi super) i innych podobnych przedsięwzięciach. Szczególnie ten TEDxKrakow Cinema brzmi jak coś co warto przeżyć.

IBM

Przed wyjazdem dostałem od firmy IBM trochę gadżetów do rozdania w ramach konkursów. Konkursy są prywatną inicjatywą nie będącą częścią festiwalu. Konkursy są dwa, rozpoczęły się w piątek i wciąż trwają bo i zapas gadżetów jest całkiem pokaźny. Gorąco więc zapraszam do wzięcia w obu konkursach udziału, można wygrać pendrive’y i inne ciekawe gadżety (niestety odbiór tylko osobisty). Ale nagroda to nie wszystko, moim zdaniem konkursy są po prostu bardzo ciekawe i warto się zmierzyć z postawionymi w nich zadaniami.

Konkurs 1.

Dotyczy znalezienia na stronach gazet i portali informacyjnych grafik bardzo złych, przekłamujących rzeczywistość albo grafik barzdo dobrych, zapierających dech w piersiach pomysłowością i informacyjnością.

Konkurs 2.

Dotyczy pomysłu co można ciekawego zrobić mając dostęp do wszystkich danych z USOSa. Jakiego rodzaju informacja tam zawarta może okazać się przydatna szerokiej braci studentów?

Każda interesująca/ciekawa odpowiedź jest nagradzana (oferta ważna do wyczerpania zasobów, których jeszcze trochę jest). Podczas festiwalu otrzymałem kilka ciekawych odpowiedzi i opiszę je kiedyś przy okazji na blogu.

Oba konkursy są szerzej opisane w prezentacji pdf podlikowanej powyżej.