Konkurs na najmniej udany wykres 2014 roku

Rok temu, w grudniu, organizowaliśmy konkurs na wykres przekłamujący dane. Podobny konkurs organizowaliśmy dwa lata temu. W tym roku nieco zmieniliśmy formułę. Zamiast szukać przekłamań, tropimy błędy, które utrudniają odczytanie informacji z wykresów. Każdemu może przydarzyć się nieczytelny wykres, ale te wykresy pochodzą z miejsc, gdzie błądzenie powinno być rzadsze, czyli z raportów ministerstw i poważniejszych mediów.

W szrankach stanie więcej wykresów niż w poprzednich edycjach konkursu. Wiele z nich nadesłanych zostało przez czytelników (za co bardzo dziękuję). Znaleziska z poprzednich lat wypełniły esej ,,info-pomyłka” ze zbioru esejów o wizualizacji, zwycięzcy tego głosowania trafią do kolejnej wersji eseju.

Ponieważ statystycy zajmujący się wizualizacją danych praktycznie jednym głosem krytykują wykresy kołowe, prezentację kandydatów zaczniemy właśnie od nich.

Czytaj dalej Konkurs na najmniej udany wykres 2014 roku

Jak uczyć i jak uczyć się analizy danych?

Screen Shot 2014-12-13 at 21.28.14

Miesiąc temu Amerykańskie Towarzystwo Statystyczne (ASA) przedstawiło wskazówki dotyczące programu studiów statystycznych na poziomie undergraduate (licencjat / inżynier). Krótki ale bardzo ciekawy materiał. Polecam zapoznać się ze streszczeniem lub krótką prezentacją.

Najistotniejsze punkty tego dokumentu obejmują przedstawienie rosnącego zapotrzebowania na rozumienie danych w różnych obszarach i w nauce i w przemyśle [dotyczy to zarówno głębokiego specjalistycznego zrozumienia danych, jak i zrozumienia podstawowego wśród ,,zwykłych” analityków, kierowników i specjalistów] oraz konieczność uczenia zróżnicowanego warsztatu i solidnych podstaw.

Trzy inne ważne punkty, zaniedbywane w naszym krajowym kształceniu to:

1. Umiejętności komunikacji. Osoby analizujące dane powinno się nieustannie kształcić w prezentowaniu wyników szerszej i węższej publice. Zarówno jeżeli chodzi o język (unikać żargonu prezentując modele statystyczne), umiejętność wizualizacji danych jak i umiejętność zwięzłego przedstawiania tego co najważniejsze. To jest trudne, to jest bardzo trudne, te umiejętności warto rozwijać.

2. Wykorzystywania rzeczywistych danych. Łatwiej zrozumieć potrzebę analizy danych gdy ilustruje się ją na problemach z otaczającego nas świata. Ze smutkiem trzeba zauważyć, że są wydziały gdzie wykłada się statystykę bez przykładów na żadnych danych. Jest też sporo miejsc, gdzie przykłady sprowadzają się do używania danych typu iris (hej, niedługo będą obchodzić 80-lecie, czy ktoś w ogóle pamięta po co zebrano ten zbiór danych?).

3. Kształcenia ,,inżynierskich” umiejętności przetwarzania danych, łączenia, cięcia, grupowania, filtrowania danych. Operowania na danych z baz danych, hadoopa, web-API, plików tekstowych i binarnych. Większość pracy z danymi to czyszczenie danych, ale podczas czyszczenia poznajemy dane i lepiej potrafimy je później zamodelować. Praca na wyczyszczonych danych przypomina odtwarzanie szablonu, którego oczekuje prowadzący, nie widząc skąd te wymuskane dane się wzięły trudniej zaproponować własne podejście do ich analizy.

Prowadzę w tym semestrze zajęcia, podczas których dużo czasu przeznaczamy na czyszczenie danych, wykorzystujemy aktualnie ,,medialne” dane (wycieczki madryckie, wybory samorządowe) i ćwiczymy nieustanną, nieustanną, nieustanną komunikacje wyników (student2student, student2prowadzący).

Z początku było trudno, nie było prosto przełamać własne nawyki ,,uczenia podającego” (też wrażenia, że takie są oczekiwania studentów), kilka pomysłów zakończyło się fiaskiem (np. próba wprowadzenia systemu peer-review). Z perspektywy czasu widzę jednak, że formuła wprowadzania kolejnych tematów poprzez problemy na aktualnych danych daje znacznie więcej frajdy niż przekazywanie X kilogramów wiedzy objawionej. Nawet jeżeli pod koniec zajęć okazuje się, że o czymś nie zdążyliśmy powiedzieć albo czegoś nie zdążyliśmy skomentować.

Co ma SER do piernika?

wojnaR2

Po czym poznać probabilistę?
Pierwszy zauważy, że gęstość prawego rozkładu nie całkuje się do 1.
A statystyk godzi się na pewne różnice pomiędzy teorią a realizacją 😉

[tutaj płynnie przejść od pierników do SERa]

SERVIIb

Już dzisiaj o godzinie 18 w sali 107 budynku MINI PW (Koszykowa 75) zaczyna się SER VI, Spotkanie Entuzjastów R i Analizy Danych (małych i dużych, bo każde dane fajne są). Spotkania łączą osoby z akademii (UW, PW, PAN, SGH) i przemysłu, warto przyjść posłuchać. Ostatnio mamy problemy z nagrywaniem, pozostaje więc przyjść.

Spotkanie rozpocznie prezentacja Rogera Bivanda, (R Foundation / NHH). Temat tej prezentacji to ,,Co można zrobić z danymi przestrzennymi w programie R”.

Drugą prezentację prowadzi Bartosz Meglicki, IPI PAN. Temat tej prezentacji to ,,Machine Learning wcielony – programowanie robotów LEGO z ev3dev.R”.

Międzynarodowy Konkurs Umiejętności Statystycznych

ISPL

Od jakiegoś czasu interesuję się wczesną edukacją w obszarze analizy danych (o czym mam nadzieję, niedługo napiszę więcej). Niedawno natrafiłem na bardzo ciekawą inicjatywę dla szkół gimnazjalnych i ponadgimnazjalnych, mianowicie na Międzynarodowy Konkurs Umiejętności Statystycznych.

Krajowy koordynator tego konkursu, pani Katarzyna Logwiniuk, przygotowała specjalnie dla nas krótki opis tego konkursu.


Czytaj dalej Międzynarodowy Konkurs Umiejętności Statystycznych

Interview with SERATRON – Lego EV3 robot driven by R

SERVIIb

Next meeting of Warsaw R Enthusiasts (SER = Spotkania Entuzjastów R) will take place on December 8. We are going to start with Roger Bivand talk about spatial statistics (R Foundation / NHH, author of many R packages). The second talk, by Bartosz Meglicki (IPI PAN), will introduce the SERATRON – fusion of R and Lego Mindstorms.

Below we publish an exclusive SER interview with SERATRON (we are sorry but SERATRON is a naughty one):

SER: Hi, could you introduce yourself?
SERATRON: I am a robot coded in pure R with ev3dev.R bindings. The bindings run on ev3dev linux distribution. The operating system runs on Lego EV3 hardware. We are all under heavy development.

Czytaj dalej Interview with SERATRON – Lego EV3 robot driven by R