Screen Shot 2014-12-13 at 21.28.14

Miesiąc temu Amerykańskie Towarzystwo Statystyczne (ASA) przedstawiło wskazówki dotyczące programu studiów statystycznych na poziomie undergraduate (licencjat / inżynier). Krótki ale bardzo ciekawy materiał. Polecam zapoznać się ze streszczeniem lub krótką prezentacją.

Najistotniejsze punkty tego dokumentu obejmują przedstawienie rosnącego zapotrzebowania na rozumienie danych w różnych obszarach i w nauce i w przemyśle [dotyczy to zarówno głębokiego specjalistycznego zrozumienia danych, jak i zrozumienia podstawowego wśród ,,zwykłych” analityków, kierowników i specjalistów] oraz konieczność uczenia zróżnicowanego warsztatu i solidnych podstaw.

Trzy inne ważne punkty, zaniedbywane w naszym krajowym kształceniu to:

1. Umiejętności komunikacji. Osoby analizujące dane powinno się nieustannie kształcić w prezentowaniu wyników szerszej i węższej publice. Zarówno jeżeli chodzi o język (unikać żargonu prezentując modele statystyczne), umiejętność wizualizacji danych jak i umiejętność zwięzłego przedstawiania tego co najważniejsze. To jest trudne, to jest bardzo trudne, te umiejętności warto rozwijać.

2. Wykorzystywania rzeczywistych danych. Łatwiej zrozumieć potrzebę analizy danych gdy ilustruje się ją na problemach z otaczającego nas świata. Ze smutkiem trzeba zauważyć, że są wydziały gdzie wykłada się statystykę bez przykładów na żadnych danych. Jest też sporo miejsc, gdzie przykłady sprowadzają się do używania danych typu iris (hej, niedługo będą obchodzić 80-lecie, czy ktoś w ogóle pamięta po co zebrano ten zbiór danych?).

3. Kształcenia ,,inżynierskich” umiejętności przetwarzania danych, łączenia, cięcia, grupowania, filtrowania danych. Operowania na danych z baz danych, hadoopa, web-API, plików tekstowych i binarnych. Większość pracy z danymi to czyszczenie danych, ale podczas czyszczenia poznajemy dane i lepiej potrafimy je później zamodelować. Praca na wyczyszczonych danych przypomina odtwarzanie szablonu, którego oczekuje prowadzący, nie widząc skąd te wymuskane dane się wzięły trudniej zaproponować własne podejście do ich analizy.

Prowadzę w tym semestrze zajęcia, podczas których dużo czasu przeznaczamy na czyszczenie danych, wykorzystujemy aktualnie ,,medialne” dane (wycieczki madryckie, wybory samorządowe) i ćwiczymy nieustanną, nieustanną, nieustanną komunikacje wyników (student2student, student2prowadzący).

Z początku było trudno, nie było prosto przełamać własne nawyki ,,uczenia podającego” (też wrażenia, że takie są oczekiwania studentów), kilka pomysłów zakończyło się fiaskiem (np. próba wprowadzenia systemu peer-review). Z perspektywy czasu widzę jednak, że formuła wprowadzania kolejnych tematów poprzez problemy na aktualnych danych daje znacznie więcej frajdy niż przekazywanie X kilogramów wiedzy objawionej. Nawet jeżeli pod koniec zajęć okazuje się, że o czymś nie zdążyliśmy powiedzieć albo czegoś nie zdążyliśmy skomentować.

Wyniki ostatnich sondaży poparcia są dosyć rozbieżne.

Zestawmy ostatnie 6 miesięcy dla dwóch największych partii i czterech ośrodków badania opinii.

Read the rest of this entry »

10.12.14 – eRka

10 gru
2014

W poniedziałek w Warszawie był SER, a dziś w Krakowie eRka.
Z tej okazji kilka słów od organizatora Bartosza Sękiewicza.

IMG_0912

Read the rest of this entry »

wojnaR2

Po czym poznać probabilistę?
Pierwszy zauważy, że gęstość prawego rozkładu nie całkuje się do 1.
A statystyk godzi się na pewne różnice pomiędzy teorią a realizacją ;-)

[tutaj płynnie przejść od pierników do SERa]

SERVIIb

Już dzisiaj o godzinie 18 w sali 107 budynku MINI PW (Koszykowa 75) zaczyna się SER VI, Spotkanie Entuzjastów R i Analizy Danych (małych i dużych, bo każde dane fajne są). Spotkania łączą osoby z akademii (UW, PW, PAN, SGH) i przemysłu, warto przyjść posłuchać. Ostatnio mamy problemy z nagrywaniem, pozostaje więc przyjść.

Spotkanie rozpocznie prezentacja Rogera Bivanda, (R Foundation / NHH). Temat tej prezentacji to ,,Co można zrobić z danymi przestrzennymi w programie R”.

Drugą prezentację prowadzi Bartosz Meglicki, IPI PAN. Temat tej prezentacji to ,,Machine Learning wcielony – programowanie robotów LEGO z ev3dev.R”.

ISPL

Od jakiegoś czasu interesuję się wczesną edukacją w obszarze analizy danych (o czym mam nadzieję, niedługo napiszę więcej). Niedawno natrafiłem na bardzo ciekawą inicjatywę dla szkół gimnazjalnych i ponadgimnazjalnych, mianowicie na Międzynarodowy Konkurs Umiejętności Statystycznych.

Krajowy koordynator tego konkursu, pani Katarzyna Logwiniuk, przygotowała specjalnie dla nas krótki opis tego konkursu.


Read the rest of this entry »

SERVIIb

Next meeting of Warsaw R Enthusiasts (SER = Spotkania Entuzjastów R) will take place on December 8. We are going to start with Roger Bivand talk about spatial statistics (R Foundation / NHH, author of many R packages). The second talk, by Bartosz Meglicki (IPI PAN), will introduce the SERATRON – fusion of R and Lego Mindstorms.

Below we publish an exclusive SER interview with SERATRON (we are sorry but SERATRON is a naughty one):

SER: Hi, could you introduce yourself?
SERATRON: I am a robot coded in pure R with ev3dev.R bindings. The bindings run on ev3dev linux distribution. The operating system runs on Lego EV3 hardware. We are all under heavy development.

Read the rest of this entry »

Dużo frajdy daje praca z zaangażowanymi studentami. Prowadzę w tym semestrze zajęcia z Technik Wizualizacji Danych na MINI PW i MIM UW. Na laboratoria przygotowuję różne zbiory danych a oni trzask / prask czyszczą dane, szukają sygnałów i prezentują sygnały graficznie.

Ostatnie zajęcia to temat rysowania map w ggplot2, a za worek treningowy posłużyły nam dane o wynikach (i w liczbie głosów i w liczbie mandatów i we frekwencji) wyborów do sejmików.

Po godzinie od pokazania danych powstały poniższe wykresy.

Każdy z nich na swój sposób pokazuje, że w województwach o wyższej frekwencji wygrywa PIS a niższej PO (wyjątkiem jest świętokrzyskie, najwyższa frekwencja a wygrywa PSL).

Dane i kody użyte do wykonania wykresów można pobrać z githuba.

es

wybory

aaa

A ponieważ jeden plakat jest jak tysiąc słów….

Danych jest coraz więcej. Niestety liczba śmieciowych zbiorów przyrasta szybciej niż liczba tych ciekawych, więc nie zawsze jest łatwo znaleźć coś fajnego, np. gdy przygotowuje się nowy kurs.

Tym bardziej ucieszyło mnie to znalezisko:
Na stronach Carnegie Mellon znajduje się repozytorium otagowanych zbiorów danych http://lib.stat.cmu.edu/DASL/. Zbiory podzielone są na metody lub tematy, które ilustrują.

I tak na przykład tutaj jest zbiór siedmiu zbiorów danych ilustrujących co to te rozkłady.

Raz na 10 lat?

19 lis
2014

Pan Wojciech Szacki na swoim blogu zaapelował ,,niech socjologowie zajmą się wreszcie na serio różnicami w sondażach partyjnych”. Rozgoryczenie łatwo rozumieć. Nie dość, że PKW daje plamę, to jeszcze różne sondaże poparcia pokazują zupełnie różne wyniki. Jedne miażdżącą przewagę PO, drugie zwycięstwo PIS, a po sieci krążą mapki ze zwycięstwem PSL (w innych wyścigach, ale zawsze).

Jednak czy te różnice są rzeczywiście tak niewiarygodne, że należy zwołać komisję śledczą, kontrolę NIK lub śledztwo na wykopie? Zobaczmy.

Poniżej wykres (ze strony wyborcza.pl) przestawiający wyniki sondaży CBOS z ostatniego półtora roku (wreszcie sondaże są prezentowane w szerszej perspektywie niż jednego – dwóch miesięcy. Pisaliśmy o tym problemie w Esejach).


Screen Shot 2014-11-19 at 20.44.20

Read the rest of this entry »

top