Jak uczyć i jak uczyć się analizy danych?

Screen Shot 2014-12-13 at 21.28.14

Miesiąc temu Amerykańskie Towarzystwo Statystyczne (ASA) przedstawiło wskazówki dotyczące programu studiów statystycznych na poziomie undergraduate (licencjat / inżynier). Krótki ale bardzo ciekawy materiał. Polecam zapoznać się ze streszczeniem lub krótką prezentacją.

Najistotniejsze punkty tego dokumentu obejmują przedstawienie rosnącego zapotrzebowania na rozumienie danych w różnych obszarach i w nauce i w przemyśle [dotyczy to zarówno głębokiego specjalistycznego zrozumienia danych, jak i zrozumienia podstawowego wśród ,,zwykłych” analityków, kierowników i specjalistów] oraz konieczność uczenia zróżnicowanego warsztatu i solidnych podstaw.

Trzy inne ważne punkty, zaniedbywane w naszym krajowym kształceniu to:

1. Umiejętności komunikacji. Osoby analizujące dane powinno się nieustannie kształcić w prezentowaniu wyników szerszej i węższej publice. Zarówno jeżeli chodzi o język (unikać żargonu prezentując modele statystyczne), umiejętność wizualizacji danych jak i umiejętność zwięzłego przedstawiania tego co najważniejsze. To jest trudne, to jest bardzo trudne, te umiejętności warto rozwijać.

2. Wykorzystywania rzeczywistych danych. Łatwiej zrozumieć potrzebę analizy danych gdy ilustruje się ją na problemach z otaczającego nas świata. Ze smutkiem trzeba zauważyć, że są wydziały gdzie wykłada się statystykę bez przykładów na żadnych danych. Jest też sporo miejsc, gdzie przykłady sprowadzają się do używania danych typu iris (hej, niedługo będą obchodzić 80-lecie, czy ktoś w ogóle pamięta po co zebrano ten zbiór danych?).

3. Kształcenia ,,inżynierskich” umiejętności przetwarzania danych, łączenia, cięcia, grupowania, filtrowania danych. Operowania na danych z baz danych, hadoopa, web-API, plików tekstowych i binarnych. Większość pracy z danymi to czyszczenie danych, ale podczas czyszczenia poznajemy dane i lepiej potrafimy je później zamodelować. Praca na wyczyszczonych danych przypomina odtwarzanie szablonu, którego oczekuje prowadzący, nie widząc skąd te wymuskane dane się wzięły trudniej zaproponować własne podejście do ich analizy.

Prowadzę w tym semestrze zajęcia, podczas których dużo czasu przeznaczamy na czyszczenie danych, wykorzystujemy aktualnie ,,medialne” dane (wycieczki madryckie, wybory samorządowe) i ćwiczymy nieustanną, nieustanną, nieustanną komunikacje wyników (student2student, student2prowadzący).

Z początku było trudno, nie było prosto przełamać własne nawyki ,,uczenia podającego” (też wrażenia, że takie są oczekiwania studentów), kilka pomysłów zakończyło się fiaskiem (np. próba wprowadzenia systemu peer-review). Z perspektywy czasu widzę jednak, że formuła wprowadzania kolejnych tematów poprzez problemy na aktualnych danych daje znacznie więcej frajdy niż przekazywanie X kilogramów wiedzy objawionej. Nawet jeżeli pod koniec zajęć okazuje się, że o czymś nie zdążyliśmy powiedzieć albo czegoś nie zdążyliśmy skomentować.

11 myśli na temat “Jak uczyć i jak uczyć się analizy danych?”

  1. Czy można zapytać o to jaka jest rekomendowana metoda poszerzenia swojej wiedzy o tak zaprezentowaną statystykę? Mogą być notatki do pana zajęć, może być kurs online (aktualnie robię Data Science na Courserze, ale tam większy nacisk kładzie się na obróbkę danych i programowanie w R niż na zrozumienie statystyki z tym związanej; cały kurs nie wydaje się też jakiś szczególnie wnikliwy; za to faktycznie grzebie się w danych wziętych z życia, nawet jeśli są to np. dane o szpitalach w USA, a nie w Polsce), może być jakaś świetna książka – raczej nie pójdę w tym celu ponownie na studia, a kiedy miałem okazję nauczyć się statystyki w swoich studenckich czasach, pokpiłem sprawę (u pana doktora zresztą).

  2. W styczniu napiszę o krajowym MOOCu, podczas którego będzie można i poćwiczyć R, i wizualizację i statystykę (na poziomie podstawowym i średnim).

    Ale w temacie książek
    w kategorii wstęp, miło poczytać
    – Statystyka i Prawda, Rao [http://nakanapie.pl/statystyka-i-prawda-calyampudi-radhakrishna-rao-ksiazka,254936]
    – The Lady Tasing Tea, Salsburg (http://en.wikipedia.org/wiki/The_Lady_Tasting_Tea)

    w kategorii podręcznik do statystyki
    – Statistical Models, Davidson (można znaleźć na sieci)
    – Przystępny kurs statystyki, Stanisz (http://www.statsoft.pl/Ksiazki/Przystepny-kurs-statystyki-z-zastosowaniem-STATISTICA-PL-Tom-1)
    – Modern Applied Statistics, Ripley (można znaleźć na sieci)
    – w temacie modelowanie regresyjne nieskromnie polecę moje modele liniowe, choć to głębokie wejście wyłącznie w modelowanie regresyjne, zakładające pewną wiedzę o testowaniu estymacji itp, http://biecek.pl/Analiza.Danych

    w kategorii myślenia statystycznego
    – Pułapki myślenia, Kahneman, http://lubimyczytac.pl/ksiazka/154212/pulapki-myslenia-o-mysleniu-szybkim-i-wolnym

  3. @Maciej,
    całkiem podobała mi się broszurka ,,Statystyka matematyczna stosowana” R Zieliński (http://www.impan.pl/~rziel/LN5.pdf),
    co prawda o statystyce matematycznej ale ma swój urok,
    i gdy autor przechodzi od prostych modeli parametrycznych do nieparametrycznych myślę że ciekawie to ilustruje sposób myślenia przedstawiony na prostych przykładach

    Interesująca jest ,,Myślenie statystyczne” Ostasiewicz
    skusił mnie pierwszy rozdział, pozostałe są ok, ale pierwszy jest dobry

    z punktu widzenia aplikacji
    o błedach w analizach
    Ben Goldacre ,,Zła nauka” (czy w orginale Bad Pharma i Bad Science)

    o projektowaniu eksperymentu pod kątem hipotezy badawczej
    książki Dana Ariely, po polsku jest ,,Potęga irracjonalności” choć akurat słuchałem angielskie audiobooki tego autora, bardzo fajnie przygotowane, gdy się słucha trzeciego po kolei można mieć wrażenie powtórek, ale i tak jest ciekawie

    Super Crunchers [Ian Ayres], ponoć jest polskie tłumaczenie

    z punkty widzenia wnioskowania
    Everything is Obvious, Duncan Watts

    Może ktoś jeszcze zaproponuje fajną pozycję do poduszki?

  4. @Paweł

    W styczniu rusza kolejna edycja kursu Statistical Learning na Stanfordzie:
    http://online.stanford.edu/course/statistical-learning

    Kurs obejmuje materiał z tej książki:
    http://www-bcf.usc.edu/~gareth/ISL/

    Koncentruje się bardziej na analizie danych i budowie odpowiednich modeli a nie na statystyce w takiej postaci, w jakiej zwykle nauczana jest na naszych uczelniach, ale myślę że to dobrze. W przeciwieństwie do kursów z Data Science Coursery wykłady polegają na tłumaczeniu i pokazywaniu pewnych pojęć, a samo programowanie w R jest tu raczej dodatkiem. Materiały są świetnie przemyślane a wykładowcy to klasa światowa, do tego bardzo sympatyczni (T. Hastie i R. Tibshirani).

  5. @smarterpoland

    Z ciekawych książek to mógłbym polecić pozycję o przewrotnym tytule “How to lie with statistics”, Darrell Huff. Nie ma tam chyba ani jednego wzoru, autor skupia się na pokazaniu, w jaki sposób jesteśmy oszukiwani przez różnego rodzaju manipulacje statystyczne. Fajna pozycja ucząca trzeźwego spojrzenia na wyniki badań i sondaży plus spora dawka informacji o grafice statystycznej.

  6. Swego czasu zaglądałem do książki Aczela “Statystyka w zarządzaniu” i muszę przyznać, że jest to całkiem przydatna pozycja. Artykuł bardzo dobry, ogromny plus za zwrócenie uwagi na problem komunikacji i przekazywania wyników analiz statystycznych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">