eXtreme Gradient Boosting vs Random Forest [i pakiet caret]

Screen Shot 2015-11-25 at 21.20.31
Drzewa decyzyjne są urocze.
Można je wizualizować, łatwo wyjaśnić, łatwo stosować, łatwo nawet się je konstruuje.
Ale niestety są niestabilne i nie nadają się do klasyfikacji danych o bardzo wysokim wymiarze i silnie skorelowanych zmiennych.

Ale i z niestabilnością drzew można walczyć. Jedna z popularniejszych metod stabilizacji poszczególnych drzew to lasy losowe (drzewa budowane na bootstrapowych próbach z podzbiorem zmiennych) inna interesująca metoda to gradient boosting (sekwencja drzew optymalizowanych na klasyfikacje przypadków z którymi nie radziły sobie wcześniejsze drzewa).

[Uwaga, dalsza część wpisu zawiera dużo gwary].

Czytaj dalej eXtreme Gradient Boosting vs Random Forest [i pakiet caret]

Jak Twoja szkoła wypadła na Nowej Maturze 2015?


Jakiś czas temu przedstawiliśmy ranking trudności zadań z nowej matury podstawowej z matematyki w roku 2015.

Teraz przedstawiamy narzędzie do diagnozowania, które maturalne zadania wypadły lepiej, a które gorzej w Twojej szkole!
Daje to unikalną możliwość sprawdzenia co jest słabą a co jest silną stroną danej szkoły. Może warto dodatkowo przedyskutować ze uczniami zadania, które wypadły gorzej?
(nie chodzi o uczenie pod egzamin, co jest nieszczęściem, ale weryfikacje czy być może jakiś temat nie jest wyjaśniany słabiej).

Czytaj dalej Jak Twoja szkoła wypadła na Nowej Maturze 2015?

Włam na Proton

Tydzień temu pisałem o tekstowej grze proton rozgrywanej w konsoli R. Przez tydzień wszystkie zaszyte tam zagadki udało się rozwiązać 25 osobom o różnych poziomach umiejętności.

Poniższy wykres przedstawia deklarowany czas rozwiązania wszystkich zagadek. Okazuje się, że dla większości osób zabawa trwała od 15 do 60 minut, a cała gra okazała się prostsza, niż początkowo przypuszczałem.
Tak więc jeżeli ktoś nie grał, ponieważ obawiał się, że gra będzie będzie zbyt trudna, to czas spróbować.

Czytaj dalej Włam na Proton

R vs SAS vs SPSS


Takie tytuły rozpoczynają zazwyczaj spory o wyższość jednego święta nad drugim. Ale nie na tym blogu. Dzisiejszy wpis ma za zadanie zilustrować pewne subtelne różnice pomiędzy tymi trzema pakietami statystycznymi. Różnice o często niebagatelnych konsekwencjach.

Wyobraźmy sobie, że podmiot X zleca nam budowę narzędzia analitycznego. Dochodzi do odbioru. Podmiot X sprawdza czy narzędzie liczy wszystko poprawnie, a tu nagle zonk. Okazuje się, że te nawet podstawowe statystyki nie zgadzają się z wartościami referencyjnymi.

Czytaj dalej R vs SAS vs SPSS

Czy jesteś hakeRem danych?

IMG_20151113_140015 (1)
Przygotowałem gRę inspirowaną opowiadaniem Pieczara Pietraszki. Gracz wczuwa się w Bita, który szuka hasła Pietraszki na serwerze Proton (aby później …, co jest dalej, przeczytać można w opowiadaniu).
Aby zdobyć hasło trzeba rozwiązać cztery zagadki oparte o analizę danych.
Poziom zagadek określiłbym jako niebanalny ;-). Nawet dla osób, które już sporo programują.

Aby zagrać w tę gRę należy wykonać dwa kroki.
1. Zainstalować pakiet proton w R.

Czytaj dalej Czy jesteś hakeRem danych?

Pakiet multidplyr, wrażenia

Screen Shot 2015-11-13 at 10.54.15

Dwa dni temu Hadley Wickham na twitterze podlinkował wprowadzenie do pakietu multidplyr. Przyjrzyjmy się temu backendowi.

Czym jest multidplyr?

Zgodnie z opisem na githubie, jest to biblioteka pozwalająca na przetwarzanie danych z użyciem dplyrowych czasowników z użyciem wielu rdzeni. Idea podobna do sparka. Podobne backendy istnieją od lat (dla hardkorowców RMPI, dla mniejszych distributeR czy paralel i wiele innych z listy https://cran.r-project.org/web/views/HighPerformanceComputing.html). Problem z istniejącymi rozwiązaniami jest ich hakerskość. W 9 przypadkach na 10, przy próbie robienia bardziej złożonych rzeczy wszystko wybucha, a traceback ma przynajmniej 20 pozycji.
Rozwiązania Hadleya, podobnie jak Appla, mają zazwyczaj przyjemniejszy design, wybuchają rzadziej, a kosztem ograniczonej funkcjonalności otrzymujemy jakąś frajdę z korzystania.

Czytaj dalej Pakiet multidplyr, wrażenia

R in Insurance – the November meetup of the Warsaw R User Group

masterR
Inspired by the conference held in Amsterdam “R in Insurance”, we would like to dedicate the November meetup of Warsaw R Users Group to Insurance. The presentations will cover the practical aspects of insurance and more specifically the applications of R in insurance.
Join us on Thursday, November 26, 2015, 6:00 PM, Koszykowa 75, Warsaw, Room 329 MINI PW. Meetup will be in English.

Agenda
18.00-18.05 Welcome
18.05-18.40 “Experience vs. Data” Markus Gesmann (Lloyd’s, London)
18.40-19.00 Pizza break
19.00-19.35 “Non life insurance in R” Emilia Kalarus (Triple A – Risk Finance)
19.35-20.10 “Stochastic mortality modelling” Adam Wróbel (NN)
20.15 – Afterparty

This time our agenda is quite tight, since we have 3 very interesting presentations. We invite R programmers, data analysts as well as actuaries and risk professionals.

Czytaj dalej R in Insurance – the November meetup of the Warsaw R User Group

MathCraft = Matematyka + Minecraft


Minecraft to bardzo popularna gra z otwartym światem. Przygotowałem kilka zadań, pozwalających na wykorzystanie tego świata do ćwiczenia wyobraźni przestrzennej i tabliczki dodawania, odejmowania, mnożenia i dzielenia do 100. Dzieci to bardzo wciąga. Zawzięcie rozwiązują zagadki związane ze światem, który ich interesuje.
Ale po kolei.

Czytaj dalej MathCraft = Matematyka + Minecraft

Jak kształcić Data Scientists / Badaczy Danych?

masterR
W drugiej połowie października miałem przyjemność uczestniczyć w trzech wydarzeniach, które z bardzo różnych perspektyw dotykały tytułowego pytania. Jedno z tych wydarzeń to biznesowa konferencja Think Big Congress BigData CEE. Badacze danych występowali głównie w roli poszukiwanego zasobu. Drugim, była konferencja Badania w edukacji organizowana przez IBE. Spotkanie osób zainteresowanych badaniami w edukacji, nauczaniem w tym również nauczaniem matematyki/informatyki. Dominowały tematy związane ze szkołą podstawową i średnią, ale w kuluarach można było też powymieniać się doświadczeniami z nauczania na uczeniach wyższych. Trzecim wydarzeniem był ostatni SER, na który przyszło wiele osób pracujących z danymi na co dzień. Przyszło powymieniać się nowinkami co tam w trawie piszczy.
Tak się też składa, że prowadząc zajęcia na MIM UW i MiNI PW mam jakiś wpływ na kształcenie czy to statystyków czy informatyków, zdarza mi się też uczestniczyć w dyskusjach dotyczących profilu kształcenia. Poniższy wpis to zbiór trzech wybranych wrażeń, przemyśleń i doświadczeń związanych z organizacją przestrzeni do kształcenia mitologicznych Badaczy Danych. Po jednym na jedną konferencję.

Czytaj dalej Jak kształcić Data Scientists / Badaczy Danych?