eXtreme Gradient Boosting vs Random Forest [i pakiet caret]

Screen Shot 2015-11-25 at 21.20.31
Drzewa decyzyjne są urocze.
Można je wizualizować, łatwo wyjaśnić, łatwo stosować, łatwo nawet się je konstruuje.
Ale niestety są niestabilne i nie nadają się do klasyfikacji danych o bardzo wysokim wymiarze i silnie skorelowanych zmiennych.

Ale i z niestabilnością drzew można walczyć. Jedna z popularniejszych metod stabilizacji poszczególnych drzew to lasy losowe (drzewa budowane na bootstrapowych próbach z podzbiorem zmiennych) inna interesująca metoda to gradient boosting (sekwencja drzew optymalizowanych na klasyfikacje przypadków z którymi nie radziły sobie wcześniejsze drzewa).

[Uwaga, dalsza część wpisu zawiera dużo gwary].

Czytaj dalej eXtreme Gradient Boosting vs Random Forest [i pakiet caret]