Drzewa decyzyjne są urocze.
Można je wizualizować, łatwo wyjaśnić, łatwo stosować, łatwo nawet się je konstruuje.
Ale niestety są niestabilne i nie nadają się do klasyfikacji danych o bardzo wysokim wymiarze i silnie skorelowanych zmiennych.
Ale i z niestabilnością drzew można walczyć. Jedna z popularniejszych metod stabilizacji poszczególnych drzew to lasy losowe (drzewa budowane na bootstrapowych próbach z podzbiorem zmiennych) inna interesująca metoda to gradient boosting (sekwencja drzew optymalizowanych na klasyfikacje przypadków z którymi nie radziły sobie wcześniejsze drzewa).
[Uwaga, dalsza część wpisu zawiera dużo gwary].
Czytaj dalej eXtreme Gradient Boosting vs Random Forest [i pakiet caret]