Canonical Discriminant Analysis a wykresy HE (***)

Tydzień temu pisaliśmy o wielowymiarowych modelach liniowych. Rozważaliśmy zagadnienie w którym k wymiarowy wektor zmiennych objaśnianych jest różnicowany przez zmienną grupującą. Aby ocenić czy istnieje jakaś zależność patrzymy na macierze E i H (patrz poprzedni wpis).

Problem, który nam pozostał to fakt, że zmienna objaśniana ma k wymiarów a więc i macierze efektów E i H są wymiaru kxk. Efektywnie, na wykresie możemy oglądać te macierze wyłącznie po rzucie na jakąś dwuwymiarową przestrzeń.

Ale na jaką dwuwymiarową podprzestrzeń patrzeć? Możemy brać dowolne rzuty macierzy E i H i je oglądać, ale czy któryś rzut jest lepszy do oglądania?

Przypomnijmy, że chodzi nam przede wszystkim o to by zobaczyć czy podgrupy zmiennej objaśniającej istotnie różnicują wielowymiarowe zmienne objaśniane. Dlatego naturalnym pomysłem jest redukcja wymiaru w zmiennych objaśnianych tak by zachować jak najwięcej wariancji pomiędzy grupami wyznaczonymi przez zmienną objaśniającą.

Popularną techniką takiej redukcji wymiaru jest Canonical Discriminant Analysis. W przestrzeni zmiennej objaśnianej szuka ona ortogonalnych wektorów wyjaśniających możliwie dużo międzygrupowej wariancji. Jeżeli z takich wektorów wybierzemy dwa pierwsze, to otrzymamy podprzestrzeń, w której analizowane grupy różnią się najsilniej (w sensie wariancji międzygrupowej).

I to dla tej podprzestrzeni warto zobaczyć macierze H i E, bowiem jeżeli gdzieś te macierze się różnią istotnie to właśnie na tej podprzestrzeni.

Dla programu R oczywiście istnieje (niejeden) pakiet pozwalający na proste wykonanie CDA, pakiet z którego poniżej skorzystam to candisc.

Wczytujemy dane, filtrujemy tylko dane dla Polski i budujemy model wielowymiarowy liniowy (tak jak tydzień temu).

Następnie funkcją candisc wykonujemy analizę CDA dla wskazanej zmiennej (można podać tylko jedną zmienną) i dla tej zmiennej rysujemy wykres HE.

Na wykresie macierze H i E zostały przekształcone przez przemnożenie z prawej strony przez E^{-1}, przez co oglądamy HE^{-1} i macierz jednostkową. Skąd to przekształcenie? Znacznie łatwiej odnosić niebieską elipsę efektów do koła, niż do innej elipsy. Z powyższego wykresu wynika, że trzy wymiary zmiennej objaśnianej są silnie skorelowane wzdłuż osi różnicującej grupy zmiennej ST28Q01 (pytanie o liczbę książek w domu)

Zauważmy, że jeżeli zmienna ma dwa poziomy (tak jak płeć) to aby je maksymalnie liniowo odseparować wystarczy jeden wymiar. Dlatego dla takich zmiennej składowe kanoniczne są jednowymiarowe, a odpowiadające im wykresy HE wyglądają następująco.

Prawy rysunek pokazuje, że na pierwszą składową kanoniczną głównie wpływa składowa czytania i to ona głównie jest różnicowana przez płeć.

Więcej informacji o CDA:

Visualizing Generalized Canonical Discriminant and Canonical Correlation Analysis
Michael Friendly and John Fox

Canonical Variate Analysisand Related Methods with Longitudinal Data
Michael Beaghen


Wpisy z kategorii Duże i złożone powstają przy współpracy z firmą CodiLime.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">