Tydzień temu pisaliśmy o wielowymiarowych modelach liniowych. Rozważaliśmy zagadnienie w którym k wymiarowy wektor zmiennych objaśnianych jest różnicowany przez zmienną grupującą. Aby ocenić czy istnieje jakaś zależność patrzymy na macierze E i H (patrz poprzedni wpis).
Problem, który nam pozostał to fakt, że zmienna objaśniana ma k wymiarów a więc i macierze efektów E i H są wymiaru kxk. Efektywnie, na wykresie możemy oglądać te macierze wyłącznie po rzucie na jakąś dwuwymiarową przestrzeń.
Ale na jaką dwuwymiarową podprzestrzeń patrzeć? Możemy brać dowolne rzuty macierzy E i H i je oglądać, ale czy któryś rzut jest lepszy do oglądania?
Przypomnijmy, że chodzi nam przede wszystkim o to by zobaczyć czy podgrupy zmiennej objaśniającej istotnie różnicują wielowymiarowe zmienne objaśniane. Dlatego naturalnym pomysłem jest redukcja wymiaru w zmiennych objaśnianych tak by zachować jak najwięcej wariancji pomiędzy grupami wyznaczonymi przez zmienną objaśniającą.
Popularną techniką takiej redukcji wymiaru jest Canonical Discriminant Analysis. W przestrzeni zmiennej objaśnianej szuka ona ortogonalnych wektorów wyjaśniających możliwie dużo międzygrupowej wariancji. Jeżeli z takich wektorów wybierzemy dwa pierwsze, to otrzymamy podprzestrzeń, w której analizowane grupy różnią się najsilniej (w sensie wariancji międzygrupowej).
I to dla tej podprzestrzeni warto zobaczyć macierze H i E, bowiem jeżeli gdzieś te macierze się różnią istotnie to właśnie na tej podprzestrzeni.
Dla programu R oczywiście istnieje (niejeden) pakiet pozwalający na proste wykonanie CDA, pakiet z którego poniżej skorzystam to candisc.
Wczytujemy dane, filtrujemy tylko dane dla Polski i budujemy model wielowymiarowy liniowy (tak jak tydzień temu).
Następnie funkcją candisc wykonujemy analizę CDA dla wskazanej zmiennej (można podać tylko jedną zmienną) i dla tej zmiennej rysujemy wykres HE.
Na wykresie macierze H i E zostały przekształcone przez przemnożenie z prawej strony przez E^{-1}, przez co oglądamy HE^{-1} i macierz jednostkową. Skąd to przekształcenie? Znacznie łatwiej odnosić niebieską elipsę efektów do koła, niż do innej elipsy. Z powyższego wykresu wynika, że trzy wymiary zmiennej objaśnianej są silnie skorelowane wzdłuż osi różnicującej grupy zmiennej ST28Q01 (pytanie o liczbę książek w domu)
Zauważmy, że jeżeli zmienna ma dwa poziomy (tak jak płeć) to aby je maksymalnie liniowo odseparować wystarczy jeden wymiar. Dlatego dla takich zmiennej składowe kanoniczne są jednowymiarowe, a odpowiadające im wykresy HE wyglądają następująco.
Prawy rysunek pokazuje, że na pierwszą składową kanoniczną głównie wpływa składowa czytania i to ona głównie jest różnicowana przez płeć.
Więcej informacji o CDA:
Visualizing Generalized Canonical Discriminant and Canonical Correlation Analysis
Michael Friendly and John Fox
Canonical Variate Analysisand Related Methods with Longitudinal Data
Michael Beaghen
Wpisy z kategorii Duże i złożone powstają przy współpracy z firmą CodiLime.