Canonical Discriminant Analysis a wykresy HE (***)

Tydzień temu pisaliśmy o wielowymiarowych modelach liniowych. Rozważaliśmy zagadnienie w którym k wymiarowy wektor zmiennych objaśnianych jest różnicowany przez zmienną grupującą. Aby ocenić czy istnieje jakaś zależność patrzymy na macierze E i H (patrz poprzedni wpis).

Problem, który nam pozostał to fakt, że zmienna objaśniana ma k wymiarów a więc i macierze efektów E i H są wymiaru kxk. Efektywnie, na wykresie możemy oglądać te macierze wyłącznie po rzucie na jakąś dwuwymiarową przestrzeń.

Ale na jaką dwuwymiarową podprzestrzeń patrzeć? Możemy brać dowolne rzuty macierzy E i H i je oglądać, ale czy któryś rzut jest lepszy do oglądania?

Przypomnijmy, że chodzi nam przede wszystkim o to by zobaczyć czy podgrupy zmiennej objaśniającej istotnie różnicują wielowymiarowe zmienne objaśniane. Dlatego naturalnym pomysłem jest redukcja wymiaru w zmiennych objaśnianych tak by zachować jak najwięcej wariancji pomiędzy grupami wyznaczonymi przez zmienną objaśniającą.

Popularną techniką takiej redukcji wymiaru jest Canonical Discriminant Analysis. W przestrzeni zmiennej objaśnianej szuka ona ortogonalnych wektorów wyjaśniających możliwie dużo międzygrupowej wariancji. Jeżeli z takich wektorów wybierzemy dwa pierwsze, to otrzymamy podprzestrzeń, w której analizowane grupy różnią się najsilniej (w sensie wariancji międzygrupowej).

Czytaj dalej Canonical Discriminant Analysis a wykresy HE (***)

Wykresy HE (***)

(Kierując się sugestiami z maili, trudniejsze techniczne wpisy oznaczać będę gwiazdkami w tytule)

GPS w domowych zastosowaniach pozwala kierowcom ominąć korki, ale w bardziej przemysłowych zastosowaniach pozwala na zarządzanie flotą pojazdów lub sterowanie bojowym dronem. Podobnie jest i z wizualizacją. Słupki i kropki można wykorzystać by pokazać kilka średnich ale istnieją też dla nich bardziej zaawansowane zastosowania, takie jak np. prezentacja różnic w strukturach kowariancji. I dziś będzie o takich wizualizacjach, ale po kolei.

Problem z którym ostatnio miałem do czynienia jest następujący (dziedzina: antropologia). Mamy czaszki z różnych lokalizacji i od osobników obu płci. Każda czaszka jest opisana zbiorem pięciu liczb opisujących odległości pomiędzy określonymi punktami na czaszce. Co chcemy sprawdzić? Czy i jak parametry czaszek różnią się pomiędzy płciami i lokalizacjami.

Gdybyśmy parametry czaszek opisywali jedną liczbą zamiast pięcioma na tak postawiony problem można by podejść stosując klasyczną dwukierunkową analizę wariancji.
Mając pięć parametrów opisujących czaszki, gdybyśmy każdy z nich traktowali niezależnie moglibyśmy tak postawiony problem rozwiązać pięcioma niezależnymi analizami wariancji.
Ale parametry są zależne i w tym przypadku lepszym podejściem jest zastosowanie modeli umożliwiających jednoczesne modelowanie wielowymiarowych zmiennych.

Problem jednoczesnego modelowania wielowymiarowych cech pojawia się dosyć często, szczególnie gdy zmienne, które opisujemy są zależne. Przykładowo w łącznym modelowaniu ilości mleka, białka i tłuszczu w udoju lub w analizie czynników wpływających na poziom umiejętności (opisany przez zestaw zmiennych).

Gdzie w tym zagadnieniu są ciekawe wykresy? Zobaczmy. Zaczniemy od przypomnienia jak sprawa wygląda problem testowania dla jednowymiarowych zmiennych.

Model liniowy zazwyczaj przedstawia się w postaci

Screen Shot 2015-02-15 at 22.06.50

Czytaj dalej Wykresy HE (***)