Test Cressie-Read, czyli jak mierzyć zależności pomiędzy parą zmiennych jakościowych

Po raz kolejny gościmy na blogu wpis Krzyśka Trajkowskiego [wielkie dzięki za wsparcie!!!]. Tym razem napisze on o teście Cressie-Read oraz przedstawi przykłady wywołania tego testu z pakietu CressieReadTest dla programu R. Warto zaznaczyć, że Krzysiek jest autorem tego pakietu.

Pakiet CressieReadTest można pobrać z tej strony.

Poniżej przedstawiony jest opis testu w formie strony html. Można też ten opis pobrać jako plik pdf z tej strony.

Statystyka Cressie-Read jest uogólnieniem kilku innych statystyk, popularnie wykorzystywanych w badaniu tablic kontyngencji dla dwóch zmiennych ilościowych. Warto więc się z nią zaznajomić.

Test Cressie-Read

Krzysztof Trajkowski

Do badania tabel kontyngencji bardzo często stosuje się testy niezależności \( \chi^2 \) Pearsona lub \( G^2 \) największej wiarygodności.
Istnieje jednak bardzo ciekawa (choć mniej popularna) statystyka \( D^2 \) zaproponowana przez Reada i Cressie która ma na celu ujednolicenie zapisu całej rodziny statystyk za pomocą poniższego wzoru:

\[
D^2=\frac{2}{\lambda(\lambda+1)}\sum_{i=1}^{r}\sum_{j=1}^{c} O_{ij}\left[\left(\frac{O_{ij}}{E_{ij}}\right)^{\lambda}-1\right]
\]
gdzie:

  • \( O_{ij} \) – empiryczna liczebność \( i \)-tego wiersza oraz \( j \)-tej kolumny,
  • \( E_{ij} \) – oczekiwana liczebność \( i \)-tego wiersza oraz \( j \)-tej kolumny,
  • \( r \) – liczba wierszy,
  • \( c \) – liczba kolumn.

Zwróćmy uwagę, że wyrażenie \( \lambda(\lambda+1) \) musi być różne od zera. A więc parametr \( \lambda \) nie może być równy \( 0 \) lub \( -1 \).
Cressie oraz Read sugerują, aby wartość parametru \( \lambda \) była równa \( \frac{2}{3} \) jako kompromis
między statystyką \( \chi^2 \) Pearsona (\( \lambda=1 \)) i \( G^2 \) wskaźnika wiarygodności (\( \lambda\rightarrow 0 \)).

Dobierając odpowiednią wartość parametru \( \lambda \) możemy uzyskać wyniki dla kilku różnych testów niezależności opartych na statystyce \( \chi^2 \). Np. statystykę \( \chi^2 \) Pearsona otrzymamy gdy \( \lambda=1 \), z kolei statystykę Neymana dla \( \lambda=-2 \) która jest modyfikacją testu \( \chi^2 \) Pearsona. Statystykę testu \( G^2 \) największej wiarygodności uzyskamy dla parametru \( \lambda\rightarrow 0 \), a jego modyfikację Kullback-Leibler gdy \( \lambda\rightarrow -1 \). Natomiast rozwiązanie zaproponowane przez Freemana i
Tukeya otrzymamy dla \( \lambda=-\frac{1}{2} \). Poniżej przykłady z wykorzystaniem tych testów.

Statystyka chi-kwadrat Pearsona (Pearson chi-squared statistic)
\[
\chi^2=\sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}
\]

Modyfikacja Neyman's statystyki \( \chi^2 \):
\[
N=\sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(O_{ij}-E_{ij})^2}{O_{ij}}
\]

Inna często spotykana statystyka to wskaźnik wiarygodności (log likelihood ratio statistic)
\[
G^2=2\sum_{i=1}^{r}\sum_{j=1}^{c}O_{ij}\ln\left(\frac{O_{ij}}{E_{ij}}\right)
\]

Modyfikacja Kullback-Leibler statystyki \( G^2 \):
\[
KL=2\sum_{i=1}^{r}\sum_{j=1}^{c}E_{ij}\ln\left(\frac{E_{ij}}{O_{ij}}\right)
\]

Poniżej statystyka zaproponowana przez Freemana i Tukeya:
\[
FT=4\sum_{i=1}^{r}\sum_{j=1}^{c}\left(\sqrt{O_{ij}}-\sqrt{E_{ij}}\right)^2
\]

Na bazie statystyki \( \chi^2 \) można obliczyć kilka współczynników, które określają siłę związku badanych zmiennych.

  • współczynnik Yule'a – ma zastosowanie dla tabel o wymiarach \( 2\times 2 \) oraz \( \phi\in\langle -1;1\rangle \):
    \[ \phi=\sqrt{\frac{\chi^2}{n}} \]
  • współczynnik Pearsona – ma zastosowanie dla tabel o wymiarach \( r\times c \) oraz \( C\in\left\langle 0; \sqrt{\frac{min(r,c)-1}{min(r,c)}} \right\rangle \):
    \[ C=\sqrt{\frac{\chi^2}{\chi^2+n}} \]
  • współczynnik Cramera – nie wskazuje kierunku korelacji oraz \( V\in\langle 0; 1\rangle \):
    \[ V=\sqrt{\frac{\chi^2}{n(min(r,c)-1)}} \]
  • współczynnik Czupurowa – nie wskazuje kierunku korelacji oraz \( T\in\langle 0; 1\rangle \):
    \[ T=\sqrt{\frac{\chi^2}{n\sqrt{(r-1)(c-1)}}} \]
    Poniżej są przedstawione obliczenia dla wszystkich omówionych testów oraz współczynniki korelacji:

Przedstawione powyżej formuły matematyczne (testy niezależności) są także wykorzystywane do badania zgodności danych liczbowych z określnonym rozkładem np. jednostajnym. Poniżej przykłady dla dwóch rozkładów jednostajnych.

Rozkład jednostajny–dyskretny:

Rozkład jednostajny–ciągły:

Jedna myśl na temat “Test Cressie-Read, czyli jak mierzyć zależności pomiędzy parą zmiennych jakościowych”

  1. A na koniec porównajmy te przybliżenia z dokładną wartością testu niezależności o rozkładzie wielomianowym (0.002274776) :]

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">