# Korélasi kanonik

(dialihkeun ti Canonical correlation)
Loncat ke navigasi Loncat ke pencarian

Dina statistik, analisa canonical correlation, dimimitian ku Harold Hotelling, nyaéta turus keur nyieun matrik cross-covariance.

## Harti

Ditangtukeun dua kolom vektor ${\displaystyle X=(x_{1},\dots ,x_{n})'}$ jeung ${\displaystyle Y=(y_{1},\dots ,y_{m})'}$ variabel acak momen kadua, salah sahiji hartina cross-covarian ${\displaystyle \Sigma _{12}=\operatorname {cov} (X,Y)}$ nu bakal jadi matriks ${\displaystyle n\times m}$ nu mana asupan ${\displaystyle (i,j)}$ nyaéta kovarian ${\displaystyle \operatorname {cov} (x_{i},y_{j})}$.

Analisa korelasi kanonik nyobaan ${\displaystyle a}$ sarta ${\displaystyle b}$ saperti dina variabele acak ${\displaystyle a'X}$ jeung ${\displaystyle b'Y}$ ngamaksimalkeun korélasi ${\displaystyle \rho =\operatorname {cor} (a'X,b'Y)}$. Variabel acak ${\displaystyle U=a'X}$ jeung ${\displaystyle V=b'Y}$ mangrupa pasangan munggaran variabel kanonik. Saterusna vektor ngamaksimalkeun subyek korelasi nu sarua keur negeskeun yén hal ieu teu pakait jeung pasangan munggaran variabel kanonik; hasilna nyaéta pasangan kadua variabel kanonik. Ieu prosedur terus lumangsung salila ${\displaystyle \min\{m,n\}}$ kali.

## Komputasi

### Bukti

Anggap ${\displaystyle \Sigma _{11}=\operatorname {cov} (X,X)}$ jeung ${\displaystyle \Sigma _{22}=\operatorname {cov} (Y,Y)}$. Paraméter nu dimaksimalkeun nyaéta

${\displaystyle \rho ={\frac {a'\Sigma _{12}b}{{\sqrt {a'\Sigma _{11}a}}{\sqrt {b'\Sigma _{22}b}}}}.}$

léngkah kahiji nyaéta ngahartikeun parobahan basis jeung hartina

${\displaystyle c=\Sigma _{11}^{1/2}a,}$
${\displaystyle d=\Sigma _{22}^{1/2}b.}$

${\displaystyle \rho ={\frac {c'\Sigma _{11}^{-1/2}\Sigma _{12}\Sigma _{22}^{-1/2}d}{{\sqrt {c'c}}{\sqrt {d'd}}}}.}$

Ngagunakeun kateusaruaan Cauchy-Schwarz, jadi

${\displaystyle c'\Sigma _{11}^{-1/2}\Sigma _{12}\Sigma _{22}^{-1/2}d\leq \left(c'\Sigma _{11}^{-1/2}\Sigma _{12}\Sigma _{22}^{-1/2}\Sigma _{22}^{-1/2}\Sigma _{21}\Sigma _{11}^{-1/2}c\right)^{1/2}\left(d'd\right)^{1/2},}$
${\displaystyle \rho \leq {\frac {\left(c'\Sigma _{11}^{-1/2}\Sigma _{12}\Sigma _{22}^{-1/2}\Sigma _{22}^{-1/2}\Sigma _{21}\Sigma _{11}^{-1/2}c\right)^{1/2}}{\left(c'c\right)^{1/2}}}.}$

Hal ieu sarua lamun vektor ${\displaystyle d}$ jeung ${\displaystyle \Sigma _{22}^{-1/2}\Sigma _{21}\Sigma _{11}^{-1/2}c}$ kolinier. Tambahanna, korelasi maksimum kahontal lamun ${\displaystyle c}$ nyaéta vektor eigen ku nilai maksimal vektor eigen keur matrik ${\displaystyle \Sigma _{11}^{-1/2}\Sigma _{12}\Sigma _{22}^{-1}\Sigma _{21}\Sigma _{11}^{-1/2}}$ (tempo Rayleigh quotient). Pasangan saterusna bakal kapanggih ku cara nurunkeun gedéna nilai eigen. Sacara ortogonal dijamin ku matrik korelasi nu simetri.

### Solusi

Solusina nyaéta:

• ${\displaystyle c}$ nyaéta vektoreigen ${\displaystyle \Sigma _{11}^{-1/2}\Sigma _{12}\Sigma _{22}^{-1}\Sigma _{21}\Sigma _{11}^{-1/2}}$
• ${\displaystyle d}$ nyaéta sabanding jeung ${\displaystyle \Sigma _{22}^{-1/2}\Sigma _{21}\Sigma _{11}^{-1/2}c}$

Papasanganna nyaéta:

• ${\displaystyle d}$ nyaéta vektor eigen ${\displaystyle \Sigma _{22}^{-1/2}\Sigma _{21}\Sigma _{11}^{-1}\Sigma _{12}\Sigma _{22}^{-1/2}}$
• ${\displaystyle c}$ nyaéta sabanding jeung ${\displaystyle \Sigma _{11}^{-1/2}\Sigma _{12}\Sigma _{22}^{-1/2}d}$

Variabel kanonik dihartikeun ku:

${\displaystyle U=c'\Sigma _{11}^{-1/2}X=a'X}$
${\displaystyle V=d'\Sigma _{22}^{-1/2}Y=b'Y}$

## Uji hipotesa

Unggal baris bisa diuji signifikan-na ku cara métodeu nu bakal dijéntrékeun. Lamun ${\displaystyle p}$ observasi mandiri dina sampel sarta ${\displaystyle {\widehat {\rho }}_{i}}$ nyaéta korelasi estimasi ${\displaystyle i=1,\dots ,\min\{m,n\}}$. Keur baris ka-${\displaystyle i}$, uji statistik nyaéta:

${\displaystyle \chi ^{2}=-\left(p-1-{\frac {1}{2}}(m+n+1)\right)\ln \prod _{j=i}^{p}(1-{\widehat {\rho }}_{j}^{2}),}$

nu deukeut kana sebaran chi-square nu mana ${\displaystyle (m-i+1)(n-i+1)}$ tingkat kabebasan keur ${\displaystyle p}$ nu gedé.[1]

## Pamakean praktis

Tipe husus keur koralsi kanonik dina psikologi nyaéta nyokot dua runtuyan variabel tur nempo sabaraha ilahar di antara dua uji. Contona, anjeun nyokot dua uji personal multidimensi nu geus aya saperti MMPI jeung NEO. Ku nempo kumaha faktor MMPI pakait jeung faktor Néo, anjeun bakal meunang hal nu jéntré kumaha dimensi nu ilahar antara dua uji sarta sakumaha béda varian nu dibagikeun. Contona, anjeun bisa manggihkeun yén versi leuwih atawa neuroticis diitung keur materi nu ngabagikeun varian antara dua uji.

## Rujukan jeung tumbu kaluar

1. Kanti V. Mardia, J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. Academic Press.