Bias (statistik)

Ti Wikipédia, énsiklopédia bébas
Luncat ka: pituduh, sungsi

Dina statistik, estimator anu bias nyaeta hiji kaayaan numana nilai rata-rata saluhureun atawa sahandapeun nu ditaksir. Aya dua panilaian anu beda, hiji nempo kana kaayaan nu kacida gorengna, panempo sejenna nyaeta kana kaayaan dina waktu hasil nyieunna leuwih kapake sarta leuwih deukeut kana bebeneran tinimbang kana kaayaan "unbiased."

Hal nu goreng[édit | sunting sumber]

Hiji harti nu disebut sampel bias: Lamun sababara unsur nyaruaan kana sampel nu dipilih tinimbang nu sejen, jeung ngabogaan nilai nu leuwih luhur atawa leuwih handap tina nu ditaksir, hasilna bakal leuwih luhur atawa leuwih handap tina nu ditaksir.

Salah sahiji conto kawentar nu salah waktu nerapkeun sampel bias, kajadian dina poling presiden Amerika taun 1936. Literary Digest ngayakeun polling keur ngaramal yen Alfred E. Landon bakal ngelehkeun Franklin Delano Roosevelt ku 57% lawan 43%. George Gallup, ngagunakeun sampel nu leuwih saeutik (300,000 dibanding 2,000,000), ngaramalkeun Roosevelt bakal meunang, sarta ramalanna bener. Naon nu salah jeung polling Literary Digest? Maranehna ngagunakeun data nu boga telepon jeung mobil keur sampelna. Waktu harita, masih ngarupakeun barang mewah, mangka sampelna didominasi ku golongan menengah ka luhur. Golongan ieu milih Landon, tapi golongan handap milih Roosevelt. Sabab sampelna bisa nujul kana kakayaan nu milih, mangka hasilna jadi salah.

Hal bias ieu ilahar kajadian salaku pasualan milih tinimbang masalah statistical noise: Masalah nu pakait jeung statistical noise bisa dikurangan nu cara nambah jumlah sampel, tapi bias sampel teu bisa gampang dileungitkeun. Dina sababaraha hal, meta-analysis bakal milah data nu hade keur nalungtik kakurangan tina statistical noise, tapi bias meta-analysis bakal jadi biasna sorangan.

Hal nu kadangkala hade[édit | sunting sumber]

Hal bias sejen nu teu kaasup bias dina sampel, tapi kaasup dipake dina statistik nyaeta nilai rata-rata beda tina nilai nu ditaksir. Anggap nyoba naksir parameter \theta make panaksir estimator \hat{\theta} (hal ieu sababaraha fungsi tina data nu ditempo). Mangka bias \hat{\theta} hartikeun


\operatorname{E}(\hat{\theta})-\theta.

Hartina, "nilai nu disangka tina taksiran \hat{\theta} dikurangan nilai sabenerna \theta". Bisa oge ditulis



\operatorname{E}(\hat{\theta}-\theta).

nu hartina "beda nilai nu disangka antara nilai nu ditaksir jeung nilai sabenerna" (nilai nu disangka \theta nyaeta \theta).

Keur conto, anggap X1, ..., Xn nyaeta variabel acak nu mandiri jeung kasebar identik, unggal sebaran normal nu disangka μ jeung varian σ2. Mangka

\overline{X}=(X_1+\cdots+X_n)/n

jadi "rata-rata sampel", tur

S^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X}\,)^2

jadi "varian sampel". Saterusna S2 nyaeta "bias panaksir" σ2 sabab

\operatorname{E}(S^2)=\frac{n-1}{n}\sigma^2\neq\sigma^2.

Sanajan kitu, panaksir bias ieu, kriteria nu ilahar "kuadrat kasalahan mean", sabenerna leuwih hade (tapi kacida deukeutna) tibatan panaksir teu-bias tina hasil n − 1 dina pangbagi numana n dideukeutan dina ngartikeun S2 di luhur. Saterusna akar kuadrat panaksir teu-bias tina populasi varian lain ngarupakeun panaksir teu-bas tina populasi simpangan baku; keur fungsi non-linier f sarta panaksir teu-bias U tina parameter p, f(U) ilaharna lain panaksir teu-bias tina f(p).

Dina pasualan nu leuwih ekstrim tina panaksir bias bakal leuwih hade tinimbang panaksir teu-bias geus ilahar dipake: Anggap X mibanda distribusi Possion nu nilai disangka λ. Ieu diperlukeun keur naksir

\operatorname{P}(X=0)^2=e^{-2\lambda}.\quad

Ngan fungsi tina data nu teu ngabogaan panaksir teu-bias nyaeta

\delta(X)=(-1)^X.\quad

Lamun nilai nu ditempo X nyaeta 100, mangka panaksir sarua jeung 1, sanajan nilai sabenerna bakal leuwih nujul ka 0, nu tibalik sacara ekstrim. Jeung lamun X nu ditempo jadi 101, mangka taksiran jadi teu jelas: nyaeta -1, sanajan gedena nu bakal ditaksir kudu positif. (Bias) panaksir maximum-likelihood

e^{-2X}\quad

leuwih hade tinimbang panaksir teu-bias dina kayaan mean kuadrat kasalahan

e^{-4\lambda}-2e^{\lambda(1/e^2-3)}+e^{\lambda(1/e^4-1)}

leuwih leutik. Bandingkeun panaksir teu-bias MSE

1-e^{-4\lambda}

MSE nyaeta fungsi nilai sabenerna λ. Bias panaksir maximum-likelihood nyaeta:

e^{-2\lambda}-e^{\lambda(1/e^2-1)}.

Bias panaksir maximum-likelihood bisa ngarupakeun hal nu penting. Tempo hiji pasualan numana lobana tiket n dinomeran ti 1 nepi ka n disimpen dina kotak sarta terus dicokot hiji sacara acak, mere hiji nilai X. Lamun n teu dipikanyaho, mangka panaksir maximum-likelihood tina n nyaeta X, ngaliwatan sangkaan X ngan n/2; ngan bisa dipastikeun yen n ngan dina X sarta mungkin leuwih. Dina pasualan ieu, panaksir teu-biasa alami nyaeta 2X.

Tempo ogé[édit | sunting sumber]