Bias (statistik)

Ti Wikipédia, énsiklopédia bébas
Luncat ka: pituduh, sungsi

Dina statistik, estimator anu bias nyaéta hiji kaayaan numana nilai rata-rata saluhureun atawa sahandapeun nu ditaksir. Aya dua panilaian anu béda, hiji nempo kana kaayaan nu kacida gorengna, panempo séjénna nyaéta kana kaayaan dina waktu hasil nyieunna leuwih kapake sarta leuwih deukeut kana bebeneran tinimbang kana kaayaan "unbiased."

Hal nu goreng[édit | édit sumber]

Hiji harti nu disebut sampel bias: Lamun sababara unsur nyaruaan kana sampel nu dipilih tinimbang nu séjén, jeung ngabogaan nilai nu leuwih luhur atawa leuwih handap tina nu ditaksir, hasilna bakal leuwih luhur atawa leuwih handap tina nu ditaksir.

Salah sahiji conto kawentar nu salah waktu nerapkeun sampel bias, kajadian dina poling présidén Amerika taun 1936. Literary Digest ngayakeun polling keur ngaramal yén Alfred E. Landon bakal ngéléhkeun Franklin Delano Roosevelt ku 57% lawan 43%. George Gallup, ngagunakeun sampel nu leuwih saeutik (300,000 dibanding 2,000,000), ngaramalkeun Roosevelt bakal meunang, sarta ramalanna bener. Naon nu salah jeung polling Literary Digest? Maranehna ngagunakeun data nu boga telepon jeung mobil keur sampelna. Waktu harita, masih mangrupa barang mewah, mangka sampelna didominasi ku golongan menengah ka luhur. Golongan ieu milih Landon, tapi golongan handap milih Roosevelt. Sabab sampelna bisa nujul kana kakayaan nu milih, mangka hasilna jadi salah.

Hal bias ieu ilahar kajadian salaku pasualan milih tinimbang masalah statistical noise: Masalah nu pakait jeung statistical noise bisa dikurangan nu cara nambah jumlah sampel, tapi bias sampel teu bisa gampang dileungitkeun. Dina sababaraha hal, meta-analysis bakal milah data nu hade keur nalungtik kakurangan tina statistical noise, tapi bias meta-analysis bakal jadi biasna sorangan.

Hal nu kadangkala hade[édit | édit sumber]

Hal bias séjén nu teu kaasup bias dina sampel, tapi kaasup dipaké dina statistik nyaéta nilai rata-rata béda tina nilai nu ditaksir. Anggap nyoba naksir parameter maké panaksir estimator (hal ieu sababaraha fungsi tina data nu ditempo). Mangka bias hartikeun

Hartina, "nilai nu disangka tina taksiran dikurangan nilai sabenerna ". Bisa ogé ditulis

nu hartina "beda nilai nu disangka antara nilai nu ditaksir jeung nilai sabenerna" (nilai nu disangka nyaéta ).

Keur conto, anggap X1, ..., Xn nyaéta variabel acak nu mandiri jeung kasebar identik, unggal sebaran normal nu disangka μ jeung varian σ2. Mangka

jadi "rata-rata sampel", tur

jadi "varian sampel". Saterusna S2 nyaéta "bias panaksir" σ2 sabab

Sanajan kitu, panaksir bias ieu, kriteria nu ilahar "kuadrat kasalahan mean", sabenerna leuwih hade (tapi kacida deukeutna) tibatan panaksir teu-bias tina hasil n − 1 dina pangbagi numana n dideukeutan dina ngartikeun S2 di luhur. Saterusna akar kuadrat panaksir teu-bias tina populasi varian lain mangrupa panaksir teu-bas tina populasi simpangan baku; keur fungsi non-linier f sarta panaksir teu-bias U tina parameter p, f(U) ilaharna lain panaksir teu-bias tina f(p).

Dina pasualan nu leuwih ekstrim tina panaksir bias bakal leuwih hade tinimbang panaksir teu-bias geus ilahar dipaké: Anggap X mibanda distribusi Possion nu nilai disangka λ. Ieu diperlukeun keur naksir

Ngan fungsi tina data nu teu ngabogaan panaksir teu-bias nyaéta

Lamun nilai nu ditempo X nyaéta 100, mangka panaksir sarua jeung 1, sanajan nilai sabenerna bakal leuwih nujul ka 0, nu tibalik sacara ekstrim. Jeung lamun X nu ditempo jadi 101, mangka taksiran jadi teu jelas: nyaéta -1, sanajan gedena nu bakal ditaksir kudu positif. (Bias) panaksir maximum-likelihood

leuwih hade tinimbang panaksir teu-bias dina kayaan mean kuadrat kasalahan

leuwih leutik. Bandingkeun panaksir teu-bias MSE

MSE nyaéta fungsi nilai sabenerna λ. Bias panaksir maximum-likelihood nyaéta:

.

Bias panaksir maximum-likelihood bisa mangrupa hal nu penting. Tempo hiji pasualan numana lobana tiket n dinomeran ti 1 nepi ka n disimpen dina kotak sarta terus dicokot hiji sacara acak, méré hiji nilai X. Lamun n teu dipikanyaho, mangka panaksir maximum-likelihood tina n nyaéta X, ngaliwatan sangkaan X ngan n/2; ngan bisa dipastikeun yén n ngan dina X sarta mungkin leuwih. Dina pasualan ieu, panaksir teu-biasa alami nyaéta 2X.

Tempo ogé[édit | édit sumber]