Errors and residuals in statistics

Ti Wikipédia, énsiklopédia bébas basa Sunda
Luncat ka: pituduh, sungsi

Dina statistik, konsep kasalahan jeung sesa gampang silih bingungkeun.

Kasalahan nyaeta hal nu salah; kasalahan nyaeta loba beda nu kapanggih tina nilai ekspektasi; saterusna bakal dumasar kana sakabeh populasi tina satuan statistik nu dipilih sacara acak. Nilai ekspektasi, nilai rata-rata tina populasi nu ditempo, sacara tipikil teu katempo. Lamun rata-rata jangkung lalaki nu umurna 21 taun nyaeta 5 kaki 9 inci, sarta kapilih sacara acak lalaki nu jangkungna 5 kaki 11 inci, mangka "kasalahan" nyaeta 2 inci; lamun sacara acak kapilih lalaki nu jangkungna 5 kaki 7 inci, mangka "kasalahan" nyaeta −2 inci. Istilah ieu diwangun tina ukuran kasalahan acak dina astronomi. Saperti dina ukuran jangkung lalaki tadi numana diukur tina rata-rata populasi, mangka beda antara jangkung lalaki jeung ukuran rata-rata ngarupakeun ukuran kasalahan.

Sesa nyaeta estimasi nu katempo tina kasalahan nu teu katempo. Pasualan nu gampang dina sampel acak jangkung lalaki n nyaeta ukuranna. Rata-rata sampel dipake keur ngira-ngira rata-rata populasi. Mangka:

  • Beda antara unggal jangkung lalaki jeung rata-rata populasi nu teu katempo disebut kasalahan, sarta
  • Beda antara jangkung lalaki jeung rata-rata sampel disebut sesa.
Sesa bisa katempo; kasalahan henteu.

Catetan: jumlah sesa sarua jeung nol, mangka sesa henteu mandiri. Jumlah kasalahan teu sarua jeung nol; kasalahan ngarupakeun variabel acak mandiri lamun dicokot tina populasi nu mandiri.

Kasalahan ilaharna masing-masing mandiri; sesa ilaharna henteu mandiri tinu sejen.

Conto[édit | sunting sumber]

Lamun urang nganggap populasi nu kasebar normal mibanda mean μ sarta simpangan baku σ, sarta individu nu dipilih bebas, mangka

X_1, \dots, X_n\sim N(\mu,\sigma^2)

sarta sampel mean ngarupakeun sebaran variabel random:

\overline{X}\sim N(\mu, \sigma^2/n).

Mangka kasalahan nyaeta

\varepsilon_i=X_i-\mu,

sedengkeun sesa nyaeta

\widehat{\varepsilon}_i=X_i-\overline{X}.

(Saperti nu ilahar dipake, tanda "topi" diluhureun aksara ε nunjukkeun estimasi observasi tina kuantitas nu teu kaobservasi disebut ε.)

Jumlah kuadrat kasalahan, dibagi ku σ2, mibanda sebaran chi-kuadrat mibanda n tingkat kebebasan:

\sum_{i=1}^n \left(X_i-\mu\right)^2/\sigma^2\sim\chi^2_n.

Nilai ieu teu bisa kapanggih, sedengkeun kuadrat jumlah sesa, bisa kapanggih. Bagi ieu jumlah ku σ2 nu mibanda sebaran chi-kuadrat ngan ku n − 1 tingkat kabebasan:

\sum_{i=1}^n \left(\,X_i-\overline{X}\,\right)^2/\sigma^2\sim\chi^2_{n-1}.

Hal ieu bisa ditandaan yen variabel acak jeung sampel mean nembongkeun kamandirian sewang-sewangan. Ieu kanyataan sebaran normal jeung chi-kuadrat nembongkeun yen itungan bentuk dasar di luhur dumasar kana interval kapercayaan dina sebaran-t student. Batalna σ tina nu ngabagi jeung nu dibagi dina eta itungan nembongkeun yen aya kateujelasan nu nyababkeun ayana anggapan yen σ2 teu mere pangaruh nanaon.

Tempo ogé[édit | sunting sumber]

Studentized residual

Nulis.jpg