බෙදීම සඳහා බුද්ධිමය පැහැදිලි කිරීම


151

සම්මත අපගමනය ගණනය කිරීමේදී ඔබ වර්ග දෝෂයේ එකතුව සමඟ වෙනුවට මගින් බෙදන්නේ මන්දැයි අද පන්තියේදී මගෙන් විමසන ලදි .n1n

මම කිව්වේ මම පන්තියේදී එයට පිළිතුරු දීමට යන්නේ නැති බවයි (මට අපක්ෂපාතී තක්සේරුකරුවන් වෙත යාමට අවශ්‍ය නැති නිසා), නමුත් පසුව මම කල්පනා කළා - මේ සඳහා බුද්ධිමත් පැහැදිලි කිරීමක් තිබේද ?


30
සංඛ්‍යාත්මක වට්ටෝරු පොතෙන් මෙම සින්ගර් උපුටා දැක්වීමට මම කැමතියි : "... සහ අතර වෙනස ඔබට කවදා හෝ වැදගත් නම්, ඔබ කෙසේ හෝ යහපත් නොවනු ඇත - උදා: සැක සහිත උපකල්පනයක් සනාථ කිරීමට උත්සාහ කිරීම ආන්තික දත්ත සමඟ. ” nn1
ජේඑම් සංඛ්‍යා ලේඛකයෙකු නොවේ

11
සැබවින්ම අලංකාර, අවබෝධාත්මක පැහැදිලි කිරීමක් මෙහි ඉදිරිපත් කර ඇත (සාධනයට පහළින්) en.wikipedia.org/wiki/… මූලික අදහස නම්, ඔබේ නිරීක්ෂණ ස්වාභාවිකවම, ජනගහනයේ මධ්‍යන්‍යයට වඩා නියැදි මධ්‍යයට වඩා සමීප වනු ඇති බවයි.
WetlabStudent

12
Al තල්, මේ නිසා පාසල් උරා බොයි. ඔබ ඔවුන්ගෙන් "ඇයි මේ ?" යනුවෙන් අසන අතර ඔවුන් පිළිතුරු දෙන්නේ "එය කටපාඩම් කර ගන්න" යනුවෙනි.
පැසීරියර්

1
ඔබ බුද්ධිමත් පැහැදිලි කිරීමක් සොයන්නේ නම්, ඇත්ත වශයෙන්ම සාම්පල ගැනීමෙන් ඔබම හේතුව ඔබ දැක ගත යුතුය! මෙය නරඹන්න, එය ඔබ ඇසූ ප්‍රශ්නයට හරියටම පිළිතුරු සපයයි. youtube.com/watch?v=xslIhnquFoE
සහිල් චෞද්රි

tl; dr: (ඉහළ පිළිතුරෙන් :) "... නියැදියෙන් අපගමනය උපයෝගී කරගනිමින් ගණනය කරනු ලබන සම්මත අපගමනය ජනගහනයේ අපේක්ෂිත සම්මත අපගමනය අවතක්සේරු කරයි ..." මෙයද බලන්න: en.wikipedia.org/wiki/…. එබැවින්, තරමක් සංකීර්ණ දෙයක් ගණනය කිරීමට ඔබට හැඟෙන්නේ නැත්නම්, එය නියැදියකින් නම් n-1 භාවිතා කරන්න.
ඇන්ඩෲ

Answers:


108

හි බෙදුම්කරු සමඟ ගණනය කරන ලද සම්මත අපගමනය n1නියැදිය ඇද ගන්නා ලද ජනගහනයේ සම්මත අපගමනය පිළිබඳ තක්සේරුවක් ලෙස නියැදියෙන් ගණනය කරන ලද සම්මත අපගමනයකි. නිරීක්ෂණය කරන ලද අගයන් සාමාන්‍යයෙන් ජනගහනයට වඩා නියැදි මධ්‍යයට වඩා පහත වැටෙන හෙයින්, නියැදියෙන් අපගමනය උපයෝගී කරගනිමින් ගණනය කරනු ලබන සම්මත අපගමනය ජනගහනයේ අපේක්ෂිත සම්මත අපගමනය අවතක්සේරු කරයි. භාවිතා කිරීමn1 වෙනුවට n ප්‍රති the ලය ටිකක් විශාල කිරීමෙන් බෙදුම්කරු ඒ සඳහා නිවැරදි කරයි.

නිවැරදි කිරීම විට විශාල සමානුපාතික බලපෑමක් ඇති බව සලකන්න n එය විශාල වන විට වඩා කුඩා වන අතර එය අපට අවශ්‍ය වන්නේ n විශාල වන විට නියැදි මධ්‍යන්‍යය ජනගහනයේ මධ්‍යන්‍යයේ හොඳ තක්සේරුකරුවෙකු විය හැකි බැවිනි.

නියැදිය මුළු ජනගහනය වන විට අපි සම්මත අපගමනය භාවිතා කරමු nභාජකය ලෙස නියැදි ලක්ෂ්ය නිසා ජනගහනය අදහස්.

("දන්නා, නිශ්චිත මධ්යන්යයක් වටා මෑත කාලීනව සිදු වූ දෙවන මොහොත" සමඟ ආරම්භ වන කිසිවක් ප‍්‍රශ්න කරන්නාගේ බුද්ධිමය පැහැදිලි කිරීමක් සඳහා වන ඉල්ලීම ඉටු නොකරන බව මම වර්‍ගිකව සටහන් කරමි.)


14
"බුද්ධිමය" "නොන්ටෙක්නිකල්" සමඟ පටලවා නොගනිමු.
whuber

34
Ic මයිකල්, මෙය පැහැදිලි නොකරයි අප n−1ඒ වෙනුවට n−2(හෝ n−3) භාවිතා කරන්නේ ඇයි ?
පැසීරියර්

2
AcPacerier එම කරුණ පිළිබඳ විස්තර සඳහා පහත දැක්වෙන වබර්ගේ පිළිතුර බලන්න. සාරාංශයක් ලෙස, නිවැරදි කිරීම n-2 යනාදිය වෙනුවට n-1 ය. මන්දයත් n-1 නිවැරදි කිරීම අපට අවශ්‍ය දේට ඉතා ආසන්න ප්‍රති results ල ලබා දෙන බැවිනි. වඩාත් නිවැරදි නිවැරදි කිරීම් මෙහි දක්වා ඇත: en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation
මයිකල් ලිව්

1
හායි මයිකල්, එසේනම් නියැදි මධ්යන්යයෙන් ගණනය කිරීම ජනගහන මධ්යන්යයට වඩා කුඩා වන්නේ ඇයි?
ඇලන්

1
"නිරීක්ෂණය කරන ලද අගයන් සාමාන්‍යයෙන් ජනගහනයට වඩා නියැදි මධ්‍යයට වඩා පහත වැටෙන හෙයින්, නියැදියෙන් අපගමනය උපයෝගී කරගනිමින් ගණනය කරනු ලබන සම්මත අපගමනය ජනගහනයේ අපේක්ෂිත සම්මත අපගමනය අවතක්සේරු කරයි." නියැදියෙහි තේරුම සැමවිටම අවතක්සේරු කරන්නේ ඇයි? එය අධි තක්සේරු කළහොත් කුමක් කළ යුතුද?
බෝරා එම්. ඇල්පර්

67

අර්ථ දැක්වීම අනුව, විචලනය ගණනය කරනු ලබන්නේ මධ්‍යන්‍යයෙන් වර්ගවල වෙනස්කම් එකතුවෙන් සහ ප්‍රමාණයෙන් බෙදීමෙනි. අපට පොදු සූත්‍රය ඇත

σ2=iN(Xiμ)2N කොහෙද μ මධ්යන්ය සහ N යනු ජනගහනයේ ප්‍රමාණයයි.

මෙම අර්ථ දැක්වීම අනුව, නියැදියක විචලනය (උදා: නියැදිය t) ද මේ ආකාරයෙන් ගණනය කළ යුතුය.

σt2=in(XiX¯)2n කොහෙද X¯ මධ්යන්ය සහ n මෙම කුඩා නියැදියේ ප්‍රමාණයයි.

කෙසේ වෙතත්, නියැදි විචලනය අනුව S2, අපි අදහස් කරන්නේ ජනගහන විචල්‍යතාව තක්සේරු කරන්නෙකු ලෙස ය σ2. අපි තක්සේරු කරන්නේ කෙසේද?σ2 නියැදියෙන් අගයන් භාවිතා කිරීමෙන් පමණක්ද?

ඉහත සූත්‍ර වලට අනුව, අහඹු විචල්‍යය X නියැදි මධ්‍යන්‍යයෙන් බැහැර වේ X¯ විචලනය සමඟ σt2. නියැදියෙහි තේරුමX¯ ද වෙනස් වේ μ විචලනය සමඟ σ2n නියැදි මධ්යන්ය නියැදියේ සිට නියැදියට වෙනස් අගයන් ලබා ගන්නා අතර එය මධ්යන්ය සමඟ අහඹු විචල්යයකි μ සහ විචලනය σ2n. (කෙනෙකුට පහසුවෙන් ඔප්පු කළ හැකිය.)

එබැවින් දළ වශයෙන්, X වෙතින් බැහැර විය යුතුය μ විචල්‍යයන් දෙකක් ඇතුළත් විචල්‍යතාවයකින් මෙම දෙක එකතු කර ලබා ගන්න σ2=σt2+σ2n. මෙය විසඳීමෙන් අපට ලැබේσ2=σt2×nn1. ප්රතිස්ථාපනය කිරීමσt2 ජනගහන විචලනය සඳහා අපගේ ඇස්තමේන්තුව ලබා දෙයි:

S2=in(XiX¯)2n1.

කෙනෙකුට එය ඔප්පු කළ හැකිය E[S2]=σ2 ඇත්ත.


මෙය එතරම් සුළු දෙයක් නොවන බව මම විශ්වාස කරමි: නියැදි මධ්යන්ය එන්ඩී බවට අභිසාරී වේ ද?μ, σn) n අත්තනෝමතික ලෙස විශාල වන විට නියැදි මධ්යන්ය විචලනය සමඟ සැබෑ මධ්යන්යයෙන් බැහැර වීමට හේතුව σ2n?
රෙක්ස්යුවාන්

10
මෙය අනෙක් ඒවාට වඩා හොඳ පැහැදිලි කිරීමකි, මන්ද එය සංඛ්‍යානමය පද සමඟ යග් යාගයට යාම වෙනුවට සමීකරණ සහ ව්‍යුත්පන්නයන් පෙන්වන බැවිනි.
නව

1
vesevenkul අපට දෘශ්‍යමය වශයෙන් මෙය කෙසේ දැකිය හැකිද? ඔබ කියන විට, X වෙතින් බැහැර විය යුතුයμඑම ශුද්ධ විචල්‍යතාවයෙන්, එය දෘශ්‍යමාන කිරීම මට අහිමි වී ඇත
පාර්තිබන් රාජේන්ද්‍රන්

හූබර් සහ හත්කුල් ... හෝ වෙන කවුරුන් හෝ පිළිතුර දනී. ජනගහනයේ සමස්ත විචලනය නියැදි මධ්යන්යයෙන් සාම්පලයේ විචලනයේ එකතුව හා නියැදියේ විචලනය මධ්යන්ය වන්නේ ඇයි? අපි විචල්‍යයන් සාරාංශ කරන්නේ කෙසේද? ස්තූතියි!
joshuaronis

සමහර විට (1) නියැදිය තුළ විචලනය අපේක්ෂා කිරීම සහ (2) නියැදි මධ්‍යන්‍යයේ විචලනය “සම්පූර්ණ විචල්‍යතාවයේ නියමය” යන පද දෙකෙන් තදින් අල්ලා ගත හැකිය. ප්‍රතිභානය සහ සාක්ෂි සඳහා මෙහි බලන්න .
හත්කුල්

57

පොදු එකක් නම්, විචල්‍යතාවයේ අර්ථ දැක්වීම (බෙදාහැරීමක) යනු දන්නා, නිශ්චිත මධ්යන්යයක් වටා මෑත කාලීනව සිදු කළ දෙවන මොහොත වන අතර තක්සේරුකරු ඇස්තමේන්තුගත මධ්යන්යයක් භාවිතා කරයි . මෙම නිදහසේ තරම අහිමි වීම (මධ්යන්යය අනුව, ඔබට යුක්තිසහගත දැනුමෙන් දත්ත කට්ටලය නැවත සකස් කළ හැකියn1 දත්ත අගයන් සඳහා) භාවිතය අවශ්‍ය වේ n1 ඊට වඩා n ප්‍රති .ලය "වෙනස් කිරීමට".

එවැනි පැහැදිලි කිරීමක් ANOVA සහ විචල්‍යතා සංරචක විශ්ලේෂණයේ ඇස්තමේන්තුගත විචල්‍යතාවන්ට අනුරූප වේ. එය ඇත්තෙන්ම විශේෂ අවස්ථාවක් පමණි.

කිරීමේ අවශ්යතාව ඇතැම් විචලතාව පුම්බාලීය බව ගැලපුම්, මම හිතන්නේ, පමණක් ම නො වේ නම් වලංගු තර්කය සමඟ අවිවාදයෙන්ම පිළිගැනීමට පැහැදිලි කළ හැකි හිටපු පශ්චාත් තත්වාකාර අතින් වනමින්. (මට මතකයි ශිෂ්‍යයා 1908 දී ටී-ටෙස්ට් පත්‍රයෙහි එවැනි තර්කයක් ඉදිරිපත් කර ඇති බව.) විචල්‍යතාවයට ගැලපීම හරියටම සාධකයක් විය යුත්තේ ඇයි?n/(n1)සාධාරණීකරණය කිරීම දුෂ්කර ය, විශේෂයෙන් ඔබ විසින් සකස් කරන ලද SD අපක්ෂපාතී තක්සේරුකරුවෙකු නොවන බව සලකන විට . (එය හුදෙක් විචලතාව අපක්ෂපාතී estimator වර්ග මූල වේ. අපක්ෂපාතී වීම සාමාන්යයෙන් එකක් අනිකට සම්බන්ධව පරිවර්තනය ජීවත් වන්නේ නැත.) ඒ නිසා, ඇත්තටම, එහි නැඹුරුව ඉවත් කිරීමට SD සඳහා නිවැරදි ගැළපීමක් නැති ද සාධකයක්n/(n1) කොහෙත්ම නැහැ!

සමහර හඳුන්වාදීමේ පෙළපොත් මඟින් සකස් කරන ලද එස්ඩී හඳුන්වා දීමට පවා කරදර වන්නේ නැත: ඒවා එක් සූත්‍රයක් උගන්වයි (බෙදන්න n). එවැනි පොතකින් උගන්වන විට මම මුලින්ම ඊට නිෂේධාත්මකව ප්‍රතිචාර දැක්වුවද ප්‍ර wisdom ාව අගය කිරීමට පටන් ගතිමි: සංකල්ප හා යෙදුම් කෙරෙහි අවධානය යොමු කිරීම සඳහා කතුවරුන් අත්‍යවශ්‍ය ගණිතමය ගුණාංග ඉවත් කරයි. කිසිම දෙයකට හානියක් නොවන බවත් කිසිවෙකු නොමඟ නොයන බවත් පෙනේ.


1
Thank you Whuber. I have to teach the students with the n-1 correction, so dividing in n alone is not an option. As written before me, to mention the connection to the second moment is not an option. Although to mention how the mean was already estimated thereby leaving us with less "data" for the sd - that's important. Regarding the bias of the sd - I remembered encountering it - thanks for driving that point home. Best, Tal
Tal Galili

3
@Tal I was writing in your language, not that of your students, because I am confident you are fully capable of translating it into whatever you know will reach them. In other words, I interpreted "intuitive" in your question to mean intuitive to you.
whuber

1
Hi Whuber. Thank you for the vote of confidence :). The loose of the degree of freedom for the estimation of the expectancy is one that I was thinking of using in class. The problem is that the concept of "degrees of freedom" by itself is one that needs knowledge/intuition. But combining it with some of the other answers given in this thread will be useful (to me, and I hope others in the future). Best, Tal
Tal Galili

For large n, there isn't typically much difference between dividing by n or n1, so it would be acceptable to introduce the uncorrected formula provided it was intended to apply to large samples, no?
PatrickT

1
@Patrick You might be reading too much into my answer, because it is explicit about the reasons: they are pedagogical and have nothing to do with whether n is large or not.
whuber

16

This is a total intuition, but the simplest answer is that is a correction made to make standard deviation of one-element sample undefined rather than 0.


11
Why not, then, use nn21 or even 1exp(1)exp(1/n) as corrections? :-)
whuber

1
@whuber Parsimony (-;

4
1n1ඊටත් වඩා "විකාර" ය. :-)
whuber

2
@mbq, ඔබේ පිළිතුර සම්බන්ධයෙන් ~ "එය 0 ට වඩා එක් මූලද්‍රව්‍ය නියැදියක සම්මත අපගමනය නිර්වචනය කිරීම සඳහා කරන ලද නිවැරදි කිරීමකි", ඇත්ත වශයෙන්ම එයට හේතුව මෙයද, නැතහොත් මෙය විහිළු පිළිතුරක්ද? ඔබ දන්නවා අප වැනි පරිණත නොවන අයට කිව නොහැකි බව.
පැසීරියර්

4
විධිමත් ලෙස, එය හේතුවට වඩා ප්‍රතිවිපාකයකි, නමුත්, මා ලියා ඇති පරිදි, එය කටපාඩම් කිරීම සඳහා හොඳ අභිප්‍රායක් ලෙස මම දකිමි.

14

ඔබට ඒ පිළිබඳ ගැඹුරු අවබෝධයක් ලබා ගත හැකිය n1 එය ජ්‍යාමිතිය හරහා පමණක් වන අතර එය එසේ නොවන්නේ මන්ද යන්න පමණක් නොවේ n but why it takes exactly this form, but you may first need to build up your intuition cope with n-dimensional geometry. From there, however, it's a small step to a deeper understanding of degrees of freedom in linear models (i.e. model df & residual df). I think there's little doubt that Fisher thought this way. Here's a book that builds it up gradually:

Saville DJ, Wood GR. Statistical methods: the geometric approach. 3rd edition. New York: Springer-Verlag; 1991. 560 pages. 9780387975177

(Yes, 560 pages. I did say gradually.)


Thanks onestop - I didn't think there would be an answer from that direction. Any way to sum-up the intuition, or is that not likely to be possible? Cheers, Tal
Tal Galili

I couldn't do so myself, but a book reviewer summarised the approach in a paragraph in Amer. Stat. in 1993: jstor.org/stable/2684984. I'm not sure it's really practical to use this approach with your students unless you adopt it for the entire course though.
onestop

1
Can you summarise a bit of the intuition rather than just a book reference?
oliversm

13

The estimator of the population variance is biased when applied on a sample of the population. In order to adjust for that bias on needs to divide by n-1 instead of n. One can show mathematically that the estimator of the sample variance is unbiased when we divide by n-1 instead of n. A formal proof is provided here:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

Initially it was the mathematical correctness that led to the formula, I suppose. However, if one wants to add intuition to a formula the already mentioned suggestions appear reasonable.

First, observations of a sample are on average closer to the sample mean than to the population mean. The variance estimator makes use of the sample mean and as a consequence underestimates the true variance of the population. Dividing by n-1 instead of n corrects for that bias.

Furthermore, dividing by n-1 make the variance of a one-element sample undefined rather than zero.


12

Why divide by n1 rather than n? Because it is customary, and results in an unbiased estimate of the variance. However, it results in a biased (low) estimate of the standard deviation, as can be seen by applying Jensen's inequality to the concave function, square root.

So what's so great about having an unbiased estimator? It does not necessarily minimize mean square error. The MLE for a Normal distribution is to divide by n rather than n1. Teach your students to think, rather than to regurgitate and mindlessly apply antiquated notions from a century ago.


8
(+1) The more I think about this situation (and I've given it some real thought, to the extent of researching the earlier papers such as Student's 1908 Biometrica contribution to try to track down when and why n1 made its appearance), the more I think that "because it's customary" is the only possible correct answer. I am unhappy to see the downvotes and can only guess that they are responding to the last sentence, which could easily be seen as attacking the O.P., even though I doubt that was your intention.
whuber

1
My last sentence was friendly advice to all concerned, as opposed to an attack on the OP.
Mark L. Stone

In much use it will not matter, when used in tests or for confidence intervals one would have to adjust other parts of the procedure and in the end obtain the same result!
kjetil b halvorsen

11

It is well-known (or easily proved) that the quadratic αz2+2βz+γ has an extremum at z=βα which point is midway between the roots ββ2αγα and β+β2αγα of the quadratic. This shows that, for any given n real numbers x1,x2,,xn, the quantity

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
has minimum value when a=1ni=1nxi=x¯.

Now, suppose that the xi are a sample of size n from a distribution with unknown mean μ and unknown variance σ2. We can estimate μ as 1ni=1nxi=x¯ which is easy enough to calculate, but an attempt to estimate σ2 as 1ni=1n(xiμ)2=n1G(μ) encounters the problem that we don't know μ. We can, of course, readily compute G(x¯) and we know that G(μ)G(x¯), but how much larger is G(μ)? The answer is that G(μ) is larger than G(x¯) by a factor of approximately nn1, that is,

(1)G(μ)nn1G(x¯)
and so the estimate n1G(μ)=1ni=1n(xiμ)2 for the variance of the distribution can be approximated by 1n1G(x¯)=1n1i=1n(xix¯)2.

So, what is an intuitive explanation of (1)? Well, we have that

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
since i=1n(xix¯)=nx¯nx¯=0. Now,
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
Except when we have an extraordinarily unusual sample in which all the xi are larger than μ (or they are all smaller than μ), the summands (xiμ)(xjμ) in the double sum on the right side of (3) take on positive as well as negative values and thus a lot of cancellations occur. Thus, the double sum can be expected to have small absolute value, and we simply ignore it in comparison to the 1nG(μ) term on the right side of (3). Thus, (2) becomes
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
as claimed in (1).


10
Only on this stack exchange would this ever be considered an intuitive answer.
Joseph Garvin

6

Sample variance can be thought of to be the exact mean of the pairwise "energy" (xixj)2/2 between all sample points. The definition of sample variance then becomes

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

This also agrees with defining variance of a random variable as the expectation of the pairwise energy, i.e. let X and Y be independent random variables with the same distribution, then

V(X)=E((XY)22)=E((XE(X))2).

To go from the random variable defintion of variance to the defintion of sample variance is a matter of estimating a expectation by a mean which is can be justified by the philosophical principle of typicality: The sample is a typical representation the distribution. (Note, this is related to, but not the same as estimation by moments.)


2
I couldn't quite follow you at the last paragraph. Isn't mathematical fact that V(X)=E((XY)22)=E((XE(X))2)? Even though the equation is interesting, I don't get how it could be used to teach n-1 intuitively?
KH Kim

4
I like this approach, but it omits a key idea: to compute the mean energy between all pairs of sample points, one would have to count the values (xixi)2, even though they are all zero. Thus the numerator of s2 remains the same but the denominator ought to be n, not n1. This shows the sleight-of-hand that has occurred: somehow, you need to justify not including such self-pairs. (Because they are included in the analogous population definition of variance, this is not an obvious thing.)
whuber

4

Suppose that you have a random phenomenon. Suppose again that you only get one N=1 sample, or realization, x. Without further assumptions, your "only" reasonable choice for a sample average is m¯=x. If you do not subtract 1 from your denominator, the (uncorrect) sample variance would be

V=N(xnm¯)2N
, or:

V¯=(xm¯)21=0.

Oddly, the variance would be null with only one sample. And having a second sample y would risk to increase your variance, if xy. This makes no sense. Intuitively, an infinite variance would be a sounder result, and you can recovered it only by "dividing by N1=0".

Estimating a mean is fitting a polynomial with degree 0 to the data, having one degree of freedom (dof). This Bessel's correction applies to higher degrees of freedom models too: of course you can fit perfectly d+1 points with a d degree polynomial, with d+1 dofs. The illusion of a zero-squared-error can only be counterbalanced by dividing by the number of points minus the number of dofs. This issue is particularly sensitive when dealing with very small experimental datasets.


It is unclear why "an infinite variance would be a sounder result" than a zero variance. Indeed, you seem to use "sample variance" in the sense of a variance estimator, which is more confusing yet.
whuber

1
I understand. To answer an intuitive explanation between two options, I tried to suggest that one of the two is somehow unacceptable, based on the mundane rule that 0<. A rephrasing is indeed necessary, and upcoming
Laurent Duval

4

At the suggestion of whuber, this answer has been copied over from another similar question.

Bessel's correction is adopted to correct for bias in using the sample variance as an estimator of the true variance. The bias in the uncorrected statistic occurs because the sample mean is closer to the middle of the observations than the true mean, and so the squared deviations around the sample mean systematically underestimates the squared deviations around the true mean.

To see this phenomenon algebraically, just derive the expected value of a sample variance without Bessel's correction and see what it looks like. Letting S2 denote the uncorrected sample variance (using n as the denominator) we have:

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

Taking expectations yields:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

So you can see that the uncorrected sample variance statistic underestimates the true variance σ2. Bessel's correction replaces the denominator with n1 which yields an unbiased estimator. In regression analysis this is extended to the more general case where the estimated mean is a linear function of multiple predictors, and in this latter case, the denominator is reduced further, for the lower number of degrees-of-freedom.


Thanks for the proof!
upupming

1

The sample mean is defined as X¯=1ni=1nXi, which is quite intuitive. But the sample variance is S2=1n1i=1n(XiX¯)2. Where did the n1 come from ?

To answer this question, we must go back to the definition of an unbiased estimator. An unbiased estimator is one whose expectation tends to the true expectation. The sample mean is an unbiased estimator. To see why:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

Let us look at the expectation of the sample variance,

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

Notice that X¯ is a random variable and not a constant, so the expectation E[X¯2] plays a role. This is the reason behind the n1.

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

As you can see, if we had the denominator as n instead of n1, we would get a biased estimate for the variance! But with n1 the estimator S2 is an unbiased estimator.


3
But it doesn't follow that S is an unbiased estimator of the standard deviation.
ස්කොර්චි - මොනිකා නැවත ස්ථාපනය කරන්න

0

Generally using "n" in the denominator gives smaller values than the population variance which is what we want to estimate. This especially happens if the small samples are taken. In the language of statistics, we say that the sample variance provides a “biased” estimate of the population variance and needs to be made "unbiased".

If you are looking for an intuitive explanation, you should let your students see the reason for themselves by actually taking samples! Watch this, it precisely answers your question.

https://www.youtube.com/watch?v=xslIhnquFoE


-1

I think it's worth pointing out the connection to Bayesian estimation. Suppose you assume your data is Gaussian, and so you measure the mean μ and variance σ2 of a sample of n points. You want to draw conclusions about the population. The Bayesian approach would be to evaluate the posterior predictive distribution over the sample, which is a generalized Student's T distribution (the origin of the T-test). This distribution has mean μ, and variance

σ2(n+1n1),

which is even larger than the typical correction. (It has 2n degrees of freedom.)

The generalized Student's T distribution has three parameters and makes use of all three of your statistics. If you decide to throw out some information, you can further approximate your data using a two-parameter normal distribution as described in your question.

From a Bayesian standpoint, you can imagine that uncertainty in the hyperparameters of the model (distributions over the mean and variance) cause the variance of the posterior predictive to be greater than the population variance.


-3

My goodness it's getting complicated! I thought the simple answer was... if you have all the data points you can use "n" but if you have a "sample" then, assuming it's a random sample, you've got more sample points from inside the standard deviation than from outside (the definition of standard deviation). You just don't have enough data outside to ensure you get all the data points you need randomly. The n-1 helps expand toward the "real" standard deviation.


3
This doesn't make sense. More points from inside the SD than outside? If that means within 1 SD of the mean versus not within, whether that is true has nothing to do with taking a sample. For necessary constraints on fractions within intervals around the mean, see Chebyshev's inequality. To the main question here, "helps expand" doesn't explain n1 at all, as even granting your argument n2 might be better still, and so forth, as there is no algebra here, even implicitly. Unfortunately this adds nothing to other answers except a confused set of ideas, either incorrect or irrelevant.
Nick Cox
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.