නිදහසේ තරම තේරුම් ගන්නේ කෙසේද?


264

විකිපීඩියාවේ සිට , සංඛ්‍යාලේඛනයක නිදහස පිළිබඳ අර්ථකථන තුනක් ඇත:

සංඛ්‍යාලේඛන අනුව, නිදහසේ අංශක ගණන යනු සංඛ්‍යාලේඛනවල අවසාන ගණනය කිරීමේදී වෙනස් විය හැකි නිදහස් අගයන් ගණනකි .

සංඛ්යානමය පරාමිතීන්ගේ ඇස්තමේන්තු විවිධ තොරතුරු හෝ දත්ත මත පදනම් විය හැකිය. පරාමිතියක ඇස්තමේන්තුවට යන ස්වාධීන තොරතුරු කැබලි ගණන නිදහසේ උපාධි (df) ලෙස හැඳින්වේ. පොදුවේ ගත් කල, පරාමිතිය ඇස්තමේන්තුවක් නිදහස නම් වූ උපාධි සමාන වේ පරිපූරක ඇස්තමේන්තුවක් යන්න බව ස්වාධීන ලකුණු සංඛ්යාව ඍණ පරාමිතිය ම යන තක්සේරුව අතරමැදි පියවර ලෙස භාවිතා පරාමිතීන් සංඛ්යාව (නියැදිය විචලතාව දී, වන, එකක්, නියැදි මධ්‍යන්‍යය එකම අතරමැදි පියවර බැවින්).

ගණිතමය වශයෙන්, නිදහසේ උපාධි යනු අහඹු දෛශිකයක වසමේ මානය හෝ මූලික වශයෙන් 'නිදහස්' සංරචක ගණන: දෛශිකය සම්පූර්ණයෙන් තීරණය කිරීමට පෙර සංරචක කීයක් දැනගත යුතුද යන්න .

නිර්භීත වචන යනු මට නොතේරෙන දෙයකි. හැකි නම්, සමහර ගණිතමය සූත්‍රයන් සංකල්පය පැහැදිලි කිරීමට උපකාරී වේ.

අර්ථ නිරූපණයන් තුන එකිනෙකට එකඟද?



Answers:


258

මෙය සියුම් ප්‍රශ්නයකි. එම උපුටා දැක්වීම් තේරුම් නොගැනීමට කල්පනාකාරී පුද්ගලයෙකු අවශ්‍ය වේ! ඒවා යෝජනා කළත්, ඒ කිසිවක් හරියටම හෝ සාමාන්‍යයෙන් නිවැරදි නොවන බව පෙනේ. සම්පුර්ණ ප්‍රදර්ශනයක් ලබා දීමට මට කාලය නොමැති අතර (මෙහි අවකාශයක් නොමැත), නමුත් මම යෝජනා කරන එක් ප්‍රවේශයක් සහ තීක්ෂ්ණ බුද්ධියක් බෙදා ගැනීමට මම කැමතියි.

නිදහසේ උපාධි (DF) සංකල්පය පැන නගින්නේ කොතැනින්ද? මූලික ප්‍රතිකාර වලදී එය සොයාගත හැකි සන්දර්භයන්:

  • මෙම ශිෂ්ය ටී-ටෙස්ට් හා ඒ Behrens-ෆිෂර් ප්රශ්නය (ගහන දෙක වෙනස්, ෙවනසක් ඇති තැන) දක්වා වෙල්ච් හෝ සුළඟක් විසඳුම් ලෙස එහි විවිධ.

  • චි වර්ග වර්ග ව්‍යාප්තිය (ස්වාධීන සම්මත සාමාන්‍ය වර්ගවල එකතුවක් ලෙස අර්ථ දක්වා ඇත), එය විචල්‍යයේ නියැදි බෙදා හැරීමේදී ගම්‍ය වේ .

  • මෙම F-ටෙස්ට් සංඛ්යාව (තක්සේරු කර ඇති පරිදි, ෙවනසක් ඇති අනුපාත).

  • මෙම චි-වර්ග පරීක්ෂණය , (අ) distributional ඇස්තමේන්තු සුදුසු යහපත්කම සඳහා පරීක්ෂා කිරීම හදිසි වගු තුළ පරීක්ෂණ ස්වාධීනත්වය සහ (ආ) සිය භාවිතා සමන්විත.

ආත්මය අනුව, මෙම පරීක්ෂණ නිරවද්‍යතාවයෙන් (සාමාන්‍ය විචල්‍යයන් සඳහා ශිෂ්‍ය ටී-පරීක්ෂණය සහ එෆ්-පරීක්ෂණය) හොඳ ඇස්තමේන්තු බවට පත්වේ (ශිෂ්‍ය ටී-ටෙස්ට් සහ වෙල්ච් / සැටර්ට්වයිට් පරීක්ෂණ එතරම් නරක ලෙස නොගැලපෙන දත්ත සඳහා) ) අසමමිතික ඇස්තමේන්තු මත පදනම් වීම (චි-වර්ග පරීක්ෂණය). මේවායින් සමහරක් සිත්ගන්නා සුළු අංගයක් වන්නේ ඒකාග්‍ර නොවන “නිදහසේ උපාධි” (වෙල්ච් / සැටර්ට්වයිට් පරීක්ෂණ සහ අප දකින පරිදි චි-වර්ග පරීක්ෂණය) ය. මෙය විශේෂ උනන්දුවක් දක්වන්නේ ඩීඑෆ් එය කියා ඇති කිසිවක් නොවන බවට පළමු ඉඟිය වන බැවිනි .

ප්‍රශ්නයේ ඇති සමහර හිමිකම් වලින් අපට වහාම බැහැර කළ හැකිය. "සංඛ්‍යාලේඛනයක අවසාන ගණනය කිරීම" මනාව නිර්වචනය කර නොමැති නිසා (එය පැහැදිලිවම ගණනය කිරීම සඳහා යමෙකු භාවිතා කරන ඇල්ගොරිතම මත රඳා පවතී), එය නොපැහැදිලි යෝජනාවකට වඩා වැඩි විය හැකි අතර තවදුරටත් විවේචනය කිරීම වටී. ඒ හා සමානව, "ඇස්තමේන්තුවට යන ස්වාධීන ලකුණු ගණන" හෝ "අතරමැදි පියවර ලෙස භාවිතා කරන පරාමිති ගණන" යන දෙකම මනාව අර්ථ දක්වා නැත.

“[ඇස්තමේන්තුවකට] යන ස්වාධීන තොරතුරු” සමඟ කටයුතු කිරීම දුෂ්කර ය, මන්ද “ස්වාධීන” පිළිබඳ වෙනස් නමුත් සමීපව සම්බන්ධ වූ සංවේදක දෙකක් මෙහි අදාළ විය හැකි බැවිනි. එකක් අහඹු විචල්‍යයන්ගේ ස්වාධීනත්වය; අනෙක ක්‍රියාකාරී ස්වාධීනත්වයයි. දෙවැන්න සඳහා උදාහරණයක් ලෙස, අපි විෂයයන්හි රූප විද්‍යාත්මක මිනුම් එකතු කරමු යැයි සිතමු - සරල බව සඳහා, පැති තුනක දිග X , Y , Z , මතුපිට ප්‍රදේශ S=2(XY+YZ+ZX) , සහ වෙළුම් V=XYZලී කුට්ටි සමූහයක. පැති තුනේ දිග ස්වාධීන අහඹු විචල්‍යයන් ලෙස සැලකිය හැකි නමුත් විචල්‍යයන් පහම රඳා පවතින RV වේ. පහ ද , ක්රියාකාරීත්වය නිසා යැපෙන codomain ( නොවේ දෛශික-වටිනා සසම්භාවී විචල්යයක් ඇති "වසම"!) (X,Y,Z,S,V) තුළ ත්රිමාණ නානාප්රකාර කිංගේ R5 . (මේ අනුව එක්කෝ කොබැඳි නැත්නම් ස්ථානීකව නොපවතියි, ඕනෑම අවස්ථාවක දී ωR5 , එහි කාර්යයන් දෙකක් fω හා gω සඳහා fω(X(ψ),,V(ψ))=0 හාgω(X(ψ),,V(ψ))=0 ලකුණු සඳහාψ "අසල"ω සහ එහි ව්යුත්පන්නf සහg ඇගැයීමටω රේඛීයව ස්වාධීන වේ.) කෙසේ වෙතත් - මෙන්න පයින් ගැසීම - කුට්ටි පිළිබඳ බොහෝ සම්භාවිතා මිනුම් සඳහා,(X,S,V) වේරඳාසසම්භාවී විචල්යයන් වශයෙන් නොව, ක්රියාකාරීත්වයස්වාධීන.

මෙම විභව අවිනිශ්චිතතාවයන් පිළිබඳව දැනුවත් වී ඇති හෙයින්, විභාග සඳහා යෝග්‍යතා පරීක්ෂණයේ චි-වර්ගවල යහපත්කම අපි බලමු , මන්ද (අ) එය සරල ය, (ආ) එය ලබා ගැනීම සඳහා ඩීඑෆ් ගැන මිනිසුන් සැබවින්ම දැනගත යුතු පොදු අවස්ථාවකි. p- අගය හරි සහ (ඇ) එය බොහෝ විට වැරදි ලෙස භාවිතා කරයි. මෙම පරීක්ෂණයෙහි අවම වශයෙන් මතභේදාත්මක යෙදුමේ කෙටි සාරාංශයක් මෙන්න:

  • ජනගහනයක නියැදියක් ලෙස සැලකෙන දත්ත අගයන් ඔබ සතුව ඇත (x1,,xn).

  • බෙදාහැරීමක පරාමිතීන් ඔබ ඇස්තමේන්තු කර ඇත . නිදසුනක් ලෙස, සාමාන්‍ය බෙදාහැරීමක මධ්‍යන්‍ය θ 1 සහ සම්මත අපගමනය θ 2 = θ p ලෙස ඔබ තක්සේරු කර ඇති අතර, ජනගහනය සාමාන්‍යයෙන් බෙදා හරිනු ඇතැයි උපකල්පනය කර ඇති නමුත් (දත්ත ලබා ගැනීමට පෙර) θ 1 හෝ θ 2 කුමක් දැයි නොදැන සිටියි.θ1,,θpθ1θ2=θපිθ1θ2

  • කල්තියා, ඔබ දත්ත සඳහා "බඳුන්" කට්ටලයක් නිර්මාණය කළේය . (මෙය බොහෝ විට සිදු කළද, දත්ත මගින් බඳුන් තීරණය කරන විට එය ගැටළු සහගත විය හැකිය.) මෙම බඳුන් භාවිතා කරමින්, දත්ත එක් එක් බඳුන තුළ ඇති ගණන් සමූහයට අඩු කරනු ලැබේ. ( Θ ) හි සත්‍ය අගයන් කුමක් විය හැකිදැයි අපේක්‍ෂා කරමින් , ඔබ එය සකසා ඇති බැවින් (සෑම බලාපොරොත්තුවක්ම) සෑම බඳුනකටම ආසන්න වශයෙන් එකම සංඛ්‍යාවක් ලැබෙනු ඇත. (සමාන-සම්භාවිතා බයිනින් මඟින් චි-වර්ග බෙදා හැරීම සැබවින්ම විස්තර කිරීමට නියමිත චි-වර්ග සංඛ්‍යා ලේඛනවල සත්‍ය ව්‍යාප්තිය සඳහා හොඳ දළ විශ්ලේෂණයක් බව සහතික කරයි.)k(θ)

  • ඔබ සතුව දත්ත විශාල ප්‍රමාණයක් ඇත - සෑම බඳුනකම පාහේ 5 හෝ ඊට වැඩි ගණනක් තිබිය යුතු බවට සහතික වීමට ප්‍රමාණවත්. (මෙය, අපි බලාපොරොත්තු වෙනවා, මේ වන නියැදීම් බෙදාහැරීමේ හැකියාව ලැබෙනු ඇත සමහර ප්රමාණවත් ආසන්න කිරීමට සංඛ්යා ලේඛන χ 2 බෙදාහැරීම.)χ2χ2

පරාමිති ඇස්තමේන්තු භාවිතා කරමින්, ඔබට එක් එක් බඳුනේ අපේක්ෂිත ගණන ගණනය කළ හැකිය. චි-වර්ග සංඛ්‍යාලේඛන යනු අනුපාතවල එකතුවයි

(නිරීක්ෂණය කරන ලදී-අපේක්ෂිත)2අපේක්ෂිත.

මෙය බොහෝ බලධාරීන් අපට පවසන පරිදි (ඉතා ආසන්න වශයෙන්) චි වර්ග බෙදාහැරීමක් තිබිය යුතුය. නමුත් එවැනි බෙදාහැරීම් වලින් යුත් මුළු පවුලක්ම සිටී. ඒවා පරාමිතියකින් වෙනස් වේ බොහෝ විට එය "නිදහසේ උපාධි" ලෙස හැඳින්වේ. Determine තීරණය කරන්නේ කෙසේද යන්න පිළිබඳ සම්මත තර්කනය මේ ආකාරයට යයිνν

මට ගණන් තියෙනවා. අපි ඒ k දත්ත කැබලි. නමුත් ඔවුන් අතර ( ක්‍රියාකාරී ) සබඳතා ඇත. ආරම්භ කිරීමට, ගණනය කිරීම්වල එකතුව n ට සමාන විය යුතු බව මම කල්තියා දනිමි . ඒක එක සම්බන්ධතාවයක්. මම දත්ත වලින් පරාමිති දෙකක් (හෝ p , සාමාන්‍යයෙන්) තක්සේරු කළෙමි . එය අතිරේක සම්බන්ධතා දෙකක් (හෝ p ), p + 1 සම්පූර්ණ සම්බන්ධතා ලබා දෙයි. ඒවා (පරාමිතීන්) සියල්ලම ( ක්‍රියාකාරීව ) ස්වාධීන යැයි උපකල්පනය කිරීමෙන් k - p - 1 ( ක්‍රියාකාරීව ) ස්වාධීන “නිදහසේ උපාධි” පමණක් ඉතිරි වේ: එය භාවිතා කිරීමට ඇති වටිනාකමkknපිපිපි+1k-පි-1 .ν

මෙම තර්කනයේ ඇති ගැටළුව ( ප්‍රශ්නයේ උපුටා දැක්වීම් ඉඟි කරන ගණනය කිරීම් වර්ගයයි) සමහර විශේෂ අතිරේක කොන්දේසි පවතින විට හැර එය වැරදිය. එපමනක් නොව, එම කොන්දේසි කිසිවක් පරාමිතීන් පිළිබඳ සංඛ්යා හෝ මුල් ප්රශ්නය ඇ බලතල කාර, වෙන කිසිම දෙයක් සමග, දත්ත "සංරචක" සංඛ්යාවක් සමග, නිදහසින් කරන්න (කාර්ය හෝ සංඛ්යාන).

මම ඔබට උදාහරණයක් පෙන්වන්නම්. (එය හැකි තරම් පැහැදිලි කිරීම සඳහා, මම බඳුන් කුඩා සංඛ්‍යාවක් භාවිතා කරමි, නමුත් එය අත්‍යවශ්‍ය නොවේ.) අපි ස්වාධීන හා සමානව බෙදා හරින ලද (iid) සම්මත 20 ක් උත්පාදනය කරමු. mean = sum / count, ආදිය .). යෝග්‍යතාවයේ යහපත් බව පරීක්ෂා කිරීම සඳහා, සාමාන්‍ය සාමාන්‍ය කාර්තුවක කට්පොයින්ට් සහිත බඳුන් හතරක් සාදන්න: -0.675, 0, +0.657, සහ චි-වර්ග සංඛ්‍යා ලේඛන ජනනය කිරීම සඳහා බින් ගණන් භාවිතා කරන්න. ඉවසීමට ඉඩ දෙන පරිදි නැවත නැවත කරන්න; පුනරාවර්තන 10,000 ක් කිරීමට මට කාලය තිබුණි.

ඩීඑෆ් පිළිබඳ සම්මත ප්‍ර wisdom ාව පවසන්නේ අපට බඳුන් 4 ක් සහ 1 + 2 = 3 සීමාවන් ඇති බවයි, එයින් කියවෙන්නේ මෙම චි-වර්ග 10,000 සංඛ්‍යාලේඛන බෙදා හැරීම මඟින් 1 ඩීඑෆ් සමඟ චි-වර්ග බෙදාහැරීමක් අනුගමනය කළ යුතු බවයි. මෙන්න රූප සටහන:

රූපය 1

තද නිල් පැහැති රේඛාව බෙදාහැරීමේ පී.ඩී.එෆ් ප්‍රස්ථාරණය කරයි - අප වැඩ කරනු ඇතැයි සිතූ - තද රතු රේඛාව χ 2 ( 2 ) බෙදාහැරීමක් ප්‍රස්ථාර කරයි ( යමෙකු නම් එය හොඳ අනුමානයකි ν = 1 වැරදියි කියා ඔබට පැවසීමට ). දෙකම දත්ත වලට නොගැලපේ.χ2(1)χ2(2)ν=1

දත්ත කට්ටලවල කුඩා ප්‍රමාණය ( = 20) හෝ සමහර විට බඳුන් සංඛ්‍යාවේ කුඩා ප්‍රමාණය නිසා ඔබට ගැටලුව ඇතිවිය හැකිය . කෙසේ වෙතත්, ගැටළුව පවතින්නේ ඉතා විශාල දත්ත කට්ටල සහ විශාල බඳුන් සංඛ්‍යාවක් තිබියදීත් ය: එය හුදෙක් අසමමිතික දළ වශයෙන් ළඟා වීමට අසමත් වීමක් නොවේ.n

මම චි-වර්ග පරීක්ෂණයේ අවශ්‍යතා දෙකක් උල්ලං because නය කළ නිසා දේවල් වැරදී ඇත:

  1. ඔබ පරාමිතීන්ගේ උපරිම කැමැත්ත තක්සේරු කිරීම භාවිතා කළ යුතුය . (මෙම අවශ්‍යතාවය ප්‍රායෝගිකව තරමක් උල්ලං be නය කළ හැකිය.)

  2. ඔබ එම ඇස්තමේන්තුව පදනම් කර ගත යුත්තේ ගණනය කිරීම් මත මිස සත්‍ය දත්ත මත නොවේ! (මෙය ඉතා වැදගත්ය .)

රූපය 2

මෙම අවශ්‍යතාවයන් අනුගමනය කරමින් වෙන වෙනම පුනරාවර්තන 10,000 ක් සඳහා චි-වර්ග සංඛ්‍යා ලේඛන රතු හිස්ටෝග්‍රැම් මගින් නිරූපණය කෙරේ. අප මුලින් බලාපොරොත්තු වූ පරිදි එය දෘශ්‍යමය වශයෙන් වක්‍රය (පිළිගත හැකි නියැදි දෝෂයක් සහිතව) අනුගමනය කරයි.χ2(1)

මෙම සංසන්දනයේ කාරණය - ඔබ පැමිණෙනු ඇතැයි මම විශ්වාස කරමි - p- අගයන් ගණනය කිරීම සඳහා භාවිතා කළ යුතු නිවැරදි DF රඳා පවතින්නේ විවිධාකාරයේ මානයන්, ක්‍රියාකාරී සම්බන්ධතා ගණනය කිරීම් හෝ සාමාන්‍ය විචල්‍යයන්ගේ ජ්‍යාමිතිය හැර වෙනත් බොහෝ දේ මත ය. . ප්‍රමාණ අතර ගණිතමය සම්බන්ධතා සහ දත්ත බෙදා හැරීම , ඒවායේ සංඛ්‍යාලේඛන සහ ඒවායින් සැකසූ ඇස්තමේන්තු කරුවන් අතර දක්නට ලැබෙන පරිදි ඇතැම් ක්‍රියාකාරී පරායත්තතාවයන් අතර සියුම්, සියුම් අන්තර් ක්‍රියාකාරිත්වයක් ඇත. ඒ අනුව, බහුකාර්ය සාමාන්‍ය බෙදාහැරීම්වල ජ්‍යාමිතිය අනුව හෝ ක්‍රියාකාරී ස්වාධීනත්වය අනුව හෝ පරාමිති ගණනය කිරීම් හෝ මේ ආකාරයේ වෙනත් කිසිවක් ඩීඑෆ් ප්‍රමාණවත් ලෙස පැහැදිලි කළ නොහැකි ය.

එසේ නම්, “නිදහසේ උපාධි” යනු හුදෙක් (ටී, චි-වර්ග, හෝ එෆ්) සංඛ්‍යාලේඛනවල නියැදි ව්‍යාප්තිය කුමක් විය යුතු දැයි හඟවන හියුරිස්ටික් බව අපට දැකගත හැකිය, නමුත් එය ඉවත දැමිය නොහැක. එය ඉවත දැමිය හැකි යැයි විශ්වාස කිරීම අතිශය දෝෂ වලට තුඩු දෙයි. (නිදසුනක් ලෙස, "චි වර්ගයේ හොඳ ගුණාංගය" සෙවීමේදී ගූගල්හි ඉහළම පහර වැදුනේ අයිවි ලීග් විශ්ව විද්‍යාලයක වෙබ් පිටුවකි, මෙය බොහෝ දුරට වැරදියි! විශේෂයෙන්, එහි උපදෙස් මත පදනම් වූ අනුකරණයකින් පෙන්නුම් කරන්නේ චි-වර්ග 7 DF ඇත්ත වශයෙන්ම 9 DF ඇති බව එය නිර්දේශ කරයි.)

මෙම වඩාත් සූක්ෂ්ම අවබෝධය සමඟ, සැක සහිත විකිපීඩියා ලිපිය නැවත කියවීම වටී: එහි විස්තර වලින් එය නිවැරදි දේ ලබා ගනී, ඩීඑෆ් හියුරිස්ටික් වැඩ කිරීමට නැඹුරු වන්නේ කොතැනද සහ එය ආසන්න වශයෙන් හෝ කිසිසේත්ම අදාළ නොවන තැන පෙන්වා දෙයි.


මෙහි දක්වා ඇති සංසිද්ධිය පිළිබඳ හොඳ විස්තරයක් (චි-වර්ගවල GOF පරීක්ෂණ වල අනපේක්ෂිත ලෙස ඉහළ ඩීඑෆ්) 5 වන සංස්කරණයේ කෙන්ඩල් සහ ස්ටුවර්ට් හි දෙවන වෙළුමේ දැක්වේ . එබඳු ප්‍රයෝජනවත් විශ්ලේෂණයන්ගෙන් පිරී ඇති මෙම අපූරු පා text ය වෙත මා නැවත ගෙන යාමට මෙම ප්‍රශ්නය ලබා දුන් අවස්ථාව ගැන මම කෘත ful වෙමි.


සංස්කරණය කරන්න (2017 ජනවාරි)

මෙතන Rපහත සඳහන් එම සංඛ්යාව නිෂ්පාදනය කිරීමට කේතය "DF ගැන සම්මත ප්රඥාව ..."

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

43
මෙය පුදුමාකාර පිළිතුරකි. ඔබ මේ සඳහා අන්තර්ජාලයෙන් ජය ගනී.
ඇඩම්

7
@caracal: ඔබ දන්නා පරිදි, මුල් දත්ත සඳහා ML ක්රම සාමාන්ය හා පැතිරුන: සාමාන්ය බෙදා හැරීම සඳහා, නිදසුනක් ලෙස, ඇති ලන්ඩනයට ගොස් සිටින නියැදි අදහස් වන අතර, වන ලන්ඩනයට ගොස් සිටින σ (සාම්පල සම්මත අපගමනය වර්ග මූලය තොරව සුපුරුදු පක්ෂග්‍රාහී නිවැරදි කිරීම). ගණන් කිරීම් මත පදනම්ව ඇස්තමේන්තු ලබා ගැනීම සඳහා, මම ගණනය කිරීම් සඳහා සම්භාවිතා ශ්‍රිතය ගණනය කළෙමි - මේ සඳහා සීඩීඑෆ් හි කප්පාදුවල අගයන් ගණනය කිරීම, ඒවායේ ල logs ු-සටහන් රැගෙන යාම, ගණන් කිරීමෙන් ගුණ කිරීම සහ එකතු කිරීම අවශ්‍ය වේ. μσ
whuber

4
aracaracal ඔබට එය තවදුරටත් අවශ්‍ය නොවනු ඇත, නමුත් Rබින් කළ දත්ත එම්එල් සවිකිරීම සඳහා කේතයක් පිළිබඳ උදාහරණයක් දැන් අදාළ ප්‍රශ්නයක දැක්වේ: stats.stackexchange.com/a/34894 .
whuber

1
"මෙම තර්කනයේ ඇති ගැටළුව (ප්‍රශ්නයේ උපුටා දැක්වීම් ඉඟි කරන ගණනය කිරීම් වර්ගයයි) සමහර විශේෂ අතිරේක කොන්දේසි පවතින විට හැර එය වැරදිය." මම දැන් (පාහේ) රේඛීය ආකෘති අනුක්‍රමයක අධ්‍යයන වාර දෙකක් හරහා ගමන් කර ඇති අතර, චතුරස්රාකාර ආකෘතියේ "මැද" හි අනුකෘතියේ ශ්‍රේණිගත කිරීම සඳහා නිදහසේ තරම මට වැටහේ. මෙම "අතිරේක කොන්දේසි" මොනවාද?
ක්ලැරිනටිස්ට්

4
Lar ක්ලැරිනටිස්ට් මගේ පිළිතුරේ මූලික කරුණ නම් ඔබට උගන්වා ඇති දේ පදනම් වී ඇත්තේ ඩීඑෆ් සංකල්ප දෙකක ව්‍යාකූලතාවයක් මත බවයි. සාමාන්‍ය-න්‍යාය ආකෘති සඳහා එම ව්‍යාකූලතාවයෙන් කිසිදු ගැටළුවක් ඇති නොවුනද, එය අවිනිශ්චිත වගු විශ්ලේෂණය වැනි සරල, පොදු තත්වයන් තුළ පවා දෝෂ වලට තුඩු දෙයි. එම අනුකෘති ශ්‍රේණිය ක්‍රියාකාරී ඩීඑෆ් ලබා දෙයි . ආදර්ශ රේඛීය වූ අවම වශයෙන්-කොටු එය සිදු එවැනි එෆ් පරීක්ෂණ ලෙස, පරීක්ෂණ ඇතැම් වර්ගවල නිවැරදි DF දෙන්න. චි-වර්ග පරීක්ෂණය සඳහා, විශේෂ කොන්දේසි පසුව පිළිතුර (1) සහ (2) ලෙස ගණන් ගනු ලැබේ.
whuber

80

නැතහොත් සරලවම: සංඛ්‍යාත්මක අරාවෙහි ඇති මූලද්‍රව්‍ය ගණන වෙනස් කිරීමට ඔබට අවසර දී ඇති අතර එමඟින් සංඛ්‍යාලේඛනවල වටිනාකම නොවෙනස්ව පවතී.

# for instance if:
x + y + z = 10

ඔබට අහඹු ලෙස x සහ y වෙනස් කළ හැකිය, නමුත් ඔබට z වෙනස් කළ නොහැක (ඔබට අහඹු ලෙස නොවේ, එබැවින් ඔබට එය වෙනස් කිරීමට නිදහස නැත - හාවිගේ අදහස බලන්න), 'හේතුව ඔබ වටිනාකම වෙනස් කරයි සංඛ්‍යාලේඛන (Σ = 10). ඉතින්, මේ අවස්ථාවේ දී df = 2.


20
"ඔබට z වෙනස් කළ නොහැක" යනුවෙන් පැවසීම නිවැරදි නොවේ. ඇත්ත වශයෙන්ම, එකතුව 10 ට සමාන කිරීම සඳහා ඔබ z වෙනස් කළ යුතුය. නමුත් එය වෙනස් වන්නේ කුමක් ද යන්න පිළිබඳව ඔබට විකල්පයක් නැත (නිදහසක් නැත). ඔබට ඕනෑම අගයන් දෙකක් වෙනස් කළ හැකිය, නමුත් තුන්වැන්න නොවේ.
හාවි මොටුල්ස්කි

55

මාන මාන යුක්ලීඩියානු ජ්‍යාමිතිය, උප අවකාශයන් සහ විකලාංග ප්‍රක්ෂේපණ පිළිබඳ සාමාන්‍ය දැනුමක් ලබා දී ඇති බැවින් ගණිතය නිවැරදිව සැකසීම සංකල්පය කිසිසේත් අපහසු නොවේ .n

නම් යනු ප්රලම්බ ප්රක්ෂේපනය සිට ආර් n වෙත පි -dimensional subspace පෙළ හා x හිතුවක්කාරී වේ n -vector පසුව පී x වේ පෙළ , x - පී x හා පී x ප්රලම්බ හා x - පී x පෙළ වේ L හි විකලාංග අනුපූරකය . මෙම විකලාංග අනුපූරකයේ මානය L , n - p වේ. නම්PRnpLxnPxLxPxPxxPxLLLnp යනු වෙනස් කිරීමට නිදහස ඇත n -dimensional අවකාශය නම් x - පී x යනු වෙනස් කිරීමට නිදහස ඇත n - පි මාන අවකාශය. මේ හේතුව නිසා x - P x n - p අංශක නිදහසක්ඇතිබව අපි කියමු.xnxPxnpxPxnp

නිසා නම් මෙම සලකා බැලීම් සංඛ්යා ලේඛන වැදගත් වේ යනු ඇත n -dimensional අහඹු vector සහ උසස් පෙළ එහි මධ්යන්ය ආකෘතියක්, බව මධ්යන්ය දෛශිකයක් වේ ( X ) වේ පෙළ , එසේ නම්, අපි ඒකට X - පී X යන දෛශික වීමද භෝග , සහ විචල්‍යතාවය තක්සේරු කිරීමට අපි අවශේෂ භාවිතා කරමු. අවශේෂවල දෛශිකයට නිදහසේ අංශක n - p ඇත, එනම් එය n - p මානයන්හි උප අවකාශයකට සීමා වේ .XnLE(X)LXPXnpnp

යන ඛණ්ඩාංක නම් ස්වාධීන වන අතර සාමාන්යයෙන් එම විචලනය සමඟ බෙදා σ 2 පසුවxσ2

  • සහ X - P X යන දෛශික ස්වාධීන වේ.PxXPx
  • නම් වීමද භෝග වල දෛශිකය දත්තයන්ගේ වර්ග සම්මතය බෙදාහැරීම | | X - P X | | 2 යනු χ 2 පරිමාණ පරාමිතිය සමඟ -distribution σ 2 හා නිදහස උපාධි විය සිදු වන තවත් පරාමිති n - පි .E(X)එල්||X-පීx||2χ2σ2n-පි

මෙම කරුණු සනාථ කිරීමේ සටහනක් පහත දැක්වේ. සාමාන්‍ය ව්‍යාප්තිය මත පදනම්ව සංඛ්‍යාන න්‍යාය තවදුරටත් වර්ධනය කිරීම සඳහා ප්‍රති results ල දෙක කේන්ද්‍රීය වේ. බෙදාහැරීමට එහි පරාමිතිකරණයක් ඇත්තේ මේ නිසා බව සලකන්න . එය පරිමාණ පරාමිතිය 2 σ 2 සහ හැඩයේ පරාමිතිය ( n - p ) / 2 සහිත Γ බෙදාහැරීමකි , නමුත් ඉහත සන්දර්භය තුළ එය නිදහසේ මට්ටම අනුව පරාමිතිකරණය කිරීම ස්වාභාවිකය.χ2Γ2σ2(n-පි)/2

විකිපීඩියා ලිපියෙන් උපුටා දක්වා ඇති ඡේද කිසිවක් විශේෂයෙන් බුද්ධිමත් නොවන බව මම පිළිගත යුතුය, නමුත් ඒවා ඇත්ත වශයෙන්ම වැරදි හෝ පරස්පර විරෝධී නොවේ. ඔවුන් අප විචලතාව පරාමිතිය වන අතර තක්සේරු ගණනය විට, යම් imprecise, සහ සාමාන්ය වර්ගමූලය කියන්න, එහෙත් එසේ වීමද භෝග මත පදනම්, අපි මානය අවකාශයක් තුල වෙනස් කිරීමට පමණක් නිදහස් වන බව දෛශික මත ගණනය පදනම් කරන්නේ .n-පි

රේඛීය සාමාන්‍ය ආකෘති න්‍යායෙන් ඔබ්බට නිදහසේ උපාධි සංකල්පය භාවිතා කිරීම ව්‍යාකූල විය හැකිය. නිදසුනක් වශයෙන්, බෙදාහැරීමේ පරාමිතිකරණයේදී භාවිතා කරනුයේ කිසියම් නිදහසක් තිබිය හැකි ඕනෑම දෙයක් ගැන සඳහනක් තිබේද නැද්ද යන්නයි. වර්ගීකරණ දත්ත සංඛ්‍යානමය විශ්ලේෂණයන් සලකා බැලීමේදී, “ස්වාධීන කෑලි” ගණනය කිරීමට පෙර හෝ පසුව ගණනය කළ යුතුද යන්න පිළිබඳව යම් ව්‍යාකූලත්වයක් තිබිය හැකිය. තවද, අවහිරතා සඳහා, උප මාදිලි අවහිරතා නොවන සාමාන්‍ය ආකෘති සඳහා වුවද, නිදහසේ උපාධි පිළිබඳ සංකල්පය දීර් extend කරන්නේ කෙසේද යන්න පැහැදිලි නැත. විවිධ යෝජනා යන නාමය යටතේ සාමාන්යයෙන් පවතී ඵලදායී නිදහස් අංශක.χ2

නිදහසේ උපාධිවල වෙනත් භාවිතයන් සහ අර්ථයන් සලකා බැලීමට පෙර රේඛීය සාමාන්‍ය ආකෘතිවල සන්දර්භය තුළ ඒ පිළිබඳව විශ්වාසයෙන් සිටීමට මම තරයේ නිර්දේශ කරමි. මෙම ආදර්ශ පංතිය සමඟ කටයුතු කරන රේඛීය ආදර්ශ න්‍යායේ පළමු පා se මාලාව වන අතර රේඛීය ආකෘති පිළිබඳ වෙනත් සම්භාව්‍ය පොත් සඳහා පොතේ පෙරවදනෙහි අතිරේක යොමු කිරීම් තිබේ.

: ඉහත ප්රතිඵල පිළිබඳ සාක්ෂි දෙන්න , විචලතාව න්යාසය බව සලකන්න σ 2 මම සහ orthonormal පදනම තෝරා z 1 , ... , z පිඋසස් පෙළ හා orthonormal පදනම z පි + 1 , ... , z nඋසස් පෙළ . එවිට z 1 , , z n යනු R n හි විකලාංග පදනමකි . ඉඩ ~ Xξ=(x)σ2මමz1,,zපිඑල්zපි+1,,znඑල්z1,,znආර්nx~දකුණු ආසියාතික සමාජ ඇති -vector වන සංගුණක ක X මෙම පදනම මත, එනම්, ~ X මම = z ටී මම X . මෙය ˜ X = Z T X ලෙසද ලිවිය හැකිය, මෙහි Z යනු තීරුවල z i සමඟ විකලාංග අනුකෘතියයි . එවිට අපි භාවිතා කිරීමට අප හට සිදුවේ ~ X අදහස් සමග සාමාන්ය බෙදා හැර ඇති Z ටී ξ නිසා, සහ Z , ප්රලම්බ වේ විචලතාව න්යාසය σ 2 මමnx

x~මම=zමමටීx.
x~=ඉසෙඩ්ටීxඉසෙඩ්zමමx~ඉසෙඩ්ටීξඉසෙඩ්σ2මම. මෙය සාමාන්‍ය බෙදාහැරීමේ සාමාන්‍ය රේඛීය පරිවර්තන ප්‍රති results ල වලින් දැක්වේ. පදනම බවට තෝරා ගන්නා ලදි වන සංගුණක එසේ බව වේ ~ X i සඳහා මම = 1 , ... , පි , හා සංගුණක X - පී X වේ ~ X i සඳහා මම = p + 1 , ... , n . සංගුණක එකිනෙකට සම්බන්ධ නොවන සහ ඒකාබද්ධව සාමාන්‍ය බැවින් ඒවා ස්වාධීන වන අතර මෙයින් ගම්‍ය වන්නේ P X = p iපීxx~මමමම=1,,පිx-පීxx~මමමම=පි+1,,n සහ X-PX= n i = p + 1 ˜ X izi ස්වාධීන වේ. එපමනක් නොව, | | X-PX| | 2= n i = p + 1 ˜ X 2 i . නම්ξපෙළපසුව( ~ X i
PX=i=1pX~izi
XPX=i=p+1nX~izi
||XPX||2=i=p+1nX~i2.
ξL සඳහා මම = p + 1 , ... , n නිසා පසුව z මමපෙළ සහ ඒ නිසා z මමξ . මෙම අවස්ථාවේ දී | | X - P X | | 2 යනු n - p ස්වාධීන N ( 0 , σ 2 ) හි එකතුවයිE(X~i)=ziTξ=0i=p+1,,nziLziξ||XPX||2npN(0,σ2)කාගේ බෙදා හැරීම, නිර්වචනය විසින්, යනු සසම්භාවී විචල්යයන්, -distributed පරිමාණ පරාමිතිය සමඟ -distribution σ 2 හා n - පි නිදහස් අංශක.χ2σ2np

NRH, ස්තූතියි! (1) L ඇතුළත තිබිය යුත්තේ ඇයි? (2) P X සහ X - P X ස්වාධීන වන්නේ ඇයි? (3) අහඹු විචල්‍ය සන්දර්භය තුළ ඇති dof එහි නිර්ණායක නඩුවේදී dof වෙතින් අර්ථ දක්වා තිබේද? උදාහරණයක් ලෙස, | | X - P X | | 2 ට dof n - p ඇති බැවින් අහඹු විචල්‍යයක් වෙනුවට X යනු නිර්ණායක විචල්‍යයක් වන විට එය සත්‍යයක් ද ? (4) ඔබ හා සමාන / සමාන මතයක් දරණ යොමු (පොත්, ලිපි හෝ සබැඳි) තිබේද? E(X)LPXXPX||XPX||2npx
ටිම්

Im ටයිම්, සහ එක්ස් - පී එක්ස් ස්වාධීන වන අතර ඒවා සාමාන්‍ය හා එකිනෙකට සම්බන්ධ නොවේ. PXXPX
mpiktas

Im තිම්, මම පිළිතුර ටිකක් නැවත ප්‍රකාශ කර ප්‍රකාශිත ප්‍රති .ල පිළිබඳ සාක්ෂියක් ලබා දී ඇත. Χ 2 බෙදාහැරීම පිළිබඳ ප්‍රති result ලය සනාථ කිරීම සඳහා මධ්‍යන්‍යය හි තිබිය යුතුය . එය ආදර්ශ උපකල්පනයකි. සාහිත්‍යයෙහි ඔබ රේඛීය සාමාන්‍ය ආකෘති හෝ සාමාන්‍ය රේඛීය ආකෘති සොයා බැලිය යුතුය, නමුත් මේ මොහොතේ මට සිහිපත් කළ හැක්කේ පැරණි, ප්‍රකාශයට පත් නොකළ දේශන සටහන් කිහිපයක් පමණි. මට සුදුසු සඳහනක් සොයාගත හැකිදැයි මම බලමි. Lχ2
NRH

පුදුමාකාර පිළිතුර. තීක්ෂ්ණ බුද්ධියට ස්තූතියි. එක ප්රශ්නයක්: මම ඔබ "මධ්යන්ය දෛශික එම වැකිය අදහස් දේ අහිමි වී වේ පෙළ ". ඔබට පැහැදිලි කළ හැකිද? ඔබ නිර්වචනය කිරීමට උත්සාහ කරනවාද? L යන්න අර්ථ දැක්වීමට ? වෙන මොනවා හරි? සමහර විට මෙම වාක්‍යය ඕනෑවට වඩා කිරීමට හෝ මට සංක්ෂිප්ත වීමට උත්සාහ කරයි. ඔබ සඳහන් කළ සන්දර්භය තුළ E හි අර්ථ දැක්වීම කුමක්දැයි ඔබට විස්තර කළ හැකිද : එය E ( x 1 , x 2 , , x n ) = ( x 1 + x 2 + + xEXLELE ? මෙම සන්දර්භය තුළ (සාමාන්‍ය අයිඩ් ඛණ්ඩාංකවල) L යනු කුමක්ද යන්න ඔබට විස්තර කළ හැකිද? එය L = R පමණක්ද? E(x1,x2,,xn)=(x1+x2++xn)/nLL=R
ඩීඩබ්ලිව්

@DW යනු අපේක්ෂකයා වේ. ඒ නිසා ( X ) ක coordinatewise බලාපොරොත්තු වන දෛශිකයක් වේ X . මෙම subspace පෙළ ඕනෑම වේ පි ක -dimensional subspace ආර් n . එය n -vectors හි අවකාශයක් වන අතර නිසැකවම R නොවේ , නමුත් එය ඉතා මැනවින් ඒක මාන විය හැකිය. එය විසින් කාලාන්තරයක් තිස්සේ විට සරලම ප්රති උදාහරණය සමහර විට එය විය හැකියි 1 සියලු දී 1 -vector n -coordinates. X හි සියලුම ඛණ්ඩාංකවල එකම මධ්‍යන්‍ය අගයක් ඇති ආකෘතිය මෙයයි , නමුත් තවත් බොහෝ සංකීර්ණ ආකෘතීන් හැකි ය. EE(X)XLpRnnR1nX
එන්.ආර්.එච්

31

එය වෙනත් ඕනෑම ක්ෂේත්‍රයක “නිදහසේ උපාධි” යන යෙදුම ක්‍රියාත්මක වන ක්‍රමයට වඩා වෙනස් නොවේ. උදාහරණයක් ලෙස, ඔබට විචල්යයන් හතරක් ඇතැයි සිතමු: සෘජුකෝණාස්රයේ දිග, පළල, ප්රදේශය සහ පරිමිතිය. ඔබ ඇත්තටම කරුණු හතරක් දන්නවාද? නැත, මන්ද නිදහසේ අංශක දෙකක් පමණි. ඔබ දිග හා පළල දන්නේ නම්, ඔබට ප්‍රදේශය සහ පරිමිතිය ව්‍යුත්පන්න කළ හැකිය. දිග සහ ප්‍රදේශය ඔබ දන්නේ නම්, ඔබට පළල සහ පරිමිතිය ව්‍යුත්පන්න කළ හැකිය. ඔබ ප්‍රදේශය සහ පරිමිතිය දන්නේ නම් ඔබට දිග සහ පළල (භ්‍රමණය දක්වා) ලබා ගත හැකිය. ඔබට සතරම තිබේ නම්, ඔබට පද්ධතිය ස්ථාවර යැයි පැවසිය හැකිය (සියලු විචල්‍යයන් එකිනෙක හා එකඟ වේ), හෝ නොගැලපේ (කිසිදු සෘජුකෝණාස්රයකට සැබවින්ම සියලු කොන්දේසි සපුරාලිය නොහැක). චතුරස්රයක් යනු යම් තරමක නිදහසක් ඉවත් කරන ලද සෘජුකෝණාස්රයකි;

සංඛ්‍යාලේඛන වලදී, දේවල් වඩාත් නොපැහැදිලි වේ, නමුත් අදහස තවමත් එසේමය. ශ්‍රිතයක් සඳහා ආදානය ලෙස ඔබ භාවිතා කරන සියලුම දත්ත ස්වාධීන විචල්‍යයන් නම්, ඔබට යෙදවුම් ඇති තරම් නිදහසක් තිබේ. නමුත් ඔවුන්ට යම් ආකාරයකින් යැපීමක් තිබේ නම්, ඔබට n - k යෙදවුම් තිබේ නම් ඉතිරි k ගණනය කළ හැකිය, එවිට ඔබට ඇත්ත වශයෙන්ම ලැබී ඇත්තේ n - k අංශක නිදහසක් පමණි. සමහර විට ඔබ එය සැලකිල්ලට ගත යුතුය, ඔබ දත්ත වලට වඩා විශ්වාසදායක හෝ ඒවා ඇත්ත වශයෙන්ම කරනවාට වඩා පුරෝකථන බලයක් ඇති බව ඔබම ඒත්තු ගැන්වීමට, ඔබට ඇත්ත වශයෙන්ම ස්වාධීන දත්ත බිටු වලට වඩා වැඩි දත්ත ලකුණු ගණනය කිරීමෙන්.

( Http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 .

එපමණක් නොව, අර්ථ දැක්වීම් තුනම පාහේ එකම පණිවිඩයක් දීමට උත්සාහ කරයි.


1
මූලික වශයෙන් හරි, නමුත් සහසම්බන්ධය, ස්වාධීනත්වය (අහඹු විචල්‍යයන්ගේ) සහ ක්‍රියාකාරී ස්වාධීනත්වය (විවිධාකාර පරාමිතීන්) ව්‍යාකූල වන අයුරින් මැද ඡේදය කියවිය හැකි යැයි මම සිතමි. සහසම්බන්ධතා-ස්වාධීන වෙනස පවත්වා ගැනීම සඳහා විශේෂයෙන් වැදගත් වේ.
whuber

huhuber: දැන් හොඳයිද?
Biostat

3
එය නිවැරදිය, නමුත් එය යෙදුම් භාවිතා කරන ආකාරය සමහර පුද්ගලයින් ව්‍යාකූල කරයි. සසම්භාවී විචල්‍යයන්ගේ යැපීම ක්‍රියාකාරී යැපීමෙන් එය තවමත් පැහැදිලිව වෙන්කර හඳුනාගෙන නොමැත. නිදසුනක් ලෙස, (අවිධිමත්) ද්විභාෂා සාමාන්‍ය බෙදාහැරීමක විචල්‍ය නොවන සහසම්බන්ධය සහිත විචල්‍යයන් දෙක රඳා පවතී (අහඹු විචල්‍යයන් ලෙස) නමුත් ඒවා තවමත් අංශක දෙකක නිදහසක් ලබා දෙයි.
whuber


2
අපගේ උපකාරක මධ්‍යස්ථානය අන් අය විසින් ලියන ලද තොරතුරු යොමු කරන්නේ කෙසේද යන්න පිළිබඳ පැහැදිලි මග පෙන්වීමක් ලබා දෙයි , එබැවින් සුදුසු ක්‍රියාමාර්ග ගැනීමට හා ruc ලදායී අන්තර්ක්‍රියාකාරිත්වයන් සඳහා OP නැවත මෙම තනතුරට පැමිණෙනු ඇතැයි මම බලාපොරොත්තු වෙමි (අපි ඔහුව ටික කලක් දැක නැත).
chl

20

සංඛ්‍යාලේඛන පරිචය පිළිබඳ කුඩා අත්පොතේ පළමු වාක්‍යයට මම ඇත්තෙන්ම කැමතියි . නිදහසේ උපාධි පරිච්ඡේදය

ගණිතමය වශයෙන් නොගැලපෙන ප්‍රේක්ෂකයින්ගෙන් උපදේශකයෙකු බොහෝ විට බිය වන එක් ප්‍රශ්නයක් නම්, “නිදහසේ උපාධිය යනු කුමක්ද?”

මෙම පරිච්ඡේදය කියවීමෙන් ඔබට යම් තරමක නිදහසක් පිළිබඳ හොඳ අවබෝධයක් ලබා ගත හැකි යැයි මම සිතමි.


7
නිදහසට වඩා වැදගත් වන්නේ ඇයිද යන්න පිළිබඳව පැහැදිලි කිරීමක් තිබීම සතුටක් . උදාහරණයක් ලෙස, 1 / n සමඟ විචල්‍යතාවයේ ඇස්තමේන්තුව පක්ෂග්‍රාහී නමුත් 1 / (n-1) භාවිතා කිරීම අපක්ෂපාතී තක්සේරුකරුවෙකු ලබා දෙයි.
ට්‍රිස්ටන්

10

විකිපීඩියා, නිදහස් විශ්වකෝෂය බව තරයේ ප්රකාශ කර නිදහස් අංශකඅහඹු දෛශික දෛශික subspace මානයන් ලෙස පහදා දිය හැක. මට පියවරෙන් පියවර යාමට අවශ්‍යයි, මූලික වශයෙන් මෙය හරහා විකිපීඩියා ප්‍රවේශය පිළිබඳ අර්ධ පිළිතුරක් සහ විස්තාරණයක් ලෙස.

යෝජිත උදාහරණය නම් විවිධ විෂයයන් සඳහා අඛණ්ඩ විචල්‍යයක මිනුම්වලට අනුරූප අහඹු දෛශිකයක් වන අතර එය මූලාරම්භයේ සිට විහිදෙන දෛශිකයක් ලෙස ප්‍රකාශ වේ . දෛශිකයේ එහි විකලාංග ප්‍රක්ෂේපණය [ 1[abc]T දෛශික ප්රතිඵල මිනුම් ක්රම (වන දෛශික ප්රක්ෂේපනය කිරීමට සමාන ˉ x = 1 / 3 ( + + ) ), එනම් [ ˉ x[111]Tx¯=1/3(a+b+c)සමග තරමක,1 දෛශික,[1[x¯x¯x¯]T1 දෛශිකය විසින් විහිදෙන උප අවකාශයට මෙම ප්‍රක්ෂේපණය 1 ඇත[111]T . මෙමඅවශේෂදෛශික (මධ්යන්යයේ සිට දුර) අවම-කොටු ප්රක්ෂේපනය මතට ය ( n - 1 ) මේ subspace ක -dimensional ප්රලම්බ සහකාරියක් නම් හා n - 11degree of freedom(n1) , n (අපේ නඩුවේ දෛශිකයේ සංරචක සංඛ්යාව වීම 3 අප බැවින් ආර් 3 උදාහරණයේ) .මෙම හුදෙක් යන තිතක් නිෂ්පාදන ලබා ගැනීම මගින් ඔප්පු කළ හැකි [ ˉ xn1degrees of freedomn3R3අතර වෙනස සමඟ[එය[x¯x¯x¯]T සහ [ ˉ x[abc]T:[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(+බී+)3[13(3-(+බී+)+3බී-(+බී+)+3-(+බී+))]

.

=(+බී+)3[13(3-3+3බී-3බී+3-3)]=0

මෙම සම්බන්ධතාවය විකලාංග තලයක ඕනෑම ස්ථානයකට [ ˉ x දක්වා විහිදේ. 1තේරුම් ගැනීමට මෙම සංකල්පය වැදගත් වේ[x¯x¯x¯]ටී , ටී බෙදාහැරීමේ ව්‍යුත්පන්නයේ පියවරක් (මෙහිසහමෙහි).1σ2((x1-x¯)2++(xn-x¯)2)~χn-12

අපි කාරණය සලකා බලමු , නිරීක්ෂණ තුනකට අනුරූප වේ. මධ්යන්යය 55 වන අතර දෛශිකය [ 55[35 යි50 යි80 යි]ටී55 යි ගුවන් යානයක් වෙත (ප්රලම්බ) සාමාන්යය 55 x + 55 y + 55 z = D . ලක්ෂ්‍යයේ ප්ලග් කිරීම තල සමීකරණයට සම්බන්ධීකරණය කරයි, D = - 9075 .[55 යි55 යි55 යි]ටී55 යිx+55 යිy+55 යිz=ඩීඩී=-9075 යි

දැන් අපට මෙම තලයෙහි වෙනත් ඕනෑම ලක්ෂ්‍යයක් තෝරා ගත හැකි අතර, එහි ඛණ්ඩාංකවල මධ්‍යන්‍යය වනු ඇත , එය දෛශිකයට ප්‍රක්ෂේපණයට ජ්‍යාමිතිකව අනුරූප වේ [ 155 යි . එබැවින් සෑම මධ්‍යන්‍ය අගයක් සඳහාම (අපගේ උදාහරණයේ 55 ) අපටසීමාවකින් තොරව R 2 හි ඛණ්ඩාංකයුගලඅනන්ත සංඛ්‍යාවක් තෝරා ගත හැකිය( 2[111]ටී55R22degrees of freedom); yet, since the plane is in R3, the third coordinate will come determined by the equation of the plane (or, geometrically the orthogonal projection of the point onto [555555]T.

Here is representation of three points (in white) lying on the plane (cerulean blue) orthogonal to [555555]T (arrow): [355080]T, [80805] and [901560] all of them on the plane (subspace with 2df), and then with a mean of their components of 55, and an orthogonal projection to [111]T (subspace with 1df) equal to [555555]T:


9

In my classes, I use one "simple" situation that might help you wonder and perhaps develop a gut feeling for what a degree of freedom may mean.

It is kind of a "Forrest Gump" approach to the subject, but it is worth the try.

Consider you have 10 independent observations X1,X2,,X10N(μ,σ2) that came right from a normal population whose mean μ and variance σ2 are unknown.

Your observations bring to you collectively information both about μ and σ2. After all, your observations tend to be spread around one central value, which ought to be close to the actual and unknown value of μ and, likewise, if μ is very high or very low, then you can expect to see your observations gather around a very high or very low value respectively. One good "substitute" for μ (in the absence of knowledge of its actual value) is X¯, the average of your observation.

Also, if your observations are very close to one another, that is an indication that you can expect that σ2 must be small and, likewise, if σ2 is very large, then you can expect to see wildly different values for X1 to X10.

If you were to bet your week's wage on which should be the actual values of μ and σ2, you would need to choose a pair of values in which you would bet your money. Let's not think of anything as dramatic as losing your paycheck unless you guess μ correctly until its 200th decimal position. Nope. Let's think of some sort of prizing system that the closer you guess μ and σ2 the more you get rewarded.

In some sense, your better, more informed, and more polite guess for μ's value could be X¯. In that sense, you estimate that μ must be some value around X¯. Similarly, one good "substitute" for σ2 (not required for now) is S2, your sample variance, which makes a good estimate for σ.

If your were to believe that those substitutes are the actual values of μ and σ2, you would probably be wrong, because very slim are the chances that you were so lucky that your observations coordinated themselves to get you the gift of X¯ being equal to μ and S2 equal to σ2. Nah, probably it didn't happen.

But you could be at different levels of wrong, varying from a bit wrong to really, really, really miserably wrong (a.k.a., "Bye-bye, paycheck; see you next week!").

Ok, let's say that you took X¯ as your guess for μ. Consider just two scenarios: S2=2 and S2=20,000,000. In the first, your observations sit pretty and close to one another. In the latter, your observations vary wildly. In which scenario you should be more concerned with your potential losses? If you thought of the second one, you're right. Having a estimate about σ2 changes your confidence on your bet very reasonably, for the larger σ2 is, the wider you can expect X¯ to variate.

But, beyond information about μ and σ2, your observations also carry some amount of just pure random fluctuation that is not informative neither about μ nor about σ2.

How can you notice it?

Well, let's assume, for sake of argument, that there is a God and that He has spare time enough to give Himself the frivolity of telling you specifically the real (and so far unknown) values of both μ and σ.

And here is the annoying plot twist of this lysergic tale: He tells it to you after you placed your bet. Perhaps to enlighten you, perhaps to prepare you, perhaps to mock you. How could you know?

Well, that makes the information about μ and σ2 contained in your observations quite useless now. Your observations' central position X¯ and variance S2 are no longer of any help to get closer to the actual values of μ and σ2, for you already know them.

One of the benefits of your good acquaintance with God is that you actually know by how much you failed to guess correctly μ by using X¯, that is, (X¯μ) your estimation error.

XiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10)

X¯μσ/10N(0,1)
(guess what? trust me in that one as well), which carries absolutely no information about μ or σ2.

You know what? If you took any of your individual observations as a guess for μ, your estimation error (Xiμ) would be distributed as N(0,σ2). Well, between estimating μ with X¯ and any Xi, choosing X¯ would be better business, because Var(X¯)=σ2/10<σ2=Var(Xi), so X¯ was less prone to be astray from μ than an individual Xi.

Anyway, (Xiμ)/σN(0,1) is also absolutely non informative about neither μ nor σ2.

"Will this tale ever end?" you may be thinking. You also may be thinking "Is there any more random fluctuation that is non informative about μ and σ2?".

[I prefer to think that you are thinking of the latter.]

Yes, there is!

The square of your estimation error for μ with Xi divided by σ,

(Xiμ)2σ2=(Xiμσ)2χ2
has a Chi-squared distribution, which is the distribution of the square Z2 of a standard Normal ZN(0,1), which I am sure you noticed has absolutely no information about either μ nor σ2, but conveys information about the variability you should expect to face.

That is a very well known distribution that arises naturally from the very scenario of you gambling problem for every single one of your ten observations and also from your mean:

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
and also from the gathering of your ten observations' variation:
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
Now that last guy doesn't have a Chi-squared distribution, because he is the sum of ten of those Chi-squared distributions, all of them independent from one another (because so are X1,,X10). Each one of those single Chi-squared distribution is one contribution to the amount of random variability you should expect to face, with roughly the same amount of contribution to the sum.

The value of each contribution is not mathematically equal to the other nine, but all of them have the same expected behavior in distribution. In that sense, they are somehow symmetric.

Each one of those Chi-square is one contribution to the amount of pure, random variability you should expect in that sum.

If you had 100 observations, the sum above would be expected to be bigger just because it have more sources of contibutions.

Each of those "sources of contributions" with the same behavior can be called degree of freedom.

Now take one or two steps back, re-read the previous paragraphs if needed to accommodate the sudden arrival of your quested-for degree of freedom.

Yep, each degree of freedom can be thought of as one unit of variability that is obligatorily expected to occur and that brings nothing to the improvement of guessing of μ or σ2.

The thing is, you start to count on the behavior of those 10 equivalent sources of variability. If you had 100 observations, you would have 100 independent equally-behaved sources of strictly random fluctuation to that sum.

That sum of 10 Chi-squares gets called a Chi-squared distributions with 10 degrees of freedom from now on, and written χ102. We can describe what to expect from it starting from its probability density function, that can be mathematically derived from the density from that single Chi-squared distribution (from now on called Chi-squared distribution with one degree of freedom and written χ12), that can be mathematically derived from the density of the normal distribution.

"So what?" --- you might be thinking --- "That is of any good only if God took the time to tell me the values of μ and σ2, of all the things He could tell me!"

Indeed, if God Almighty were too busy to tell you the values of μ and σ2, you would still have that 10 sources, that 10 degrees of freedom.

Things start to get weird (Hahahaha; only now!) when you rebel against God and try and get along all by yourself, without expecting Him to patronize you.

You have X¯ and S2, estimators for μ and σ2. You can find your way to a safer bet.

You could consider calculating the sum above with X¯ and S2 in the places of μ and σ2:

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,
but that is not the same as the original sum.

"Why not?" The term inside the square of both sums are very different. For instance, it is unlikely but possible that all your observations end up being larger than μ, in which case (Xiμ)>0, which implies i=110(Xiμ)>0, but, by its turn, i=110(XiX¯)=0, because i=110Xi10X¯=10X¯10X¯=0.

Worse, you can prove easily (Hahahaha; right!) that i=110(XiX¯)2i=110(Xiμ)2 with strict inequality when at least two observations are different (which is not unusual).

"But wait! There's more!"

XiX¯S/10
doesn't have standard normal distribution,
(XiX¯)2S2/10
doesn't have Chi-squared distribution with one degree of freedom,
i=110(XiX¯)2S2/10
doesn't have Chi-squared distribution with 10 degrees of freedom
X¯μS/10
doesn't have standard normal distribution.

"Was it all for nothing?"

No way. Now comes the magic! Note that

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
or, equivalently,
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.
Now we get back to those known faces.

The first term has Chi-squared distribution with 10 degrees of freedom and the last term has Chi-squared distribution with one degree of freedom(!).

We simply split a Chi-square with 10 independent equally-behaved sources of variability in two parts, both positive: one part is a Chi-square with one source of variability and the other we can prove (leap of faith? win by W.O.?) to be also a Chi-square with 9 (= 10-1) independent equally-behaved sources of variability, with both parts independent from one another.

This is already a good news, since now we have its distribution.

Alas, it uses σ2, to which we have no access (recall that God is amusing Himself on watching our struggle).

Well,

S2=1101i=110(XiX¯)2,
so
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
therefore
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
which is a distribution that is not the standard normal, but whose density can be derived from the densities of the standard normal and the Chi-squared with (101) degrees of freedom.

One very, very smart guy did that math[^1] in the beginning of 20th century and, as an unintended consequence, he made his boss the absolute world leader in the industry of Stout beer. I am talking about William Sealy Gosset (a.k.a. Student; yes, that Student, from the t distribution) and Saint James's Gate Brewery (a.k.a. Guinness Brewery), of which I am a devout.

[^1]: @whuber told in the comments below that Gosset did not do the math, but guessed instead! I really don't know which feat is more surprising for that time.

That, my dear friend, is the origin of the t distribution with (101) degrees of freedom. The ratio of a standard normal and the squared root of an independent Chi-square divided by its degrees of freedom, which, in an unpredictable turn of tides, wind up describing the expected behavior of the estimation error you undergo when using the sample average X¯ to estimate μ and using S2 to estimate the variability of X¯.

There you go. With an awful lot of technical details grossly swept behind the rug, but not depending solely on God's intervention to dangerously bet your whole paycheck.


1
Thank you for such an effort! I confess that I found your explanation less than convincing, though. It seems to founder at this crucial junction: "Each of those "sources of contributions" with the same behavior can be called degree of freedom." If you had instead summed 10 independent normal variates rather than 10 independent chi-squared variates, you would end up with--one normal variate. Somehow the "degrees of freedom" get completely swallowed up. Evidently there is something special about chi-squared you haven't yet described. BTW, Gosset didn't do the math: he guessed!
whuber

ඔබගේ ඇගයීමට බොහෝම ස්තූතියි, huhuber! ඔබ ලියා ඇති දේ ඔබට අමතක වූ පසු යතුරු ලියනය කොපමණ ප්‍රමාණයක් උත්පතන වේද යන්න පුදුම සහගතය. ඔබේ ඇගයීම ගැන, මම අදහස් කළේ වෙනත් චින්තන ක්‍රමයක් විදහා දැක්වීමටයි - යම් අර්ථයකින් ගණිතය ටිකක් අඩුයි. එසේම, ඔබ අදහස් කළ දෙය මම සම්පූර්ණයෙන් ග්‍රහණය කර නොගනිමි. ඔබ ඒ වෙනුවට ස්වාධීන චි-වර්ග වර්ග 10 ක් වෙනුවට ස්වාධීන සාමාන්‍ය විචල්‍යයන් 10 ක් සාරාංශ කර ඇත්නම්, ඔබ අවසන් වනු ඇත්තේ එක් සාමාන්‍ය විචල්‍යතාවයකින් - ඔබේ ප්‍රධාන කරුණ රඳවා ගැනීමට මම අනුමාන කළෙමි. . තනතුර වැඩිදියුණු කිරීමට බලාපොරොත්තුවෙන් මම ඒ ගැන විස්තර කිරීමට උත්සාහ කරමි.
මාර්සෙලෝ වෙන්චුරා

8

සංඛ්‍යාලේඛන පා courses මාලා හදාරන සිසුන්ට මෙම විශේෂිත කාරණය තරමක් කලකිරීමට කරුණකි. මන්දයත් බොහෝ විට නිදහසේ උපාධිය යනු කුමක්ද යන්න පිළිබඳව නිවැරදි පිළිතුරක් ලබා ගත නොහැකි බැවිනි. මම එය මෙතැනින් ඉවත් කිරීමට උත්සාහ කරමි. අපට අහඹු දෛශිකයක් ඇතැයි සිතමුxආර්n අපි නව අහඹු දෛශිකයක් සාදන්නෙමු ටී=ටී(x) රේඛීය ශ්‍රිතය හරහා ටී. විධිමත් ලෙස, නිදහසේ උපාධිටී යනු මෙම දෛශිකය සඳහා ඉඩදිය හැකි අගයන්හි අවකාශයේ මානයයි, එනම්:

ඩීඑෆ්අඳුරුටීඅඳුරු{ටී=ටී(x)|xආර්n}.

ආරම්භක අහඹු දෛශිකය x ඉඩදිය හැකි මානයන් ඇත n, ඒ නිසා එය ඇත nනිදහසේ අංශක. බොහෝ විට කාර්යයටී ප්‍රති come ල වල ඉඩදිය හැකි අවකාශයේ මානය අඩු කරයි ටී නිදහසට වඩා අඩු මට්ටමක තිබිය හැක x. නිදසුනක් ලෙස, ආශ්‍රිත ප්‍රශ්නයකට පිළිතුරක දී නියැදි විචල්‍යතා සූත්‍රයේ බෙසෙල්ගේ නිවැරදි කිරීම පැහැදිලි කිරීම සඳහා නිදහසේ උපාධි පිළිබඳ විධිමත් අර්ථ දැක්වීම ඔබට දැක ගත හැකිය . එම විශේෂිත අවස්ථාවෙහිදී, නියැදි මධ්යන්යයෙන් එහි අපගමනය ලබා ගැනීම සඳහා ආරම්භක නියැදියක් පරිවර්තනය කිරීම අපගමනය වන දෛශිකයකට යොමු කරයිn-1 නිදහසේ අංශක (එනම්, එය මානයන් සහිත අවසර ලත් අවකාශයක දෛශිකයකි n-1).

සංඛ්‍යානමය ගැටළු සඳහා ඔබ මෙම විධිමත් අර්ථ දැක්වීම යොදන විට, සාමාන්‍යයෙන් ඔබට අහඹු දෛශිකය මත තනි “අවහිරයක්” පැනවීම (එම දෛශිකයේ රේඛීය සමීකරණයක් හරහා) එහි ඉඩදිය හැකි අගයන්හි මානය එකකින් අඩු කරන අතර එමඟින් අඩු කරයි නිදහසේ අංශක එකකි. එනිසා ඉහත විධිමත් අර්ථ දැක්වීම ඔබට ලබා දී ඇති අවිධිමත් පැහැදිලි කිරීම් වලට අනුරූප වන බව ඔබට පෙනී යනු ඇත.

සංඛ්‍යාලේඛන පිළිබඳ උපාධි පා courses මාලා වලදී, සාමාන්‍යයෙන් ඔබට නිදහසේ උපාධි පිළිබඳ අත් රැළි සහ අවිධිමත් පැහැදිලි කිරීම් බොහෝමයක් සොයාගත හැකිය, බොහෝ විට ප්‍රතිසම හෝ උදාහරණ හරහා. මෙයට හේතුව විධිමත් අර්ථ දැක්වීම සඳහා දෛශික වීජ ගණිතය සහ දෛශික අවකාශයේ ජ්‍යාමිතිය පිළිබඳ අවබෝධයක් අවශ්‍ය වන අතර එය උපාධි මට්ටමේ හඳුන්වාදීමේ සංඛ්‍යාන පා courses මාලා හිඟ විය හැකිය.


2

නිදහසේ උපාධි පිළිබඳ අවබෝධාත්මක පැහැදිලි කිරීමක් නම්, ඒවා පරාමිතියක් (එනම් නොදන්නා ප්‍රමාණය) තක්සේරු කිරීම සඳහා දත්තවල ඇති ස්වාධීන තොරතුරු කැබලි ගණන නියෝජනය කරන බවයි.

උදාහරණයක් ලෙස, ආකෘතියේ සරල රේඛීය ප්‍රතිගාමී ආකෘතියක:

වයිමම=β0+β1xමම+εමම,මම=1,,n

කොහෙද εමමමධ්යන්ය 0 සහ සම්මත අපගමනය සමඟ ස්වාධීනව බෙදා හරින ලද වැරදි වචන නිරූපණය කරයි σ, අන්තර්ග්‍රහණය තක්සේරු කිරීමට අපි අංශක 1 ක නිදහසක් භාවිතා කරමු β0 සහ බෑවුම තක්සේරු කිරීමට නිදහසේ අංශක 1 යි β1. අපි පටන් ගත් දා සිටn නිරීක්ෂණ සහ නිදහසේ අංශක 2 ක් (එනම් ස්වාධීන තොරතුරු දෙකක්) භාවිතා කිරීම, අපට ඉතිරිව ඇත n-2 නිදහසේ උපාධි (එනම්, n-2 ස්වාධීන තොරතුරු කෑලි) දෝෂ සම්මත අපගමනය තක්සේරු කිරීම සඳහා ලබා ගත හැකිය σ.


Thanks very much for your edits to my answer, @COOLSerdash!
ඉසබෙලා ගෙමන්ට්

2

නිරීක්ෂණ ගණන මෙම නිරීක්ෂණ අතර අවශ්‍ය සම්බන්ධතා ගණන us ණ ලෙස ඔබට නිදහසේ තරම දැකිය හැකිය. ඔබට ඇත්නම් ආදර්ශයෙන්n ස්වාධීන සාමාන්‍ය බෙදා හැරීමේ නිරීක්ෂණ නියැදිය x1,,xn. අහඹු විචල්‍යයΣමම=1n(xමම-x¯n)2~xn-12, කොහෙද x¯n=1nΣමම=1nxමම. මෙහි නිදහසේ තරමn-1 මක්නිසාද යත්, ඒවා මෙම නිරීක්ෂණ අතර අත්‍යවශ්‍ය සම්බන්ධතාවයකි (x¯n=1nΣමම=1nxමම).

වැඩි විස්තර සඳහා මෙය බලන්න


1

The clearest "formal" definition of degrees-of-freedom is that it is the dimension of the space of allowable values for a random vector. This generally arises in a context where we have a sample vector xRn and we form a new random vector t=T(x) via the linear function T. Formally, the degrees-of-freedom of t is the dimension of the space of allowable values for this vector, which is:

DFdimTdim{t=T(x)|xRn}.

If we represent this linear transformation by the matrix transformation T(x)=Tx then we have:

DF=dim{t=T(x)|xRn}=dim{Tx|xRn}=rank T=nKer T,

where the last step follows from the rank-nullity theorem. This means that when we transform x by the linear transformation T we lose degrees-of-freedom equal to the kernel (nullspace) of T. In statistical problems, there is a close relationship between the eigenvalues of T and the loss of degrees-of-freedom from the transformation. Often the loss of degrees-of-freedom is equivalent to the number of zero eigenvalues in the transformation matrix T.

For example, in this answer we see that Bessel's correction to the sample variance, adjusting for the degrees-of-freedom of the vector of deviations from the mean, is closely related to the eigenvalues of the centering matrix. An identical result occurs in higher dimensions in linear regression analysis. In other statistical problems, similar relationships occur between the eigenvalues of the transformation matrix and the loss of degrees-of-freedom.

The above result also formalises the notation that one loses a degree-of-freedom for each "constraint" imposed on the observable vector of interest. Thus, in simple univariate sampling problems, when looking at the sample variance, one loses a degree-of-freedom from estimating the mean. In linear regression models, when looking at the MSE, one loses a degree-of-freedom for each model coefficient that was estimated.


0

මට තේරුම් ගත් පළමු පැහැදිලි කිරීම නම්:

මධ්යන්ය හෝ විචලනය වැනි සංඛ්යානමය වටිනාකමක් ඔබ දන්නේ නම්, සෑම විචල්යයකම වටිනාකම දැන ගැනීමට පෙර ඔබ දැනගත යුතු දත්ත විචල්යයන් කීයක් තිබේද?

මෙය aL3xa පැවසූ ආකාරයටම වේ, නමුත් කිසිදු දත්ත ලක්ෂ්‍යයක් ලබා නොදී විශේෂ කාර්යභාරයක් ඉටු කරන අතර පිළිතුරෙහි දක්වා ඇති තුන්වන නඩුවට ආසන්න වේ. මේ ආකාරයෙන් එකම උදාහරණය වනු ඇත:

ඔබ දත්තවල මධ්‍යන්‍යය දන්නේ නම්, සියලු දත්ත ලක්ෂ්‍යවල වටිනාකම දැන ගැනීමට, එක් දත්ත ලක්ෂ්‍යයක් හැර අන් සියල්ලටම ඔබ අගයන් දැන සිටිය යුතුය.


Variables --> observations
රිචඩ් හාඩි

0

Think of it this way. Variances are additive when independent. For example, suppose we are throwing darts at a board and we measure the standard deviations of the x and y displacements from the exact center of the board. Then Vx,y=Vx+Vy. But, Vx=SDx2 if we take the square root of the Vx,y formula, we get the distance formula for orthogonal coordinates, SDx,y=SDx2+SDy2. Now all we have to show is that standard deviation is a representative measure of displacement away from the center of the dart board. Since SDx=i=1n(xix¯)2n1, we have a ready means of discussing df. Note that when n=1, then x1x¯=0 and the ratio i=1n(xix¯)2n100. In other words, there is no deviation to be had between one dart's x-coordinate and itself. The first time we have a deviation is for n=2 and there is only one of them, a duplicate. That duplicate deviation is the squared distance between x1 or x2 and x¯=x1+x22 because x¯ is the midpoint between or average of x1 and x2. In general, for n distances we remove 1 because x¯ is dependent on all n of those distances. Now, n1 represents the degrees of freedom because it normalizes for the number of unique outcomes to make an expected square distance. when divided into the sum of those square distances.


-3

සසම්භාවී විචල්යයන්ගේ number ලදායී සංඛ්යාව.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.