සම්මත අපගමනයෙහි නිරපේක්ෂ අගය ගැනීම වෙනුවට වෙනස වර්ගීකරණය කරන්නේ ඇයි?


435

සම්මත අපගමනය අර්ථ දැක්වීම තුළ, ඇයි අපි කල්පනා කර වර්ග මධ්යන්ය (E) ලබා ගැනීමට හා ලබා ගැනීමට මධ්යන්යයේ සිට වෙනස වර්ග මූලය ආපසු අවසානයේ? අපට හුදෙක් නිරපේක්ෂ වටිනාකම ගත නොහැකිද? ඒ වෙනුවට ගෙන ඒවායින් අපේක්ෂිත අගය (මධ්‍යන්‍යය) ලබා ගත නොහැකි අතර එය දත්තවල විචලනය ද පෙන්වන්නේ නැද්ද? අංකය වර්ග ක්‍රමයට වඩා වෙනස් වනු ඇත (නිරපේක්ෂ අගය ක්‍රමය කුඩා වනු ඇත), නමුත් එය තවමත් දත්ත පැතිරීම පෙන්විය යුතුය. මෙම වර්ග ප්‍රවේශය අප සම්මතයක් ලෙස ගන්නේ මන්දැයි කිසිවෙකු දන්නවාද?

සම්මත අපගමනය පිළිබඳ අර්ථ දැක්වීම:

σ=E[(Xμ)2].

අපට ඒ වෙනුවට නිරපේක්ෂ වටිනාකම ගෙන තවමත් හොඳ මිනුමක් විය නොහැකිද?

σ=E[|Xμ|]


27
එක්තරා ආකාරයකින්, ඔබ යෝජනා කළ මිනුම දෝෂ (ආදර්ශ ගුණාත්මකභාවය) විශ්ලේෂණයක දී බහුලව භාවිතා වේ - එවිට එය MAE ලෙස හැඳින්වේ, “මධ්යන්ය නිරපේක්ෂ දෝෂය”.

8
පිළිතුරක් පිළිගැනීමේදී, පිළිතුර චක්‍රලේඛයක්ද යන්න පිළිබඳව අප අවධානය යොමු කිරීම වැදගත් බව පෙනේ. සාමාන්‍ය ව්‍යාප්තිය පදනම් වී ඇත්තේ වර්ගීකරණ දෝෂ පද වලින් මෙම විචල්‍යතා මිනුම් මත ය, නමුත් එය (XM) over 2 over | XM | භාවිතා කිරීම සාධාරණීකරණය කිරීමක් නොවේ.
රුසෙල්පියර්ස්

2
ප්‍රමිතිය යන වචනයේ තේරුම මෙය අද ප්‍රමිතිය යැයි ඔබ සිතනවාද? ප්‍රධාන සංරචකය “විදුහල්පති” සහ ද්විතියික නොවන්නේ මන්දැයි විමසීමට සමාන නොවේද?
රොබින් ජිරාඩ්

53
මෙතෙක් ලබා දී ඇති සෑම පිළිතුරක්ම රවුම් ය. ඔවුන් අවධානය යොමු කරන්නේ ගණිතමය ගණනය කිරීම්වල පහසුව (එය කදිම නමුත් කිසිසේත්ම මූලික නොවේ) හෝ ගවුසියානු (සාමාන්‍ය) බෙදාහැරීමේ සහ OLS වල ගුණාංග කෙරෙහි ය. 1800 දී පමණ ගෝස් ආරම්භ වූයේ අවම වශයෙන් චතුරස්රයන් හා විචල්‍යතාවයකින් වන අතර සාමාන්‍ය බෙදාහැරීම් වලින් ලබාගත් ඒවාය - චක්‍රලේඛය ඇත. මධ්‍යම සීමාව ප්‍රමේයයේ විචල්‍යතාවයෙන් අද්විතීය කාර්යභාරයක් මෙතෙක් කිසිදු පිළිතුරක් සඳහා යොමු කර නොමැති සැබෑ හේතුවකි . චතුරස්රාකාර පාඩු අවම කිරීමේ තීරණ සිද්ධාන්තයේ වැදගත්කම තවත් එකකි.
whuber

2
සම්මත අපගමනය විශ්‍රාම ගැනීම සහ මධ්‍යන්‍ය නිරපේක්ෂ අපගමනය භාවිතා කිරීම සඳහා තලෙබ් නඩුව එඩ්ජ්.ආර් .
ඇලෙක්ස් හොල්කොම්බ්

Answers:


196

සම්මත අපගමනයෙහි පරමාර්ථය වන්නේ සමමිතික දත්ත කට්ටලයක පැතිරීම සාරාංශ කිරීමයි (එනම් පොදුවේ සෑම දත්තයක් මධ්යන්යයෙන් කොතරම් දුරද යන්න), එවිට අපට එම පැතිරීම මැනිය යුතු ආකාරය නිර්වචනය කිරීමේ හොඳ ක්රමයක් අවශ්ය වේ.

වර්ග කිරීමේ වාසි අතර:

  • වර්ග කිරීම සැමවිටම ධනාත්මක අගයක් ලබා දෙයි, එබැවින් එකතුව ශුන්‍ය නොවේ.
  • වර්ග කිරීම විශාල වෙනස්කම් අවධාරණය කරයි - එය හොඳ සහ නරක යන දෙකටම හැරෙන ලක්ෂණයකි (පිටස්තරයින්ට ඇති වන බලපෑම ගැන සිතන්න).

කෙසේ වෙතත් වර්ග කිරීම ව්‍යාප්තියේ මිනුමක් ලෙස ගැටළුවක් ඇති අතර එය ඒකක සියල්ලම වර්ග කොට ඇති අතර, පැතිරීම මුල් දත්ත වලට සමාන ඒකකවල පැවතීමට අපි කැමති විය හැකිය (වර්ග පවුම්, වර්ග ඩොලර් හෝ වර්ග ඇපල් ගැන සිතන්න) . එබැවින් වර්ග මූල අපට මුල් ඒකක වෙත ආපසු යාමට ඉඩ දෙයි.

නිරපේක්ෂ වෙනස දත්ත ව්‍යාප්තියට සමාන බරක් ලබා දෙන බව ඔබට පැවසිය හැකි යැයි මම සිතමි. තාක්ෂණික වශයෙන්, අනෙක් අය පෙන්වා දී ඇති පරිදි, වර්ග කිරීම වීජ ගණිතය සමඟ වැඩ කිරීමට වඩා පහසු කරවන අතර නිරපේක්ෂ ක්‍රමයට නොගැලපෙන ගුණාංග ඉදිරිපත් කරයි (නිදසුනක් ලෙස, විචලනය බෙදාහැරීමේ වර්ගයේ අපේක්ෂිත අගයට සමාන වේ. බෙදා හැරීමේ මධ්‍යන්‍යය)

කෙසේ වෙතත්, ඔබ 'පැතිරීම' නැරඹීමට කැමති ආකාරය පිළිබඳ ඔබේ මනාපය නම් ඔබට නිරපේක්ෂ වෙනසක් කිරීමට නොහැකි වීමට හේතුවක් නොමැති බව සැලකිල්ලට ගැනීම වැදගත්ය (සමහර අය 5% ක්-valuesසඳහා යම් ඉන්ද්‍රජාලික එළිපත්තක් ලෙස දකින ආකාරය, ඇත්ත වශයෙන්ම එය තත්වය මත රඳා පවතී). ඇත්ත වශයෙන්ම, පැතිරීම මැනීම සඳහා ඇත්ත වශයෙන්ම තරඟකාරී ක්‍රම කිහිපයක් තිබේ.p

පයිතගරස් සංඛ්‍යාලේඛන ප්‍රමේයයට එය සම්බන්ධ වන්නේ කෙසේදැයි සිතා බැලීමට මා කැමති නිසා වර්ග අගයන් භාවිතා කිරීම මගේ අදහසයි: … මෙය ස්වාධීන අහඹු විචල්‍යයන් සමඟ වැඩ කරන විට මතක තබා ගැනීමට ද උපකාරී වේ , විචල්‍යතා එකතු කරයි, සම්මත අපගමනයන් සිදු නොවේ. නමුත් එය මගේ පෞද්ගලික ආත්මීය මනාපය පමණක් වන අතර එය මම බොහෝ විට භාවිතා කරන්නේ මතක ආධාරකයක් ලෙස පමණි, මෙම ඡේදය නොසලකා හැරීමට නිදහස් වන්න.c=a2+b2

වඩාත් ගැඹුරු විශ්ලේෂණයක් මෙහි කියවිය හැකිය .


78
"වර්ග කිරීම සැමවිටම ධනාත්මක අගයක් ලබා දෙයි, එබැවින් එකතුව ශුන්‍ය නොවේ." නිරපේක්ෂ අගයන් ද එසේමය.
රොබින් ජිරාඩ්

34
@robin girard: එය නිවැරදියි, එබැවින් මා එම කරුණට පෙර “වර්ග කිරීමේ වාසි ඇතුළත් වේ”. එම ප්‍රකාශයේ නිරපේක්ෂ සාරධර්ම පිළිබඳ කිසිවක් මා ඇඟවූයේ නැත. මම ඔබේ අදහස කෙසේ වෙතත්, අනෙක් අයට එය අපැහැදිලි යැයි හැඟේ නම් එය ඉවත් කිරීම / නැවත මුද්‍රණය කිරීම ගැන සලකා බලමි.
ටෝනි බ්‍රියාල්

16
ශක්තිමත් සංඛ්‍යාලේඛන ක්‍ෂේත්‍රයේ වැඩි කොටසක් දත්ත ව්‍යාප්තියේ මිනුමක් ලෙස (තාක්‍ෂණිකව පරිමාණයෙන් හෝ විසුරුවා හැරීමේ) මිනුමක් ලෙස විචල්‍යතාව තෝරා ගැනීමේ ප්‍රති ence ලයක් බව පිටස්තරයින්ට ඇති අධික සංවේදීතාව සමඟ කටයුතු කිරීමේ උත්සාහයකි. en.wikipedia.org/wiki/Robust_statistics
Thylacoleo

7
පිළිතුරට සම්බන්ධ කර ඇති ලිපිය දෙවියන් එවීමකි.
traggatmot

2
මම හිතන්නේ පයිතගරස් පිළිබඳ ඡේදය ක්‍රියාත්මක වේ. දෝෂය දෛශිකයක් ලෙස මානයන්ගෙන් සිතිය හැකිය , යනු සාම්පල ගණන වේ. එක් එක් මානයන්හි විශාලත්වය එම නියැදිය සඳහා මධ්‍යන්‍යයේ වෙනසයි. එම දෛශිකයේ දිග (පයිතගරස්) සාරාංශගත චතුරස්රවල මුල වේ, එනම් සම්මත අපගමනය. n [ ( x 1 - μ ) , ( x 2 - μ ) , ( x 3 - μ ) , . . . ]nn[(x1μ),(x2μ),(x3μ),...]
ආර්න් බ්‍රෙසියර්

140

වර්ග වෙනස වඩා හොඳ ගණිතමය ගුණ ඇත; එය අඛණ්ඩව අවකලනය කළ හැකි ය (ඔබට එය අවම කිරීමට අවශ්‍ය වූ විට හොඳයි), එය ගවුසියානු බෙදා හැරීම සඳහා ප්‍රමාණවත් සංඛ්‍යාලේඛනයක් වන අතර, එය (සංස්කරණයක්) L2 ප්‍රමිතිය අභිසාරී බව ඔප්පු කිරීම සඳහා ප්‍රයෝජනවත් වේ.

මධ්යන්ය නිරපේක්ෂ අපගමනය (ඔබ යෝජනා කරන නිරපේක්ෂ අගය අංකනය) ද විසුරුවා හැරීමේ මිනුමක් ලෙස භාවිතා කරයි, නමුත් එය වර්ග දෝෂය ලෙස "හොඳින් හැසිරුණු" නොවේ.


2
"එය අඛණ්ඩව අවකලනය කළ හැකි ය (ඔබට එය අවම කිරීමට අවශ්‍ය වූ විට හොඳයි)" ඔබ අදහස් කරන්නේ නිරපේක්ෂ වටිනාකම ප්‍රශස්තිකරණය කිරීම දුෂ්කර බව ද?
රොබින් ජිරාඩ්

30
@robin: නිරපේක්ෂ අගය ශ්‍රිතය සෑම තැනකම අඛණ්ඩව පැවතුනද, එහි පළමු ව්‍යුත්පන්නය (x = 0 දී) නොවේ. මෙය විශ්ලේෂණ ප්‍රශස්තිකරණය වඩාත් අපහසු කරයි.
වින්ස්

12
ඔව්, නමුත් ඔබට අවශ්‍ය සත්‍ය අංකය සොයා ගැනීම වෙනුවට එය විස්තර කරන්නෙකුට වඩා පහසුවෙන් සොයාගත හැකිය. 1 මාන නඩුව සලකා බලන්න; ඔබට වර්ග දෝෂයේ අවම අගය මධ්‍යන්‍යයෙන් ප්‍රකාශ කළ හැකිය: O (n) මෙහෙයුම් සහ සංවෘත ආකෘතිය. නිරපේක්ෂ දෝෂ අවම කිරීමේ අගය ඔබට මධ්‍යන්‍යයෙන් ප්‍රකාශ කළ හැකිය, නමුත් මධ්‍ය අගය යනු කුමක්දැයි ඔබට පවසන සංවෘත ආකෘති විසඳුමක් නොමැත; එය සොයා ගැනීමට වර්ග කිරීමක් අවශ්‍ය වේ, එය O (n log n) වැනි ය. අවම චතුරස්ර විසඳුම් සරල ප්ලග්-ඇන්ඩ්-චග් වර්ගයේ මෙහෙයුමක් වන අතර, නිරපේක්ෂ අගය විසඳුම් සඳහා සාමාන්‍යයෙන් වැඩි වැඩක් අවශ්‍ය වේ.
පොහොසත්

6
Ich රිච්: විචල්‍යතාව සහ මධ්‍යය යන දෙකම රේඛීය වේලාවෙන් සොයාගත හැකි අතර ඇත්ත වශයෙන්ම වේගවත් නොවේ. මධ්යන්ය වර්ග කිරීම අවශ්ය නොවේ.
නීල් ජී

4
E ජෙරොම්බෝම්: en.wikipedia.org/wiki/Median_of_medians
නීල් ජී

84

ඔබට මෙය සිතිය හැකි එක් ක්‍රමයක් නම් සම්මත අපගමනය “මධ්‍යන්‍යයෙන් distance ත්වීම” ට සමාන වීමයි.

මෙය යුක්ලීඩියානු අවකාශයේ දුර සමඟ සසඳන්න - මෙය ඔබට නියම දුර ලබා දෙයි, එහිදී ඔබ යෝජනා කළ දෙය (btw, නිරපේක්ෂ අපගමනය ) මෑන්හැටන් දුර ගණනය කිරීමකට සමාන වේ.


18
යුක්ලීඩියානු අවකාශයේ හොඳ ප්‍රතිසමයක්!
c4il

4
එක් මානයකින් සහ l 2 ප්‍රමිතිය එකම දේ හැර, එසේ නොවේ ද? l1l2
naught101

5
n naught101: එය එක් මානයක් නොව මානයන් වන n යනු සාම්පල ගණනයි. සම්මත අපගමනය හා නිරපේක්ෂ අපගමනය (පරිමාණ ව) වේ l 2 හා l 1 ලකුණු දෙකක් අතර, පිළිවෙළින් දුර ( x 1 , x 2 , ... , x n ) සහ ( μ , μ , ... , μ ) එහිදී μ මධ්යන්ය . nnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ශ්‍රීවාසර්

1
මෙය මධ්‍යන්‍යයෙන් අවම දුරක් ලෙස වෙනස් කළ යුතුය. එය අත්‍යවශ්‍යයෙන්ම පයිතගරස් සමීකරණයකි.
ජෝන්

55

මෙම හේතුව අපි ඒ වෙනුවට පරම දෝෂයක් සම්මත අපගමනය ගණනය බව අපි සිටින බව ය සාමාන්යයෙන් බෙදා හැරීම සඳහා වැරදි උපකල්පනය . එය ආකෘතියේ කොටසකි.

ඔබ පාලකයෙකු සමඟ ඉතා කුඩා දිගක් මනින්නේ යැයි සිතමු, එවිට සම්මත අපගමනය වැරදි සඳහා නරක මෙට්‍රික් එකක් වන්නේ ඔබ කිසි විටෙකත් අහම්බෙන් negative ණ දිගක් මනින්නේ නැති බව ඔබ දන්නා බැවිනි. ඔබේ මිනුම්වලට ගැමා බෙදාහැරීමක් සකස් කිරීමට වඩා හොඳ මෙට්‍රික් එකක් වනු ඇත:

log(E(x))E(log(x))

සම්මත අපගමනය මෙන් මෙයද negative ණාත්මක නොවන අතර අවකලනය කළ හැකි නමුත් එය මෙම ගැටළුව සඳහා වඩා හොඳ දෝෂ සංඛ්‍යාලේඛනයකි.


3
මම ඔබේ පිළිතුරට කැමතියි. Sd සෑම විටම හොඳම සංඛ්යානමය නොවේ.
රොක් සයන්ස්

2
උච්චාවචනය වන ප්‍රමාණයන් ගැන සිතීමට හොඳම ක්‍රමය සම්මත අපගමනය නොවන විට විශිෂ්ට ප්‍රති-උදාහරණයකි.
හබාර්

කොන්ක්‍රීට් ලොග් x වෙනුවට උත්තල භාවිතා කරමින් ධනාත්මක මිනුමක් ලබා දීමට ඔබට ප්‍රමාණයට ප්‍රතිවිරුද්ධ ලකුණක් තිබිය යුතු නොවේද ? logxlogx
ඒඑස්

නැත, එය දැනටමත් සෑම විටම ධනාත්මක ය. සියලු සාම්පල සමාන වන විට එය ශුන්‍ය වන අතර එසේ නොවුවහොත් එහි විශාලත්වය විචලනය මනිනු ලබයි. x
නීල් ජී

1
EN GENIVI-LEARNER ඔව්. මා අදහස් කළේ මෙයයි. සියල්ලට පසු ඔබට හොඳම ආකෘතිය අවශ්යයි.
නීල් ජී

26

මට වඩාත්ම තෘප්තිමත් වූ පිළිතුර නම් එය ස්වාභාවිකවම නියැදියක් සාමාන්‍යකරණය කිරීමේ සිට n-මාන යුක්ලීඩියානු අවකාශය දක්වා වැටීමයි. එය කළ යුතු දෙයක්ද යන්න නිසැකවම විවාදාත්මක ය, නමුත් ඕනෑම අවස්ථාවක:

nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

සහසම්බන්ධය සඳහා ජ්‍යාමිතික අර්ථ නිරූපණයක් මෙම ප්‍රවේශය මඟින් ඔබට ලැබේ .ρ^=cos(x~,y~)


7
මෙය නිවැරදි හා සිත් ඇදගන්නා සුළු ය. කෙසේ වෙතත්, අවසානයේ දී පෙනී යන්නේ ප්‍රශ්නයට සැබවින්ම පිළිතුරු නොදී එය නැවත මුද්‍රණය කිරීම පමණි: එනම්, අපි යුක්ලීඩියානු (L2) දුර භාවිතා කළ යුත්තේ ඇයි?
whuber

20
1809 දී ගෝස් විසින් ආරම්භක ලක්ෂ්‍යයක් ලෙස නිරපේක්ෂ දෝෂයට වඩා වර්ග දෝෂයක් භාවිතා කරමින් ඔහුගේ නාමික අපගමනය ලබා ගන්නා තෙක් සම්මත අපගමනය සාමාන්‍ය දෙයක් නොවීය. කෙසේ වෙතත්, ඔවුන් ඉහළට තල්ලු කළේ (මම විශ්වාස කරන පරිදි) ගැල්ටන්ගේ ප්‍රතිගාමී න්‍යාය (ඔබ ඉඟි කරන) සහ වර්ග ප්‍රමාණයන් දිරාපත් කිරීමට ANOVA ට ඇති හැකියාවයි - එය පයිතගරස් ප්‍රමේයයේ නැවත පිහිටුවීමකට සමාන වේ. L2 සම්මතය. මේ අනුව, එස්ඩී විසින් 1925 දී ෆිෂර් හි "පර්යේෂණ සේවකයින් සඳහා සංඛ්‍යානමය ක්‍රම" හි යෝජනා කරන ලද සර්වබලධාරී ව්‍යාප්තියක් විය. වසර 85 කට පසුව අපි මෙහි සිටිමු.
whuber

13
(+1) ub වබර්ගේ නහරය තුළ දිගටම, ශිෂ්‍යයා 1908 දී "මධ්යන්යයේ සිදුවිය හැකි දෝෂය - හේයි, යාලුවනේ, හරය තුළ ඇති එම MAE පරීක්ෂා කරන්න!" සංඛ්‍යාලේඛන මේ වන විට සම්පූර්ණයෙන්ම වෙනස් මුහුණුවරක් ගනු ඇත. ඇත්ත වශයෙන්ම, ඔහු එවැනි පුවත්පතක් ප්‍රකාශයට පත් නොකළ අතර ඇත්ත වශයෙන්ම ඔහුට එය නොතිබුණි, මන්ද එස්ඊ 2 සතුව ඇති සියලු හොඳ ගුණාංග MAE පුරසාරම් දොඩන්නේ නැත. ඒවායින් එකක් (ශිෂ්‍යයා හා සම්බන්ධ) එහි මධ්‍යන්‍යයේ ස්වාධීනත්වය (සාමාන්‍ය අවස්ථාවෙහිදී), ඇත්ත වශයෙන්ම විකලාංගතාව නැවත යථා තත්ත්වයට පත් කිරීම වන අතර එමඟින් අපව නැවත L2 සහ අභ්‍යන්තර නිෂ්පාදනය වෙත යොමු කරයි.

3
මෙම පිළිතුර සිතුවිලි ජනිත කරවන අතර එය නැරඹීමේ මගේ ප්‍රියතම ක්‍රමය යැයි මම සිතමි. 1-D හි වෙනස වර්ග කිරීම වඩා හොඳ ලෙස පෙනෙන්නේ මන්දැයි තේරුම් ගැනීම අපහසුය. නමුත් බහුවිධ මානයන්ගෙන් (හෝ 2 ක් වුවද) කෙනෙකුට පහසුවෙන්ම දැක ගත හැකිය යුක්ලීඩියානු දුර (වර්ග කිරීම) මෑන්හැටන් දුරට වඩා (වෙනස්කම්වල නිරපේක්ෂ වටිනාකම).
thecity2

1
"Xᵢ = by මගින් අර්ථ දක්වා ඇති රේඛාව" යන්නෙන් අදහස් කරන්නේ කුමක්ද? එය මූලාරම්භය සහ ලක්ෂ්‍යය (μ, μ, ..., μ) හරහා ගමන් කරන රේඛාවද? එසේම, මට මේ ගැන වැඩිදුර කියවිය හැක්කේ කොතැනින්ද?
ආර්ච් ස්ටැන්ටන්

18

මධ්යන්යයෙන් වෙනස වර්ග කිරීමට හේතු කිහිපයක් තිබේ.

  • විචල්‍යතාවය අපගමනයෙහි 2 වන මොහොත ලෙස අර්ථ දැක්වේ (මෙහි RV ) මේ අනුව චතුරස්රය යනු අහඹු විචල්‍යයේ ඉහළ බලයන්ගේ අපේක්ෂාවන්ය.(xμ)

  • නිරපේක්ෂ අගය ශ්‍රිතයට ප්‍රතිවිරුද්ධව චතුරස්රයක් තිබීම හොඳ අඛණ්ඩ හා අවකලනය කළ හැකි ශ්‍රිතයක් ලබා දෙයි (නිරපේක්ෂ අගය 0 ට වෙනස් නොවේ) - එමඟින් එය ස්වාභාවික තේරීමක් බවට පත් කරයි, විශේෂයෙන් තක්සේරු කිරීමේ හා ප්‍රතිගාමී විශ්ලේෂණයේ සන්දර්භය තුළ.

  • වර්ග සැකසීම ස්වාභාවිකවම සාමාන්‍ය බෙදාහැරීමේ පරාමිතීන්ගෙන් බැහැර වේ.


16

සම්මත අපගමනය නිරපේක්ෂ අපගමනයට වඩා “කාර්යක්ෂම” බව පෙන්වූ ෆිෂර් විසින්ම තවත් හේතුවක් (ඉහත විශිෂ්ට ඒවාට අමතරව) පැමිණේ. ජනගහනයෙන් විවිධ නියැදි වල සංඛ්‍යාලේඛනවල වටිනාකම කොතරම් උච්චාවචනය වේද යන්න මෙහිදී කාර්යක්ෂම වේ. ඔබේ ජනගහනය සාමාන්‍යයෙන් බෙදා හරිනු ලැබුවහොත්, එම ජනගහනයෙන් විවිධ සාම්පලවල සම්මත අපගමනය සාමාන්‍යයෙන් ඔබට එකිනෙකට සමාන අගයන් ලබා දීමට නැඹුරු වන අතර නිරපේක්ෂ අපගමනය මඟින් ඔබට තව ටිකක් ව්‍යාප්ත වන සංඛ්‍යා ලබා දෙනු ඇත. දැන්, පැහැදිලිවම මෙය පරිපූර්ණ තත්වයන් තුළ පවතී, නමුත් මෙම හේතුව නිසා බොහෝ දෙනෙකුට ඒත්තු ගැන්වී ඇත (ගණිතය පිරිසිදු වීමත් සමඟ), එබැවින් බොහෝ අය සම්මත අපගමනය සමඟ වැඩ කළහ.


6
ඔබේ තර්කය රඳා පවතින්නේ සාමාන්‍යයෙන් බෙදා හරින දත්ත මත ය. ජනගහනයට "ද්විත්ව on ාතීය" බෙදාහැරීමක් ඇතැයි අපි උපකල්පනය කරන්නේ නම්, නිරපේක්ෂ අපගමනය වඩාත් කාර්යක්ෂම වේ (ඇත්ත වශයෙන්ම එය පරිමාණයට ප්‍රමාණවත් සංඛ්‍යාලේඛනයක් වේ)
සම්භාවිතා

7
ඔව්, මා ප්‍රකාශ කළ පරිදි, "ඔබේ ජනගහනය සාමාන්‍යයෙන් බෙදා හරිනු ලැබුවහොත්."
එරික් සු

සාමාන්‍ය බෙදා හැරීම උපකල්පනය කිරීමට අමතරව ධීවර සාධනය දෝෂ රහිත මිනුම් උපකල්පනය කරයි. 1% වැනි කුඩා දෝෂ සහිතව තත්වය ප්‍රතිලෝම වන අතර සාමාන්‍ය නිරපේක්ෂ අපගමනය සම්මත
අපගමනයට

15

මිනිසුන් දන්නා පරිදි, එකම මාතෘකාව පිළිබඳ ගණිත පිටාර ගැලීමේ ප්‍රශ්නයක් තිබේ.

සම්මත-අපගමනය සොයා ගැනීමේදී-එය-එතරම්-සිසිල්-වර්ග-සංඛ්‍යා-ඇයි?

රැගෙන යාමේ පණිවිඩය නම් විචල්‍යයේ වර්ගමූලය භාවිතා කිරීම පහසු ගණිතයකට මඟ පෙන්වන බවයි. ඒ හා සමාන ප්‍රතිචාරයක් ඉහත පොහොසත් සහ රීඩ් විසින් දෙනු ලැබේ.


4
අපගේ සූත්‍ර සහ සාරධර්ම ලබා දී ඇති දත්ත සමූහයක් වඩාත් සැබවින්ම පිළිබිඹු කිරීමට අපට අවශ්‍ය විට 'පහසු ගණිතය' අත්‍යවශ්‍ය අවශ්‍යතාවයක් නොවේ. පරිගණක කෙසේ හෝ සියලු වෙහෙස මහන්සි වී වැඩ කරයි.
ඩෑන් ඩබ්

1
Pi 3.14 ලෙස අර්ථ දැක්වීම ගණිතය පහසු කරයි, නමුත් එය නිවැරදි නොවේ.
ජේම්ස්

14

විචල්‍යතා ආකලන වේ: ස්වාධීන අහඹු විචල්‍යයන් සඳහා , var ( X 1 + + X n ) = var ( X 1 ) + + var ( X n ) .X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

මෙය කළ හැකි දේ සැලකිල්ලට ගන්න: මම සාධාරණ කාසියක් 900 වතාවක් විසි කළ බව පවසන්න. මට ලැබෙන හිස් ගණන 440 ත් 455 ත් අතර විය හැකි සම්භාවිතාව කුමක්ද? අපේක්ෂිත හිස් සංඛ්‍යාව ( ) සහ හිස් සංඛ්‍යාවේ විචලනය ( ) සොයා ගන්න, ඉන්පසු සාමාන්‍ය (හෝ ගවුසියානු) බෙදාහැරීමක් සමඟ අපේක්ෂාව සමඟ සම්භාවිතාව සොයා ගන්න සහ සම්මත අපගමනය අතර සහ . 18 වන ශතවර්ෂයේදී ආබ්‍රහම් ඩි මොයිව්රේ කාසි කාසි මගින් මෙය සිදු කළ අතර, එමඟින් මුලින්ම පෙන්වූයේ සීනුව හැඩැති වක්‍රය යම්කිසි වටිනාකමක් ඇති බවයි.225 = 15 2 450 15 439.5 455.5450225=15245015439.5455.5


1
මධ්යන්ය නිරපේක්ෂ අපගමනය විචලනයන්ට සමාන ආකාරයකින් ආකලන නොවේද?
රුසෙල්පියර්ස්

6
නැහැ, ඔවුන් එසේ නොවේ.
මයිකල් හාඩි

1
ආන්ට් යන්නෙන් අදහස් කරන්නේ නිරපේක්ෂ අපගමනය ආකලන නොවන බවයි? කරුණාකර යොමු කිරීමකට යොමු කළ හැකිද?
GENIVI-LEARNER

EN GENIVI-LEARNER: උදාහරණ කිහිපයක් ගණනය කිරීමෙන් පිස්සු ආකලන නොවන බව ඔබට තහවුරු කර ගත හැකිය. නමුත් මම ඒ ගැන යමක් සොයා ගත හැකිදැයි බලන්නම්.
මයිකල් හාඩි

10

ඔබ තනි විචල්‍යයකින් ඔබ්බට ගොස් රේඛීය ප්‍රතිගාමීත්වය ගැන සිතන විට නිරපේක්ෂ අපගමනය හා වර්ග අපගමනය භාවිතා කිරීම අතර වෙනස පැහැදිලි වනු ඇතැයි මම සිතමි. එහි දී හොඳ සාකච්ඡාවක් තියෙන්නේ http://en.wikipedia.org/wiki/Least_absolute_deviations , විශේෂයෙන් කොටස ඇප්ලට් ක පිළිවෙළකට කට්ටලයක් සමග සමහර ශිෂ්ය අභ්යාස හා සම්බන්ධ, "ඌන නිරපේක්ෂ වීම් සමග අවම කොටු සැසඳිය" // www: http .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .

සාරාංශගත කිරීම සඳහා, අවම නිරපේක්ෂ අපගමනය සාමාන්‍ය අවම චතුරස්රයන්ට වඩා පිටස්තරයින්ට වඩා ශක්තිමත් ය, නමුත් එය අස්ථායී විය හැකිය (එක් දත්තයක පවා කුඩා වෙනසක් මඟින් සුදුසු රේඛාවේ විශාල වෙනසක් ලබා දිය හැකිය) සහ සෑම විටම අද්විතීය විසඳුමක් නොමැත - තිබිය හැකිය සවි කර ඇති රේඛා වල මුළු පරාසය. අවම වශයෙන් නිරපේක්ෂ අපගමනයන්ට පුනරාවර්තන ක්‍රම අවශ්‍ය වන අතර සාමාන්‍ය අවම චතුරස්රයන්ට සරල සංවෘත ආකෘති විසඳුමක් ඇත. ඇත්ත වශයෙන්ම එය ගෝස් සහ ලෙජෙන්ඩ්‍රේගේ කාලයේ දී මෙන් එතරම් විශාල ගනුදෙනුවක් නොවේ.


"අද්විතීය විසඳුම" තර්කය තරමක් දුර්වල ය, එයින් අදහස් කරන්නේ දත්ත මගින් හොඳින් සහාය දක්වන වටිනාකම් එකකට වඩා ඇති බවයි. මීට අමතරව, L2 වැනි සංගුණකවලට ද penal ුවම් කිරීමෙන් අද්විතීයභාවය සහ ස්ථායිතාව පිළිබඳ ගැටළුව යම් ප්‍රමාණයකට විසඳනු ඇත.
සම්භාවිතාවය

10

හේතු බොහොමයක් ඇත; බොහෝ විට ප්රධාන දෙය නම් එය සාමාන්ය බෙදාහැරීමේ පරාමිතිය ලෙස හොඳින් ක්රියා කිරීමයි.


4
මම එකඟයි. ඔබ සාමාන්‍ය බෙදා හැරීම උපකල්පනය කරන්නේ නම් විසරණය මැනීමට නිවැරදි ක්‍රමය සම්මත අපගමනයයි . බොහෝ බෙදාහැරීම් සහ සත්‍ය දත්ත දළ වශයෙන් සාමාන්‍ය වේ.
සාකාස් ලූ

2
ඔබ "ස්වාභාවික පරාමිතිය" යැයි පැවසිය යුතු යැයි මම නොසිතමි: සාමාන්‍ය බෙදාහැරීමේ ස්වාභාවික පරාමිතීන් මධ්‍යන්‍ය හා මධ්‍යන්‍ය වේලාවන් නිරවද්‍ය වේ. ( en.wikipedia.org/wiki/Natural_parameter )
නීල් ජී

1
පොයින්ට්; මම මෙහි "අනියම්" අර්ථය ගැන සිතමින් සිටියෙමි. මම මීට වඩා හොඳ වචනයක් ගැන සිතමි.

10

බෙදාහැරීමක සම්මත අපගමනය තක්සේරු කිරීම සඳහා දුරක් තෝරා ගැනීම අවශ්‍ය වේ.
පහත දැක්වෙන ඕනෑම දුරක් භාවිතා කළ හැකිය:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

අපි සාමාන්‍යයෙන් ස්වාභාවික යුක්ලීඩියානු දුර ( ) භාවිතා කරන අතර එය සෑම කෙනෙකුම එදිනෙදා ජීවිතයේදී භාවිතා කරයි. ඔබ යෝජනා කරන දුර සමඟ ඇති දුර වේ . දෙදෙනාම හොඳ අපේක්ෂකයින් නමුත් ඔවුන් වෙනස් ය.n=2n=1

කෙනෙකුට ද භාවිතා කිරීමට තීරණය කළ හැකිය .n=3

ඔබ මගේ පිළිතුරට කැමති වනු ඇතැයි මට විශ්වාස නැත, අනෙක් අයට වඩා මගේ අදහස නම් වඩා හොඳ බව නිරූපණය කිරීම නොවේ . බෙදාහැරීමක සම්මත අපගමනය තක්සේරු කිරීමට ඔබට අවශ්‍ය නම්, ඔබට නියත වශයෙන්ම වෙනස් දුරක් භාවිතා කළ හැකි යැයි මම සිතමි.n=2


එබැවින්, ඔබ n අගයන් (k_i-mean) n- මාන අවකාශයේ තනි ලක්ෂ්‍යයකට සිතියම් ගත කරන්නේ නම්, සම්මත අපගමනය යනු අනුරූප දෛශිකයේ දිග වන අතර එය 1 / sqrt (n) මගින් පරිමාණය කර ඇත.
ඩේවිඩ් ටොන්හෝෆර්

9

බොහෝ ආකාරවලින්, විසරණය සාරාංශ කිරීම සඳහා සම්මත අපගමනය භාවිතා කිරීම නිගමනයකට එළඹේ. SD යනු සමමිතික ව්‍යාප්තියක් උපකල්පනය කරන බව ඔබට පැවසිය හැකිය. එස්ඩී යනු සංඛ්‍යාන නොවන අයට අර්ථ නිරූපණය කිරීම පුදුම සහගතය. ගිනිගේ මධ්‍යන්‍ය වෙනස වඩා පුළුල් යෙදුමක් ඇති අතර සැලකිය යුතු ලෙස අර්ථ නිරූපණය කළ හැකි යැයි කෙනෙකුට තර්ක කළ හැකිය. එස්ඩී භාවිතය මධ්යන්යය සඳහා කරන ආකාරයට මධ්යම ප්රවණතාවයේ මිනුමක් තෝරා ගැනීම ප්රකාශ කිරීමට කෙනෙකුට අවශ්ය නොවේ. ගිනිගේ මධ්‍යන්‍ය වෙනස යනු ඕනෑම වෙනස් නිරීක්ෂණ දෙකක් අතර සාමාන්‍ය නිරපේක්ෂ වෙනසයි. ශක්තිමත් හා අර්ථ නිරූපණය කිරීමට අමතරව, බෙදා හැරීම ඇත්ත වශයෙන්ම ගෝස්සියානු නම් එය එස්ඩී මෙන් 0.98 කාර්යක්ෂම වේ.


2
ගිනි ගැන @ ෆ්‍රෑන්ක්ගේ යෝජනාවට එකතු කිරීම සඳහා මෙහි ලස්සන පත්‍රිකාවක් තිබේ: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 එය විවිධ විසරණයන් ඉක්මවා ගොස් තොරතුරුමය historical තිහාසික ඉදිරිදර්ශනයක් ලබා දෙයි.
තෝමස් ස්පීඩෙල්

1
මම මෙම අදහස් වලටද කැමතියි, නමුත් විචල්‍යතාවයේ අඩු ප්‍රසිද්ධ සමාන්තර අර්ථ දැක්වීමක් ඇත (සහ ඒ අනුව එස්ඩී) ස්ථාන පරාමිතීන් ලෙස මාධ්‍යයන් ගැන සඳහනක් නොකරයි. ගිනි විචල්‍ය මධ්‍යන්‍ය වෙනස සියලු යුගල වශයෙන් වෙනසෙහි නිරපේක්ෂ අගයන් මත පදනම් වනවා සේම, විචල්‍යය අගයන් අතර ඇති යුගල වශයෙන් ඇති වෙනස්කම් වලට වඩා මධ්‍යන්‍ය වර්ගයෙන් අඩකි.
නික් කොක්ස්

7

එය "දත්ත පැතිරීම" යැයි ඔබ පවසන විට ඔබ කතා කරන දේ මත රඳා පවතී. මට මෙය කරුණු දෙකක් අදහස් කළ හැකිය:

  1. නියැදි බෙදාහැරීමක පළල
  2. දී ඇති ඇස්තමේන්තුවක නිරවද්‍යතාවය

E(|Xμ|)E(X2)E(|X|)

DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

නමුත් අපට මෙහි ඇත්තේ යනු “හොඳින් වටකුරු” උපරිමයක් වන නිසා, , එබැවින් අපට ඇත්තේ:θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

අපි මෙම ඇස්තමේන්තුව ඇතුල් කළහොත් අපට ලැබෙන්නේ:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

කුමන, නමුත් අංකනය සඳහා සාමාන්‍ය බෙදාහැරීමක් වන අතර මධ්‍යන්‍යය ට සමාන වන අතර විචලනය සමාන වේE(θDI)θmax

V(θDI)[h(θmax)]1

( සැමවිටම ධනාත්මක වන්නේ අපට හොඳින් වටකුරු උපරිමයක් ඇති බැවිනි). එබැවින් මෙයින් අදහස් වන්නේ “නිත්‍ය ගැටලු” (ඒවායින් බොහොමයක්), විචලනය යනු සඳහා ඇස්තමේන්තු වල නිරවද්‍යතාවය තීරණය කරන මූලික ප්‍රමාණයයි . එබැවින් දත්ත විශාල ප්‍රමාණයක් මත පදනම් වූ ඇස්තමේන්තු සඳහා, සම්මත අපගමනය න්‍යායාත්මකව බොහෝ අර්ථවත් කරයි - එය මූලික වශයෙන් ඔබ දැනගත යුතු සියල්ල ඔබට කියයි. with සමඟ බහු-මාන නඩුවේදී එකම තර්කය අදාළ වේ (එකම කොන්දේසි සහිතව). හෙසියන් අනුකෘතියකි. විකර්ණ ඇතුළත් කිරීම් ද මෙහි අත්‍යවශ්‍යයෙන්ම විචල්‍ය වේ.h(θmax)θh(θ)jk=h(θ)θjθk

එම්එල්ඊ දත්තවල බර සංයෝජනයක් වන බැවින් විශාල සම්භාවිතාව පිළිබඳ ක්‍රමවේදය නිතර භාවිතා කරන්නා එකම නිගමනයකට එළඹෙනු ඇති අතර විශාල සාම්පල සඳහා මධ්‍යම සීමිත ප්‍රමේයය අදාළ වන අතර අපි මූලික වශයෙන් එකම ප්‍රති result ලය ලබා ගන්නේ අපි take නමුත් සහ හුවමාරු කර ඇත: (මා කැමති කුමන ආදර්ශයදැයි ඔබට අනුමාන කළ හැකිදැයි බලන්න: P). එබැවින් කෙසේ හෝ පරාමිති තක්සේරු කිරීමේදී සම්මත අපගමනය පැතිරීමේ වැදගත් න්‍යායාත්මක මිනුමකි.θ θ උපරිම පි ( θ උපරිම | θ ) එන් ( θ , [ - h " ( θ උපරිම ) ] - 1 )p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

7

“නිරපේක්ෂ වටිනාකම ගැනීම” වෙනුවට “වෙනස වර්ග කරන්නේ ඇයි”? ඉතා නිවැරදිව පිළිතුරු දීමට නම්, එය සම්මත කර ගැනීමට හේතු සහ එම හේතු බොහොමයක් නොපැවැත්වීමට හේතුව සපයන සාහිත්‍යයක් ඇත. "අපට නිරපේක්ෂ වටිනාකම ගත නොහැකිද ...?". සාහිත්‍යය ගැන මම දනිමි, පිළිතුර ඔව් එය සිදු කෙරෙමින් පවතින අතර එසේ කිරීමෙන් වාසිදායක යැයි තර්ක කෙරේ.

කර්තෘ ගෝරාඩ් පවසන්නේ, පළමුව, චතුරස්රයන් භාවිතා කිරීම ගණනය කිරීමේ සරල බව හේතු කොට ගෙන කලින් සම්මත කර ගත් නමුත් එම මුල් හේතු තවදුරටත් නොපවතින බවයි. දෙවනුව, OLS සම්මත කර ගත් බව ගෝරාඩ් ප්‍රකාශ කරයි. OLS භාවිතා කළ විශ්ලේෂණ සාම්පලවල ප්‍රති results ලවල නිරපේක්ෂ වෙනස්කම් (දළ වශයෙන් ප්‍රකාශිත) වලට වඩා කුඩා අපගමනයන් ඇති බව ෆිෂර් විසින් සොයා ගන්නා ලදී. මේ අනුව, සමහර පරිපූර්ණ තත්වයන් තුළ OLS හට ප්‍රතිලාභ තිබිය හැකි බව පෙනේ; කෙසේ වෙතත්, ගෝරාඩ් සඳහන් කරන්නේ සැබෑ ලෝක තත්වයන් යටතේ (නිරීක්ෂණ අසම්පූර්ණ ලෙස මැනීම, ඒකාකාරී නොවන බෙදාහැරීම්, නියැදියකින් අනුමාන කිරීමකින් තොරව ජනගහනයක් පිළිබඳ අධ්‍යයනයන්), චතුරස්රයන් භාවිතා කිරීම වඩා නරක බව යම් එකඟතාවයක් ඇති බව (ඔහු ෆිෂර් එකඟ වූ බවයි) නිරපේක්ෂ වෙනස්කම්.

ඔබගේ ප්‍රශ්නයට ගෝරාඩ්ගේ ප්‍රතිචාරය "අපට ඒ වෙනුවට වෙනසෙහි නිරපේක්ෂ වටිනාකම ගෙන ඒවායින් අපේක්ෂිත වටිනාකම (මධ්‍යන්‍යය) ලබා ගත නොහැකිද?" ඔව්. තවත් වාසියක් නම්, වෙනස්කම් භාවිතා කිරීමෙන් අප ජීවිතයේ එම අදහස් අත්විඳින ආකාරය හා සම්බන්ධ මිනුම් (දෝෂ සහ විචලනයේ මිනුම්) නිපදවීමයි. ගෝරාඩ් පවසන්නේ අවන්හල් බිල්පත ඒකාකාරව බෙදූ අය සිතන අතර එම ක්‍රමය අසාධාරණ බව සමහරු සිතාමතාම දකිනු ඇත. එහි කිසිවෙකු වැරදි මඟහරවා නොගනී; වෙනස්කම් කාරණයයි.

අවසාන වශයෙන්, නිරපේක්ෂ වෙනස්කම් භාවිතා කරමින්, ඔහු එක් එක් නිරීක්‍ෂණයට එක හා සමානව සලකන අතර, වෙනස වර්ග කිරීම මගින් නිරීක්‍ෂණයන් හොඳින් පුරෝකථනය කරන ලද නිරීක්ෂණවලට වඩා දුර්වල ලෙස පුරෝකථනය කරයි, එය ඇතැම් නිරීක්ෂණ කිහිප වතාවක් අධ්‍යයනයට ඇතුළත් කිරීමට ඉඩ දීම වැනි ය. සාරාංශයක් ලෙස, ඔහුගේ සාමාන්‍ය තෙරපුම නම්, අද දින චතුරස්රයන් භාවිතා කිරීමට බොහෝ ජයග්රහණ හේතු නොමැති බවත්, ඊට වෙනස්ව නිරපේක්ෂ වෙනස්කම් භාවිතා කිරීමෙන් වාසි ඇති බවත් ය.

යොමුව:


1
ස්තූතියි en ජෙන්, මෙය මට QWERTY යතුරුපුවරු ඉතිහාසය මතක් කර දෙයි. හේයි, QWERTY ටයිප් කිරීමට මෙතරම් කාලයක් ගත වන්නේ කෙසේද?
toto_tico

5

නිරපේක්ෂ අගයන්ට වඩා පහසුවෙන් ගණිතමය ක්‍රියාකාරකම් හෝ කාර්යයන් භාවිතා කිරීමට චතුරස්රයන්ට ඉඩ දිය හැකි බැවිනි.

උදාහරණය: චතුරස්රයන් ඒකාබද්ධ කළ හැකිය, අවකලනය කළ හැකිය, ත්රිකෝණමිතික, ල ar ු ගණකය සහ වෙනත් කාර්යයන් සඳහා පහසුවෙන් භාවිතා කළ හැකිය.


2
මෙහි ස්වයං ඉටුවීමේ හැකියාවක් තිබේදැයි මම කල්පනා කරමි. අපට ලැබෙන්නේ
සම්භාවිතා විද්යාත්මක

5

සසම්භාවී විචල්යයන් එකතු කරන විට, ඒවායේ විචලනයන් සියලු බෙදාහැරීම් සඳහා එකතු වේ. විචලනය (සහ එබැවින් සම්මත අපගමනය) සෑම බෙදාහැරීමකටම පාහේ ප්‍රයෝජනවත් මිනුමක් වන අතර එය කිසිසේත් ගෝස්සියානු ("සාමාන්‍ය") බෙදාහැරීම් වලට සීමා නොවේ. එය අපගේ දෝෂ මිනුම ලෙස භාවිතා කිරීමට කැමැත්තක් දක්වයි. අද්විතීයභාවය නොමැතිකම නිරපේක්ෂ වෙනස්කම් සමඟ බරපතල ගැටළුවක් වන අතර බොහෝ විට අසීමිත සමාන මිනුම් “ගැලපීම්” ඇති අතර පැහැදිලිවම “මැද සිටින තැනැත්තා” වඩාත් යථාර්ථවාදීව අනුග්‍රහය දක්වයි. එසේම, වර්තමාන පරිගණක සමඟ වුවද, පරිගණක කාර්යක්ෂමතාව වැදගත් වේ. මම විශාල දත්ත කට්ටල සමඟ වැඩ කරන අතර CPU කාලය වැදගත් වේ. කෙසේ වෙතත්, පෙර පිළිතුරු වලින් පෙන්වා දී ඇති පරිදි, අවශේෂවල නිරපේක්ෂ “හොඳම” මිනුමක් නොමැත. විවිධ තත්වයන් සමහර විට විවිධ ක්‍රියාමාර්ග ඉල්ලා සිටී.


2
අසමමිතික බෙදාහැරීම් සඳහා විචල්‍යයන් ඉතා ප්‍රයෝජනවත් බව මම විශ්වාස නොකරමි.
ෆ්‍රෑන්ක් හැරල්

"අර්ධ විචල්‍යතා" යුගලයක් ගැන කුමක් කිව හැකිද?
kjetil b halvorsen

3

ස්වාභාවිකවම ඔබට ඕනෑම ආකාරයකින් අර්ථවත් ලෙස බෙදාහැරීමක් විසුරුවා හැරිය හැකිය (නිරපේක්ෂ අපගමනය, ප්‍රමාණ, ආදිය).

එක් හොඳ කරුණක් නම්, විචලනය දෙවන කේන්ද්‍රීය මොහොත වන අතර, සෑම බෙදාහැරීමක්ම පවතින්නේ නම් එහි අවස්ථාවන් අනුව අද්විතීය ලෙස විස්තර කෙරේ. තවත් හොඳ කරුණක් නම්, විචල්‍යතාව ගණිතමය වශයෙන් ඕනෑම සංසන්දනාත්මක මෙට්‍රික් එකකට වඩා බොහෝ සෙයින් පත්‍රිකා ගත හැකි වීමයි. තවත් කරුණක් නම්, විචල්‍යතාවය සාමාන්‍ය පරාමිතිකරණය සඳහා වන සාමාන්‍ය බෙදාහැරීමේ පරාමිති දෙකෙන් එකක් වන අතර සාමාන්‍ය බෙදාහැරීමෙහි ඇත්තේ ශුන්‍ය නොවන කේන්ද්‍රීය අවස්ථා 2 ක් පමණි. සාමාන්‍ය නොවන බෙදාහැරීම් සඳහා වුවද සාමාන්‍ය රාමුවක් තුළ සිතීම ප්‍රයෝජනවත් වේ.

මා දකින පරිදි, සම්මත අපගමනය පැවතීමට හේතුව යෙදුම්වල විචල්‍යයේ වර්ග මූල නිතිපතා දිස්වීමයි (අහඹු විචල්‍යතාවයක් ප්‍රමිතිකරණය කිරීම වැනි), ඒ සඳහා නමක් අවශ්‍ය විය.


1
මා නිවැරදිව සිහිපත් කළහොත්, ලොග්-සාමාන්‍ය බෙදාහැරීම එහි මොහොත අනුව අද්විතීය ලෙස අර්ථ දක්වා නොමැත.
probisislogic

1
ob ලදායිතා විද්‍යාව, ඇත්ත වශයෙන්ම එය සත්‍යයකි, "ලාක්ෂණික ක්‍රියාකාරිත්වය සහ මොහොත උත්පාදනය කරන ශ්‍රිතය" යන කොටසේ en.wikipedia.org/wiki/Log-normal_distribution බලන්න .
kjetil b halvorsen

2

සම්මත අපගමනයෙහි නිරපේක්ෂ අගය ගැනීම වෙනුවට වෙනස වර්ගීකරණය කරන්නේ ඇයි?

අපි x හි වෙනස මධ්යන්යයෙන් වර්ග කරමු, මන්ද යුක්ලීඩියානු දුර ප්රමාණයේ නිදහසේ අංශක වර්ග මූලයට සමානුපාතික වේ (x හි සංඛ්යාව, ජනගහන මිනුමක) විසුරුවා හැරීමේ හොඳම මිනුමයි.

එනම්, x හි ශුන්‍ය මධ්යන්ය ඇති විට :μ=0

σ=i=1n(xiμ)2n=i=1n(xi)2n=distancen

චතුරස්රවල එකතුවෙහි වර්ග මූලය යනු එක් එක් දත්ත ලක්ෂ්යයෙන් දැක්වෙන ඉහළ මානයන්හි අවකාශයේ මධ්යන්යයේ සිට ලක්ෂ්යයට ඇති බහුවිධ දුරයි.

දුර ගණනය කිරීම

ලක්ෂ්යයේ සිට 5 වන ස්ථානය දක්වා ඇති දුර කුමක්ද?

  • 50=5 ,
  • |05|=5 , සහ
  • 52=5

හරි, එය සුළු දෙයක් නිසා එය තනි මානයක්.

ලක්ෂ්‍යය (0, 0) සිට ලක්ෂ්‍යය (3, 4) දක්වා ඇති දුර කෙසේද?

අපට වරකට 1 මානයකින් පමණක් යා හැකි නම් (නගර කුට්ටි මෙන්) එවිට අපි සංඛ්‍යා එකතු කරමු. (මෙය සමහර විට මෑන්හැටන් දුර ලෙස හැඳින්වේ).

නමුත් එකවර මානයන් දෙකකින් ගමන් කිරීම ගැන කුමක් කිව හැකිද? ඉන්පසුව (අප සියල්ලන්ම උසස් පාසලේ ඉගෙන ගත් පයිතගරස් ප්‍රමේයයෙන්), අපි එක් එක් මානයන්හි දුර ප්‍රමාණය වර්ග කර, චතුරස්රයන් එකතු කර, පසුව මූලයේ සිට ලක්ෂ්‍යය දක්වා දුර සොයා ගැනීමට වර්ග මූලය ගනිමු.

32+42=25=5

දෘශ්‍යමය වශයෙන් (කේතය ජනනය කිරීම සඳහා පිළිතුරේ සලකුණු ප්‍රභවය බලන්න):

වර්ග 3 ක් සහ 4 වර්ග = 5 වර්ග පෙන්වන ප්‍රස්ථාරය

ඉහළ මානයන්ගෙන් දුර ගණනය කිරීම

දැන් අපි ත්‍රිමාන නඩුව සලකා බලමු, උදාහරණයක් ලෙස, ලක්ෂ්‍යය (0, 0, 0) සිට ලක්ෂ්‍යය (2, 2, 1) දක්වා ඇති දුර කෙසේද?

මෙය සාධාරණයි

22+222+12=22+22+12=9=3

පළමු x දෙක සඳහා ඇති දුර අවසාන x සමඟ මුළු දුර ගණනය කිරීම සඳහා කකුල සාදයි.

x12+x222+x32=x12+x22+x32

දෘශ්‍යමය වශයෙන් නිරූපණය කර ඇත:

ප්‍රස්ථාරය

එක් එක් මානයන්හි දුර වර්ග කිරීමේ නියමය අපට දිගින් දිගටම දීර් can කළ හැකිය, මෙය අපි යුක්ලීඩියානු දුරක් ලෙස හඳුන්වන දෙයට සාමාන්‍යකරණය කරයි, අධිමාන මාන අවකාශයේ විකලාංග මිනුම් සඳහා, එසේ ය:

distance=i=1nxi2

විකලාංග චතුරස්රවල එකතුව වර්ග දුර වේ:

distance2=i=1nxi2

විකලාංග (හෝ සෘජු කෝණවලින්) මැනීම තවත් කෙනෙකුට කරන්නේ කුමක්ද? කොන්දේසිය නම් මිනුම් දෙක අතර සම්බන්ධයක් නොමැති වීමයි. අප අපගේ මෙම මිනුම් බලන ස්වාධීන සහ තනි තනිව බෙදා , ( iid ).

විචලනය

දැන් ජනගහන විචලනය සඳහා වූ සූත්‍රය සිහිපත් කරන්න (එයින් අපට සම්මත අපගමනය ලැබෙනු ඇත):

σ2=i=1n(xiμ)2n

මධ්යන්යය අඩු කිරීමෙන් අපි දැනටමත් 0 හි දත්ත කේන්ද්රගත කර ඇත්නම්, අපට ඇත්තේ:

σ2=i=1n(xi)2n

එබැවින් විචලතාව යනු වර්ග ප්‍රමාණය හෝ (ඉහත බලන්න), නිදහසේ අංශක ගණනින් බෙදනු ලැබේ (විචල්‍යයන් වෙනස් වීමට ඉඩ ඇති මානයන් ගණන). මෙය මිනුම් සඳහා ක සාමාන්‍ය දායකත්වය ද වේ. “මධ්‍ය වර්ග විචල්‍යතාව” ද සුදුසු යෙදුමකි.distance2distance2

සම්මත අපගමනය

එවිට අපට සම්මත අපගමනය ඇත, එය විචල්‍යයේ වර්ග මූලය පමණි:

σ=i=1n(xiμ)2n

නිදහසේ අංශකවල වර්ග මූලයෙන් බෙදී ඇති දුර සමාන වේ .

σ=i=1n(xi)2n

මධ්යන්ය අපගමනය

මධ්යන්ය නිරපේක්ෂ අපගමනය (MAD) යනු මෑන්හැටන් දුර භාවිතා කරන විසරණයක මිනුමකි, නැතහොත් මධ්යන්යයේ වෙනස්කම් වල නිරපේක්ෂ අගයන්ගේ එකතුවකි.

MAD=i=1n|xiμ|n

නැවතත්, දත්ත කේන්ද්‍රගත වී ඇතැයි උපකල්පනය කිරීම (මධ්‍යන්‍යය අඩු කිරීම) අපට මෑන්හැටන් දුර ප්‍රමාණය මිනුම් ගණනින් බෙදනු ලැබේ:

MAD=i=1n|xi|n

සාකච්ඡා

  • සාමාන්‍යයෙන් බෙදා හරින ලද දත්ත කට්ටලයක් සඳහා සම්මත අපගමනයෙහි මධ්‍යන්‍ය නිරපේක්ෂ අපගමනය .8 ගුණයක් ( ඇත්ත වශයෙන්ම2/π ) පමණ වේ.
  • බෙදා හැරීම කුමක් වුවත්, මධ්‍යන්‍ය නිරපේක්ෂ අපගමනය සම්මත අපගමනයට වඩා අඩු හෝ සමාන වේ. සම්මත අපගමනයට සාපේක්ෂව ආන්තික අගයන් සහිත දත්ත කට්ටලයක් විසුරුවා හැරීම MAD අඩු කරයි.
  • මධ්යන්ය නිරපේක්ෂ අපගමනය පිටස්තරයින්ට වඩා ශක්තිමත් ය (එනම් පිටස්තරයින් සම්මත අපගමනය කෙරෙහි කරන ආකාරයටම සංඛ්යා ලේඛන කෙරෙහි විශාල බලපෑමක් ඇති නොකරයි.
  • ජ්‍යාමිතික වශයෙන් ගත් කල, මිනුම් එකිනෙකට විකලාංග නොවේ නම් (iid) - නිදසුනක් ලෙස, ඒවා ධනාත්මකව සහසම්බන්ධ වී ඇත්නම්, මධ්‍යන්‍ය නිරපේක්ෂ අපගමනය යුක්ලීඩියානු දුර මත රඳා පවතින සම්මත අපගමනයට වඩා හොඳ විස්තරාත්මක සංඛ්‍යාලේඛනයක් වනු ඇත (මෙය සාමාන්‍යයෙන් සිහින් යැයි සැලකේ) ).

මෙම වගුව ඉහත තොරතුරු වඩාත් සංක්ෂිප්ත ආකාරයකින් පිළිබිඹු කරයි:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

අදහස්:

“මධ්යන්ය නිරපේක්ෂ අපගමනය සාමාන්‍යයෙන් බෙදා හරින ලද දත්ත කට්ටලයක් සඳහා සම්මත අපගමනය මෙන් 8 ගුණයක් පමණ වේ” යන්න සඳහා ඔබට සඳහනක් තිබේද? මා ධාවනය කරන අනුකරණයන් මෙය වැරදි බව පෙන්වයි.

සම්මත සාමාන්‍ය බෙදාහැරීමෙන් සාම්පල මිලියනයක අනුකරණ 10 ක් මෙන්න:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

නිගමනය

විසුරුවා හැරීමේ මිනුමක් ගණනය කිරීමේදී වර්ග වෙනස්කම් වලට අපි වැඩි කැමැත්තක් දක්වන්නේ අපට යුක්ලීඩියානු දුර සූරාකෑමට හැකි නිසා විසරණය පිළිබඳ වඩා හොඳ විචාරාත්මක සංඛ්‍යාලේඛනයක් අපට ලබා දෙන බැවිනි. වඩා සාපේක්ෂව ආන්තික අගයන් ඇති විට, සංඛ්‍යාලේඛනවලට අනුව යුක්ලීඩියානු දුර ප්‍රමාණය ගණනය කරන අතර මෑන්හැටන් දුර සෑම මිනුමකටම සමාන බරක් ලබා දෙයි.


1

රේඛීය ප්‍රතිවර්තනයට එදිරිව මධ්‍ය ප්‍රතිගාමීත්වය ගැන සිතන විට වෙනස් හා සමහර විට වඩාත් බුද්ධිමත් ප්‍රවේශයකි.

අපගේ ආකෘතිය යැයි සිතමු . එවිට අපේක්ෂිත වර්ගවල අවශේෂ අවම කිරීමෙන් b සොයා ගනිමු, .arg = arg min b E ( y - x b ) 2E(y|x)=xββ=argminbE(yxb)2

ඒ වෙනුවට අපගේ ආකෘතිය මධ්යන්ය , නිරපේක්ෂ අවශේෂ අවම කිරීමෙන් අපගේ පරාමිති ඇස්තමේන්තු සොයා ගනී ,.arg = arg min b E | y - x b |(y|x)=xββ=argminbE|yxb|

වෙනත් වචන වලින් කිවහොත්, නිරපේක්ෂ හෝ වර්ග දෝෂයක් භාවිතා කරන්නේද යන්න රඳා පවතින්නේ ඔබට අපේක්ෂිත අගය හෝ මධ්‍ය අගය ආදර්ශනය කිරීමට අවශ්‍යද යන්න මතය.

බෙදා හැරීම නම්, උදාහරණයක් ලෙස, ප්රදර්ශනය ඇලව ලියූ heteroscedasticity, එසේ නම් අපේක්ෂිත අගය ආකාරය බෑවුම ලොකු වෙනසක් තිබෙනවා කට වෙනස්කම් බෑවුම සඳහා කළ හැකි ආකාරය මධ්යම තරමේ වටිනාකම .x yyxy

කොයින්කර් සහ හැලොක් සතුව ප්‍රමාණාත්මක ප්‍රතිගාමීත්වය පිළිබඳ හොඳ කෑල්ලක් ඇත, එහිදී මධ්‍ය ප්‍රතිගාමීත්වය විශේෂ අවස්ථාවකි: http://master272.com/finance/QR/QRJEP.pdf .


0

මගේ අනුමානය මෙයයි: බොහෝ ජනගහනය (බෙදාහැරීම්) මධ්‍යන්‍යය වටා එක්රැස් වීමට නැඹුරු වේ. Value ත දුරක් මධ්යන්යයෙන්, එය දුර්ලභ ය. වටිනාකමක් “සීමාවෙන් බැහැර” වන්නේ කෙසේද යන්න ප්‍රමාණවත් ලෙස ප්‍රකාශ කිරීම සඳහා, මධ්‍යන්‍යයෙන් ඇති දුර සහ එහි (සාමාන්‍යයෙන් කථා කරන) දුර්ලභත්වය යන දෙකම සැලකිල්ලට ගත යුතුය. කුඩා අපගමනයන් ඇති අගයන් හා සසඳන විට මධ්‍යන්‍යයෙන් වෙනස වර්ග කිරීම මෙය කරයි. සියලු විචල්‍යයන් සාමාන්‍ය වූ පසු, වර්ග මූලය ගැනීම හරි, එමඟින් ඒකක ඒවායේ මුල් මානයන් වෙත යවයි.


2
ඔබට වෙනසෙහි නිරපේක්ෂ වටිනාකම පමණක් ගත නොහැක්කේ මන්දැයි මෙය පැහැදිලි නොකරයි . එය බොහෝ සංඛ්‍යාලේඛන 101 ට සංකල්පමය වශයෙන් සරල බව පෙනේ, එය "මධ්‍යන්‍යයෙන් ඇති දුර සහ සාමාන්‍යයෙන් (සාමාන්‍යයෙන් කථා කරන) දුර්ලභත්වය යන දෙකම සැලකිල්ලට ගනී".
gung - මොනිකා නැවත

මා සිතන්නේ වෙනසෙහි නිරපේක්ෂ වටිනාකම මධ්‍යන්‍යයෙන් පමණක් වෙනස ප්‍රකාශ කරන අතර විශාල වෙනස්කම් සාමාන්‍ය බෙදාහැරීමකට දෙගුණයක් කඩාකප්පල් වන බව සැලකිල්ලට නොගනී.
සැමුවෙල් බෙරී

2
“දෙගුණයක් කඩාකප්පල් කිරීම” වැදගත් වන්නේ ඇයි සහ “ත්‍රිත්ව කඩාකප්පල්කාරී” හෝ “හතර ගුණයකින් කඩාකප්පල්කාරී” යැයි නොකියන්නේ ඇයි? මෙම පිළිතුර හුදෙක් මුල් ප්‍රශ්නය සමාන ප්‍රශ්නයක් මගින් ප්‍රතිස්ථාපනය කරන බවක් පෙනේ.
whuber

0

වර්ග කිරීම විශාල අපගමනයන් වැඩි කරයි.

ඔබේ නියැදිය ප්‍රස්ථාරයේ ඇති අගයන් තිබේ නම් 68.2% පළමු සම්මත අපගමනය තුළට ගෙන ඒමට ඔබේ සම්මත අපගමනය මඳක් පුළුල් විය යුතුය. ඔබේ දත්ත සියල්ල මධ්යන්යයට වැටේ නම් σ දැඩි විය හැකිය.

සමහරු පවසන්නේ එය ගණනය කිරීම් සරල කිරීම බවයි. චතුරස්රයේ ධනාත්මක වර්ග මූලය භාවිතා කිරීමෙන් එම තර්කය පාවී නොයනු ඇත.

|x|=x2

එබැවින් වීජීය සරල බව ඉලක්කය වූයේ නම් එය මේ ආකාරයෙන් පෙනෙනු ඇත:

σ=E[(xμ)2]E[|xμ|]

නිසැකවම මෙය වර්ග කිරීම බාහිර දෝෂ (දෝ!) විශාල කිරීමේ බලපෑමක් ඇති කරයි.


1
Lp

පළමු ඡේදය මගේ පසුබෑමට හේතුව විය.
ඇලෙක්සිස්

3
Rest ප්‍රෙස්ටන් තායින්: සම්මත අපගමනය අපේක්ෂිත වටිනාකම නොවන බැවින් sqrt((x-mu)^2), ඔබේ සූත්‍රය නොමඟ යවන සුළුය. ඊට අමතරව, වර්ග කිරීම විශාල අපගමනයන් විස්තාරණය කිරීමේ බලපෑමක් ඇති නිසා පමණක් MAD ට වඩා විචල්‍යතාවයට වැඩි කැමැත්තක් දැක්වීමට හේතුව මෙය නොවේ . ඕනෑම දෙයක් නම්, එය බොහෝ විට උදාසීන දේපලක් වන අතර අපට MAD වැනි වඩා ශක්තිමත් යමක් අවශ්‍ය වේ. අවසාන වශයෙන්, විචලනය MAD ට වඩා ගණිතමය වශයෙන් පත්‍රිකා ගත හැකි වීම ගණිතමය වශයෙන් වඩා ගැඹුරු කාරණයක් වන අතර එවිට ඔබ මෙම ලිපියෙන් ඉදිරිපත් කර ඇත.
ස්ටීව් එස්
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.