සම්මත අපගමනයෙහි නිරපේක්ෂ අගය ගැනීම වෙනුවට වෙනස වර්ගීකරණය කරන්නේ ඇයි?
අපි x හි වෙනස මධ්යන්යයෙන් වර්ග කරමු, මන්ද යුක්ලීඩියානු දුර ප්රමාණයේ නිදහසේ අංශක වර්ග මූලයට සමානුපාතික වේ (x හි සංඛ්යාව, ජනගහන මිනුමක) විසුරුවා හැරීමේ හොඳම මිනුමයි.
එනම්, x හි ශුන්ය මධ්යන්ය ඇති විට :μ=0
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷=∑i=1n(xi)2−−−−−−−√n−−√=distancen−−√
චතුරස්රවල එකතුවෙහි වර්ග මූලය යනු එක් එක් දත්ත ලක්ෂ්යයෙන් දැක්වෙන ඉහළ මානයන්හි අවකාශයේ මධ්යන්යයේ සිට ලක්ෂ්යයට ඇති බහුවිධ දුරයි.
දුර ගණනය කිරීම
ලක්ෂ්යයේ සිට 5 වන ස්ථානය දක්වා ඇති දුර කුමක්ද?
- 5−0=5 ,
- |0−5|=5 , සහ
- 52−−√=5
හරි, එය සුළු දෙයක් නිසා එය තනි මානයක්.
ලක්ෂ්යය (0, 0) සිට ලක්ෂ්යය (3, 4) දක්වා ඇති දුර කෙසේද?
අපට වරකට 1 මානයකින් පමණක් යා හැකි නම් (නගර කුට්ටි මෙන්) එවිට අපි සංඛ්යා එකතු කරමු. (මෙය සමහර විට මෑන්හැටන් දුර ලෙස හැඳින්වේ).
නමුත් එකවර මානයන් දෙකකින් ගමන් කිරීම ගැන කුමක් කිව හැකිද? ඉන්පසුව (අප සියල්ලන්ම උසස් පාසලේ ඉගෙන ගත් පයිතගරස් ප්රමේයයෙන්), අපි එක් එක් මානයන්හි දුර ප්රමාණය වර්ග කර, චතුරස්රයන් එකතු කර, පසුව මූලයේ සිට ලක්ෂ්යය දක්වා දුර සොයා ගැනීමට වර්ග මූලය ගනිමු.
32+42−−−−−−√=25−−√=5
දෘශ්යමය වශයෙන් (කේතය ජනනය කිරීම සඳහා පිළිතුරේ සලකුණු ප්රභවය බලන්න):
ඉහළ මානයන්ගෙන් දුර ගණනය කිරීම
දැන් අපි ත්රිමාන නඩුව සලකා බලමු, උදාහරණයක් ලෙස, ලක්ෂ්යය (0, 0, 0) සිට ලක්ෂ්යය (2, 2, 1) දක්වා ඇති දුර කෙසේද?
මෙය සාධාරණයි
22+22−−−−−−√2+12−−−−−−−−−−−−√=22+22+12−−−−−−−−−−√=9–√=3
පළමු x දෙක සඳහා ඇති දුර අවසාන x සමඟ මුළු දුර ගණනය කිරීම සඳහා කකුල සාදයි.
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
දෘශ්යමය වශයෙන් නිරූපණය කර ඇත:
එක් එක් මානයන්හි දුර වර්ග කිරීමේ නියමය අපට දිගින් දිගටම දීර් can කළ හැකිය, මෙය අපි යුක්ලීඩියානු දුරක් ලෙස හඳුන්වන දෙයට සාමාන්යකරණය කරයි, අධිමාන මාන අවකාශයේ විකලාංග මිනුම් සඳහා, එසේ ය:
distance=∑ni=1x2i−−−−−−−√
විකලාංග චතුරස්රවල එකතුව වර්ග දුර වේ:
distance2=∑i=1nx2i
විකලාංග (හෝ සෘජු කෝණවලින්) මැනීම තවත් කෙනෙකුට කරන්නේ කුමක්ද? කොන්දේසිය නම් මිනුම් දෙක අතර සම්බන්ධයක් නොමැති වීමයි. අප අපගේ මෙම මිනුම් බලන ස්වාධීන සහ තනි තනිව බෙදා , ( iid ).
විචලනය
දැන් ජනගහන විචලනය සඳහා වූ සූත්රය සිහිපත් කරන්න (එයින් අපට සම්මත අපගමනය ලැබෙනු ඇත):
σ2=∑i=1n(xi−μ)2n
මධ්යන්යය අඩු කිරීමෙන් අපි දැනටමත් 0 හි දත්ත කේන්ද්රගත කර ඇත්නම්, අපට ඇත්තේ:
σ2=∑i=1n(xi)2n
එබැවින් විචලතාව යනු වර්ග ප්රමාණය හෝ (ඉහත බලන්න), නිදහසේ අංශක ගණනින් බෙදනු ලැබේ (විචල්යයන් වෙනස් වීමට ඉඩ ඇති මානයන් ගණන). මෙය මිනුම් සඳහා ක සාමාන්ය දායකත්වය ද වේ. “මධ්ය වර්ග විචල්යතාව” ද සුදුසු යෙදුමකි.distance2distance2
සම්මත අපගමනය
එවිට අපට සම්මත අපගමනය ඇත, එය විචල්යයේ වර්ග මූලය පමණි:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
නිදහසේ අංශකවල වර්ග මූලයෙන් බෙදී ඇති දුර සමාන වේ .
σ=∑i=1n(xi)2−−−−−−−√n−−√
මධ්යන්ය අපගමනය
මධ්යන්ය නිරපේක්ෂ අපගමනය (MAD) යනු මෑන්හැටන් දුර භාවිතා කරන විසරණයක මිනුමකි, නැතහොත් මධ්යන්යයේ වෙනස්කම් වල නිරපේක්ෂ අගයන්ගේ එකතුවකි.
MAD=∑i=1n|xi−μ|n
නැවතත්, දත්ත කේන්ද්රගත වී ඇතැයි උපකල්පනය කිරීම (මධ්යන්යය අඩු කිරීම) අපට මෑන්හැටන් දුර ප්රමාණය මිනුම් ගණනින් බෙදනු ලැබේ:
MAD=∑i=1n|xi|n
සාකච්ඡා
- සාමාන්යයෙන් බෙදා හරින ලද දත්ත කට්ටලයක් සඳහා සම්මත අපගමනයෙහි මධ්යන්ය නිරපේක්ෂ අපගමනය .8 ගුණයක් ( ඇත්ත වශයෙන්ම2/π−−−√ ) පමණ වේ.
- බෙදා හැරීම කුමක් වුවත්, මධ්යන්ය නිරපේක්ෂ අපගමනය සම්මත අපගමනයට වඩා අඩු හෝ සමාන වේ. සම්මත අපගමනයට සාපේක්ෂව ආන්තික අගයන් සහිත දත්ත කට්ටලයක් විසුරුවා හැරීම MAD අඩු කරයි.
- මධ්යන්ය නිරපේක්ෂ අපගමනය පිටස්තරයින්ට වඩා ශක්තිමත් ය (එනම් පිටස්තරයින් සම්මත අපගමනය කෙරෙහි කරන ආකාරයටම සංඛ්යා ලේඛන කෙරෙහි විශාල බලපෑමක් ඇති නොකරයි.
- ජ්යාමිතික වශයෙන් ගත් කල, මිනුම් එකිනෙකට විකලාංග නොවේ නම් (iid) - නිදසුනක් ලෙස, ඒවා ධනාත්මකව සහසම්බන්ධ වී ඇත්නම්, මධ්යන්ය නිරපේක්ෂ අපගමනය යුක්ලීඩියානු දුර මත රඳා පවතින සම්මත අපගමනයට වඩා හොඳ විස්තරාත්මක සංඛ්යාලේඛනයක් වනු ඇත (මෙය සාමාන්යයෙන් සිහින් යැයි සැලකේ) ).
මෙම වගුව ඉහත තොරතුරු වඩාත් සංක්ෂිප්ත ආකාරයකින් පිළිබිඹු කරයි:
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
අදහස්:
“මධ්යන්ය නිරපේක්ෂ අපගමනය සාමාන්යයෙන් බෙදා හරින ලද දත්ත කට්ටලයක් සඳහා සම්මත අපගමනය මෙන් 8 ගුණයක් පමණ වේ” යන්න සඳහා ඔබට සඳහනක් තිබේද? මා ධාවනය කරන අනුකරණයන් මෙය වැරදි බව පෙන්වයි.
සම්මත සාමාන්ය බෙදාහැරීමෙන් සාම්පල මිලියනයක අනුකරණ 10 ක් මෙන්න:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
නිගමනය
විසුරුවා හැරීමේ මිනුමක් ගණනය කිරීමේදී වර්ග වෙනස්කම් වලට අපි වැඩි කැමැත්තක් දක්වන්නේ අපට යුක්ලීඩියානු දුර සූරාකෑමට හැකි නිසා විසරණය පිළිබඳ වඩා හොඳ විචාරාත්මක සංඛ්යාලේඛනයක් අපට ලබා දෙන බැවිනි. වඩා සාපේක්ෂව ආන්තික අගයන් ඇති විට, සංඛ්යාලේඛනවලට අනුව යුක්ලීඩියානු දුර ප්රමාණය ගණනය කරන අතර මෑන්හැටන් දුර සෑම මිනුමකටම සමාන බරක් ලබා දෙයි.