යුක්ලීඩියානු දුර ඉහළ මානයන්ගෙන් හොඳ මෙට්‍රික් නොවන්නේ ඇයි?


260

'යුක්ලීඩියානු දුර ඉහළ මානයන්ගෙන් හොඳ දුරක් නොවේ' යැයි මම කියෙව්වෙමි. මෙම ප්‍රකාශයට මානයන්හි ශාපය සමග යම් සම්බන්ධයක් ඇතැයි මම සිතමි, නමුත් හරියටම කුමක් ද? ඊට අමතරව, 'ඉහළ මානයන්' යනු කුමක්ද? විශේෂාංග 100 ක් සහිත යුක්ලීඩියානු දුර භාවිතා කරමින් මම ධූරාවලි පොකුරු යෙදීමි. මෙම මෙට්‍රික් එක භාවිතා කිරීම 'ආරක්‍ෂිත' කොපමණ විශේෂාංග දක්වාද?



5
මෙය ඔබට බොහෝ සෙයින් මූලික විය හැකිය; මම යුක්ලීඩියානු මෙට්‍රික් යන මාතෘකාව පිළිබඳ බ්ලොග් ලිපි මාලාවක් ඉහළ මානයන්ගෙන් ලියා ඇති අතර එය ආසන්නතම තරඟ සඳහා දෛශික අවකාශයන් සෙවීමට බලපාන්නේ කෙසේද. blogs.msdn.com/b/ericlippert/archive/tags/…
එරික් ලිපර්ට්

1
St හෝස්ට්ග්‍රැන්බුෂ් සමහර යොමු කිරීම් සඳහා පහත පිළිතුරු බලන්න. සාමාන්‍යයට සාපේක්ෂව දුර විචල්‍යතාව කුඩා වේ. එබැවින් යම් අවස්ථාවක දී, ඔබ එළිපත්ත, පඩි, ඇණවුම් තෝරා ගැනීමේදී කරදරයට පත්වේ; තවද ඔබට සංඛ්‍යාත්මක නිරවද්‍යතා ගැටළු ද ඇති විය හැකිය. නමුත් ඔබේ දත්ත විරල නම්, එය බොහෝ දුරට අභ්‍යන්තර මානයන්ගෙන් අඩු විය හැකිය .
QUIT ඇත - Anony-Mousse

3
“ඉහළ මානයන්” නොමඟ යවන වචනයක් ලෙස පෙනේ - සමහර පිළිතුරු 9-12 “ඉහළ මානයන්” ලෙස සලකයි, නමුත් වෙනත් ක්ෂේත්‍රවල ඉහළ මානයන් යන්නෙන් අදහස් වන්නේ දහස් ගණනක් හෝ මිලියනයක මානයන් ය (එනම්, වචනවල දෛශික අතර කෝණ මැනීම සෑම මානයක්ම ශබ්දකෝෂයක යම් වචනයක සංඛ්‍යාතය වේ), සහ මාන 100 ක් අඩු ලෙස හැඳින්වේ, ඉහළ නොවේ.
පීටර්ස්

2
මෙම ප්‍රශ්නය ඇත්ත වශයෙන්ම යම් සන්දර්භයක් සමඟ කළ හැකිය. කුමක් සඳහා හොඳ නැද්ද?
සාබොල්ක්ස්

Answers:


260

වොෂිංටන් විශ්ව විද්‍යාලයේ පේද්‍රෝ ඩොමින්ගෝස් විසින් රචිත “ යන්ත්‍ර ඉගෙනීම ගැන දැන ගැනීමට ප්‍රයෝජනවත් කරුණු කිහිපයක් ” වෙතින් ඉහළ මානයන්හි ප්‍රති u ල නොවන ප්‍රති results ල පිළිබඳ විශාල සාරාංශයක් ලැබේ.

[O] ත්‍රිමාන ලෝකයකින් එන ur ර් ප්‍රතිභාව බොහෝ විට ඉහළ මානයන්හි අදාළ නොවේ. ඉහළ මානයන්හි, බහුකාර්ය ගෝස්සියානු ව්‍යාප්තියක ස්කන්ධයෙන් වැඩි ප්‍රමාණයක් මධ්‍යන්‍යයට ආසන්න නොව, ඒ වටා වැඩි වැඩියෙන් “ත“ කවචයක ”ඇත; ඉහළ මානයන් සහිත තැඹිලි ගෙඩියක පරිමාව බොහෝමයක් ඇත්තේ සමේ මිස පල්ප් වල නොවේ. නිදර්ශන සංඛ්‍යාවක් අධි-මාන හයිපර්කියුබ් එකක ඒකාකාරව බෙදා හරිනු ලැබුවහොත්, සමහර මානයන්ගෙන් ඔබ්බට බොහෝ උදාහරණ ඔවුන්ගේ ළඟම අසල්වැසියාට වඩා හයිපර්කියුබ් මුහුණකට සමීප වේ. අපි හයිපර් ගෝලයක් හයිපර්කියුබ් එකක සටහන් කිරීමෙන් දළ වශයෙන් ගණනය කළහොත්, ඉහළ මානයන්හි දී හයිපර්කියුබ් හි පරිමාව සියල්ලම පාහේ හයිපර්ස්පියර් වලින් පිටත වේ. යන්ත්‍ර ඉගෙනීම සඳහා මෙය නරක ආරංචියක් වන අතර, එක් වර්ගයක හැඩයන් බොහෝ විට තවත් හැඩයකින් දළ වශයෙන් ගණනය කෙරේ.

යන්ත්‍ර ඉගෙනීම සඳහා අමතර මුතු මුතු වලින් ද ලිපිය පිරී ඇත.

යන්ත්‍ර ඉගෙනීමට එහා ගිය තවත් යෙදුමක් වන්නේ ආසන්නතම අසල්වැසි සෙවීමයි: උනන්දුව නිරීක්‍ෂණය කර එහි ආසන්නතම අසල්වැසියන් සොයා ගන්න (මේවා විමසුම් ස්ථානයෙන් කුඩාම දුර ඇති ලක්ෂ්‍යයන්ය යන අර්ථයෙන්). නමුත් ඉහළ මානයන්හිදී, කුතුහලය දනවන සංසිද්ධියක් පැන නගී: ආසන්නතම හා දුර points ත ලකුණු අතර අනුපාතය 1 ට ළඟා වේ, එනම් ලකුණු අත්‍යවශ්‍යයෙන්ම එකිනෙකාගෙන් ඒකාකාරව දුරස්ථ වේ. මෙම සංසිද්ධිය විවිධාකාර දුරස්ථ ප්‍රමිතික සඳහා නිරීක්ෂණය කළ හැකි නමුත් එය යුක්ලීඩියානු මෙට්‍රික් සඳහා, මැන්හැටන් දුර මෙට්‍රික් වලට වඩා කැපී පෙනේ. ළඟම ඇති අසල්වැසි සෙවීමේ මුලිකාංගය නම් “දුර” ලකුණු වලට වඩා “සමීප” ලකුණු වඩාත් අදාළ වන නමුත් සියලු ලක්ෂ්‍යයන් එකිනෙකට වඩා ඒකාකාරව දුරින් නම්, වෙනස අර්ථ විරහිත ය.

චාරු සී. අගර්වාල්, ඇලෙක්සැන්ඩර් හින්නබර්ග්, ඩැනියෙල් ඒ. කෙයිම්, " අධි මානයන්හි දුරස්ථ මිනුම්වල විශ්මය ජනක හැසිරීම පිළිබඳ ":

[කෙවින් බෙයර්, ජොනතන් ගෝල්ඩ්ස්ටයින්, ර gh ු රාමක්‍රිෂ්ණන්, ri රි ෂාෆ්ට්, “ ළඟම අසල්වැසියා කවදාද?” යන්නෙහි තර්ක කර ඇත. විවිධාකාර දත්ත බෙදාහැරීම් සහ දුර ශ්‍රිත සඳහා ඉහළ මානයන්හි දී ඇති ඉලක්කයකට 1 ක් පමණ වේ. එවැනි අවස්ථාවකදී, ආසන්නතම අසල්වැසි ගැටළුව වැරදි ලෙස අර්ථ දක්වා ඇත, මන්දයත් විවිධ දත්ත ලක්ෂ්‍යයන් අතර දුර අතර වෙනස නොපවතින බැවිනි. එවැනි අවස්ථාවන්හිදී, සමීපත්වය පිළිබඳ සංකල්පය පවා ගුණාත්මක දෘෂ්ටිකෝණයකින් අර්ථවත් නොවිය හැකිය: ඉහළ මානයන්හි ඇල්ගොරිතම වල ක්‍රියාකාරීත්වය පිරිහීමට වඩා මූලික ගැටළුවක්.

... බොහෝ ඉහළ මාන සුචිගත කිරීමේ ව්‍යුහයන් සහ ඇල්ගොරිතමයන් ද්විමාන හෝ ත්‍රිමාන අවකාශීය යෙදුම්වල සාම්ප්‍රදායික භාවිතයේ ස්වාභාවික දිගුවක් ලෙස [E] uclidean දුර මෙට්‍රික් භාවිතා කරයි. ... මෙම ලිපියෙන් අපි හි අගය මත සම්මතයේ යැපීම විශ්ලේෂණය කිරීමේදී විශ්මය ජනක න්‍යායාත්මක හා පර්යේෂණාත්මක . වඩාත් නිශ්චිතවම, විමසුම් ස්ථානයකට ඇති දුරෙහි සාපේක්ෂ වෙනස බොහෝ දුරට රඳා පවතින්නේ භාවිතා කරන මෙට්‍රික් මත ය . ඉහළ අගයන් සඳහා මානයන් වැඩි කිරීම තුළ සම්මතයේ අර්ථවත් බව වේගයෙන් නරක අතට හැරෙන බවට මෙය සැලකිය යුතු සාක්ෂි සපයයි . මේ අනුව, මානයන් සඳහා ස්ථාවර (ඉහළ) අගයක් සහිත දී ඇති ගැටලුවක් සඳහා k පෙළ k පෙළ k k k පෙළ 1 පෙළ 2LkkLkLkkd, අඩු අගයන් භාවිතා කිරීම වඩාත් සුදුසු විය හැකිය . මෙයින් අදහස් කරන්නේ දුර මෙට්‍රික් (මෑන්හැටන් දුර මෙට්‍රික්) ඉහළ මානයන් සඳහා වඩාත් සුදුසු වන අතර ඉන් පසුව යුක්ලීඩියානු මෙට්‍රික් ( ) වේ. ...kL1L2

"විශ්මය හැසිරීම" පුවත්පතේ කතුවරුන් පසුව සමඟ සම්මතයන් භාවිතා කිරීමට යෝජනා කරයි . මෙම "භාගික සම්මතයන්" මඟින් දුරස්ථ හා ආසන්නතම කරුණු අතර වෙනස වැඩි කිරීමේ ගුණාංග පෙන්නුම් කරන බව පෙන්නුම් කරන සමහර ප්‍රති results ල ඔවුන් ලබා දෙයි. සමහර සන්දර්භය තුළ මෙය ප්‍රයෝජනවත් විය හැකිය, කෙසේ වෙතත් අවවාදයක් ඇත: මෙම "භාගික සම්මතයන්" ත්රිකෝණ අසමානතාවය උල්ලං because නය කරන බැවින් නිසි දුර ප්රමිතික නොවේ. ත්රිකෝණාකාර අසමානතාවය ඔබේ පර්යේෂණයේ තිබිය යුතු වැදගත් ගුණාංගයක් නම්, භාගික ප්රමිතික විශාල වශයෙන් ප්රයෝජනවත් නොවේ. k < 1Lkk<1


7
මෙම සඳහන නියමයි
ඇන්ටොයින්

2
නැවත වරක් කියවීම ... ලස්සනයි ...
රිචඩ් හාඩි

1
EN GENIVI-LEARNER එය ඇසීමට හොඳ ප්‍රශ්නයක් සේ පෙනේ. මෙම පිළිතුර සන්දර්භය සඳහා අවශ්‍ය යැයි ඔබ සිතන්නේ නම්, ඔබට එයට සම්බන්ධ විය හැකිය.
සයිකොරාක්ස් පවසන්නේ මොනිකා

119

යුක්ලිඩ් විසින් අධ්‍යයනය කරන ලද ද්විමාන හා ත්‍රිමාන ලෝකවල හොඳින් ක්‍රියාත්මක වන යුක්ලීඩියානු දුර පිළිබඳ සංකල්පය අපගේ (සමහර විට මගේ ) ජ්‍යාමිතික බුද්ධියට පටහැනි ඉහළ මානයන්හි ගුණාංග කිහිපයක් ඇති අතර එය දෙක සහ තුනෙන් උපුටා ගැනීමකි මාන.

හි සිරස් සහිත වර්ගයක් සලකා බලන්න . කේන්ද්‍රගතව ඒකක අරය රවුම් හතරක් අඳින්න . මේවා චතුරස්රය "පුරවා" ඇති අතර, සෑම කවයක්ම හතරැස් දෙපස ස්පර්ශ වන අතර සෑම රවුමක්ම එහි අසල්වැසියන් දෙදෙනා ස්පර්ශ කරයි. උදාහරණයක් ලෙස, කේන්ද්‍රගත වූ කවය සහ දී චතුරස්රයේ දෙපැත්තට ස්පර්ශ වන අතර එහි අසල්වැසි කවයන් සහ ස්පර්ශ වේ. ඊළඟට, මූලාරම්භය කේන්ද්‍ර කර ගත් කුඩා කවයක් අඳින්න( ± 2 , ± 2 ) ( ± 1 , ± 1 ) ( 1 , 1 ) ( 2 , 1 ) ( 1 , 2 ) ( 1 , 0 ) ( 0 , 1 ) r 2 = 4×4(±2,±2)(±1,±1)(1,1)(2,1)(1,2)(1,0)(0,1)එය රවුම් හතරටම ස්පර්ශ වේ. දෝලනය වන කව දෙකක කේන්ද්‍රස්ථාන වන රේඛා ඛණ්ඩය දෝලනය වන ලක්ෂ්‍යය හරහා ගමන් කරන හෙයින්, කුඩා කවයට අරය ඇති බවත් එය ස්පර්ශ වන විට විශාල කව හතරක් ස්පර්ශ වන බවත් . කුඩා කවය විශාල කව හතරෙන් "සම්පූර්ණයෙන්ම වටවී" ඇති අතර එමඟින් චතුරස්රය තුළ සම්පූර්ණයෙන්ම පිහිටා ඇති බව සලකන්න. ලක්ෂ්‍යය කුඩා කවය මත පිහිටා ඇති බව සලකන්න . දෘෂ්ටි රේඛාව කේන්ද්‍රගතව ඇති කව දෙකේ ලක්ෂ්‍යය හරහා ගමන් කරන හෙයින්, චතුරස්රයේ මායිමේ ලක්ෂ්‍යය "නොපෙනෙන" බව හිදී(±r2/r2=21(r2,0)(2,0,0)(1,0,0)(1,1)(1,-1)(±r2/2,±r2/2)(r2,0)(2,0,0)(1,0,0)(1,1) සහ . චතුරස්රයේ දාර හරහා අක්ෂය ගමන් කරන අනෙක් ලක්ෂ්යයන්ට දෘෂ්ටි රේඛා සඳහා ඩිටෝ.(1,1)

ඊළඟට, හි සිරස් සහිත කියුබ් සලකා බලන්න . අපි එය කේන්ද්‍ර කර ගත් දෝලනය වන ඒකක-අරය ගෝලා පුරවා , පසුව මූලාරම්භය කේන්ද්‍ර කර ගත් කුඩා දෝලනය වන ගෝලයක් තබමු. කුඩා අරය අතර ලක්ෂ්‍යය කුඩා මතුපිට පිහිටා ඇති බව . ඒත් කවුරු ද මාන තුනක්, එක් කළ හැකි කාරණය "දකින්න" ( ± 2 , ± 2 , ± 2 ) 8 ( ± 1 , ± 1 , ± 1 ) r 3 = 4×4×4(±2,±2,±2)8(±1,±1,±1)(r3,0,0)(2,0,0)r3=31<1(r3,0,0)(2,0,0)ආරම්භයේ සිට; මානයන් දෙකකින් සිදුවන පරිදි දර්ශනය අවහිර කරන විශාල විශාල ගෝල නොමැත. මෙම පැහැදිලි දෘෂ්ටි රේඛා ආරම්භයේ සිට අක්ෂය the න පෘෂ් through ය හරහා ගමන් කරන ස්ථාන දක්වා විශාල මානයන්හි ද සිදු වේ.

Generalizing, අපි සලකා බැලිය හැකි පැත්තේ -dimensional hypercube හා සමග එය පුරවා osculating ඒකකය-අරය hyperspheres කේන්ද්ර සහ පසුව "කුඩා" ය ගෝලය the ආරම්භයේ දී. ලක්ෂ්‍යය මෙම "කුඩා" ගෝලය මත පිහිටා ඇත. නමුත්, සිට , සහ “කුඩා” ගෝලය ඒකක අරය ඇති බැවින් සඳහා “කුඩා” යන සූක්ෂමතාවයට සුදුසු නොවන බව සලකන්න.4 2 n ( ± 1 , ± 1 , ... , ± 1 ) r n = n42n(±1,±1,,±1)(rn,0,0,,0)(1)n=4rn=1n4n>9(1)rn>2(rn,0,0,,0)4

(1)rn=n1
(rn,0,0,,0)(1)n=4rn=1n4. ඇත්ත වශයෙන්ම, අපි එය "විශාල ගෝලය" හෝ "මධ්‍යම ගෝලය" ලෙස හැඳින්වුවහොත් වඩා හොඳය. අන්තිම ඡේදයේ සඳහන් කළ පරිදි, හයිපර්කියුබ් මතුපිට හරහා අක්ෂය ගමන් කරන ස්ථානයේ සිට ආරම්භයේ සිට ලක්ෂ්‍ය දක්වා පැහැදිලි රේඛාවක් තිබේ. වඩාත් නරක අතට තවමත් විට, , අප ඇති බව , හා ඒ නිසා අවස්ථාවක මධ්යම ගෝලයක් මත පැත්තේ hypercube පිටත බොරු එය වුවත් හයිපර්කියුබ් "පුරවන" (එය ඇසුරුම් කිරීමේ අර්ථයෙන්) ඒකක-අරය හයිපර්ස්පියර් වලින් "සම්පූර්ණයෙන්ම වට කර ඇත".n>9(1)rn>2(rn,0,0,,0)4 මධ්‍යම ගෝලය හයිපර්කියුබ් එකෙන් පිටත ඉහළ මානයන්හි “හිරි වැටෙයි”. මම මෙය ඉතා ප්‍රති-බුද්ධිමත් යැයි සලකන්නේ යුක්ලීඩියානු දුර ප්‍රමාණය ඉහළ මානයන් කරා යන මගේ මානසික පරිවර්තන, මා හුරුපුරුදු 2-අවකාශය සහ 3-අවකාශයේ සිට මා විසින් වර්ධනය කර ඇති ජ්‍යාමිතික බුද්ධිය භාවිතා කරමින් යථාර්ථය විස්තර නොකරන බැවිනි. අධි-මාන අවකාශය.

OP හි ප්‍රශ්නයට මගේ පිළිතුර "හැර, 'ඉහළ මානයන්' යනු කුමක්ද?" ය .n9



10
@ stackoverflowuser2010: මෙම පිළිතුර සම්පූර්ණයෙන්ම තේරුම්ගත නොහැකි නම්, එය මුල් ප්‍රශ්නය ආමන්ත්‍රණය කිරීමට හෝ උත්සාහ කිරීමට උත්සාහ කරන්නේ දැයි ඔබට කිව හැක්කේ කෙසේද? වඩාත් නිර්මාණාත්මක ප්‍රවේශයක් වනුයේ, සියල්ල අතපසු නොකිරීමට වඩා අපැහැදිලි යැයි පෙනෙන ඕනෑම කරුණක් පැහැදිලි කිරීම සඳහා ඉල්ලීමයි.
ස්කොර්චි - මොනිකා නැවත ස්ථාපනය කරන්න

8
answer stackoverflowuser2010 මෙම පිළිතුරට උඩු යටිකුරු දුසිම් ගණනක් ඇති හෙයින්, එය සාධාරණ ලෙස වටහා ගත හැකි යැයි බොහෝ දෙනෙකුට හැඟෙන අතර ප්‍රශ්නයට පිළිගත හැකි ආකාරයකින් ප්‍රතිචාර දක්වයි. සමහර විට ඔබට වඩාත් නිර්මාණාත්මක විවේචනයක් කිරීමට උත්සාහ කළ හැකිය - මෙම පිළිතුර වැඩිදියුණු වනු ඇතැයි ඔබ සිතන්නේ කෙසේද? එයට ඇතුළත් නොවන දේ ඇතුළත් විය යුත්තේ කුමක් ද?
ග්ලෙන්_බී -රයින්ස්ටේට් මොනිකා

1
C ස්කොට්චි: සමහර විට මම ඕනෑවට වඩා බලාපොරොත්තු වෙමි, නමුත් ප්‍රජාවට උපකාර කළ හැකි මෙම ප්‍රශ්නයට පැහැදිලි පිළිතුරක් වනු ඇත්තේ “යුක්ලීඩියානු දුර හොඳ මෙට්‍රික් නොවන නිසා <X>” වැනි ය.
stackoverflowuser2010

7
@ stackoverflow2010 ඔබට කවදාවත් එවැනි "හොඳ" පිළිතුරක් නොපෙනේ, මන්ද <දේවල් නම් ප්‍රකාශයන්ට වඩා සංකීර්ණ වේ. ඔබට පහසු පිළිතුරක් අවශ්‍ය නම් එය බොහෝ දුරට අසත්‍යයකි. නපුරු බ්‍රෙක්සිට් බොරුකාරයින් මෙන්, ඔවුන් පහසු පිළිතුරු (බොරු, නමුත් පහසු) ඉදිරිපත් කිරීමට දක්ෂ විය.
QUIT ඇත - Anony-Mousse

44

එය සං signal ා-ශබ්දය පිළිබඳ කාරණයකි . වර්ග පද නිසා යුක්ලීඩියානු දුර ප්‍රමාණය ශබ්දයට විශේෂයෙන් සංවේදී වේ; නමුත් මෑන්හැටන් දුර සහ "භාගික" (මෙට්‍රික් නොවන) දුර පවා දුක් විඳියි.

මෙම ලිපියේ අධ්‍යයනයන් ඉතා බුද්ධිමත් බව මට පෙනී ගියේය:

සිමෙක්, ඒ., ෂුබට්, ඊ. සහ ක්‍රිගෙල්, එච්.පී. (2012),
අධි-මාන සංඛ්‍යාත්මක දත්තවල අධීක්ෂණය නොකළ බාහිර හඳුනාගැනීම පිළිබඳ සමීක්ෂණයක්.
සංඛ්යානමය විශ්ලේෂණ දත්ත කැණීම, 5: 363-387. doi: 10.1002 / sam.11161

උදා: පැට් විසින් සඳහන් කරන ලද අගර්වාල්, හින්නබර්ග් සහ කෙයිම් විසින් අධි මාන මාන අවකාශයේ දුර මැනීමේ විශ්මය ජනක හැසිරීම පිළිබඳ එය නැවත සලකා බලයි. නමුත් කෘතිම අත්හදා බැලීම් නොමඟ යවන ආකාරය සහ ඇත්ත වශයෙන්ම ඉහළ මානයන්හි දත්ත පහසු විය හැකි බව ද එය පෙන්වයි . ඔබට විශාල (අතිරික්ත) සං signal ාවක් තිබේ නම්, සහ නව මානයන් කුඩා ශබ්දයක් එක් කරයි.

අනුපිටපත් මානයන් සලකා බැලීමේදී අවසාන හිමිකම් පෑම වඩාත් පැහැදිලිව පෙනේ. ඔබේ දත්ත කට්ටලය සිතියම්ගත කිරීම නියෝජිත මානයන් වැඩි කරයි, නමුත් කිසිසේත් යුක්ලීඩියානු දුර අසමත් නොවේ. (මෙයද බලන්න: සහජ මානයන් )x,yx,y,x,y,x,y,x,y,...,x,y

එබැවින් අවසානයේ එය තවමත් ඔබගේ දත්ත මත රඳා පවතී. ඔබට වැඩකට නැති ගුණාංග රාශියක් තිබේ නම්, යුක්ලීඩියානු දුර නිෂ් less ල වනු ඇත. ඔබට පහසුවෙන් ඔබේ දත්ත අඩු මාන දත්ත අවකාශයක් තුළට කාවැද්දිය හැකි නම්, යුක්ලීඩියානු දුර ද සම්පූර්ණ මාන අවකාශයේ වැඩ කළ යුතුය. විශේෂයෙන් පෙළෙන් ටීඑෆ් දෛශික වැනි විරල දත්ත සඳහා, දත්ත දෛශික අභ්‍යවකාශ ආකෘතිය යෝජනා කරන ප්‍රමාණයට වඩා බෙහෙවින් අඩු මානයන්ගෙන් යුක්ත බව පෙනේ.

සමහර අය විශ්වාස කරන්නේ ඉහළ මාන දත්ත මත කොක්සීන් දුර යුක්ලිඩියන්ට වඩා හොඳ බවයි. මම එසේ නොසිතමි: කොසයින් දුර සහ යුක්ලීඩියානු දුර සමීපව සම්බන්ධ වේ; ඒ නිසා ඔවුන් එකම ගැටලුවලින් පීඩා විඳිනු ඇතැයි අපි අපේක්ෂා කළ යුතුයි. කෙසේ වෙතත්, කොසයින් ජනප්‍රිය වන පෙළ දත්ත සාමාන්‍යයෙන් විරල වන අතර විරල දත්ත මත කොසයින් වේගවත් වේ - එබැවින් විරල දත්ත සඳහා කොසයින් භාවිතා කිරීමට හොඳ හේතු තිබේ; දත්ත විරල බැවින් අභ්‍යන්තර මානයන් දෛශික අවකාශයේ මානයට වඩා බෙහෙවින් අඩු ය.

කලින් ප්‍රශ්නයකට මා දුන් මෙම පිළිතුර ද බලන්න: https://stats.stackexchange.com/a/29647/7828


in හි අහඹු ලෙස ස්ථානගත කර ඇති ලක්ෂ්‍යවල සාමාන්‍ය කෝණය සෑම විටම විශාල සඳහා 90 to ට ආසන්න වේ (මෙහි බිම් කොටස් බලන්න ) එන්[1,1]nn
මාටින් තෝමා

එයින් නිගමනය කුමක් වනු ඇත්ද? [-1; 1] on d හි කොසයින් 0 හි අර්ථ දක්වා නොමැති නිසා එය භාවිතා නොකළ යුතුය, සාමාන්‍යයෙන් ශාපය ගැන අපට කිසිවක් නොකියයි, ඒකාකාර දත්ත යථාර්ථවාදී නොවේ.
QUIT ඇත - Anony-Mousse

මම මේ වන විට එය උත්සාහ කර නැත, නමුත් සැබෑ දත්ත සඳහා කෝණ සමාන බව මම අනුමාන කරමි. එය 0 හි අර්ථ දක්වා නොමැති වීම ඇත්ත වශයෙන්ම වැදගත් වන්නේ එය තනි ලක්ෂ්‍යයක් වන බැවිනි. මගේ නිගමනය ඔබට සමාන ය: කොසයින් දුර ඉහළ මානයන් සඳහා සුදුසු නොවේ (වසම් තිබිය හැකි නමුත් එය තවමත් ක්‍රියාත්මක වේ)
මාටින් තෝමා

වඩාත් යථාර්ථවාදී සිදුවීමක් වනුයේ non ණාත්මක නොවන ඒකක ගෝලය මත ලකුණු වේ. පොළිය මැනීම විචල්‍යතාවයක් මිස මධ්යන්ය නොවේ.
QUIT ඇත - Anony-Mousse

Negative ණ නොවන ඒකක ගෝලයට පිවිසීමට ඔබට කළ යුතුව ඇත්තේ +1 එකතු කර 2 න් බෙදීම පමණි ...
මාටින් තෝමා

35

ආරම්භ කිරීමට හොඳම ස්ථානය බොහෝ විට අග්ගර්වාල්, හින්නබර්ග් සහ කෙයිම් විසින් අධි මාන මාන අවකාශයේ දුර මැනීමේ විශ්මය ජනක හැසිරීම කියවීමයි . දැනට මෙහි වැඩ කරන සබැඳියක් ඇත (පීඩීඑෆ්) , නමුත් එය කැඩී ගියහොත් එය ගූගල් කිරීමට හැකි විය යුතුය. කෙටියෙන් කිවහොත්, මානයන් ගණන වැඩි වන විට, කට්ටලයක ලක්ෂ්‍යයක් සහ එහි ආසන්නතම අසල්වැසියා අතර සාපේක්ෂ යුක්ලීඩියානු දුර, සහ එම ලක්ෂ්‍යය සහ එහි අසල්වැසියා අතර ඇති දුර, පැහැදිලි නොවන ආකාර කිහිපයකින් වෙනස් වේ. මෙය ඔබගේ ප්‍රති results ල වලට අහිතකර ලෙස බලපායිද නැද්ද යන්න රඳා පවතින්නේ ඔබ සපුරා ගැනීමට උත්සාහ කරන දේ සහ ඔබේ දත්ත මොන වගේද යන්න මතය.


8

යන්ත්‍ර ඉගෙනීමේදී තෝරා ගැනීමට යුක්ලීඩියානු දුර ඉතා කලාතුරකින් හොඳ දුරක් වන අතර ඉහළ මානයන්ගෙන් මෙය වඩාත් පැහැදිලිව පෙනේ. මෙයට හේතුව යන්ත්‍ර ඉගෙනීමේ බොහෝ විට ඔබ කටයුතු කරන්නේ යුක්ලීඩියානු මෙට්‍රික් අවකාශයක් නොව සම්භාවිතා මෙට්‍රික් අවකාශයක් වන අතර එබැවින් ඔබ භාවිතා කළ යුත්තේ සම්භාවිතා සහ තොරතුරු න්‍යායාත්මක දුරස්ථ ක්‍රියාකාරකම්, උදා: එන්ට්‍රොපි පදනම් කරගත් ඒවා ය.

මිනිසුන් යුක්ලීඩියානු අවකාශයට කැමතියි එය සංකල්පනය කිරීම පහසු නිසා, ගණිතමය වශයෙන් පහසු වන්නේ රේඛීය ගුණාංග නිසා අපට රේඛීය වීජ ගණිතය යෙදිය හැකි බවයි. කුල්බැක්-ලීබ්ලර් අපසරනය අනුව අපි දුර අර්ථ දක්වන්නේ නම්, ගණිතමය වශයෙන් දෘශ්‍යමාන කිරීම හා වැඩ කිරීම දුෂ්කර ය.


2
KL අපසරනය මෙට්‍රික් නොවන බැවින් එය ගැටළු සහගත විය හැකිය. :-)
agarie

2
යමෙකුට සමමිතිය අවශ්‍ය නම්, ඔබට අන්‍යෝන්‍ය තොරතුරු භාවිතා කළ හැකිය, එය ඉඟි කර ඇති පරිදි, KL අනුව අර්ථ දැක්විය හැකිය.
samthebest

3

ප්‍රතිසමයක් ලෙස, මූලාරම්භය කේන්ද්‍ර කරගත් කවයක් සිතන්න. ලකුණු ඒකාකාරව බෙදා හරිනු ලැබේ. අහඹු ලෙස තෝරාගත් ලක්ෂ්‍යයක් (x1, x2) යැයි සිතමු. මූලාරම්භයේ සිට යුක්ලීඩියානු දුර ((x1) ^ 2 + (x2) ^ 2) ^ 0.5 වේ

දැන්, ගෝලයක් පුරා ලකුණු ඒකාකාරව බෙදා හරිනු ඇතැයි සිතන්න. එම ලක්ෂ්‍යයම (x1, x2) දැන් විය හැකිය (x1, x2, x3). ඒකාකාර බෙදාහැරීමක දී, ඛණ්ඩාංක වලින් එකක් ශුන්‍ය ලෙස ඇත්තේ ලකුණු කිහිපයක් පමණක් බැවින්, අහඹු ලෙස තෝරාගත් ඒකාකාරව බෙදා හරින ලද ලක්ෂ්‍යය සඳහා [x3! = 0] යැයි අපි උපකල්පනය කරමු. මේ අනුව, අපගේ අහඹු ලක්ෂ්‍යය බොහෝ දුරට (x1, x2, x3) මිස (x1, x2, 0) නොවේ.

මෙහි බලපෑම: ඕනෑම අහඹු ලක්ෂ්‍යයක් 3-D ගෝලයේ ආරම්භයේ සිට දැන් ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0.5 දුරින් පිහිටා ඇත. මෙම දුර 2-D කවයක ආරම්භයට ආසන්න අහඹු ලක්ෂ්‍යයකට වඩා විශාල වේ. ඉහළ මානයන්හි මෙම ගැටළුව වඩාත් නරක අතට හැරේ, ඒ නිසා අපි ඉහළ මානයන් සමඟ වැඩ කිරීම සඳහා යුක්ලීඩියානු මානයන් හැර වෙනත් ප්‍රමිතික තෝරා ගනිමු.

සංස්කරණය කරන්න: මට දැන් මතක් වන කියමනක් තිබේ: "ඉහළ මානයන් සහිත තැඹිලි ගෙඩියක ස්කන්ධය බොහෝමයක් ඇත්තේ සමේ මිස පල්ප් නොවේ", එයින් අදහස් කරන්නේ ඉහළ මානයන්හි ඒකාකාරව බෙදා හරින ලද ලකුණු "ආසන්නයේ" (යුක්ලීඩියානු දුර) මායිම බවයි. ආරම්භයට වඩා.

පැති සටහන: සැබෑ දත්ත සඳහා යුක්ලීඩියානු දුර ප්‍රමාණය එතරම් නරක නැත, මූලික වශයෙන් පවසන්නේ සැබෑ දත්ත සඳහා ඔබේ දත්ත ඉහළ මානයන්හි ඒකාකාරව බෙදා හැරීමට නොහැකි වනු ඇති බවයි. අවකාශයේ කුඩා පොකුරු උප කුලකයක් අල්ලා ගනු ඇත. මෙය බුද්ධිමත්ව අර්ථවත් කරයි: ඔබ උස, බර යනාදිය වැනි මිනිසුන් ගැන ප්‍රමාණ 100 ක් මනින්නේ නම්, මානයන් අවකාශය පුරා ඒකාකාරව බෙදා හැරීම අර්ථවත් නොවේ, උදා: (උස = අඟල් 65, බර = රාත්තල් 150, avg_calorie_intake) = 4000) එය සැබෑ ලෝකයේ කළ නොහැකි ය.


අනාගත පා readers කයින් "තැඹිලි / පල්ප්" උපුටා දැක්වීම හෝ "ඒකාකාරී නොවන ආශීර්වාදය" ප්‍රකාශය ගැන උනන්දුවක් දක්වන්නේ නම්, දෙකම "යන්ත්‍ර ඉගෙනීම ගැන ඉගෙන ගැනීමට ප්‍රයෝජනවත් කරුණු කිහිපයක්" තුළ දිස් වේ, එය මේ පිළිබඳ මගේ පිළිතුරට සම්බන්ධ වේ නූල්.
සයිකොරාක්ස් පවසන්නේ මොනිකා නැවත

1

මෙම ප්‍රශ්නයේ තවත් පැතිකඩක් මෙයයි:

(යන්ත්‍ර ඉගෙනීමේ / සංඛ්‍යානමය) ගැටළු වල බොහෝ විට ඉහළ මානයන් අධික ලෙස සීමා වූ අංගයන්ගේ ප්‍රති result ලයකි.

මානයන්හි අර්ථය ස්වාධීන නොවේ (හෝ සහසම්බන්ධ නොවේ), නමුත් යුක්ලීඩියානු ප්‍රමිතික (අවම වශයෙන්) සහසම්බන්ධය උපකල්පනය කරයි, එම නිසා හොඳම ප්‍රති results ල නොලැබේ

එබැවින් ඔබේ ප්‍රශ්නයට පිළිතුරු සැපයීම සඳහා “ඉහළ මානයන්” ගණන අන්තර්-අවපීඩන හෝ අතිරික්ත හෝ අධික ලෙස සීමා කර ඇති අංග ගණන හා සම්බන්ධ වේ

මීට අමතරව: Csiszar (et al.) විසින් කරන ලද ප්‍රමේයයක් නම්, යුක්ලීඩියානු ප්‍රමිතික ලක්ෂණ යම් ආකාරයකින් ඇති විට අනුමාන කිරීම සඳහා “ස්වාභාවික” අපේක්ෂකයින් වේ.


3
යුක්ලීඩියානු ප්‍රමිතික "උපකල්පනය නොකරයි ... සහසම්බන්ධය" නැත. යුක්ලීඩියානු දුරස්ථභාවය එකිනෙකට සම්බන්ධ නොවන විචල්‍යයන් සමඟ ඉහළ මානයන්හි වැඩ කරයි. ආන්තික අවස්ථාව සලකා බලන්න: ඔබට සියල්ලම මනාව සහසම්බන්ධිත බොහෝ මානයන් ඇත, r = 1, දැන් ඔබේ දත්ත ඇත්ත වශයෙන්ම ඒක මානීය වන අතර යුක්ලීඩියානු දුර හොඳින් w / ඒක මාන දත්ත ක්‍රියාත්මක වේ.
gung - මොනිකා නැවත

මම හිතන්නේ නැහැ, අර්ථ දැක්වීම අනුව යුක්ලීඩියානු දුර සහසම්බන්ධිත දත්ත උපකල්පනය කරයි (සහසම්බන්ධිත අනුකෘතිය සමඟ සාමාන්‍යකරණය කළ යුක්ලීඩියානු දුර භාවිතා කිරීම හැර)
නිකොස් එම්.

සම්පූර්ණ සහසම්බන්ධය සහිත ලක්ෂණ (r = 1) ඉතා සුළු උදාහරණයකි, එය “සුළු සහසම්බන්ධිත අනුකෘතියකට” සමාන වේ, නමුත් සමහර විට මම වැරදියි
නිකොස් එම්.

unggung ඔබට යුක්ලීඩියානු අලාභය ස්ථාවර ඒකක සමස්ථානික විචල්‍යතා අනුකෘතියක් සහිත ගවුසියානුවන්ගේ හරස් එන්ට්‍රොපි අලාභයක් ලෙස අර්ථ දැක්විය හැකිය. මම හිතන්නේ මෙය හොඳ කරුණක්, නමුත් එය වඩා හොඳින් පැහැදිලි කළ හැකිය.
නීල් ජී

1
(0,0)(1,1)dE=j(x2jx1j)22X1=X212cor(X1,X2)=02

0

මෙම ලිපිය ඔබටද උදව් වනු ඇත "වැඩි දියුණු කරන ලද වර්ග-කොසයින් සමානතා මිනුම්" වෙත පිවිසෙන්න https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 යුක්ලීඩියානු දුර ඉහළ මානයන්හි හොඳ මෙට්‍රික් නොවන්නේ මන්දැයි මෙම ලිපිය පැහැදිලි කරයි. දත්ත සහ ඉහළ මාන දත්තවල යුක්ලීඩියානු දුර සඳහා හොඳම ආදේශනය කුමක්ද. යුක්ලීඩියානු දුර L2 සම්මතයක් වන අතර Lk ප්‍රමිතියේ k හි අගය අඩු කිරීමෙන් අපට ඉහළ මාන දත්තවල දුරස්ථ ගැටළුව සමනය කළ හැකිය. ඔබට මෙම පත්‍රිකාවේ යොමු සටහන් ද සොයාගත හැකිය.


3
වෙබ් අඩවියට සාදරයෙන් පිළිගනිමු. උසස් තත්ත්වයේ සංඛ්‍යාන තොරතුරු වල ස්ථිර ගබඩාවක් ප්‍රශ්න හා පිළිතුරු වශයෙන් ගොඩනැගීමට අපි උත්සාහ කරමු. මේ අනුව, ලින්ක්රෝට් නිසා සම්බන්ධක පමණක් පිළිතුරු ගැන අපි සැලකිලිමත් වෙමු. එය මිය ගියහොත් ඔබට සම්පූර්ණ උපුටා දැක්වීමක් සහ තොරතුරු සාරාංශයක් සබැඳියේ පළ කළ හැකිද?
gung - මොනිකා නැවත
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.