K- මාධ්‍යයන්හි අඩුපාඩු තේරුම් ගන්නේ කෙසේද


383

K-means යනු පොකුරු විශ්ලේෂණයේ බහුලව භාවිතා වන ක්‍රමයකි. මගේ අවබෝධය අනුව, මෙම ක්‍රමයට කිසිදු උපකල්පනයක් අවශ්‍ය නොවේ, එනම්, මට දත්ත කට්ටලයක් සහ කලින් නියම කරන ලද පොකුරු සංඛ්‍යාවක් ලබා දෙන්න, k, සහ මම මෙම ඇල්ගොරිතම යොදන්නේ එය වර්ග දෝෂ වල එකතුව (SSE), පොකුරු වර්ග තුළ ය. දෝෂයකි.

එබැවින් k-means යනු අත්‍යවශ්‍යයෙන්ම ප්‍රශස්තිකරණ ගැටළුවකි.

K- මාධ්‍යයන්හි ඇති අඩුපාඩු පිළිබඳ කරුණු කිහිපයක් මම කියවා ඇත්තෙමි. ඔවුන්ගෙන් බොහෝ දෙනෙක් එසේ කියති:

  • k- යනු එක් එක් ගුණාංගයේ (විචල්‍යය) ව්‍යාප්තියේ විචලනය ගෝලාකාර යැයි උපකල්පනය කරයි;
  • සියලුම විචල්‍යයන්ට එකම විචල්‍යතාවයක් ඇත;
  • සියලුම k පොකුරු සඳහා පූර්ව සම්භාවිතාව සමාන වේ, එනම් සෑම පොකුරකටම දළ වශයෙන් සමාන නිරීක්ෂණ සංඛ්‍යාවක් ඇත;

මෙම උපකල්පන 3 න් එකක් උල්ලං are නය වී ඇත්නම්, k-means අසාර්ථක වනු ඇත.

මෙම ප්‍රකාශය පිටුපස ඇති තර්කනය මට තේරුම් ගත නොහැකි විය. මම හිතන්නේ k-means ක්‍රමය අත්‍යවශ්‍යයෙන්ම කිසිදු උපකල්පනයක් නොකරයි, එය SSE අවම කරයි, එබැවින් SSE අවම කිරීම සහ එම 3 උපකල්පන 3 අතර සම්බන්ධය මට නොපෙනේ.


50
පොකුරු ගණන දැනටමත් උපකල්පනයක් බව මම කියමි.
njzk2

31
K-මාධ්යයන්ගේ ප්රධාන උපකල්පනවලට: 1. එහි වේ k පොකුරු. 2. අවම කිරීම සඳහා SSE යනු නිවැරදි පරමාර්ථයයි . 3. සියලුම පොකුරු එකම SSE ඇත. 4. සෑම පොකුරු සඳහාම සියලු විචල්‍යයන්ට එකම වැදගත්කමක් ඇත. මේවා ඉතා ශක්තිමත් උපකල්පන ...
QUIT - Anony-Mousse

2
ඔබගේ දෙවන ප්‍රශ්නයට (පිළිතුර ලෙස පළ කර, පසුව මකාදමා ඇත): ඔබට රේඛීය ප්‍රතිගාමීත්වයට සමාන ප්‍රශස්තිකරණ ගැටළුවක් ලෙස k- මාධ්‍යයන් තේරුම් ගැනීමට අවශ්‍ය නම්, එය ප්‍රමාණකරණය ලෙස තේරුම් ගන්න . නිදර්ශන භාවිතා කරමින් දත්තවල අවම වර්ග දළ වශයෙන් සොයා ගැනීමට එය උත්සාහ කරයි . එනම් ඔබ සෑම ලක්ෂ්‍යයක්ම ආසන්නතම සෙන්ට්‍රොයිඩ් මගින් ප්‍රතිස්ථාපනය කළහොත් . k
QUIT ඇත - Anony-Mousse

2
Ony ඇනෝනි-මූස්, මම යම් ද්‍රව්‍යයක් කියවා පසුව පහත දැක්වෙන සිතුවිල්ල ඉදිරිපත් කළෙමි: යනු සංඛ්‍යානමය ආකෘතියක් ලෙස (ප්‍රශස්තිකරණ ක්‍රමයට වඩා) උපකල්පනය කරන්නේ k පොකුරු යටින් පවතින බවත් දත්ත විසුරුවා හැරීම තනිකරම සාමාන්‍ය නිසා බවත්ය සමාන විචල්‍යතාවයකින් යුත් අහඹු ශබ්දය. මෙය සරල රේඛීය ප්‍රතිගාමී ආකෘතියේ උපකල්පනයට සමානය. ගෝස්-මාකෝව් ප්‍රමේයයේ සමහර අනුවාදයකින් (මම විශ්වාස කරමි, මට කඩදාසියක් හමු නොවීය), k - මාධ්‍යයන් මඟින් අපගේ දත්ත සඳහා අප උපකල්පනය කළ යටින් පවතින k පොකුරු වල මධ්‍යන්‍යය පිළිබඳ ස්ථිර තක්සේරුවක් ලබා දෙනු ඇත. k-k-
කෙවින්කිම්

1
කේ-මාධ්යයන් ඉතා හොඳින් ක්රියා කරයි යැයි සිතිය හැකි දත්ත කට්ටලයක් පිළිබඳ මගේ පිළිතුරට පහතින් මම නිදර්ශනයක් එක් කළෙමි (සියලු හැඩයන් එකම හැඩයෙන්) නමුත් එය තවමත් දේශීය මිනිමා වල සිරවී ඇත; පුනරාවර්තන 1000 ක් පවා ප්‍රශස්ත ප්‍රති .ලය සොයා ගත්තේ නැත.
QUIT ඇත - Anony-Mousse

Answers:


291

මම ඩේවිඩ් රොබින්සන් ගේ පිළිතුරට මෙහි බොහෝ කැමති වුවත් , මෙන්න k-means පිළිබඳ අමතර විවේචන කිහිපයක්.

පොකුරු නොවන දත්ත පොකුරු කිරීම

ඒකාකාර දත්ත මත k-means ධාවනය කරන්න, එවිට ඔබට තවමත් පොකුරු ලැබෙනු ඇත! එය දත්ත පෙන්න විට ඔබට කියමි නැත නොවන පොකුරු, මේ ක්රමයෙන් ආවෘත අන්තයකට ඔබේ පර්යේෂණ ගත හැක.

ඒකාකාර දත්ත මත K-means

පරිමාණයට සංවේදී වේ

ඔබගේ දත්ත කට්ටල නැවත ලබා ගැනීමෙන් ප්‍රති .ල සම්පූර්ණයෙන්ම වෙනස් වේ. මෙය නරක නොවන අතර, ඔබේ දත්ත පරිමාණයට වැඩි අවධානයක් යොමු කළ යුතු බව නොදැන සිටීම නරක ය. පරිමාණ සාධක යනු k- යන්නෙහි අතිරේක සැඟවුණු පරාමිතීන් වන අතර එය "පෙරනිමිය" 1 දක්වා වන අතර එමඟින් පහසුවෙන් නොසලකා හරිනු ඇත, නමුත් විශාල බලපෑමක් ඇති කරයි (නමුත් ඇත්ත වශයෙන්ම මෙය වෙනත් බොහෝ ඇල්ගොරිතම සඳහාද අදාළ වේ)...

මෙය බොහෝ විට ඔබ හැඳින්වූයේ "සියලු විචල්‍යයන්ට එකම විචල්‍යතාවයක් ඇත" යනුවෙනි. එය ඉතා මැනවින් හැර, සුදුසු විට රේඛීය නොවන පරිමාණයන් ද ඔබ සලකා බලනු ඇත.

ඒකක විචල්‍යතාවයක් ඇති කිරීම සඳහා සෑම අක්ෂයක්ම පරිමාණය කිරීම හියුමස් එකක් පමණක් බව මතක තබා ගන්න . K- මාධ්‍යයන් ක්‍රියාත්මක වන බව මෙයින් සහතික නොවේ. පරිමාණය ඔබගේ දත්ත කට්ටලයේ අර්ථය මත රඳා පවතී. ඔබට එක් පොකුරු එකකට වඩා තිබේ නම්, සෑම පොකුරු (ස්වාධීනව) සෑම විචල්‍යයකම එකම විචල්‍යතාවයක් තිබිය යුතුය.

K- මාධ්‍යයට පොකුරු කළ නොහැකි දත්ත කට්ටලවල සම්භාව්‍ය ප්‍රති-නියැදිය මෙන්න . සෑම පොකුරු වර්ගයකම අක්ෂ දෙකම අයිඩ් වේ, එබැවින් මෙය 1 මානයකින් කිරීමට ප්‍රමාණවත් වේ. නමුත් පොකුරු වල විවිධ විචල්‍යයන් ඇති අතර k- මාධ්‍යයන් ඒවා වැරදි ලෙස බෙදී යයි.

K- මාධ්‍යයන්ට මෙම දත්ත කට්ටලය පොකුරු කළ නොහැක

K- මාධ්‍යයන් සඳහා වන මෙම ප්‍රති-නියැදිය ඔබේ ලකුණු වලින් ආවරණය වන බව මම නොසිතමි:

  • සියලුම පොකුරු ගෝලාකාර වේ (අයිඩ් ගවුසියානු).
  • සියලුම අක්ෂ වලට එකම ව්‍යාප්තියක් ඇති අතර එමඟින් විචලනය වේ.
  • පොකුරු දෙකෙහිම මූලද්‍රව්‍ය 500 බැගින් ඇත.

එහෙත්, k-means තවමත් නරක ලෙස අසමත් වේ (විශාල පොකුරු සඳහා විචලනය 0.5 ට වඩා වැඩි කළහොත් එය වඩාත් නරක අතට හැරේ) නමුත්: එය අසාර්ථක වූ ඇල්ගොරිතම නොවේ. එය උපකල්පන වේ. K-means පරිපූර්ණව ක්‍රියා කරයි, එය වැරදි නිර්ණායකයක් ප්‍රශස්ත කිරීම පමණි.

පරිපූර්ණ දත්ත කට්ටලවල වුවද, එය දේශීය අවමයක සිරවී සිටිය හැකිය

සම්භාව්‍ය A3 දත්ත කට්ටලය මත k-means ලකුණු 10 න් හොඳම දේ පහත දැක්වේ . මෙය කෘතිම දත්ත කට්ටලයක් වන අතර එය k-means සඳහා නිර්මාණය කර ඇත . පොකුරු 50 ක්, එක් එක් ගෝස්සියානු හැඩය, සාධාරණ ලෙස හොඳින් වෙන් කර ඇත. එහෙත්, එය අපේක්ෂිත ප්‍රති result ලය ලබා ගත්තේ k-means ++ සහ 100 පුනරාවර්තන සමඟ පමණි ... (නිදර්ශන සඳහා නිත්‍ය k- මාධ්‍යයන්හි පුනරාවර්තන 10 ක් පහත දැක්වේ).

k3 යනු A3 දත්ත කට්ටලය මත ය

නිවැරදි දත්ත ව්‍යුහය සොයා ගැනීමට k-means අසමත් වූ මෙම දත්ත කට්ටලය තුළ ඔබට බොහෝ පොකුරු ඉක්මනින් සොයාගත හැකිය. උදාහරණයක් ලෙස පහළ දකුණේ පොකුරක් කොටස් තුනකට කැඩී ගියේය. නමුත් ක්‍රමයක් නැත, k-means යනු මෙම සෙන්ට්‍රොයිඩ වලින් එකක් දත්ත කට්ටලයේ සම්පූර්ණයෙන්ම වෙනස් ස්ථානයකට ගෙන යාමයි - එය දේශීය අවමයකට කොටු වී ඇත (මෙය දැනටමත් ලකුණු 10 න් හොඳම වේ!)

එහි සිටින බොහෝ මෙම දත්ත කට්ටලයක් එවැනි දේශීය minima ය. බොහෝ විට ඔබ එකම පොකුරකින් සාම්පල දෙකක් ලබා ගත් විට, එය අවම වශයෙන් මෙම පොකුරු බෙදී ඇති තැනක සිරවී ඇති අතර ඒ වෙනුවට තවත් පොකුරු දෙකක් ඒකාබද්ධ වේ. සෑම විටම නොවේ, නමුත් බොහෝ විට. එබැවින් වාසනාවන්ත තේරීමක් කිරීමට ඔබට බොහෝ පුනරාවර්තන අවශ්‍ය වේ. K- මාධ්‍යයන්හි පුනරාවර්තන 100 ක් සමඟ, මම තවමත් දෝෂ 6 ක් ගණන් කර ඇති අතර, පුනරාවර්තන 1000 ක් සමඟ මෙය දෝෂ 4 ක් දක්වා අඩු කර ඇත. K-means ++ අහඹු සාම්පල කිරා බලන ආකාරය අනුව, මෙම දත්ත කට්ටලය මත වඩා හොඳින් ක්‍රියා කරයි.

ක්‍රම අඛණ්ඩව පවතී

ඔබට ද්විමය දත්ත (හෝ එක්-උණුසුම් කේතනය කරන ලද වර්ගීකරණ දත්ත) මත k-means ධාවනය කළ හැකි වුවද, ප්‍රති results ල තවදුරටත් ද්විමය නොවනු ඇත. එබැවින් ඔබට ප්‍රති result ලයක් ලැබෙනු ඇත, නමුත් අවසානයේ එය අර්ථ නිරූපණය කිරීමට ඔබට නොහැකි වනු ඇත, මන්ද එය ඔබගේ මුල් දත්ත වලට වඩා වෙනස් දත්ත වර්ගයක් ඇති බැවිනි.

සැඟවුණු උපකල්පනය: SSE අවම කිරීම වටී

මෙය ඉහත පිළිතුරේ අත්‍යවශ්‍යයෙන්ම දැනටමත් පවතින අතර රේඛීය ප්‍රතිගාමීතාවයෙන් මනාව නිරූපණය කෙරේ. K- මාධ්‍යයන් පරිපූර්ණ අර්ථයක් ඇති සමහර භාවිත අවස්ථා තිබේ. ලොයිඩ්ට පීසීඑම් සං als ා විකේතනය කිරීමට සිදු වූ විට, ඔහු විවිධ නාද ගණන දැන සිටි අතර අවම වශයෙන් වර්ග දෝෂය විකේතනය කිරීමේ දෝෂ අවම කරයි. රූපයේ වර්ණ ප්‍රමාණකරණයේදී, පලත් අඩු කිරීමේදී ඔබ වර්ණ දෝෂ අවම කරයි. නමුත් ඔබේ දත්ත අනුව, වර්ග අපගමනයන්ගේ එකතුව අවම කිරීම සඳහා අර්ථවත් නිර්ණායකයක්ද?

ඉහත ප්‍රතිවිරුද්ධ නියැදියේදී, විචලනය අවම කිරීම වටී නැත , මන්ද එය පොකුරු මත රඳා පවතී. ඒ වෙනුවට, පහත රූපයේ පරිදි ගෝස්සියානු මිශ්‍රණ ආකෘතියක් දත්ත වලට ගැලපේ:

ගවුසියානු මිශ්‍රණ ආකෘති නිර්මාණය

(නමුත්, මේ නෑ අවසාන ක්රමය එක්කෝ. එය පසුබිම් ශබ්දයක් ගොඩක් එකතු වන විට, උපකල්පන, උදා: "K Gaussian බෙදාහැරීම් මිශ්රණය" තෘප්තිමත් නොවන බව දත්ත ඉදි කිරීමට පමණක් පහසු ලෙස ය)

නරක ලෙස භාවිතා කිරීමට පහසුය

සියල්ලට ම, ඔබේ දත්ත මත k-means විසි කිරීම පහසු නැත, කෙසේ වෙතත් ප්‍රති result ලයක් ලබා ගන්න (එය අහඹු ලෙස පෙනේ, නමුත් ඔබ නොදකිනු ඇත). ඔබේ දත්ත ඔබ තේරුම් ගෙන නොමැතිනම් අසමත් විය හැකි ක්‍රමවේදයක් තිබීම වඩා හොඳ යැයි මම සිතමි ...

K- යනු ප්‍රමාණකරණය ලෙස ය

K- යනු කුමක්ද යන්න පිළිබඳ න්‍යායාත්මක ආකෘතියක් ඔබට අවශ්‍ය නම්, එය ප්‍රමාණකරණ ප්‍රවේශයක් ලෙස සලකන්න , පොකුරු ඇල්ගොරිතමයක් නොවේ.

K- මාධ්‍යයන්හි පරමාර්ථය - වර්ග දෝෂය අවම කිරීම - ඔබ සෑම වස්තුවක්ම එහි ආසන්නතම සෙන්ට්‍රොයිඩ් මගින් ප්‍රතිස්ථාපනය කරන්නේ නම් එය සාධාරණ තේරීමකි . (ඔබ කණ්ඩායම්වල මුල් දත්ත IMHO පරීක්ෂා කරන්නේ නම් එය බොහෝ සෙයින් අඩු තේරුමක් ඇති කරයි.)

k

මෙම ප්‍රමාණකරණය බොහෝ විට රේඛීය ප්‍රතිගාමී උදාහරණයට බෙහෙවින් සමාන ය. රේඛීය ප්‍රතිවර්තනය හොඳම රේඛීය ආකෘතිය සොයා ගනී . K-means බහුමාන දත්ත කට්ටලයක k අගයන්ට හොඳම අඩු කිරීම සොයා ගනී (සමහර විට) . "හොඳම" යනු අවම වර්ග දෝෂයකි.

IMHO, k-means යනු හොඳ ප්‍රමාණකරණ ඇල්ගොරිතමයකි (මෙම ලිපියේ පළමු රූපය බලන්න - ඔබට දත්ත දෙකකට ලකුණු කිරීමට ආසන්න වශයෙන් අවශ්‍ය නම්, මෙය සාධාරණ තේරීමකි!). ව්‍යුහය සොයා ගැනීමේදී මෙන් ඔබට පොකුරු විශ්ලේෂණයක් කිරීමට අවශ්‍ය නම් k-means යනු IMHO හොඳම තේරීම නොවේ. පොකුරු නොමැති විට එය පොකුරු කිරීමට නැඹුරු වන අතර, දත්තවල ඔබ බොහෝ දේ දකින විවිධ ව්‍යුහයන් එයට හඳුනාගත නොහැක.


සියුම් මුද්‍රණය: සියලුම රූප ජනනය කරන ලද්දේ ELKI සමඟ ය . දත්ත උත්පාදනය කරන ලද්දේ .xmlදත්ත උත්පාදනය කිරීමේ ආකෘතිය භාවිතා කරමිනි , නමුත් ඒවා ඉතා මූලික බැවින් ඒවා බෙදා ගැනීම වටී නැත.


17
. ඇත්ත වශයෙන්ම ඉහත එකයි!)
රිදී මාළු

2
Ony ඇනෝනි-මූස් මෙම පිළිතුර ඇත්තෙන්ම නියමයි. නමුත් මේ වන තෙක්, මම සාමාන්‍යයෙන් අදහස් කරන්නේ "k-means සමහර තත්වයන් යටතේ ක්‍රියා කරනු ඇති අතර වෙනත් කොන්දේසි යටතේ අසාර්ථක වනු ඇත" යනුවෙන් පැවසීමෙන් මම අමතක කරමි. මෙම සන්දර්භය තුළ "වැඩ" හෝ "අසමත්" යන වචනයේ තේරුම කුමක්ද? “වැඩ” යන්නෙන් අදහස් කරන්නේ k- මාධ්‍යයන් මඟින් ජනනය කරන විසඳුම දෘශ්‍යමය වශයෙන් 'සාධාරණ' ලෙස පෙනෙනු ඇත්ද? මෙය එක්තරා ආකාරයක අපැහැදිලි ය. නැතහොත් 'වැඩ' යන්නෙන් අදහස් කරන්නේ k- මාධ්‍යයන් 'සම්මත විසඳුම' හා සමාන විසඳුමක් ලබා දෙන්නේ නම්, එනම්, අපි දත්ත කට්ටලයක් පූර්ව උත්පාදනය කර k-means භාවිතා කරමු. මෙම සන්දර්භය තුළ 'වැඩ' කිරීම අර්ථවත් කරයි, නමුත් යථාර්ථයේ දී, දත්ත සමහර බෙදාහැරීම් මඟින් පූර්ව උත්පාදනය නොවේ.
කෙවින්කිම්

සාමාන්‍යයෙන් මිනිසුන් යම් සත්‍ය සත්‍යයක්, එනම් දත්ත ජනනය කළ ආකාරය හෝ ඇල්ගොරිතමයෙන් සැඟවී ඇති ලේබලයක් වෙත යොමු වේ. උත්පාදනය කරන ලද දත්ත සමඟ සංසන්දනය කිරීමෙන් පරම්පරාව සඳහා භාවිතා කරන ලද ආකෘතිය ප්‍රශස්තිකරණය කරන ඇල්ගොරිතම වලට වැඩි කැමැත්තක් දක්වනු ඇත (උදා: ජීඑම්එම් සහ ගවුසියානුවන් සඳහා කේ-මාධ්‍ය). සැබෑ හා ලේබල් කරන ලද දත්තවල පවා මෙම ඇගයීම දන්නා ප්‍රති .ලයක් ප්‍රතිනිෂ්පාදනය කිරීමයි . ගවේෂණාත්මක / දැනුම සොයා ගැනීමේ අංගය සලකා බලන විට, ඔබට අලුත් දෙයක් ඉගෙන ගැනීමට අවශ්‍යය . නමුත් අපට ලැබී ඇත්තේ එපමණයි.
QUIT ඇත - Anony-Mousse

k

MTMOTTM මෙය පූර්ව දැනුමෙන් තෝරාගත් k සමඟ වේ. හොඳම ලකුණු 10 න් සියල්ලම "නිවැරදි" කේ සමඟ ප්‍රියෝරියක් තෝරාගෙන ඇත.
QUIT ඇත - Anony-Mousse

465

මොනතරම් වැදගත් ප්‍රශ්නයක්ද - ඕනෑම සංඛ්‍යානමය ක්‍රමයක ඇති අඩුපාඩු හා උපකල්පන යමෙකු පරීක්ෂා කරන්නේ කෙසේද යන්න පෙන්වීමට මෙය අවස්ථාවකි. එනම්: දත්ත කිහිපයක් සාදා එය මත ඇල්ගොරිතම උත්සාහ කරන්න!

ඔබගේ උපකල්පන දෙකක් අපි සලකා බලමු, එම උපකල්පන බිඳී ගිය විට k-mean ඇල්ගොරිතමයට කුමක් සිදුවේදැයි අපි බලමු. දෘශ්‍යමාන කිරීම පහසු බැවින් අපි ද්විමාන දත්ත වලට ඇලී සිටිමු. ( මානයන්හි ශාපයට ස්තූතිවන්ත වන්නට , අතිරේක මානයන් එකතු කිරීමෙන් මෙම ගැටලු වඩාත් දරුණු වනු ඇත, අඩු නොවේ). අපි සංඛ්‍යාන ක්‍රමලේඛන භාෂාව R සමඟ වැඩ කරන්නෙමු: ඔබට මෙහි සම්පූර්ණ කේතය සොයාගත හැකිය (සහ බ්ලොග් පෝස්ට් එකේ ලිපිය මෙහි ).

හරවා යැවීම: ඇන්ස්කොම්බ්ගේ ක්වාර්ටෙට්

පළමුව, ප්‍රතිසමයක්. යමෙක් පහත සඳහන් දේ ගැන සිතන්න:

රේඛීය ප්‍රතිගාමිත්වයේ අඩුපාඩු ගැන මම යම් තොරතුරු කියවා ඇත්තෙමි- එය රේඛීය ප්‍රවණතාවක් අපේක්ෂා කරන බවත්, අවශේෂ සාමාන්‍යයෙන් බෙදා හරින බවත්, පිටස්තරයින් නොමැති බවත්. නමුත් සියලු රේඛීය ප්‍රතිගාමීතාවයන් සිදු කරනුයේ පුරෝකථනය කරන ලද රේඛාවෙන් වර්ග දෝෂ (SSE) අවම කිරීමයි. වක්‍රයේ හැඩය හෝ අවශේෂ බෙදා හැරීම කුමක් වුවත් විසඳිය හැකි ප්‍රශස්තිකරණ ගැටළුවකි. මේ අනුව, රේඛීය ප්‍රතිගාමීතාවයට වැඩ කිරීමට උපකල්පන අවශ්‍ය නොවේ.

හොඳයි, ඔව්, රේඛීය ප්‍රතිවර්තනය ක්‍රියා කරන්නේ වර්ගවල අවශේෂ එකතුව අවම කිරීමෙනි. නමුත් එය තනිවම ප්‍රතිගාමීත්වයේ අරමුණ නොවේ: අප උත්සාහ කරන්නේ x මත පදනම් වූ y පිළිබඳ විශ්වාසදායක, අපක්ෂපාතී පුරෝකථනයක් ලෙස සේවය කරන රේඛාවක් අඳින්න . මෙම Gauss-Markov ප්රමේයය මෙම SSE අවම බව goal- ඉටු නමුත් සමහර ඉතා නිශ්චිත උපකල්පන මත ප්රමේයය වීමත්, ඒ බව සඳහන් කරනවා. එම උපකල්පන බිඳී ඇත්නම්, ඔබට තවමත් SSE අවම කළ හැකිය, නමුත් එය කිසිවක් නොවනු ඇත. සිතන්න, "ඔබ මෝටර් රථයක් පදවන්නේ පෙඩලය තල්ලු කිරීමෙනි: රිය පැදවීම අත්‍යවශ්‍යයෙන්ම 'පෙඩල් තල්ලු කිරීමේ ක්‍රියාවලියකි.' ටැංකියේ කොතරම් ගෑස් තිබුණත් පැඩලය තල්ලු කළ හැකිය. එබැවින් ටැංකිය හිස් වුවද ඔබට තවමත් පැඩලය තල්ලු කර මෝටර් රථය ධාවනය කළ හැකිය. කරන්න

නමුත් කතාව ලාභයි. සීතල, දෘඩ, දත්ත දෙස බලමු. හෝ ඇත්ත වශයෙන්ම, සාදන ලද දත්ත.

රූප විස්තරය මෙහි ඇතුළත් කරන්න

ආර්2

එක් "රේඛීය අවගමනය තවමත් ඇත කියන්න පුළුවන් වැඩ එය වීමද භෝග වල කොටු මුදලක් අවම කරන නිසා, එම අවස්ථා වලදී." නමුත් එය කෙතරම් පිරිත් ජයග්‍රහණයක්ද ! රේඛීය ප්‍රතිගාමිත්වය සැමවිටම රේඛාවක් අඳිනු ඇත, නමුත් එය අර්ථ විරහිත රේඛාවක් නම්, ඒ ගැන සැලකිලිමත් වන්නේ කවුද?

ඉතින් දැන් අපට පෙනෙන්නේ ප්‍රශස්තිකරණයක් කළ හැකි පමණින් අප අපගේ ඉලක්කය සපුරා ඇති බවක් නොවේ. දත්ත සැකසීම සහ එය දෘශ්‍යමාන කිරීම ආකෘතියක උපකල්පන පරීක්ෂා කිරීමට හොඳ ක්‍රමයක් බව අපට පෙනේ. එම බුද්ධියට සම්බන්ධ වන්න, අපට එය විනාඩියකින් අවශ්‍ය වනු ඇත.

බිඳුණු උපකල්පනය: ගෝලාකාර නොවන දත්ත

කේ-මධ්යන්ය ඇල්ගොරිතම ගෝලාකාර නොවන පොකුරු මත හොඳින් ක්රියා කරනු ඇතැයි ඔබ තර්ක කරයි. ගෝලාකාර නොවන පොකුරු වැනි ... මේවා?

රූප විස්තරය මෙහි ඇතුළත් කරන්න

සමහර විට මෙය ඔබ අපේක්ෂා කළ දෙය නොවේ- නමුත් එය පොකුරු තැනීම සඳහා ඉතා සාධාරණ ක්‍රමයකි. මෙම රූපය දෙස බලන විට, මිනිසුන් වන අපි වහාම ලක්ෂ්‍ය කණ්ඩායම් දෙකක් හඳුනා ගනිමු- ඒවා වරදවා වටහා ගැනීමක් නැත. එබැවින් k-means කරන්නේ කෙසේදැයි බලමු: පැවරුම් වර්ණයෙන් ද, ගණනය කළ මධ්‍යස්ථාන X ලෙස ද පෙන්වනු ලැබේ.

රූප විස්තරය මෙහි ඇතුළත් කරන්න

හොඳයි, අයිතිය නැත. කේ-මාධ්‍යයන් වටකුරු සිදුරක හතරැස් කොටුවක් සවි කිරීමට උත්සාහ කරමින් සිටියේය - ඒවා වටා පිළිවෙලට ගෝල සහිත ලස්සන මධ්‍යස්ථාන සොයා ගැනීමට උත්සාහ කළ අතර එය අසාර්ථක විය. ඔව්, එය තවමත් පොකුරු තුළ ඇති වර්ග ප්‍රමාණය අවම කරයි- නමුත් ඉහත ඇන්ස්කොම්බ්ගේ ක්වාර්ටෙට් හි මෙන්, එය පිරික් ජයග්‍රහණයක්!

ඔබට කිව හැකිය "එය සාධාරණ උදාහරණයක් නොවේ ... කිසිදු පොකුරු ක්‍රමයකට එම අමුතු පොකුරු නිවැරදිව සොයාගත නොහැකි විය." ඇත්ත නොවේ! තනි සම්බන්ධතා ධූරාවලි පොකුරුකරණය උත්සාහ කරන්න :

රූප විස්තරය මෙහි ඇතුළත් කරන්න

එය අල්ලා ගත්තා! මෙයට හේතුව තනි සම්බන්ධක ධූරාවලි පොකුරු කිරීම මෙම දත්ත කට්ටලය සඳහා නිවැරදි උපකල්පන සිදු කිරීමයි. ( එය අසමත් වන වෙනත් සමස්ත පන්ති තත්වයක් ඇත).

"එය තනි, අන්ත, ව්යාධිජනක නඩුවක්" යැයි ඔබට පැවසිය හැකිය. නමුත් එය එසේ නොවේ! නිදසුනක් ලෙස, ඔබට පිටත කණ්ඩායම රවුමක් වෙනුවට අර්ධ කවයක් බවට පත් කළ හැකි අතර, k-means තවමත් භයානක ලෙස ක්‍රියා කරන බව ඔබට පෙනෙනු ඇත (සහ ධූරාවලි පොකුරු කිරීම තවමත් හොඳින් සිදු වේ). මට වෙනත් ගැටළු සහගත තත්වයන් සමඟ පහසුවෙන් පැමිණිය හැකිය, එය මානයන් දෙකකින් පමණි. ඔබ 16-මාන දත්ත පොකුරු කරන විට, පැන නැගිය හැකි සියලු ආකාරයේ ව්‍යාධි ඇත.

අවසාන වශයෙන්, k-means තවමත් ගැලවිය නොහැකි බව මම සටහන් කළ යුතුය! ඔබගේ දත්ත ධ්‍රැවීය ඛණ්ඩාංක බවට පරිවර්තනය කිරීමෙන් ඔබ ආරම්භ කරන්නේ නම් , පොකුරුකරණය දැන් ක්‍රියාත්මක වේ:

රූප විස්තරය මෙහි ඇතුළත් කරන්න

ක්‍රමවේදයකට යටින් ඇති උපකල්පන අවබෝධ කර ගැනීම අත්‍යවශ්‍ය වන්නේ එබැවිනි: ක්‍රමයකට අඩුපාඩු ඇති විට එය ඔබට නොකියයි, ඒවා නිවැරදි කරන්නේ කෙසේදැයි එය ඔබට කියයි.

බිඳුණු උපකල්පනය: අසමාන ප්‍රමාණයේ පොකුරු

පොකුරු අසමාන සංඛ්‍යාවක් තිබේ නම් කුමක් කළ යුතුද- එයද කේ-මාධ්‍ය පොකුරු බිඳ දමන්නේද? හොඳයි, 20, 100, 500 ප්‍රමාණයේ මෙම පොකුරු සමූහය සලකා බලන්න. මම සෑම එකක්ම බහුකාර්ය ගවුසියානු භාෂාවෙන් උත්පාදනය කළෙමි:

රූප විස්තරය මෙහි ඇතුළත් කරන්න

මෙය පෙනෙන්නේ k-means මඟින් බොහෝ විට එම පොකුරු සොයා ගත හැකි බවයි, නේද? සෑම දෙයක්ම පිළිවෙලට හා පිළිවෙලට ඇති කණ්ඩායම් බවට ජනනය වන බව පෙනේ. එබැවින් k-means උත්සාහ කරමු:

රූප විස්තරය මෙහි ඇතුළත් කරන්න

ඕච්. මෙහි සිදුවූ දෙය ටිකක් සියුම් ය. පොකුරු තුළ ඇති චතුරස්රයන් අවම කිරීම සඳහා වන ගවේෂණයේ දී, k- මධ්යන්ය ඇල්ගොරිතම විශාල පොකුරු වලට වැඩි "බරක්" ලබා දෙයි. ප්රායෝගිකව, එයින් අදහස් වන්නේ එම කුඩා පොකුරු ඕනෑම මධ්යස්ථානයකින් far ත්වීමට ඉඩ දීම සතුටට කරුණක් වන අතර, එම මධ්යස්ථාන වඩා විශාල පොකුරක් "බෙදීමට" භාවිතා කරන බවයි.

ඔබ මෙම උදාහරණ සමඟ මඳක් සෙල්ලම් කරන්නේ නම් ( මෙහි R කේතය! ), ඔබට k-means මගින් අපහසුතාවයට පත්වන පරිදි තවත් බොහෝ අවස්ථා තැනිය හැකි බව ඔබට පෙනෙනු ඇත.

නිගමනය: නොමිලේ දිවා ආහාරය නැත

වොල්පර්ට් සහ මැක්‍රෙඩි විසින් විධිමත් කරන ලද ගණිතමය ජනප්‍රවාදවල ආකර්ශනීය ඉදිකිරීමක් ඇත , එය “නිදහස් දිවා ආහාර ප්‍රමේයයක් නැත”. යන්ත්‍ර ඉගෙනීමේ දර්ශනයේ එය මගේ ප්‍රියතම ප්‍රමේයය විය හැකි අතර, එය ගෙන ඒමට ඕනෑම අවස්ථාවක් මම ප්‍රිය කරමි (මම මෙම ප්‍රශ්නයට ඇලුම් කරන බව සඳහන් කළාද?) මූලික අදහස මෙසේ ප්‍රකාශ කර ඇත (දැඩි ලෙස නොවේ): “හැකි සෑම අවස්ථාවකම සාමාන්‍යය වූ විට, සෑම ඇල්ගොරිතමයක්ම එක හා සමානව ක්‍රියා කරයි.

හොඳ ප්‍රතිවිරුද්ධද? ඇල්ගොරිතමයක් ක්‍රියාත්මක වන සෑම අවස්ථාවකම, එය දරුණු ලෙස අසමත් වන තත්වයක් මට ගොඩනගා ගත හැකි බව සලකන්න. රේඛීය ප්‍රතිවර්තනය උපකල්පනය කරන්නේ ඔබේ දත්ත රේඛාවක් ඔස්සේ වැටෙන බවයි- නමුත් එය සයිනොසොයිඩල් තරංගයක් අනුගමනය කරන්නේ නම් කුමක් කළ යුතුද? ටී-පරීක්ෂණයක් උපකල්පනය කරන්නේ සෑම නියැදියක්ම සාමාන්‍ය බෙදාහැරීමකින් ලැබෙන බවයි: ඔබ පිටස්තරයෙකු තුළට විසි කළහොත් කුමක් කළ යුතුද? ඕනෑම ශ්‍රේණියේ නැගීමේ ඇල්ගොරිතමයක් දේශීය උපරිමයට කොටු විය හැකි අතර ඕනෑම අධීක්ෂණය කරන ලද වර්ගීකරණයක් අධික ලෙස සවිකිරීමට පෙළඹවිය හැකිය.

මෙමගින් කුමක් වෙයිද? එයින් අදහස් කරන්නේ උපකල්පන යනු ඔබේ බලය පැමිණෙන්නේ කොතැනින්ද යන්නයි ! නෙට්ෆ්ලික්ස් ඔබට චිත්‍රපට නිර්දේශ කරන විට, එය උපකල්පනය කරන්නේ ඔබ එක් චිත්‍රපටයකට කැමති නම්, ඔබ සමාන චිත්‍රපටවලට කැමති වනු ඇති බවයි (සහ අනෙක් අතට). එය සත්‍ය නොවන ලෝකයක් ගැන සිතන්න, ඔබේ රුචි අරුචිකම්, නළු නිළියන් සහ අධ්‍යක්ෂවරුන් අතර අහඹු ලෙස විසිරී ඇත. ඔවුන්ගේ නිර්දේශ ඇල්ගොරිතම දරුණු ලෙස අසමත් වනු ඇත. "හොඳයි, එය තවමත් අපේක්ෂිත වර්ග දෝෂයක් අවම කරයි, එබැවින් ඇල්ගොරිතම තවමත් ක්‍රියාත්මක වේ" යනුවෙන් පැවසීම අර්ථවත්ද? පරිශීලකයින්ගේ රුචි අරුචිකම් පිළිබඳ උපකල්පන නොකර ඔබට නිර්දේශ ඇල්ගොරිතමයක් කළ නොහැක- එම පොකුරු වල ස්වභාවය පිළිබඳව යම් උපකල්පනයක් නොකර ඔබට පොකුරු ඇල්ගොරිතමයක් සෑදිය නොහැක.

එබැවින් මෙම අඩුපාඩු පමණක් පිළිගන්න එපා. ඒවා දැන ගන්න, එවිට ඔබට ඔබේ ඇල්ගොරිතම තේරීම දැනුම් දිය හැකිය. ඒවා තේරුම් ගන්න, එවිට ඔබට ඔබේ ඇල්ගොරිතම වෙනස් කර ඒවා විසඳීමට ඔබේ දත්ත පරිවර්තනය කළ හැකිය. ඔවුන්ට ආදරය කරන්න, මන්ද ඔබේ ආකෘතිය කිසි විටෙකත් වැරදිය නොහැකි නම්, එයින් අදහස් වන්නේ එය කිසි විටෙකත් නිවැරදි නොවන බවයි.



52
මෙම උද්‍යෝගිමත් පිළිතුර සඳහා +1. ධ්‍රැවීය පරිණාමන උදාහරණය මම විශේෂයෙන් භුක්ති වින්දා, එම දක්ෂ උපක්‍රම කිසි විටෙකත් මගේ ගණිතමය වශයෙන් නූගත් මොළය මවිතයට පත් නොකරයි.
මුගන්

21
+ 1, මෙය නියත වශයෙන්ම සුන්දර පිළිතුරක් වන අතර එය විශ්ලේෂණයේ විස්තර වලට හසු නොවී උපකල්පන බිඳ වැටෙන ආකාරය පෙන්වීමේ විශාල කාර්යයක් කරයි.
ලුවී සියල්ඩෙල්ලා

15
+1 මිනිසුන් මා වෙත පැමිණිලි කරන පොදු දෙයක් නම් න්‍යායාත්මක දේවල් ප්‍රායෝගිකව ක්‍රියාත්මක නොවීමයි. නමුත් මම ඇසූ විට "ඔබේ දත්ත ආකෘතියේ උපකල්පනවලට ගැලපේද?" මම ඔවුන්ගේ මුහුණු වලින් හිස් පෙනුමක් ලබා ගනිමි. ඔබේ පිළිතුර සහ විශේෂයෙන් අවසාන කොටස මට ඇත්තෙන්ම සතුටක් ගෙන දුන්නා.
තෙනාලි රාමන්

9
+1 වාව්, මම ටික කලක් සිට ඇති නමුත් මම සිතන්නේ එක් දිනක් තුළ උඩු යටිකුරු 50+ ලබා ගැනීමට පිළිතුරක් මා දැක නැති බවයි. මෙය සැබවින්ම ආකර්ෂණීය ජයග්‍රහණයකි.
amoeba

7
ධ්‍රැවීය පරිණාමනය, මා දකින පරිදි, මෙහි ප්‍රධාන වශයෙන් ප්‍රයෝජනවත් වන්නේ කර්නල් පොකුරු ශිල්පීය ක්‍රම පිළිබඳ පළමු හා ප්‍රභාෂයෙන් තොර උදාහරණයකි - එහිදී මේ ආකාරයේ පූර්ව පරිණාමනය යනු රේඛීය ඉගෙනුම් ක්‍රම වැඩ කරන්නේ කෙසේද යන්නයි.
මයිකල් වෙජ්ඩෙමෝ-ජොහැන්සන්

7

අවම පොකුරු විචල්‍යතාවයට පොකුරු කිරීම සැබවින්ම සංයුක්ත ප්‍රශස්තිකරණ ගැටළුවක් වන ඩේවිඩ් රොබින්සන්ගේ පිළිතුරට මම එක් කිරීමට කැමැත්තෙමි , එයින් k-Means යනු එක් තාක්‍ෂණයකි - සහ දෙවැන්නෙහි “එක පහරක්”, දේශීය “බෑවුම් බැසීම්” ස්වභාවය, එය හරිම නරක ලියුවේ ය. පොකුරු බීජ තිබිය යුත්තේ කොතැනදැයි හදුනා ගැනීමෙන් (හිස් ඇටකටු) k-Means සැලකිය යුතු ලෙස වැඩිදියුණු කිරීමට උත්සාහ කිරීම ආරම්භයේ සිටම විනාශයට පත්වේ: බීජ අවසාන පොකුරු වලට බලපාන බැවින් (දැඩි ලෙස!) ප්‍රශස්ත යනු කුමක්දැයි "දැන ගැනීමට" ... ඇත්ත වශයෙන්ම එය ගණනය කිරීමට පෙර .

කෙසේ වෙතත්, බොහෝ ප්‍රශස්තිකරණ ගැටලු ලෙස, කෙසේ වෙතත්, එය සමහර බරපතල ප්‍රශස්තිකරණ තාක්‍ෂණයන්ට සුදුසු විය හැකිය. ඒවායින් එකක් ගැටළුවේ ව්‍යුහයට ඉතා සමීපව ගැලපේ (එන්එෆ්එල්ට අවශ්‍ය පරිදි!), එය නිසැකවම එහි ප්‍රති in ල පෙන්නුම් කරයි. මට මෙහි කිසිදු වෙළඳ දැන්වීමක් කිරීමට අවශ්‍ය නැත (එය එසේ වනු ඇත - හා එසේ නම් - ආචාර ධර්ම වලට එරෙහිව), එබැවින් ඔබ කැමති නම්, එය මෙතැනින් කියවන්න ඔබේම තීන්දුවක් ගන්න.

යැයි මම k-ක්රම නිසැකව බව @ttnphns සමග එකඟ කතා කොට, ' නොවන ප්රශ්න දෙකක් වියදම කාර්යයන් සම්පූර්ණයෙන්ම වෙනස් ඇත - එක් Gaussian පොහොර මිශ්රණය හඳුනා. වඩාත්ම ගැලපෙන දේ සොයා ගැනීම (දත්ත ලබා දී ඇති ආකෘතියේ සම්භාවිතාව අනුව) ගවුසියානු මිශ්‍රණය ද සංයුක්ත ප්‍රශස්තිකරණ ගැටළුවක් වන අතර බරපතල ප්‍රශස්තිකරණ තාක්‍ෂණයක් ද පවතී. නැවත වරක්, දැන්වීම් නැත: ඔබට මෙහි ඔබේ නිගමනයකට එළඹිය හැකිය - එහි සාකච්ඡා කළ ඇල්ගොරිතමයට ඇත්ත වශයෙන්ම @ ඩේවිඩ් රොබින්සන්ගේ ලිපියේ අවසාන රූපය වැනි පොකුරු නිවැරදිව හඳුනාගත හැකි බව මම කියමි . එය නිවැරදිව පවා (එනම්, ගණිතමය හොඳින් අර්ථ ආකාරයෙන්) යන නිරන්තර ගැටලුවක්ව දිඟේ ප්රයෝගයක් , එනම්, අයත් නොවන දත්ත ලකුණුඕනෑම පොකුරු වලට ඒවා සම්පුර්ණයෙන්ම අහඹු නිසා (කුප්‍රකට ලෙස, ඔවුන් උදාහරණයක් ලෙස k-Means සම්පූර්ණයෙන්ම පීඩා කරයි ). මෙය සිදු කරනු ලබන්නේ එක් අතිරේක, ඒකාකාර බෙදාහැරීමක් ගවුසියානුවන් සමඟ තරඟ කිරීමෙනි ... සහ විශිෂ්ට ප්‍රති result ලය වන්නේ ඒකාකාරව බෙදා හරින ලද දත්ත මත, එහි ඇත්ත වශයෙන්ම වාර්තා වන්නේ එහි කිසිවක් නොමැති බවයි (මම වෙන තැනක බව කවදාවත් දැකලා නැහැ).

දැන් පැහැදිලිවම, එන්එෆ්එල්ට අනුව, සහ ඔබ නිවැරදිව පෙන්වා දුන් පරිදි , පිටස්තර හඳුනාගැනීම් සහිත ගෝලීය වශයෙන් ප්‍රශස්ත ගවුසියානු මිශ්‍රණ පවා පූර්ව උපකල්පනයක් මත රඳා පවතී - එනම් දත්ත සාමාන්‍යයෙන් බෙදා හරිනු ලැබේ. වාසනාවකට මෙන්, විශාල සංඛ්‍යා නීතියට ස්තුති වන්නට, ස්වාභාවික සංසිද්ධි රාශියක් සිදු වේ එම උපකල්පනය අනුකූල.

වියාචනය: මගේ ගැඹුරු සමාව අයැදීමෙන් මම ඉහත ලිපි දෙකම ලියා, ඔවුන් සාකච්ඡා කරන ඇල්ගොරිතම.

PS මට එක් වරක් සම්මන්ත්‍රණයකදී මැක්රීඩි මුණ ගැසුණි - අතිශයින් දීප්තිමත් හා ලස්සන මිනිහෙක්!


මෙය ප්‍රශ්නයට පිළිතුරක් යැයි සිතමු.
මයිකල් ආර්. චර්නික්

3
එය සැබවින්ම පිළිතුරකි, මයිකල්: k-Means ඇත්ත වශයෙන්ම සංයුක්ත ප්‍රශස්තිකරණ ගැටලුවක් විසඳීමට පෙරට පැමිණේ ... එහෙත් එය නියත වශයෙන්ම සිදු නොවේ (කිසිම ආකාරයකින් බැරෑරුම් ලෙස නොවේ)! එසේම, k-Means උපකල්පනය කරන්නේ (සැලසුම අනුව) ගෝලාකාර බෙදාහැරීම්, එය කොර වී ඇති නිසා එය ඔබට අ cry න බවයි (ඔබේ මානයන්ගෙන් එකක් දෙයාකාරයකින් ගුණ කර, සම්පූර්ණයෙන්ම වෙනස් දෙයක් ලබා ගන්න, ඔබේ “ස්මාර්ට්” බීජ කුමක් වුවත්!). පිටස්තරයින්ගේ ප්‍රශ්නය (මා දුටු ඕනෑම තාත්වික දත්තවල තිබේ!) කේ-මියන්ස් හි පවා ආමන්ත්‍රණය නොකෙරේ, කේ-මීන්ස් “බැරෑරුම්” පොකුරුකරණයට ඇති විය හැකි ඕනෑම මවාපෑමක් මුළුමනින්ම විනාශ කළද.
එමානුවෙල් ෆැල්කෙනර්

1
Man එමානුවෙල් ෆැල්කෙනර්, වෙබ් අඩවියට සාදරයෙන් පිළිගනිමු. මම ඔබේ පිළිතුර සඳහා ඡන්දය ප්‍රකාශ කරමි (+1), නමුත් එය ටිකක් මවාපෑමකි. කේ-මධ්යන්ය මිනිසෙකු නොවන දෙයක් වෙනුවෙන් යමක් මවා පෙන්වන්නේ කෙසේද ? සරල / වේගවත් ක්‍රමයක් සඳහා එය එය කරන අතර එය නරක නැත.
ttnphns

nttnphns: පිළිගැනීමට ස්තූතියි, සහ ඉහළට! ඇත්ත වශයෙන්ම k-Means කිසිවක් මවාපාන්නේ නැත (එය කේත කැබැල්ලක් පමණි - මගේ නරක!), නමුත් OP විසින් සොයාගත් පරිදි එය ප්‍රවර්ධනය කරන පුද්ගලයින් එසේ කරයි. එය "සරල / වේගවත්" ක්‍රමයක් බව ඔබ පෙන්වා දීම සමඟ මම එකඟ වෙමි - නමුත් විශාල කරදරය නම් ඕනෑම දෙයක් මත එහි ප්‍රතිදානය මත යැපීම නමුත් වඩාත්ම සරල දත්ත සියදිවි නසා ගැනීමට ආසන්න වීමයි: එය බොහෝ දේට අනුකූල නොවන උපකල්පන පමණක් නොව කාලය, නමුත් ඔවුන් සිටින විට පවා, එය දරුණු වැඩක් කරයි. ඔබ දැඩි සම්භවයක් ඇති සංයුක්ත ගැටළුවක් විසඳන්නේ නැත. ;-)
එමානුවෙල් ෆැල්කෙනර්

6

තර්කානුකූලව කිවහොත්, K- මාධ්‍යයන්හි අඩුපාඩු වන්නේ:

  • පොකුරු වල රේඛීය වෙන් කිරීම අවශ්‍යයි
  • පොකුරු ගණන නියම කිරීමට අවශ්‍යය
  • ඇල්ගොරිතම: බොහෝ ලකුණු හෝ මානයන් ඇති විට හොඳ ආරම්භයක් සහිතව වුවද ලොයිඩ්ස් ක්‍රියා පටිපාටිය සැබෑ ගෝලීය උපරිමයට නොගැලපේ.

නමුත් K-means අප සාමාන්‍යයෙන් සිතනවාට වඩා හොඳයි. පෙළ මිලියනයක සැබෑ ජීවිත පෙළ වර්ගීකරණය කිරීමේදී වෙනත් පොකුරු ක්‍රම (වර්ණාවලි, ity නත්වය ...) සහ එල්ඩීඒ පරීක්ෂාවට ලක් කිරීමෙන් පසු මම ඒ ගැන බෙහෙවින් උද්යෝගිමත් වී සිටිමි: උදාහරණයක් ලෙස කේ-මාධ්‍යයන්ට එල්ඩීඒ වලට වඩා හොඳ නිරවද්‍යතාවයක් ඇත (88% එදිරිව 59%). තවත් සමහර පොකුරු ක්‍රම හොඳයි, නමුත් K- මාධ්‍යයන් ඉහළට ආසන්නයි ... සහ සංකීර්ණත්වය අනුව වඩා දැරිය හැකි මිලකට.

පුළුල් පරාසයක ඇති ගැටළු මත විශ්වීය වශයෙන් වඩා හොඳ පොකුරු ක්‍රමයක් ගැන මම කවදාවත් කියවා නැත. මා දන්නා තරමින් විශ්වීය පොකුරු සුපිරි වීරයෙකු නොමැති නිසා K- මාධ්‍යයන් නොකිරීම විශ්වීය වශයෙන් වඩා හොඳය. බොහෝ ලිපි, බොහෝ ක්‍රම, සැබෑ විප්ලවයක් නොවේ (ඒවායින් සමහරක් පරීක්ෂා කිරීමේ මගේ පෞද්ගලික සීමිත අත්දැකීම් අනුව).

K- මාධ්‍යයන්හි තාර්කික අඩුපාඩු බොහෝ විට පමණක් පෙනෙන්නට ප්‍රධාන හේතුව වන්නේ 2D තලයක පොකුරු ලකුණු කිරීම ඔබ යන්ත්‍ර ඉගෙනීමේදී කලාතුරකින් කරන දෙයකි. 2D, 3D වල සත්‍ය වන ජ්‍යාමිතික බුද්ධියෙන් බොහෝ දේ තරමක් ඉහළ මානයන් හෝ වියුක්ත දෛශික අවකාශයන්හි (වචන මල්ල, විචල්‍යයන්ගේ දෛශිකය ...) අදාළ නොවේ.

රේඛීය වෙන්වීම: සැබෑ ජීවිත දත්තවල රවුම් පොකුරු සමඟ කටයුතු කිරීමට ඔබට සිදුවන්නේ කලාතුරකිනි. මෙම අවස්ථා වලදී ඒවා නොපවතින බව උපකල්පනය කිරීම ඊටත් වඩා හොඳය. ඔබේ ඇල්ගොරිතම ඒවා සෙවීමට ඉඩ දීමෙන් ශබ්දයේ අමුතු රවුම් පොකුරු සොයා ගැනීමට ඉඩ ලබා දේ. K- මාධ්‍යයන්හි රේඛීය උපකල්පනය එය බොහෝ විට වඩා ශක්තිමත් කරයි.

පොකුරු ගණන: බොහෝ විට ඔබ දැකීමට කැමති සැබෑ පරමාදර්ශී පොකුරු සංඛ්‍යාවක් නොමැත. උදාහරණයක් ලෙස පෙළ වර්ගීකරණය සඳහා, කාණ්ඩ 100 ක් තිබිය හැකිය, 105, 110 ... ඒ සියල්ල ආත්මීය ය. පොකුරු ගණන නියම කිරීම ගෝලීය කැටි ගැසීමක් නියම කිරීමට සමාන වේ. සියලුම පොකුරු ක්‍රමවලට කැටිති පිරිවිතරයක් අවශ්‍ය වේ.

10ගොඩක්

නමුත් සියලුම පොකුරු ඇල්ගොරිතම වලට එවැනි සීමාවන් ඇත. උදාහරණයක් ලෙස වර්ණාවලි පොකුරුකරණයේදී: ඔබට සත්‍ය ඊජෙන්වෙක්ටර් සොයාගත නොහැක, ආසන්න වශයෙන් පමණි.

එකම ගණනය කිරීමේ වේලාව සඳහා, තරමක් ප්‍රශස්තකරණය කළ LDA පුස්තකාලයක් අපගේ ගෙදර හැදූ (පරිපූර්ණ ලෙස ප්‍රශස්තිකරණය නොකළ) K- මාධ්‍යයන්ට වඩා අඩු අගයක් ගත්තේය. එතැන් සිට මම ටිකක් වෙනස් ලෙස සිතමි.


2

K-means හි ඇති අඩුපාඩු තේරුම් ගැනීමට, එය පිටුපස ඇති ආකෘතිය කුමක්දැයි සිතා බැලීමට මා කැමතිය.

කේකේ

කේσ2මමσ2කේσ20

ඉතින්, K-means හි අඩුපාඩු ගැන මෙය අපට පවසන්නේ කුමක්ද?

  1. කේ-මාධ්‍යයන් බහුකාර්ය ගෝස්සියානු පෙනුමක් ඇති පොකුරු වෙත යොමු කරයි.
  2. විචල්යයන් හරහා විචලනය සමාන බැවින්, K-means ගෝලාකාර ලෙස පෙනෙන පොකුරු වෙත යොමු කරයි.
  3. කේ
  4. K-means සමාන ප්‍රමාණයේ කණ්ඩායම් දෙසට නැඹුරු වේ.

K-means යනු සැබවින්ම සීමිත ඇල්ගොරිතමයකි. මෙහි ඇති වාසිය නම් ඉහත උපකල්පන සමඟ ඔබට ඇල්ගොරිතම ඉතා ඉක්මණින් සිදු කළ හැකිය. පොකුරු කාර්ය සාධනය ඔබේ ප්‍රධාන අවධානය යොමු කරන්නේ නම්, K-means සාමාන්‍යයෙන් සැබෑ අවස්ථාවන්හිදී සීමිත වේ.


2
මට සම්පූර්ණයෙන්ම එකඟ විය නොහැක. ගෝස්සියානු මිශ්‍රණයේ විශේෂිත අවස්ථාවක් ලෙස ප්‍රකාශ කිරීම K- යන්න බොහෝ දුරට දිගු වේ. K- මාධ්‍යයන් සාමාන්‍ය වැනි නිශ්චිත බෙදාහැරීමක් උපකල්පනය නොකරයි (එබැවින් එය සම්භාවිතා භූමියක් නොවේ). එය උපකල්පනය කරන්නේ නොනවතින පොකුරු (එනම් "මිශ්‍ර" නැත). එය ගෝලාකාර පොකුරු උපකල්පනය කරන නමුත් වඩාත් නිවැරදිව කිවහොත් එය වොරොනොයි සෛලවල උත්තල බහුඅවයව උපකල්පනය කරයි. සමහර විට K-means කිසිවක් "ආකෘති" නොකරන බව පැවසීම නිවැරදිය, එයට දත්ත උත්පාදනය කිරීමේ ක්‍රියාවලියක් ගැන සෘජු සඳහනක් නොමැත. K- යන්නෙහි අර්ථය “සමාන ප්‍රමාණයේ [ලකුණු ගණන අනුව] කණ්ඩායම් වෙත නැඹුරු වේ” - අවශ්‍ය නොවේ.
ttnphns

4
nttnphns k-means යනු ඇත්ත වශයෙන්ම GMM හි විශේෂ අවස්ථාවක් බව පෙන්විය හැකිය: en.wikipedia.org/wiki/K-means_clustering#Gaussian_Mixture_Model
TrinnaDoStat

It can be shown that. ප්‍රමාණවත් තරම් දිගු කිරීමෙන්, ඕනෑම දෙයක් හේතුවකින් ඔබ්බට in ාතියෙකු ලෙස පෙන්විය හැකිය.
ttnphns

2
nttnphns නැත, සියල්ල ගණිතමය වශයෙන් පෙන්විය නොහැක.
ට්‍රයිනා ඩොස්ටැට්
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.