මොනතරම් වැදගත් ප්රශ්නයක්ද - ඕනෑම සංඛ්යානමය ක්රමයක ඇති අඩුපාඩු හා උපකල්පන යමෙකු පරීක්ෂා කරන්නේ කෙසේද යන්න පෙන්වීමට මෙය අවස්ථාවකි. එනම්: දත්ත කිහිපයක් සාදා එය මත ඇල්ගොරිතම උත්සාහ කරන්න!
ඔබගේ උපකල්පන දෙකක් අපි සලකා බලමු, එම උපකල්පන බිඳී ගිය විට k-mean ඇල්ගොරිතමයට කුමක් සිදුවේදැයි අපි බලමු. දෘශ්යමාන කිරීම පහසු බැවින් අපි ද්විමාන දත්ත වලට ඇලී සිටිමු. ( මානයන්හි ශාපයට ස්තූතිවන්ත වන්නට , අතිරේක මානයන් එකතු කිරීමෙන් මෙම ගැටලු වඩාත් දරුණු වනු ඇත, අඩු නොවේ). අපි සංඛ්යාන ක්රමලේඛන භාෂාව R සමඟ වැඩ කරන්නෙමු: ඔබට මෙහි සම්පූර්ණ කේතය සොයාගත හැකිය (සහ බ්ලොග් පෝස්ට් එකේ ලිපිය මෙහි ).
හරවා යැවීම: ඇන්ස්කොම්බ්ගේ ක්වාර්ටෙට්
පළමුව, ප්රතිසමයක්. යමෙක් පහත සඳහන් දේ ගැන සිතන්න:
රේඛීය ප්රතිගාමිත්වයේ අඩුපාඩු ගැන මම යම් තොරතුරු කියවා ඇත්තෙමි- එය රේඛීය ප්රවණතාවක් අපේක්ෂා කරන බවත්, අවශේෂ සාමාන්යයෙන් බෙදා හරින බවත්, පිටස්තරයින් නොමැති බවත්. නමුත් සියලු රේඛීය ප්රතිගාමීතාවයන් සිදු කරනුයේ පුරෝකථනය කරන ලද රේඛාවෙන් වර්ග දෝෂ (SSE) අවම කිරීමයි. වක්රයේ හැඩය හෝ අවශේෂ බෙදා හැරීම කුමක් වුවත් විසඳිය හැකි ප්රශස්තිකරණ ගැටළුවකි. මේ අනුව, රේඛීය ප්රතිගාමීතාවයට වැඩ කිරීමට උපකල්පන අවශ්ය නොවේ.
හොඳයි, ඔව්, රේඛීය ප්රතිවර්තනය ක්රියා කරන්නේ වර්ගවල අවශේෂ එකතුව අවම කිරීමෙනි. නමුත් එය තනිවම ප්රතිගාමීත්වයේ අරමුණ නොවේ: අප උත්සාහ කරන්නේ x මත පදනම් වූ y පිළිබඳ විශ්වාසදායක, අපක්ෂපාතී පුරෝකථනයක් ලෙස සේවය කරන රේඛාවක් අඳින්න . මෙම Gauss-Markov ප්රමේයය මෙම SSE අවම බව goal- ඉටු නමුත් සමහර ඉතා නිශ්චිත උපකල්පන මත ප්රමේයය වීමත්, ඒ බව සඳහන් කරනවා. එම උපකල්පන බිඳී ඇත්නම්, ඔබට තවමත් SSE අවම කළ හැකිය, නමුත් එය කිසිවක් නොවනු ඇත. සිතන්න, "ඔබ මෝටර් රථයක් පදවන්නේ පෙඩලය තල්ලු කිරීමෙනි: රිය පැදවීම අත්යවශ්යයෙන්ම 'පෙඩල් තල්ලු කිරීමේ ක්රියාවලියකි.' ටැංකියේ කොතරම් ගෑස් තිබුණත් පැඩලය තල්ලු කළ හැකිය. එබැවින් ටැංකිය හිස් වුවද ඔබට තවමත් පැඩලය තල්ලු කර මෝටර් රථය ධාවනය කළ හැකිය. කරන්න
නමුත් කතාව ලාභයි. සීතල, දෘඩ, දත්ත දෙස බලමු. හෝ ඇත්ත වශයෙන්ම, සාදන ලද දත්ත.
ආර්2
එක් "රේඛීය අවගමනය තවමත් ඇත කියන්න පුළුවන් වැඩ එය වීමද භෝග වල කොටු මුදලක් අවම කරන නිසා, එම අවස්ථා වලදී." නමුත් එය කෙතරම් පිරිත් ජයග්රහණයක්ද ! රේඛීය ප්රතිගාමිත්වය සැමවිටම රේඛාවක් අඳිනු ඇත, නමුත් එය අර්ථ විරහිත රේඛාවක් නම්, ඒ ගැන සැලකිලිමත් වන්නේ කවුද?
ඉතින් දැන් අපට පෙනෙන්නේ ප්රශස්තිකරණයක් කළ හැකි පමණින් අප අපගේ ඉලක්කය සපුරා ඇති බවක් නොවේ. දත්ත සැකසීම සහ එය දෘශ්යමාන කිරීම ආකෘතියක උපකල්පන පරීක්ෂා කිරීමට හොඳ ක්රමයක් බව අපට පෙනේ. එම බුද්ධියට සම්බන්ධ වන්න, අපට එය විනාඩියකින් අවශ්ය වනු ඇත.
බිඳුණු උපකල්පනය: ගෝලාකාර නොවන දත්ත
කේ-මධ්යන්ය ඇල්ගොරිතම ගෝලාකාර නොවන පොකුරු මත හොඳින් ක්රියා කරනු ඇතැයි ඔබ තර්ක කරයි. ගෝලාකාර නොවන පොකුරු වැනි ... මේවා?
සමහර විට මෙය ඔබ අපේක්ෂා කළ දෙය නොවේ- නමුත් එය පොකුරු තැනීම සඳහා ඉතා සාධාරණ ක්රමයකි. මෙම රූපය දෙස බලන විට, මිනිසුන් වන අපි වහාම ලක්ෂ්ය කණ්ඩායම් දෙකක් හඳුනා ගනිමු- ඒවා වරදවා වටහා ගැනීමක් නැත. එබැවින් k-means කරන්නේ කෙසේදැයි බලමු: පැවරුම් වර්ණයෙන් ද, ගණනය කළ මධ්යස්ථාන X ලෙස ද පෙන්වනු ලැබේ.
හොඳයි, ඒ අයිතිය නැත. කේ-මාධ්යයන් වටකුරු සිදුරක හතරැස් කොටුවක් සවි කිරීමට උත්සාහ කරමින් සිටියේය - ඒවා වටා පිළිවෙලට ගෝල සහිත ලස්සන මධ්යස්ථාන සොයා ගැනීමට උත්සාහ කළ අතර එය අසාර්ථක විය. ඔව්, එය තවමත් පොකුරු තුළ ඇති වර්ග ප්රමාණය අවම කරයි- නමුත් ඉහත ඇන්ස්කොම්බ්ගේ ක්වාර්ටෙට් හි මෙන්, එය පිරික් ජයග්රහණයක්!
ඔබට කිව හැකිය "එය සාධාරණ උදාහරණයක් නොවේ ... කිසිදු පොකුරු ක්රමයකට එම අමුතු පොකුරු නිවැරදිව සොයාගත නොහැකි විය." ඇත්ත නොවේ! තනි සම්බන්ධතා ධූරාවලි පොකුරුකරණය උත්සාහ කරන්න :
එය අල්ලා ගත්තා! මෙයට හේතුව තනි සම්බන්ධක ධූරාවලි පොකුරු කිරීම මෙම දත්ත කට්ටලය සඳහා නිවැරදි උපකල්පන සිදු කිරීමයි. ( එය අසමත් වන වෙනත් සමස්ත පන්ති තත්වයක් ඇත).
"එය තනි, අන්ත, ව්යාධිජනක නඩුවක්" යැයි ඔබට පැවසිය හැකිය. නමුත් එය එසේ නොවේ! නිදසුනක් ලෙස, ඔබට පිටත කණ්ඩායම රවුමක් වෙනුවට අර්ධ කවයක් බවට පත් කළ හැකි අතර, k-means තවමත් භයානක ලෙස ක්රියා කරන බව ඔබට පෙනෙනු ඇත (සහ ධූරාවලි පොකුරු කිරීම තවමත් හොඳින් සිදු වේ). මට වෙනත් ගැටළු සහගත තත්වයන් සමඟ පහසුවෙන් පැමිණිය හැකිය, එය මානයන් දෙකකින් පමණි. ඔබ 16-මාන දත්ත පොකුරු කරන විට, පැන නැගිය හැකි සියලු ආකාරයේ ව්යාධි ඇත.
අවසාන වශයෙන්, k-means තවමත් ගැලවිය නොහැකි බව මම සටහන් කළ යුතුය! ඔබගේ දත්ත ධ්රැවීය ඛණ්ඩාංක බවට පරිවර්තනය කිරීමෙන් ඔබ ආරම්භ කරන්නේ නම් , පොකුරුකරණය දැන් ක්රියාත්මක වේ:
ක්රමවේදයකට යටින් ඇති උපකල්පන අවබෝධ කර ගැනීම අත්යවශ්ය වන්නේ එබැවිනි: ක්රමයකට අඩුපාඩු ඇති විට එය ඔබට නොකියයි, ඒවා නිවැරදි කරන්නේ කෙසේදැයි එය ඔබට කියයි.
බිඳුණු උපකල්පනය: අසමාන ප්රමාණයේ පොකුරු
පොකුරු අසමාන සංඛ්යාවක් තිබේ නම් කුමක් කළ යුතුද- එයද කේ-මාධ්ය පොකුරු බිඳ දමන්නේද? හොඳයි, 20, 100, 500 ප්රමාණයේ මෙම පොකුරු සමූහය සලකා බලන්න. මම සෑම එකක්ම බහුකාර්ය ගවුසියානු භාෂාවෙන් උත්පාදනය කළෙමි:
මෙය පෙනෙන්නේ k-means මඟින් බොහෝ විට එම පොකුරු සොයා ගත හැකි බවයි, නේද? සෑම දෙයක්ම පිළිවෙලට හා පිළිවෙලට ඇති කණ්ඩායම් බවට ජනනය වන බව පෙනේ. එබැවින් k-means උත්සාහ කරමු:
ඕච්. මෙහි සිදුවූ දෙය ටිකක් සියුම් ය. පොකුරු තුළ ඇති චතුරස්රයන් අවම කිරීම සඳහා වන ගවේෂණයේ දී, k- මධ්යන්ය ඇල්ගොරිතම විශාල පොකුරු වලට වැඩි "බරක්" ලබා දෙයි. ප්රායෝගිකව, එයින් අදහස් වන්නේ එම කුඩා පොකුරු ඕනෑම මධ්යස්ථානයකින් far ත්වීමට ඉඩ දීම සතුටට කරුණක් වන අතර, එම මධ්යස්ථාන වඩා විශාල පොකුරක් "බෙදීමට" භාවිතා කරන බවයි.
ඔබ මෙම උදාහරණ සමඟ මඳක් සෙල්ලම් කරන්නේ නම් ( මෙහි R කේතය! ), ඔබට k-means මගින් අපහසුතාවයට පත්වන පරිදි තවත් බොහෝ අවස්ථා තැනිය හැකි බව ඔබට පෙනෙනු ඇත.
නිගමනය: නොමිලේ දිවා ආහාරය නැත
වොල්පර්ට් සහ මැක්රෙඩි විසින් විධිමත් කරන ලද ගණිතමය ජනප්රවාදවල ආකර්ශනීය ඉදිකිරීමක් ඇත , එය “නිදහස් දිවා ආහාර ප්රමේයයක් නැත”. යන්ත්ර ඉගෙනීමේ දර්ශනයේ එය මගේ ප්රියතම ප්රමේයය විය හැකි අතර, එය ගෙන ඒමට ඕනෑම අවස්ථාවක් මම ප්රිය කරමි (මම මෙම ප්රශ්නයට ඇලුම් කරන බව සඳහන් කළාද?) මූලික අදහස මෙසේ ප්රකාශ කර ඇත (දැඩි ලෙස නොවේ): “හැකි සෑම අවස්ථාවකම සාමාන්යය වූ විට, සෑම ඇල්ගොරිතමයක්ම එක හා සමානව ක්රියා කරයි.
හොඳ ප්රතිවිරුද්ධද? ඇල්ගොරිතමයක් ක්රියාත්මක වන සෑම අවස්ථාවකම, එය දරුණු ලෙස අසමත් වන තත්වයක් මට ගොඩනගා ගත හැකි බව සලකන්න. රේඛීය ප්රතිවර්තනය උපකල්පනය කරන්නේ ඔබේ දත්ත රේඛාවක් ඔස්සේ වැටෙන බවයි- නමුත් එය සයිනොසොයිඩල් තරංගයක් අනුගමනය කරන්නේ නම් කුමක් කළ යුතුද? ටී-පරීක්ෂණයක් උපකල්පනය කරන්නේ සෑම නියැදියක්ම සාමාන්ය බෙදාහැරීමකින් ලැබෙන බවයි: ඔබ පිටස්තරයෙකු තුළට විසි කළහොත් කුමක් කළ යුතුද? ඕනෑම ශ්රේණියේ නැගීමේ ඇල්ගොරිතමයක් දේශීය උපරිමයට කොටු විය හැකි අතර ඕනෑම අධීක්ෂණය කරන ලද වර්ගීකරණයක් අධික ලෙස සවිකිරීමට පෙළඹවිය හැකිය.
මෙමගින් කුමක් වෙයිද? එයින් අදහස් කරන්නේ උපකල්පන යනු ඔබේ බලය පැමිණෙන්නේ කොතැනින්ද යන්නයි ! නෙට්ෆ්ලික්ස් ඔබට චිත්රපට නිර්දේශ කරන විට, එය උපකල්පනය කරන්නේ ඔබ එක් චිත්රපටයකට කැමති නම්, ඔබ සමාන චිත්රපටවලට කැමති වනු ඇති බවයි (සහ අනෙක් අතට). එය සත්ය නොවන ලෝකයක් ගැන සිතන්න, ඔබේ රුචි අරුචිකම්, නළු නිළියන් සහ අධ්යක්ෂවරුන් අතර අහඹු ලෙස විසිරී ඇත. ඔවුන්ගේ නිර්දේශ ඇල්ගොරිතම දරුණු ලෙස අසමත් වනු ඇත. "හොඳයි, එය තවමත් අපේක්ෂිත වර්ග දෝෂයක් අවම කරයි, එබැවින් ඇල්ගොරිතම තවමත් ක්රියාත්මක වේ" යනුවෙන් පැවසීම අර්ථවත්ද? පරිශීලකයින්ගේ රුචි අරුචිකම් පිළිබඳ උපකල්පන නොකර ඔබට නිර්දේශ ඇල්ගොරිතමයක් කළ නොහැක- එම පොකුරු වල ස්වභාවය පිළිබඳව යම් උපකල්පනයක් නොකර ඔබට පොකුරු ඇල්ගොරිතමයක් සෑදිය නොහැක.
එබැවින් මෙම අඩුපාඩු පමණක් පිළිගන්න එපා. ඒවා දැන ගන්න, එවිට ඔබට ඔබේ ඇල්ගොරිතම තේරීම දැනුම් දිය හැකිය. ඒවා තේරුම් ගන්න, එවිට ඔබට ඔබේ ඇල්ගොරිතම වෙනස් කර ඒවා විසඳීමට ඔබේ දත්ත පරිවර්තනය කළ හැකිය. ඔවුන්ට ආදරය කරන්න, මන්ද ඔබේ ආකෘතිය කිසි විටෙකත් වැරදිය නොහැකි නම්, එයින් අදහස් වන්නේ එය කිසි විටෙකත් නිවැරදි නොවන බවයි.