යන්ත්‍ර ඉගෙනීමේ දී බෑග් කිරීම, ඉහළ නැංවීම සහ ගොඩගැසීම


255

මෙම ක්‍රම 3 අතර ඇති සමානකම් හා වෙනස්කම් මොනවාද:

  • බෑග් කිරීම,
  • වැඩි කිරීම,
  • ගොඩගැසීම?

හොඳම දේ කුමක්ද? සහ ඇයි?

එක් එක් සඳහා මට උදාහරණයක් දෙන්න පුළුවන්ද?


3
පෙළපොත් යොමු කිරීමක් සඳහා, මම නිර්දේශ කරමි: ෂෝ, ෂි-හුවා
වඩීම් ස්මොලියාකොව්

1
අදාළ ප්‍රශ්නයක් මෙතැනින් බලන්න .
රිකාඩෝ ක

Answers:


257

සියලු තුනක් ඊනියා "පාර-ගණිත ක්රමයක්" වේ: එනම් විචලතාව (අඩු කිරීම සඳහා එක් අනාවැකි ආකෘතිය තුළට යන්ත්රය ඉගෙන ශිල්ප ක්රම කිහිපයක් එකට ප්රවේශයන් නිපදවීමේ ), නැඹුරුව ( ඉහල දැමීම ) හෝ අනාවැකි බලය වැඩි දියුණු කිරීම ( මුසපත්ව හෙවත් ඇඳුමේ ).

සෑම ඇල්ගොරිතමයක්ම පියවර දෙකකින් සමන්විත වේ:

  1. මුල් දත්තවල උප කුලක මත සරල එම්එල් ආකෘති බෙදා හැරීම.

  2. බෙදා හැරීම එක් "සමස්ත" ආකෘතියකට ඒකාබද්ධ කිරීම.

ක්‍රම තුන පිළිබඳ කෙටි විස්තරයක් මෙන්න:

  1. නිපදවීමේ (සඳහා කි්රයා බී ootstrap Agg regat ing ) භාවිතා කරමින් ඔබගේ මුල් දත්ත සමුදාය සිට පුහුණුව සඳහා අතිරේක දත්ත ජනන ඔබේ අනාවැකිය විචලතාව අඩු කිරීමට ක්රමයක් පුනරාවර්තනය සමග සංයෝජන නිෂ්පාදනය කිරීමට multisets ඔබගේ මුල් දත්ත ලෙස එම මුඛ්යතා / ප්රමාණයේ. ඔබේ පුහුණු කට්ටලයේ ප්‍රමාණය වැඩි කිරීමෙන් ඔබට ආදර්ශ පුරෝකථන බලය වැඩි දියුණු කළ නොහැක, නමුත් විචලනය අඩු කරන්න, අපේක්ෂිත ප්‍රති to ලයට අනාවැකි පටු ලෙස සකසන්න.

  2. බූස්ටින් කිරීම යනු පියවර දෙකක ප්‍රවේශයකි, එහිදී යමෙකු මුලින් ක්‍රියා කරන ආකෘති මාලාවක් නිෂ්පාදනය කිරීම සඳහා මුල් දත්තවල උප කුලක භාවිතා කරන අතර පසුව විශේෂිත පිරිවැය ශ්‍රිතයක් (= බහුතර ඡන්දය) භාවිතා කරමින් ඒවා ඒකාබද්ධ කිරීමෙන් ඒවායේ ක්‍රියාකාරිත්වය වැඩි කරයි. බෑග් කිරීම මෙන් නොව, සම්භාව්‍ය තල්ලුවෙහි උප කුලක නිර්මාණය අහඹු නොවන අතර එය පෙර මාදිලිවල ක්‍රියාකාරිත්වය මත රඳා පවතී: සෑම නව උප කුලකයකම පෙර ආකෘති මගින් වැරදි ලෙස වර්ගීකරණය කරන ලද (විය හැකි) මූලද්‍රව්‍ය අඩංගු වේ.

  3. ගොඩගැසීම ඉහළ නැංවීමට සමාන ය: ඔබ ඔබේ මුල් දත්ත වලට ආකෘති කිහිපයක් ද යොදවයි . කෙසේ වෙතත් මෙහි ඇති වෙනස නම්, ඔබේ බර ක්‍රියාකාරිත්වය සඳහා ආනුභවික සූත්‍රයක් ඔබ සතුව නොමැති වීමයි, ඒ වෙනුවට ඔබ මෙටා මට්ටමක් හඳුන්වා දී බර ගණනය කිරීම සඳහා සෑම ආකෘතියකම ප්‍රතිදානයන් සමඟ ආදානය තක්සේරු කිරීමට වෙනත් ආකෘතියක් / ප්‍රවේශයක් භාවිතා කරයි. වෙනත් වචන වලින් කිවහොත්, කුමන ආකෘති හොඳින් ක්‍රියාත්මක වේද යන්න සහ මෙම ආදාන දත්ත නරක ලෙස ලබා දී ඇත්තේ කුමක්ද යන්න තීරණය කිරීම.

සංසන්දනාත්මක වගුවක් මෙන්න:

සංසන්දනාත්මක වගුව

ඔබ දකින පරිදි, මේ සියල්ලම වඩා හොඳ එකක් බවට ආකෘති කිහිපයක් ඒකාබද්ධ කිරීම සඳහා වෙනස් ප්‍රවේශයන් වන අතර මෙහි තනි ජයග්‍රාහකයෙකු නොමැත: සියල්ල ඔබගේ වසම සහ ඔබ කුමක් කිරීමට යන්නේද යන්න මත රඳා පවතී. ඔබ තවමත් ප්රතිකාර කළ හැක ස්ටැකිං වැඩි අත්තිකාරම් වර්ග කිරීම ලෙස ඉහල දැමීම , කෙසේ වෙතත්, ඔබගේ පාර-මට්ටම සඳහා හොඳ ප්රවේශයක් සොයා ගැනීමේ දුෂ්කර අපහසු ප්රායෝගිකව මෙම ප්රවේශය අයදුම් කිරීමට කරයි.

එක් එක් කෙටි උදාහරණ:

  1. බෑග් කිරීම : ඕසෝන් දත්ත .
  2. Boosting : දෘශ්‍ය අක්ෂර හඳුනාගැනීමේ (OCR) නිරවද්‍යතාව වැඩි දියුණු කිරීම සඳහා භාවිතා කරයි .
  3. ගොඩගැසීම : වෛද්‍ය විද්‍යාවේ පිළිකා ක්ෂුද්‍ර කිරණ වර්ගීකරණය සඳහා යොදා ගනී .

9
ඔබේ උත්තේජක අර්ථ දැක්වීම විකියේ (ඔබ සම්බන්ධ කර ඇති) හෝ මෙම පත්‍රිකාවේ අර්ථයට වඩා වෙනස් බව පෙනේ . ඔවුන් දෙදෙනාම පවසන්නේ ඊළඟ වර්ගීකරණයේ ඉහළ නැංවීමේදී කලින් පුහුණු කළ අයගේ ප්‍රති results ල භාවිතා කරන බවයි, නමුත් ඔබ එය සඳහන් කර නැත. අනෙක් අතට ඔබ විස්තර කරන ක්‍රමය සමහර ඡන්ද / ආකෘති සාමාන්‍ය ක්‍රමවේදයන්ට සමාන වේ.
ඇලෙක්සැන්ඩර් රොඩින්

2
@ a-rodin: මෙම වැදගත් අංගය පෙන්වා දීමට ස්තූතියි, මෙය වඩා හොඳින් පිළිබිඹු කිරීම සඳහා මම මෙම කොටස සම්පූර්ණයෙන්ම නැවත ලිවීමි. ඔබගේ දෙවන ප්‍රකාශය සම්බන්ධයෙන්, මගේ අවබෝධය නම්, ඉහළ නැංවීම ද ඡන්දය ප්‍රකාශ කිරීමේ / සාමාන්‍යයේ වර්ගයක් බවයි, නැතහොත් මම ඔබව වැරදියට තේරුම් ගත්තාද?
ඇලෙක්සැන්ඩර් ගල්කින්

Lex ඇලෙක්සැන්ඩර්ගල්කින් අදහස් දැක්වීමේදී ග්‍රේඩියන්ට් ඉහළ නැංවීම මගේ මතකයේ තිබුණි: එය ඡන්දය දීම මෙන් නොව ක්‍රියාකාරී ශ්‍රිත ඇස්තමේන්තු කිරීමේ තාක්‍ෂණයකි. කෙසේ වෙතත් උදා: AdaBoost ඡන්දය දීම මෙන් පෙනේ, එබැවින් මම ඒ ගැන තර්ක නොකරමි.
ඇලෙක්සැන්ඩර් රොඩින්

3
ඔබේ පළමු වාක්‍යයේ දී ඔබ පවසන්නේ බූස්ටින් නැඹුරුව අඩු වන නමුත් සංසන්දනාත්මක වගුවේ එය පුරෝකථන බලය වැඩි කරන බවයි. මේ දෙකම සත්‍යද?
බෙන් ලින්ඩ්සේ

72

බෑග් කිරීම :

  1. සමාන්තර සමූහය: සෑම ආකෘතියක්ම ස්වාධීනව ගොඩනගා ඇත

  2. නැඹුරුව නොව විචලනය අඩු කිරීම අරමුණු කර ගන්න

  3. ඉහළ විචල්‍යතාවයකින් යුත් අඩු නැඹුරු ආකෘති (සංකීර්ණ ආකෘති) සඳහා සුදුසු වේ

  4. ගස් පදනම් කරගත් ක්‍රමයකට උදාහරණයක් ලෙස අහඹු වනාන්තරය වන අතර එය සම්පූර්ණයෙන්ම වැඩුණු ගස් වර්ධනය කරයි (ගස් අතර සහසම්බන්ධය අඩු කිරීම සඳහා RF වැඩුණු ක්‍රියා පටිපාටිය වෙනස් කරන බව සලකන්න)

වැඩි කිරීම :

  1. අනුක්‍රමික සමූහය: පෙර මාදිලි නොමැති තැන හොඳින් ගැලපෙන නව මාදිලි එක් කිරීමට උත්සාහ කරන්න

  2. විචලනය නොව පක්ෂග්‍රාහී බව අඩු කිරීම අරමුණු කරයි

  3. අඩු විචල්‍යතාවයකින් යුත් ඉහළ නැඹුරු ආකෘති සඳහා සුදුසු වේ

  4. ගස් පදනම් කරගත් ක්‍රමයකට උදාහරණයක් වන්නේ ශ්‍රේණිය ඉහළ නැංවීමයි


5
එය එසේ වන්නේ ඇයි සහ එය සාක්ෂාත් කරගන්නේ කෙසේද යන්නට පිළිතුරු දීමට එක් එක් කරුණු අදහස් දැක්වීම ඔබේ පිළිතුරේ විශාල දියුණුවක් වනු ඇත.
ටිම්

2
වැඩි කිරීම මඟින් විචල්‍යතාවය අඩු කරන අතර එය කරන්නේ කෙසේද යන්න පැහැදිලි කරන ඕනෑම ලේඛනයක් / සබැඳියක් ඔබට බෙදා ගත හැකිද? වඩාත් ගැඹුරින් තේරුම් ගැනීමට අවශ්‍යයි
ජෝර්ජ් ඕෆ් ආර්එෆ්

1
ස්තූතියි ටිම්, මම පසුව අදහස් කිහිපයක් එකතු කරන්නම්. @ML_Pro, ඉහළ නැංවීමේ ක්‍රියාපටිපාටියෙන් (උදා: cs.cornell.edu/courses/cs578/2005fa/… පිටුව 23 ), ඉහළ නැංවීම මගින් නැඹුරුව අඩු කළ හැකි බව තේරුම් ගත හැකිය.
යුකියන්

45

යුකියන්ගේ පිළිතුර ටිකක් විස්තර කිරීමට. බෑග් කිරීම පිටුපස ඇති අදහස නම්, ඔබ අසමමිතික ප්‍රතිගාමී ක්‍රමයක් (සාමාන්‍යයෙන් ප්‍රතිගාමී හෝ වර්ගීකරණ ගස්, නමුත් ඕනෑම අසමමිතික ක්‍රමයක් ගැන විය හැකිය) ඉක්මවා ගිය විට, ඔබ ඉහළ විචල්‍යතාවයට යාමට නැඹුරු වන අතර නැඹුරුතාවයේ (හෝ අඩු) පක්ෂග්‍රාහී කොටසක් නොමැත / විචල්‍යතා වෙළඳාම. මෙයට හේතුව, අධික ලෙස ගැළපෙන ආකෘතියක් ඉතා නම්‍යශීලී වීමයි (එම ජනගහනයෙන් නැවත ලබා ගත හැකි බොහෝ සාම්පල වලට වඩා අඩු නැඹුරුවක්, ඒවා තිබුනේ නම්) නමුත් ඉහළ විචල්‍යතාවයක් ඇත (මම නියැදියක් එකතු කර එය අධික ලෙස වියදම් කරන්නේ නම්, ඔබ නියැදියක් එකතු කර එය අධික ලෙස වියදම් කරන්නේ නම්, අපගේ පරාමිතික නොවන ප්‍රතිගාමී දත්තවල ශබ්දය නිරීක්ෂණය කරන බැවින් ප්‍රති results ල වෙනස් වේ). අපිට මොනවද කරන්න පුළුවන්? අපට බොහෝ නැවත සකස් කිරීම් (බූට්ස්ට්‍රැපිං සිට) ගත හැකිය, එක් එක් අධික ලෙස ගැලපීම, සහ ඒවා සාමාන්‍යය. මෙය එකම නැඹුරුවකට (අඩු) හේතු විය යුතු නමුත් සමහර විචල්‍යයන් අවලංගු කරන්න,

එහි හදවතේ ශ්‍රේණිය ඉහළ නැංවීම UNDERFIT අසමමිතික ප්‍රතිගාමී සමඟ ක්‍රියා කරයි, ඒවා ඉතා සරල වන අතර එමඟින් දත්තවල සැබෑ සම්බන්ධතාවය විස්තර කිරීමට තරම් නම්‍යශීලී නොවේ (එනම් පක්ෂග්‍රාහී) නමුත්, ඒවා සුදුසු බැවින් අඩු විචල්‍යතාවයක් ඇත (ඔබ නැඹුරු වනු ඇත ඔබ නව දත්ත කට්ටල එකතු කරන්නේ නම් එකම ප්‍රති result ලය ලබා ගැනීමට). මේ සඳහා ඔබ නිවැරදි කරන්නේ කෙසේද? මූලික වශයෙන්, ඔබ සුදුසු නම්, ඔබේ ආකෘතියේ වාසස්ථානවල තවමත් ප්‍රයෝජනවත් ව්‍යුහයක් (ජනගහනය පිළිබඳ තොරතුරු) අඩංගු වේ, එබැවින් ඔබ සතුව ඇති ගස (හෝ අසමමිතික අනාවැකි පළ කරන්නෙකු) ඉතිරිව ඇති ගසක් සමඟ වැඩි කරයි. මෙය මුල් ගසට වඩා නම්‍යශීලී විය යුතුය. ඔබ නැවත නැවතත් වැඩි වැඩියෙන් ගස් උත්පාදනය කරයි, සෑම පියවරකදීම k-1 පියවරේ සිට අවශේෂයන්ට සවිකර ඇති ගසක් මත පදනම්ව බරින් යුත් ගසක් මගින් වැඩි කරනු ලැබේ. මෙම ගස් වලින් එකක් ප්‍රශස්ත විය යුතුය, එමනිසා ඔබ එක්කෝ මේ සියලු ගස් එකට බර කිරා බැලීමෙන් හෝ වඩාත්ම සුදුසු යැයි පෙනෙන එකක් තෝරා ගැනීමෙන් අවසන් වේ. මේ අනුව, ශ්‍රේණියේ තල්ලුව යනු වඩාත් නම්‍යශීලී අපේක්ෂක ගස් පොකුරක් තැනීමේ ක්‍රමයකි.

සියලු අසමමිතික ප්‍රතිගාමී හෝ වර්ගීකරණ ප්‍රවේශයන් මෙන්, සමහර විට බෑග් කිරීම හෝ ඉහළ නැංවීම විශිෂ්ට ලෙස ක්‍රියා කරයි, සමහර විට එක් හෝ වෙනත් ප්‍රවේශයක් මධ්‍යස්ථ වේ, සමහර විට එක් හෝ වෙනත් ප්‍රවේශයක් (හෝ දෙකම) බිඳ වැටී දැවී යනු ඇත.

එසේම, මෙම ක්‍රම දෙකම ගස් හැර වෙනත් ප්‍රතිගාමී ප්‍රවේශයන් සඳහා යොදා ගත හැකි නමුත් ඒවා බොහෝ විට ගස් සමඟ සම්බන්ධ වී ඇත, සමහර විට ගැළපුම හෝ අධික ලෙස ගැළපීම වළක්වා ගැනීම සඳහා පරාමිතීන් සැකසීම දුෂ්කර නිසා විය හැකිය.


3
Overfit = විචලනය සඳහා +1, underfit = නැඹුරුව තර්කය! තීරණාත්මක ගස් භාවිතා කිරීමට එක් හේතුවක් වන්නේ ඒවා ව්‍යුහාත්මකව අස්ථායී වීමයි. එබැවින් සුළු වෙනස්වීම් වලින් වැඩි ප්‍රතිලාභ ලැබේ. ( abbottanalytics.com/assets/pdf/… )
මාර්ක් හෝර්වාත්


3

කෙටි පානදුර හිරණ කිරීම සඳහා, නිපදවීමේ හා ඉහල දැමීම සාමාන්යයෙන් එක් ඇල්ගොරිතමය තුළ, අතර භාවිතා එකමත සාමාන්යයෙන් ඇත්තේ විවිධ ගණිත ක්රමයක් සිට කිහිපයක් ප්රතිඵල සාරාංශ ගත කිරීමට භාවිතා කරයි.

  • බෑග් කිරීම : අනාවැකි කිහිපයක් සහ සාමාන්‍ය (හෝ වෙනත් ක්‍රම) ලබා ගැනීම සඳහා විශේෂාංග සහ සාම්පලවල බූට්ස්ට්‍රැප් අනුකොටස්, නිදසුනක් ලෙස, Random Forestවිචලනය ඉවත් කරන අතර අධික ලෙස ගැටළුවක් නොමැති.
  • ඉහල දැමීම : සිට වෙනස නිපදවීමේ පසුව ආදර්ශ උදාහරණයක් ලෙස, පෙර එක් විසින් ඉදිරිපත් කරන ලද වරද ඉගෙන ගැනීමට උත්සාහ කරන බව ය GBMසහ XGBoost, විචලතාව තුරන් නමුත් ප්රශ්නය overfitting ඇති.
  • ගොඩගැසීම : සාමාන්‍යයෙන් තරඟ වලදී භාවිතා කරනු ලැබේ, යමෙකු එකම දත්ත කට්ටලයක් සහ සාමාන්‍ය (උපරිම, අවම හෝ වෙනත් සංයෝජන) පුහුණු කිරීම සඳහා බහු ඇල්ගොරිතම භාවිතා කරන විට එහි ප්‍රති result ලය වන්නේ පුරෝකථනයේ ඉහළ නිරවද්‍යතාවයක් ලබා ගැනීමයි.

2

ගමන් මලු සහ තල්ලුව යන දෙකම සියලු පියවර සඳහා තනි ඉගෙනුම් ඇල්ගොරිතමයක් භාවිතා කරයි; නමුත් ඔවුන් පුහුණු සාම්පල හැසිරවීමේදී විවිධ ක්‍රම භාවිතා කරයි. දෙකම බහුවිධ මාදිලිවල තීරණ ඒකාබද්ධ කරන
සමෝධානික ඉගෙනුම් ක්‍රමයකි .
1. එම් උප කුලක (බූට්ස්ට්‍රැපිං) ලබා ගැනීම සඳහා පුහුණු දත්ත නැවත සකස් කිරීම;
2. එම් දත්ත කට්ටල (විවිධ සාම්පල) මත පදනම්ව එම් වර්ගීකරණ (එකම ඇල්ගොරිතම) පුහුණු කරයි;
3. අවසාන වර්ගීකරනය ඡන්දය දීමෙන් එම් ප්‍රතිදානයන් ඒකාබද්ධ කරයි;
සාම්පල බර සමානව;
වර්ගීකරණයේ බර සමානව;
අඩු විචලතාව අඩු විසින් දෝෂ
ඉහල දැමීම : මෙහි adaboost ඇල්ගොරිතමය පිළිබඳ අවධානය යොමු
1. ආරම්භ පළමු වටයේ දී සියලු සාම්පල සමාන බර;
2. පහත දැක්වෙන M-1 වටවලදී, අවසාන වටයේ වැරදි ලෙස වර්ගීකරණය කර ඇති සාම්පලවල බර වැඩි කිරීම, අවසාන වටයේ නිවැරදිව වර්ගීකරණය කරන ලද සාම්පලවල බර අඩු කිරීම
3. බර තැබූ ඡන්ද විමසීමක් භාවිතා කරමින් අවසාන වර්ගීකරණයේ පෙර වට වලින් බහු වර්ගීකරණයක් ඒකාබද්ධ කර විශාල බරක් ලබා දෙන්න. අඩු වැරදි වර්ගීකරණයන් සහිත වර්ගීකරණ වෙත.
පියවරෙන් පියවර නැවත බැලීමේ සාම්පල; එක් එක් වටය සඳහා
බර නැවත සකස් කිරීම (බෑග් කිරීම) වෙනුවට අවසාන වටයේ නැවත බර සාම්පලවල (ඉහළ නැංවීමේ) ප්‍රති results ල මත පදනම්ව .


0

බෑග් කිරීම සහ ඉහළ නැංවීම බොහෝ සමජාතීය ආකෘති භාවිතා කිරීමට නැඹුරු වේ.

ගොඩගැසීම විෂමජාතීය ආකෘති වර්ගවල ප්‍රති results ල ඒකාබද්ධ කරයි.

කිසිදු තනි මාදිලියේ වර්ගයක් ඕනෑම සමස්ත බෙදාහැරීමක් තුළම වඩාත් සුදුසු නොවන බැවින් මෙය පුරෝකථන බලය වැඩි කිරීමට හේතුව ඔබට දැක ගත හැකිය.


0

බෑග් කිරීම

Bootstrap AGGregatING (Bagging) යනු පාදක වර්ගීකරණ පුහුණු කිරීම සඳහා භාවිතා කරන සාම්පලවල වෙනස්කම් භාවිතා කරන සමූහ උත්පාදක ක්‍රමයකි . සෑම වර්ගීකරණයක්ම ජනනය කිරීම සඳහා, බෑග් කිරීම (පුනරාවර්තනය සමඟ) N ප්‍රමාණයේ පුහුණු කට්ටලයෙන් N සාම්පල තෝරාගෙන මූලික වර්ගීකරණයක් පුහුණු කරයි. සමූහයේ අපේක්ෂිත ප්‍රමාණය ළඟා වන තුරු මෙය නැවත නැවතත් සිදු කෙරේ.

බෑග් කිරීම අස්ථායී වර්ගීකරණයක් සමඟ භාවිතා කළ යුතුය, එනම්, තීරණ ගැනීමේ ගස් සහ පර්සෙප්ට්‍රෝන වැනි පුහුණු කට්ටලයේ වෙනස්කම් වලට සංවේදී වන වර්ගීකරණ.

සසම්භාවී උප අවකාශය යනු සාම්පලවල විචලනයන් වෙනුවට විශේෂාංගවල වෙනස්කම් භාවිතා කරන සිත්ගන්නාසුලු සමාන ප්‍රවේශයකි, සාමාන්‍යයෙන් බහු මානයන් හා විරල විශේෂාංග අවකාශයන් සහිත දත්ත කට්ටලවල දැක්වේ.

වැඩි කිරීම

ඉහල දැමීම විසින් ඇඳුමේ ජනනය classifiers එකතු බව "දුෂ්කර සාම්පල" නිවැරදිව වර්ගීකරණය . එක් එක් පුනරාවර්තනය සඳහා, සාම්පලවල බර යාවත්කාලීන කිරීම, එමඟින්, සමූහය විසින් වැරදි ලෙස වර්ගීකරණය කරන ලද සාම්පලවලට වැඩි බරක් තිබිය හැකි අතර, එබැවින් නව වර්ගීකරණ පුහුණුව සඳහා තෝරා ගැනීමේ වැඩි සම්භාවිතාවක් ඇත.

බූස්ටින් කිරීම සිත්ගන්නාසුලු ප්‍රවේශයක් වන නමුත් ඉතා ශබ්ද සංවේදී වන අතර එය effective ලදායී වන්නේ දුර්වල වර්ගීකරණ භාවිතා කිරීමෙනි. ඇඩබූස්ට්, බ්‍රවුන්බූස්ට් (…) බූස්ටින් කිරීමේ ක්‍රමවේදයන්හි වෙනස්කම් කිහිපයක් තිබේ, නිශ්චිත ගැටළු (ශබ්දය, පන්ති අසමතුලිතතාවය…) වළක්වා ගැනීම සඳහා සෑම කෙනෙකුම තමන්ගේම බර යාවත්කාලීන කිරීමේ රීතියක් ඇත.

ගොඩගැසීම

ගොඩගැසීම යනු මෙටා ඉගෙනුම් ප්‍රවේශයකි , එහි “අංග උපුටා ගැනීම” සඳහා සමූහයක් භාවිතා කරනු ලබන අතර එය සමූහයේ තවත් තට්ටුවක් භාවිතා කරනු ඇත. පහත රූපය ( Kaggle Ensembling Guide වෙතින් ) මෙය ක්‍රියාත්මක වන ආකාරය පෙන්වයි.

රූප විස්තරය මෙහි ඇතුළත් කරන්න

පළමු (පහළ) විවිධ වර්ගීකරණ කිහිපයක් පුහුණු කට්ටලය සමඟ පුහුණු කර ඇති අතර, ඒවායේ ප්‍රතිදානයන් (සම්භාවිතාවන්) ඊළඟ ස්ථරය (මැද ස්ථරය) පුහුණු කිරීම සඳහා යොදා ගනී, අවසාන වශයෙන්, දෙවන ස්ථරයේ වර්ගීකරණයේ ප්‍රතිදානයන් (සම්භාවිතාවන්) ඒකාබද්ධ වේ. සාමාන්‍ය (AVG).

වැඩිපුර වලංගු වීම වළක්වා ගැනීම සඳහා හරස් වලංගුකරණය, මිශ්‍ර කිරීම සහ වෙනත් ප්‍රවේශයන් භාවිතා කරන උපාය මාර්ග කිහිපයක් තිබේ. නමුත් සමහර සාමාන්‍ය රීති වන්නේ කුඩා දත්ත කට්ටල සම්බන්ධයෙන් එවැනි ප්‍රවේශයක් වළක්වා විවිධ වර්ගීකරණ භාවිතා කිරීමට උත්සාහ කිරීම නිසා එකිනෙකාට “අනුපූරක” වීමට හැකි වීමයි.

කග්ගල් සහ ටොප් කෝඩර් වැනි යන්ත්‍ර ඉගෙනීමේ තරඟ කිහිපයකම ගොඩගැසීම භාවිතා කර ඇත. යන්ත්‍ර ඉගෙනීමේදී එය අනිවාර්යයෙන්ම දැනගත යුතු දෙයකි.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.