මෙම ක්රම 3 අතර ඇති සමානකම් හා වෙනස්කම් මොනවාද:
- බෑග් කිරීම,
- වැඩි කිරීම,
- ගොඩගැසීම?
හොඳම දේ කුමක්ද? සහ ඇයි?
එක් එක් සඳහා මට උදාහරණයක් දෙන්න පුළුවන්ද?
මෙම ක්රම 3 අතර ඇති සමානකම් හා වෙනස්කම් මොනවාද:
හොඳම දේ කුමක්ද? සහ ඇයි?
එක් එක් සඳහා මට උදාහරණයක් දෙන්න පුළුවන්ද?
Answers:
සියලු තුනක් ඊනියා "පාර-ගණිත ක්රමයක්" වේ: එනම් විචලතාව (අඩු කිරීම සඳහා එක් අනාවැකි ආකෘතිය තුළට යන්ත්රය ඉගෙන ශිල්ප ක්රම කිහිපයක් එකට ප්රවේශයන් නිපදවීමේ ), නැඹුරුව ( ඉහල දැමීම ) හෝ අනාවැකි බලය වැඩි දියුණු කිරීම ( මුසපත්ව හෙවත් ඇඳුමේ ).
සෑම ඇල්ගොරිතමයක්ම පියවර දෙකකින් සමන්විත වේ:
මුල් දත්තවල උප කුලක මත සරල එම්එල් ආකෘති බෙදා හැරීම.
බෙදා හැරීම එක් "සමස්ත" ආකෘතියකට ඒකාබද්ධ කිරීම.
ක්රම තුන පිළිබඳ කෙටි විස්තරයක් මෙන්න:
නිපදවීමේ (සඳහා කි්රයා බී ootstrap Agg regat ing ) භාවිතා කරමින් ඔබගේ මුල් දත්ත සමුදාය සිට පුහුණුව සඳහා අතිරේක දත්ත ජනන ඔබේ අනාවැකිය විචලතාව අඩු කිරීමට ක්රමයක් පුනරාවර්තනය සමග සංයෝජන නිෂ්පාදනය කිරීමට multisets ඔබගේ මුල් දත්ත ලෙස එම මුඛ්යතා / ප්රමාණයේ. ඔබේ පුහුණු කට්ටලයේ ප්රමාණය වැඩි කිරීමෙන් ඔබට ආදර්ශ පුරෝකථන බලය වැඩි දියුණු කළ නොහැක, නමුත් විචලනය අඩු කරන්න, අපේක්ෂිත ප්රති to ලයට අනාවැකි පටු ලෙස සකසන්න.
බූස්ටින් කිරීම යනු පියවර දෙකක ප්රවේශයකි, එහිදී යමෙකු මුලින් ක්රියා කරන ආකෘති මාලාවක් නිෂ්පාදනය කිරීම සඳහා මුල් දත්තවල උප කුලක භාවිතා කරන අතර පසුව විශේෂිත පිරිවැය ශ්රිතයක් (= බහුතර ඡන්දය) භාවිතා කරමින් ඒවා ඒකාබද්ධ කිරීමෙන් ඒවායේ ක්රියාකාරිත්වය වැඩි කරයි. බෑග් කිරීම මෙන් නොව, සම්භාව්ය තල්ලුවෙහි උප කුලක නිර්මාණය අහඹු නොවන අතර එය පෙර මාදිලිවල ක්රියාකාරිත්වය මත රඳා පවතී: සෑම නව උප කුලකයකම පෙර ආකෘති මගින් වැරදි ලෙස වර්ගීකරණය කරන ලද (විය හැකි) මූලද්රව්ය අඩංගු වේ.
ගොඩගැසීම ඉහළ නැංවීමට සමාන ය: ඔබ ඔබේ මුල් දත්ත වලට ආකෘති කිහිපයක් ද යොදවයි . කෙසේ වෙතත් මෙහි ඇති වෙනස නම්, ඔබේ බර ක්රියාකාරිත්වය සඳහා ආනුභවික සූත්රයක් ඔබ සතුව නොමැති වීමයි, ඒ වෙනුවට ඔබ මෙටා මට්ටමක් හඳුන්වා දී බර ගණනය කිරීම සඳහා සෑම ආකෘතියකම ප්රතිදානයන් සමඟ ආදානය තක්සේරු කිරීමට වෙනත් ආකෘතියක් / ප්රවේශයක් භාවිතා කරයි. වෙනත් වචන වලින් කිවහොත්, කුමන ආකෘති හොඳින් ක්රියාත්මක වේද යන්න සහ මෙම ආදාන දත්ත නරක ලෙස ලබා දී ඇත්තේ කුමක්ද යන්න තීරණය කිරීම.
සංසන්දනාත්මක වගුවක් මෙන්න:
ඔබ දකින පරිදි, මේ සියල්ලම වඩා හොඳ එකක් බවට ආකෘති කිහිපයක් ඒකාබද්ධ කිරීම සඳහා වෙනස් ප්රවේශයන් වන අතර මෙහි තනි ජයග්රාහකයෙකු නොමැත: සියල්ල ඔබගේ වසම සහ ඔබ කුමක් කිරීමට යන්නේද යන්න මත රඳා පවතී. ඔබ තවමත් ප්රතිකාර කළ හැක ස්ටැකිං වැඩි අත්තිකාරම් වර්ග කිරීම ලෙස ඉහල දැමීම , කෙසේ වෙතත්, ඔබගේ පාර-මට්ටම සඳහා හොඳ ප්රවේශයක් සොයා ගැනීමේ දුෂ්කර අපහසු ප්රායෝගිකව මෙම ප්රවේශය අයදුම් කිරීමට කරයි.
එක් එක් කෙටි උදාහරණ:
බෑග් කිරීම :
සමාන්තර සමූහය: සෑම ආකෘතියක්ම ස්වාධීනව ගොඩනගා ඇත
නැඹුරුව නොව විචලනය අඩු කිරීම අරමුණු කර ගන්න
ඉහළ විචල්යතාවයකින් යුත් අඩු නැඹුරු ආකෘති (සංකීර්ණ ආකෘති) සඳහා සුදුසු වේ
ගස් පදනම් කරගත් ක්රමයකට උදාහරණයක් ලෙස අහඹු වනාන්තරය වන අතර එය සම්පූර්ණයෙන්ම වැඩුණු ගස් වර්ධනය කරයි (ගස් අතර සහසම්බන්ධය අඩු කිරීම සඳහා RF වැඩුණු ක්රියා පටිපාටිය වෙනස් කරන බව සලකන්න)
වැඩි කිරීම :
අනුක්රමික සමූහය: පෙර මාදිලි නොමැති තැන හොඳින් ගැලපෙන නව මාදිලි එක් කිරීමට උත්සාහ කරන්න
විචලනය නොව පක්ෂග්රාහී බව අඩු කිරීම අරමුණු කරයි
අඩු විචල්යතාවයකින් යුත් ඉහළ නැඹුරු ආකෘති සඳහා සුදුසු වේ
ගස් පදනම් කරගත් ක්රමයකට උදාහරණයක් වන්නේ ශ්රේණිය ඉහළ නැංවීමයි
යුකියන්ගේ පිළිතුර ටිකක් විස්තර කිරීමට. බෑග් කිරීම පිටුපස ඇති අදහස නම්, ඔබ අසමමිතික ප්රතිගාමී ක්රමයක් (සාමාන්යයෙන් ප්රතිගාමී හෝ වර්ගීකරණ ගස්, නමුත් ඕනෑම අසමමිතික ක්රමයක් ගැන විය හැකිය) ඉක්මවා ගිය විට, ඔබ ඉහළ විචල්යතාවයට යාමට නැඹුරු වන අතර නැඹුරුතාවයේ (හෝ අඩු) පක්ෂග්රාහී කොටසක් නොමැත / විචල්යතා වෙළඳාම. මෙයට හේතුව, අධික ලෙස ගැළපෙන ආකෘතියක් ඉතා නම්යශීලී වීමයි (එම ජනගහනයෙන් නැවත ලබා ගත හැකි බොහෝ සාම්පල වලට වඩා අඩු නැඹුරුවක්, ඒවා තිබුනේ නම්) නමුත් ඉහළ විචල්යතාවයක් ඇත (මම නියැදියක් එකතු කර එය අධික ලෙස වියදම් කරන්නේ නම්, ඔබ නියැදියක් එකතු කර එය අධික ලෙස වියදම් කරන්නේ නම්, අපගේ පරාමිතික නොවන ප්රතිගාමී දත්තවල ශබ්දය නිරීක්ෂණය කරන බැවින් ප්රති results ල වෙනස් වේ). අපිට මොනවද කරන්න පුළුවන්? අපට බොහෝ නැවත සකස් කිරීම් (බූට්ස්ට්රැපිං සිට) ගත හැකිය, එක් එක් අධික ලෙස ගැලපීම, සහ ඒවා සාමාන්යය. මෙය එකම නැඹුරුවකට (අඩු) හේතු විය යුතු නමුත් සමහර විචල්යයන් අවලංගු කරන්න,
එහි හදවතේ ශ්රේණිය ඉහළ නැංවීම UNDERFIT අසමමිතික ප්රතිගාමී සමඟ ක්රියා කරයි, ඒවා ඉතා සරල වන අතර එමඟින් දත්තවල සැබෑ සම්බන්ධතාවය විස්තර කිරීමට තරම් නම්යශීලී නොවේ (එනම් පක්ෂග්රාහී) නමුත්, ඒවා සුදුසු බැවින් අඩු විචල්යතාවයක් ඇත (ඔබ නැඹුරු වනු ඇත ඔබ නව දත්ත කට්ටල එකතු කරන්නේ නම් එකම ප්රති result ලය ලබා ගැනීමට). මේ සඳහා ඔබ නිවැරදි කරන්නේ කෙසේද? මූලික වශයෙන්, ඔබ සුදුසු නම්, ඔබේ ආකෘතියේ වාසස්ථානවල තවමත් ප්රයෝජනවත් ව්යුහයක් (ජනගහනය පිළිබඳ තොරතුරු) අඩංගු වේ, එබැවින් ඔබ සතුව ඇති ගස (හෝ අසමමිතික අනාවැකි පළ කරන්නෙකු) ඉතිරිව ඇති ගසක් සමඟ වැඩි කරයි. මෙය මුල් ගසට වඩා නම්යශීලී විය යුතුය. ඔබ නැවත නැවතත් වැඩි වැඩියෙන් ගස් උත්පාදනය කරයි, සෑම පියවරකදීම k-1 පියවරේ සිට අවශේෂයන්ට සවිකර ඇති ගසක් මත පදනම්ව බරින් යුත් ගසක් මගින් වැඩි කරනු ලැබේ. මෙම ගස් වලින් එකක් ප්රශස්ත විය යුතුය, එමනිසා ඔබ එක්කෝ මේ සියලු ගස් එකට බර කිරා බැලීමෙන් හෝ වඩාත්ම සුදුසු යැයි පෙනෙන එකක් තෝරා ගැනීමෙන් අවසන් වේ. මේ අනුව, ශ්රේණියේ තල්ලුව යනු වඩාත් නම්යශීලී අපේක්ෂක ගස් පොකුරක් තැනීමේ ක්රමයකි.
සියලු අසමමිතික ප්රතිගාමී හෝ වර්ගීකරණ ප්රවේශයන් මෙන්, සමහර විට බෑග් කිරීම හෝ ඉහළ නැංවීම විශිෂ්ට ලෙස ක්රියා කරයි, සමහර විට එක් හෝ වෙනත් ප්රවේශයක් මධ්යස්ථ වේ, සමහර විට එක් හෝ වෙනත් ප්රවේශයක් (හෝ දෙකම) බිඳ වැටී දැවී යනු ඇත.
එසේම, මෙම ක්රම දෙකම ගස් හැර වෙනත් ප්රතිගාමී ප්රවේශයන් සඳහා යොදා ගත හැකි නමුත් ඒවා බොහෝ විට ගස් සමඟ සම්බන්ධ වී ඇත, සමහර විට ගැළපුම හෝ අධික ලෙස ගැළපීම වළක්වා ගැනීම සඳහා පරාමිතීන් සැකසීම දුෂ්කර නිසා විය හැකිය.
කෙටි පානදුර හිරණ කිරීම සඳහා, නිපදවීමේ හා ඉහල දැමීම සාමාන්යයෙන් එක් ඇල්ගොරිතමය තුළ, අතර භාවිතා එකමත සාමාන්යයෙන් ඇත්තේ විවිධ ගණිත ක්රමයක් සිට කිහිපයක් ප්රතිඵල සාරාංශ ගත කිරීමට භාවිතා කරයි.
Random Forest
විචලනය ඉවත් කරන අතර අධික ලෙස ගැටළුවක් නොමැති.GBM
සහ XGBoost
, විචලතාව තුරන් නමුත් ප්රශ්නය overfitting ඇති.ගමන් මලු සහ තල්ලුව යන දෙකම සියලු පියවර සඳහා තනි ඉගෙනුම් ඇල්ගොරිතමයක් භාවිතා කරයි; නමුත් ඔවුන් පුහුණු සාම්පල හැසිරවීමේදී විවිධ ක්රම භාවිතා කරයි. දෙකම බහුවිධ මාදිලිවල තීරණ ඒකාබද්ධ කරන
සමෝධානික ඉගෙනුම් ක්රමයකි .
1. එම් උප කුලක (බූට්ස්ට්රැපිං) ලබා ගැනීම සඳහා පුහුණු දත්ත නැවත සකස් කිරීම;
2. එම් දත්ත කට්ටල (විවිධ සාම්පල) මත පදනම්ව එම් වර්ගීකරණ (එකම ඇල්ගොරිතම) පුහුණු කරයි;
3. අවසාන වර්ගීකරනය ඡන්දය දීමෙන් එම් ප්රතිදානයන් ඒකාබද්ධ කරයි;
සාම්පල බර සමානව;
වර්ගීකරණයේ බර සමානව;
අඩු විචලතාව අඩු විසින් දෝෂ
ඉහල දැමීම : මෙහි adaboost ඇල්ගොරිතමය පිළිබඳ අවධානය යොමු
1. ආරම්භ පළමු වටයේ දී සියලු සාම්පල සමාන බර;
2. පහත දැක්වෙන M-1 වටවලදී, අවසාන වටයේ වැරදි ලෙස වර්ගීකරණය කර ඇති සාම්පලවල බර වැඩි කිරීම, අවසාන වටයේ නිවැරදිව වර්ගීකරණය කරන ලද සාම්පලවල බර අඩු කිරීම
3. බර තැබූ ඡන්ද විමසීමක් භාවිතා කරමින් අවසාන වර්ගීකරණයේ පෙර වට වලින් බහු වර්ගීකරණයක් ඒකාබද්ධ කර විශාල බරක් ලබා දෙන්න. අඩු වැරදි වර්ගීකරණයන් සහිත වර්ගීකරණ වෙත.
පියවරෙන් පියවර නැවත බැලීමේ සාම්පල; එක් එක් වටය සඳහා
බර නැවත සකස් කිරීම (බෑග් කිරීම) වෙනුවට අවසාන වටයේ නැවත බර සාම්පලවල (ඉහළ නැංවීමේ) ප්රති results ල මත පදනම්ව .
බෑග් කිරීම
Bootstrap AGGregatING (Bagging) යනු පාදක වර්ගීකරණ පුහුණු කිරීම සඳහා භාවිතා කරන සාම්පලවල වෙනස්කම් භාවිතා කරන සමූහ උත්පාදක ක්රමයකි . සෑම වර්ගීකරණයක්ම ජනනය කිරීම සඳහා, බෑග් කිරීම (පුනරාවර්තනය සමඟ) N ප්රමාණයේ පුහුණු කට්ටලයෙන් N සාම්පල තෝරාගෙන මූලික වර්ගීකරණයක් පුහුණු කරයි. සමූහයේ අපේක්ෂිත ප්රමාණය ළඟා වන තුරු මෙය නැවත නැවතත් සිදු කෙරේ.
බෑග් කිරීම අස්ථායී වර්ගීකරණයක් සමඟ භාවිතා කළ යුතුය, එනම්, තීරණ ගැනීමේ ගස් සහ පර්සෙප්ට්රෝන වැනි පුහුණු කට්ටලයේ වෙනස්කම් වලට සංවේදී වන වර්ගීකරණ.
සසම්භාවී උප අවකාශය යනු සාම්පලවල විචලනයන් වෙනුවට විශේෂාංගවල වෙනස්කම් භාවිතා කරන සිත්ගන්නාසුලු සමාන ප්රවේශයකි, සාමාන්යයෙන් බහු මානයන් හා විරල විශේෂාංග අවකාශයන් සහිත දත්ත කට්ටලවල දැක්වේ.
වැඩි කිරීම
ඉහල දැමීම විසින් ඇඳුමේ ජනනය classifiers එකතු බව "දුෂ්කර සාම්පල" නිවැරදිව වර්ගීකරණය . එක් එක් පුනරාවර්තනය සඳහා, සාම්පලවල බර යාවත්කාලීන කිරීම, එමඟින්, සමූහය විසින් වැරදි ලෙස වර්ගීකරණය කරන ලද සාම්පලවලට වැඩි බරක් තිබිය හැකි අතර, එබැවින් නව වර්ගීකරණ පුහුණුව සඳහා තෝරා ගැනීමේ වැඩි සම්භාවිතාවක් ඇත.
බූස්ටින් කිරීම සිත්ගන්නාසුලු ප්රවේශයක් වන නමුත් ඉතා ශබ්ද සංවේදී වන අතර එය effective ලදායී වන්නේ දුර්වල වර්ගීකරණ භාවිතා කිරීමෙනි. ඇඩබූස්ට්, බ්රවුන්බූස්ට් (…) බූස්ටින් කිරීමේ ක්රමවේදයන්හි වෙනස්කම් කිහිපයක් තිබේ, නිශ්චිත ගැටළු (ශබ්දය, පන්ති අසමතුලිතතාවය…) වළක්වා ගැනීම සඳහා සෑම කෙනෙකුම තමන්ගේම බර යාවත්කාලීන කිරීමේ රීතියක් ඇත.
ගොඩගැසීම
ගොඩගැසීම යනු මෙටා ඉගෙනුම් ප්රවේශයකි , එහි “අංග උපුටා ගැනීම” සඳහා සමූහයක් භාවිතා කරනු ලබන අතර එය සමූහයේ තවත් තට්ටුවක් භාවිතා කරනු ඇත. පහත රූපය ( Kaggle Ensembling Guide වෙතින් ) මෙය ක්රියාත්මක වන ආකාරය පෙන්වයි.
පළමු (පහළ) විවිධ වර්ගීකරණ කිහිපයක් පුහුණු කට්ටලය සමඟ පුහුණු කර ඇති අතර, ඒවායේ ප්රතිදානයන් (සම්භාවිතාවන්) ඊළඟ ස්ථරය (මැද ස්ථරය) පුහුණු කිරීම සඳහා යොදා ගනී, අවසාන වශයෙන්, දෙවන ස්ථරයේ වර්ගීකරණයේ ප්රතිදානයන් (සම්භාවිතාවන්) ඒකාබද්ධ වේ. සාමාන්ය (AVG).
වැඩිපුර වලංගු වීම වළක්වා ගැනීම සඳහා හරස් වලංගුකරණය, මිශ්ර කිරීම සහ වෙනත් ප්රවේශයන් භාවිතා කරන උපාය මාර්ග කිහිපයක් තිබේ. නමුත් සමහර සාමාන්ය රීති වන්නේ කුඩා දත්ත කට්ටල සම්බන්ධයෙන් එවැනි ප්රවේශයක් වළක්වා විවිධ වර්ගීකරණ භාවිතා කිරීමට උත්සාහ කිරීම නිසා එකිනෙකාට “අනුපූරක” වීමට හැකි වීමයි.
කග්ගල් සහ ටොප් කෝඩර් වැනි යන්ත්ර ඉගෙනීමේ තරඟ කිහිපයකම ගොඩගැසීම භාවිතා කර ඇත. යන්ත්ර ඉගෙනීමේදී එය අනිවාර්යයෙන්ම දැනගත යුතු දෙයකි.