හරස් වලංගුකරණයෙන් පසු සම්පූර්ණ දත්ත කට්ටලය සමඟ පුහුණුවීම්?


153

හරස් වලංගුකරණයෙන් පසු සම්පූර්ණ දත්ත කට්ටලය සමඟ පුහුණු කිරීම සැමවිටම හොඳ අදහසක් ද ? එය වෙනත් ආකාරයකින් පවසන්නේ නම් එය සමග පුහුණු කිරීමට හරි සියලු මගේ දත්ත සමුදාය තුළ සාම්පල හා නොවන මෙම විශේෂ සුදුසු නම්, පරීක්ෂා කිරීමට හැකි වීම overfits ?


ගැටලුවේ පසුබිම:

මා විසින් පරාමිතිගත කරන ලද මාදිලි පවුලක් සිටින බව පවසන්නα. මට කට්ටලයක් ඇති බව ද කියන්නඑන් දත්ත ලක්ෂ්‍යයන් සහ දත්ත වඩාත් හොඳින් සාමාන්‍යකරණය කරන ආකෘතිය තෝරා ගැනීම සඳහා මම කේ-ගුණයකින් හරස් වලංගුකරණය සමඟ ආකෘති තෝරා ගැනීම සිදු කරමි.

ආකෘති තේරීම සඳහා, මට සෙවීමක් කළ හැකිය (උදා: ජාලක සෙවුමක්) αඋදාහරණයක් ලෙස, එක් එක් අපේක්ෂකයා සඳහා k- ගුණයකින් හරස් වලංගු කිරීම. හරස් වලංගුකරණයේ එක් එක් ගුණයකින්, මම ඉගෙනගත් ආකෘතියෙන් අවසන් වෙමි βα.

හරස් වලංගු කිරීමේ කාරණය නම්, මෙම සෑම ගුණයකින්ම මට “නොපෙනෙන දත්ත” මත පරීක්ෂා කිරීමෙන් උගත් ආකෘතියට අධික බරක් තිබේදැයි පරීක්ෂා කළ හැකිය. ප්‍රති results ල මත පදනම්ව, මට ආකෘතිය තෝරා ගත හැකියβහොඳ පරාමිතීන් සඳහා ඉගෙන ගත්තා αහොඳ ජාලක සෙවුමේ හරස් වලංගුකරණයේදී වඩාත් සාමාන්‍යකරණය කළ.

දැන්, ඒ කියන්නේ ආදර්ශ තෝරා ගැනීමෙන් පසුව , මම භාවිතා කිරීමට කැමති සියලු වනඑන්මගේ දත්ත කට්ටලයේ ලකුණු කර වඩා හොඳ ආකෘතියක් ඉගෙන ගන්න. මේ සඳහා මට පරාමිතීන් භාවිතා කළ හැකියαබීsටීආකෘති තෝරාගැනීමේදී මා තෝරාගත් ආකෘතියට අනුරූප වන අතර, පසුව සම්පූර්ණ දත්ත කට්ටලය පිළිබඳ පුහුණුවීමෙන් පසුව, මට නව උගත් ආකෘතියක් ලැබෙනු ඇතβfයූll. ගැටළුව වන්නේ, මගේ දත්ත කට්ටලයේ සියලුම කරුණු පුහුණුව සඳහා භාවිතා කරන්නේ නම්, මෙම නව උගත් ආකෘතිය මට පරීක්ෂා කළ නොහැක βfයූll නොපෙනෙන ඕනෑම දත්තයකට අධික ලෙස ගැලපේ . මෙම ගැටලුව වටා සිතීමට නිවැරදි ක්‍රමය කුමක්ද?


3
හරියටම හරියටම අනුපිටපතක්: වටිනා පිළිතුරු සහිත stats.stackexchange.com/questions/52274 . සමහර විට මෙම කෙඳි ඒකාබද්ධ කළ යුතු නමුත් කුමන දිශාවටදැයි මට විශ්වාස නැත. දෙදෙනාම ඉතා හොඳ පිළිතුරු පිළිගෙන ඇත.
ඇමීබා

Answers:


118

හරස් වලංගුකරණය ගැන සිතිය හැකි ක්‍රමය වන්නේ ආකෘතියක ක්‍රියාකාරිත්වය තක්සේරු කිරීම වෙනුවට ආකෘතියක් තැනීම සඳහා ක්‍රමවේදයක් භාවිතා කර ලබාගත් කාර්යසාධනය තක්සේරු කිරීමයි.

ආකෘතියක අධි පරාමිතීන් තක්සේරු කිරීමට ඔබ හරස් වලංගුකරණය භාවිතා කරන්නේ නම් (ද αs) ඉන්පසු සමස්ත දත්ත කට්ටලයටම ආකෘතියක් ගැලපෙන පරිදි එම අධි-පරාමිතීන් භාවිතා කරන්න, එවිට එය හොඳයි, කාර්ය සාධනය පිළිබඳ හරස් වලංගු කිරීමේ ඇස්තමේන්තුව (සමහර විට සැලකිය යුතු ලෙස) සුභවාදීව පක්ෂග්‍රාහී විය හැකි බව ඔබ හඳුනාගෙන තිබේ නම්. මෙයට හේතුව හරස් වලංගු කිරීමේ කාර්ය සාධනය අවම කිරීම සඳහා ආකෘතියේ කොටසක් (අධි-පරාමිතීන්) තෝරාගෙන ඇති නිසා හරස් වලංගු කිරීමේ සංඛ්‍යාලේඛන ශුන්‍ය නොවන විචල්‍යතාවයක් තිබේ නම් (එය එසේ වනු ඇත) අධික ලෙස ගැලපීමේ හැකියාව ඇත ආකෘති තේරීමේ නිර්ණායකය.

ඔබට අධි-පරාමිතීන් තෝරා ගැනීමට සහ එහි ප්‍රති model ලයක් ලෙස ඇති ආකෘතියේ ක්‍රියාකාරිත්වය තක්සේරු කිරීමට අවශ්‍ය නම්, ඔබ කැදැලි හරස් වලංගුකරණයක් සිදු කළ යුතු අතර, එහිදී පිටත හරස් වලංගුකරණය ආකෘතියේ ක්‍රියාකාරිත්වය තක්සේරු කිරීමට භාවිතා කරයි, සහ එක් එක් ගුණයකින් හරස්- එක් එක් ගුණයකින් හයිපර් පරාමිතීන් වෙන වෙනම තීරණය කිරීම සඳහා වලංගුකරණය භාවිතා කරයි. හයිපර්-පරාමිතීන් තෝරා ගැනීම සඳහා සමස්ත කට්ටලයේම හරස් වලංගුකරණයක් භාවිතා කිරීමෙන් ඔබ අවසාන ආකෘතිය ගොඩනඟා, පසුව ප්‍රශස්තකරණය කළ අධි-පරාමිතීන් භාවිතා කරමින් සමස්ත දත්ත කට්ටලයේ වර්ගීකරණයක් සාදන්න.

මෙය ඇත්ත වශයෙන්ම පරිගණකමය වශයෙන් මිල අධික වන නමුත් නුසුදුසු කාර්ය සාධන ඇස්තමේන්තු මගින් හඳුන්වා දුන් නැඹුරුව විශාල විය හැකි බැවින් එය වටී. මගේ කඩදාසි බලන්න

ජී.සී. කැව්ලි සහ එන්එල්සී ටෝල්බට්, ආකෘති තෝරාගැනීමේදී වැඩිපුර ගැලපීම සහ කාර්ය සාධනය ඇගයීමේ දී තෝරා ගැනීමේ නැඹුරුව, යන්ත්‍ර ඉගෙනුම් පර්යේෂණ සඟරාව, 2010. පර්යේෂණ, වෙළුම. 11, පි. 2079-2107, 2010 ජූලි මස ( www , pdf )

කෙසේ වෙතත්, ආකෘති තෝරාගැනීමේදී වැඩිපුර ගැළපීම තවමත් කළ හැකිය (කැදැලි හරස් වලංගුකරණය මඟින් ඔබට එය පරීක්ෂා කිරීමට ඉඩ ලබා දේ). මට ප්‍රයෝජනවත් වූ ක්‍රමයක් නම්, අධික ලෙස සංකීර්ණ ආකෘතීන්ට හේතු විය හැකි අධි-පරාමිති අගයන්ට ද penal ුවම් කරන හරස් වලංගු කිරීමේ දෝෂයට නියාමනය කිරීමේ යෙදුමක් එකතු කිරීමයි, බලන්න

GC Cawley හා එන්එල්සී ටැල්බට් අති-පරාමිතීන් Bayesian විධිමත් හරහා ආදර්ශ තෝරා ගැනීමේ දී පුරා සවි වැලැක්වීම, යන්ත ඉගෙනුම් පර්යේෂණ ජර්නල්, පරිමාව 8, 841-861 පිටු, 2007 අප්රේල් මස ( www , pdf )

එබැවින් ඔබේ ප්‍රශ්නයට පිළිතුරු වනුයේ (i) ඔව්, ඔබ සම්පූර්ණ දත්ත කට්ටලය භාවිතා කර ඔබේ අවසාන ආකෘතිය නිපදවීමට වැඩි දත්ත ප්‍රමාණයක් භාවිතා කරන බැවින් එය සාමාන්‍යකරණය කිරීමට වැඩි ඉඩක් ඇති නමුත් (ii) ඔබ අපක්ෂපාතී කාර්ය සාධන ඇස්තමේන්තුවක් ලබා ගැනීමට වග බලා ගන්න. ආකෘති තෝරාගැනීමේදී වැඩිපුර ගැළපීම වළක්වා ගැනීම සඳහා හරස් වලංගු කිරීමේ සංඛ්‍යාලේඛනවලට ද izing ුවම් කිරීම සලකා බැලිය හැකිය.


3
+1: ප්‍රශ්නයට පිළිතුරු සපයයි: “ඔබ ආකෘතියක අධි පරාමිතීන් (αs) තක්සේරු කිරීමට හරස් වලංගුකරණයක් භාවිතා කර මුළු දත්ත කට්ටලයටම ආකෘතියක් ගැලපෙන පරිදි එම අධි-පරාමිතීන් භාවිතා කරන්නේ නම් එය හොඳයි…”
නීල් ජී

4
ou සවුෆනොම්, නැත, ආකෘතිය පිළිබඳ තේරීම් කිරීමට “ආරම්භක අත්හදා බැලීම්” භාවිතා කිරීම අධික ලෙස ගැළපීමට හේතු විය හැකි අතර නිසැකවම පාහේ කාර්ය සාධන විශ්ලේෂණයට සුභවාදී නැඹුරුවක් හඳුන්වා දෙනු ඇත. කාර්ය සාධන විශ්ලේෂණය සඳහා භාවිතා කරන හරස් වලංගුකරණය එක් එක් ගුණයකින් ස්වාධීනව ආකෘතිය සවි කිරීම සඳහා භාවිතා කරන සෑම පියවරක්ම පුනරාවර්තනය කළ යුතුය. මගේ කඩදාසි වල අත්හදා බැලීම්වලින් පෙනී යන්නේ කර්නල් ආකෘති මේ ආකාරයේ නැඹුරුවකට ඉතා සංවේදී විය හැකි බැවින් ආකෘති තෝරා ගැනීම සහ කාර්ය සාධනය ඇගයීම හැකි සෑම දෘඩතාවයකින්ම සිදු කිරීම අත්‍යවශ්‍ය බවයි.
දික්රාන් අඟහරු

3
එස්.වී.එම් වැනි කර්නල් ක්‍රම සඳහා, බොහෝ විට පරිගණකමය වියදමකින් තොරව නිවාඩු-එක්-පිටත හරස් වලංගු කිරීමක් කළ හැකිය (මගේ පිළිතුරේ ලැයිස්තුගත කර ඇති ලිපි බලන්න). කාර්ය සාධනය ඇගයීම සඳහා k- ගුණයක හරස් වලංගුකරණයෙහි කූඩු කර ඇති අධි-පරාමිතීන් සුසර කිරීම සඳහා මම මෙම “අතථ්‍ය” නිවාඩු-එක්-පිටත හරස් වලංගුකරණය භාවිතා කරමි. එවිට පිරිවැය තරමක් සාධාරණ ය. අධි-පරාමිතීන් සුසර කිරීම මගින් කාර්ය සාධනය ඇගයීම ඕනෑම ආකාරයකින් පක්ෂග්‍රාහී වන ඕනෑම ක්‍රියා පටිපාටියක් භාවිතා කිරීම පිළිගත නොහැකිය. විශ්වසනීය ඇස්තමේන්තුවක් ලබා ගැනීම සඳහා පරිගණක වියදම වටී.
ඩික්රාන් අඟහරු

2
IkDikranMarsupial. ඔබේ පිළිතුරේ තුන්වන ඡේදය මට එතරම් ලැබෙන්නේ නැත. මම කැදැලි හරස් වලංගු කිරීමක් කළහොත්, පිටත සීවී එකේ සෑම ගුණයකටම වෙනස් හයිපර් පරාමිති කට්ටලයක් මට ලැබෙනු ඇත (එනම්, අභ්‍යන්තර සීවී එක පරාමිති ජාලයක් මත ධාවනය කිරීමෙන් මට එක් අධි පරාමිති කට්ටලයක් ලැබේ ). එසේනම් හොඳම හයිපර් පරාමිති කට්ටලය තෝරා ගන්නේ කෙසේද?
ඇමීලියෝ වස්කස්-රීනා

1
හරස් වලංගුකරණය යනු අත්‍යාවශ්‍යයෙන්ම ආකෘතියට ගැලපෙන ක්‍රමවේදයක ක්‍රියාකාරිත්වය තක්සේරු කිරීමේ මාධ්‍යයකි . එබැවින් කාර්ය සාධන ඇස්තමේන්තුව ලබා ගැනීම සඳහා කැදැලි හරස් වලංගුකරණය සිදු කිරීමෙන් පසු, ඔබ හරස් වලංගු කර ඇති ක්‍රියා පටිපාටිය භාවිතා කරමින් සම්පූර්ණ දත්ත කට්ටලය භාවිතා කරමින් අවසාන ආකෘතිය නැවත ගොඩනඟන්න (එයට අධි-පරාමිතීන් තෝරා ගැනීම ද ඇතුළත් වේ).
දික්රාන් අඟහරු

25

@ Mark999 මගින් පිළිතුරට එකතු කිරීම සඳහා, මැක්ස් කුන් ගේ caretපැකේජය (වර්ගීකරණය සහ ප්‍රතිගාමී පුහුණුව) යනු බූට්ස්ට්‍රැප් හරස් වලංගුකරණය හෝ එන්-ෆෝල්ඩ් සීවී සහ වෙනත් යෝජනා ක්‍රම මත පදනම්ව ආකෘති තෝරා ගැනීම සඳහා R හි වඩාත් පුළුල් ප්‍රභවයයි.

rmsපැකේජයේ ශ්‍රේෂ් ness ත්වය නොසලකා හැරීමට නොව caret, R හි ඇති සෑම ඉගෙනුම් ක්‍රමයක්ම ගැලපීමට ඔබට ඉඩ සලසයි, නමුත් validateක්‍රියා කරන්නේ rmsක්‍රම සමඟ පමණි (මම හිතන්නේ).

මෙම caretපැකේජය ක්රියාවලිය දත්ත පූර්ව තනි යටිතල පහසුකම්, සුදුසු හා කවර හෝ මහජන ආදර්ශ ඇගයීමට, ඒ නිසා ඒ සියල්ල ක්රම සඳහා භාවිතා කිරීමට, සරල වන අතර, බොහෝ කාර්ය සාධනය පියවර චිත්රක තක්සේරු (මෙම overfit ගැටලුව ඉදිරි සැලකිය යුතු ලෙස ආදර්ශ තෝරා බලපෑම් විය හැකි දෙයක් සපයයි හොඳයි) ඔබේ ජාලයට හා විචල්‍ය වැදගත්කමට වඩා.

ආරම්භ කිරීම සඳහා මෙම පැකේජය vignettes බලන්න (එය භාවිතා කිරීම ඉතා සරල ය)
දත්ත Preprocessing
බැධී සමග විචල්ය තේරීම්
බැධී ආදර්ශ ගොඩනැගිල්ල
විචල්ය වැදගත්කම

පැකේජය පිළිබඳ වැඩි විස්තර සහ නිශ්චිත ක්‍රියාත්මක කිරීමේ උදාහරණ සඳහා ඔබට කැරට් වෙබ් අඩවිය නැරඹිය හැකිය:
Offical caret වෙබ් අඩවිය


ස්තූතියි. ආකෘති තෝරාගැනීමෙන් පසු (ඇමතීමෙන් සිදු කරනු ලැබේ train), සම්පූර්ණ දත්ත කට්ටලය සමඟ පුහුණු කිරීමට භාරකාර ක්‍රමයක් තිබේදැයි ඔබ දන්නවාද ?
ඇමීලියෝ වස්කස්-රීනා

එය හොඳ අදහසක් ද නැතිනම් ඔබට එය අවශ්‍ය වන්නේ මන්දැයි නිශ්චිතවම කිව නොහැක, නමුත් ඔබට දුම්රියෙන් ආපසු එන අවසාන ආකෘතිය සම්පූර්ණ දත්ත කට්ටලයට ගැලපේ.
මෝමෝ

16

හරස් වලංගුකරණයට වඩා බූට්ස්ට්‍රැප් වලංගු කිරීම ෆ්‍රෑන්ක් හැරල් විසින් නිර්දේශ කරනු ඇතැයි මම විශ්වාස කරමි. බූට්ස්ට්‍රැප් වලංගුකරණය මඟින් සම්පූර්ණ දත්ත කට්ටලයේ සවිකර ඇති ආකෘතිය වලංගු කිරීමට ඔබට ඉඩ සලසයි, එය හරස් වලංගුකරණයට වඩා ස්ථායී වේ. validateහැරල්ගේ rmsපැකේජය භාවිතයෙන් ඔබට එය R වලින් කළ හැකිය .

වැඩි විස්තර සඳහා හැරල් විසින් රචිත "ප්‍රතිගාමී ආකෘති නිර්මාණ උපාය මාර්ග" සහ / හෝ "බූට්ස්ට්‍රැප් සඳහා හැඳින්වීමක්" පොත බලන්න.


10
"නරක සීවී" පිළිබඳ මීළඟ මිථ්‍යාව මඟ හැරීම සඳහා, මෙය පාරිභාෂිත ගැටළුවක් - හැරල්ගේ "හරස් වලංගුකරණය" යන්නෙන් අදහස් කරන්නේ එන්-ෆෝල්ඩ් සීවී සහ "බූට්ස්ට්‍රැප් වලංගුකරණය" යන්නෙන් සීවී නැවත සකස් කිරීම ය. නිසැකවම මම එකඟ වන්නේ මෙම දෙවන රසය වඩාත් ස්ථායී හා සමස්තයක් වශයෙන් වඩා හොඳ බවය, නමුත් මෙයද හරස් වලංගු කිරීමකි.

1
mark999 හෝ @mbq, සම්පූර්ණ දත්ත කට්ටලයේ සවිකර ඇති ආකෘතියක් වලංගු කිරීමට බූට්ස්ට්‍රැප් කෙනෙකුට ඉඩ දෙන්නේ කෙසේද යන්න විස්තර කිරීමට ඔබ කැමතිද?
ඇමීලියෝ වස්කස්-රීනා

1
@ user27915816 හොඳයි, ප්‍රතිපත්තිමය වශයෙන් කෙසේ වෙතත්; හරස් වලංගුකරණය පිටුපස ඇති අදහස නම්, ලබා දී ඇති පුහුණු ක්‍රමය අවසාන ආකෘතියට බෙහෙවින් සමාන කට්ටලයක විශ්වාසදායක ලෙස හොඳ ආකෘති සාදන්නේද යන්න ඔබ පරීක්‍ෂා කිරීම සහ එසේ නම්, අමුතු කිසිවක් සිදු නොවනු ඇතැයි නිහ silent උපකල්පන සහිතව මෙම නිරීක්‍ෂණය සම්පූර්ණ කට්ටලයට සාමාන්‍යකරණය කරන්න. ඔබ භාවිතා කළ CV ක්‍රමය කෙසේ හෝ පක්ෂග්‍රාහී නොවේ. මෙය ඇත්ත වශයෙන්ම සෑම විටම පාහේ හොඳ මට්ටමක පවතී, නමුත් ඔබ සතුව ඇති සියලුම දත්ත මත ගොඩනගා ඇති ආකෘතිය අධික ලෙස නොගැලපෙන බව ඔබට කිසි විටෙකත් සහතික විය නොහැක.

14

මම හිතන්නේ ඔබට මෙහි විවිධ ප්‍රශ්න රාශියක් ඇත:

ගැටලුව වන්නේ, මගේ දත්ත කට්ටලයේ ඇති සියලුම කරුණු පුහුණුව සඳහා භාවිතා කරන්නේ නම්, මෙම නව උගත් ආකෘතිය βfull overfits දැයි මට පරීක්ෂා කළ නොහැක!

කාරණය නම්, ඔබට එක් දෙයක් සඳහා පමණක් (එක්) වලංගු කිරීමේ පියවරක් භාවිතා කළ හැකිය: පරාමිති ප්‍රශස්තිකරණය සඳහා, (x) හෝ සාමාන්‍යකරණ කාර්ය සාධනය තක්සේරු කිරීම සඳහා.

එබැවින්, ඔබ හරස් වලංගුකරණයෙන් පරාමිති ප්‍රශස්තිකරණය කරන්නේ නම් (හෝ වෙනත් ආකාරයක දත්ත පදනම් කරගත් පරාමිති නිර්ණය), ඔබට එම පුහුණු හා ප්‍රශස්තිකරණ සාම්පල වලින් ස්වාධීන වන පරීක්ෂණ සාම්පල අවශ්‍ය වේ. ඩික්රාන් එය කැදැලි හරස් වලංගුකරණය ලෙස හඳුන්වයි, තවත් නමක් ද්විත්ව හරස් වලංගුකරණයකි. නැතහොත්, ඇත්ත වශයෙන්ම, ස්වාධීන පරීක්ෂණ කට්ටලයක්.

ඉතින් මෙම තනතුර සඳහා වන ප්‍රශ්නය මෙන්න: k- ගුණයකින් හරස් වලංගු කිරීමෙන් පසුව සම්පූර්ණ දත්ත කට්ටලය සමඟ පුහුණු කිරීම හොඳ අදහසක් ද? එබෙස්ට් සඳහා හරස් වලංගු කිරීමේ භේදයකින් ඉගෙන ගත් එක් ආකෘතියක් සමඟ බැඳී සිටීම වඩා හොඳ ද?

හරස් වලංගු කිරීමේ මාදිලි වලින් එකක් භාවිතා කිරීම සාමාන්‍යයෙන් සම්පූර්ණ කට්ටලය පිළිබඳ පුහුණුවට වඩා නරක ය (අවම වශයෙන් ඔබේ ඉගෙනීමේ වක්‍රයේ ක්‍රියාකාරිත්වය = f (නියැදි) තවමත් වැඩිවෙමින් පවතී නම්. ප්‍රායෝගිකව එය එසේ ය: එසේ නොවේ නම්, ඔබ බොහෝ විට සකසා ඇත ස්වාධීන පරීක්ෂණ කට්ටලයක් පසෙකට දමන්න.)

හරස් වලංගු කිරීමේ ආකෘති (එකම පරාමිතීන් සහිත) අතර විශාල විචල්‍යතාවයක් ඔබ නිරීක්ෂණය කරන්නේ නම්, එවිට ඔබේ ආකෘති අස්ථායී වේ. එවැනි අවස්ථාවකදී, ආකෘති සමුච්චය කිරීම සමස්ත දත්ත පිළිබඳව පුහුණු කරන ලද එක් ආකෘතියක් භාවිතා කිරීමට වඩා හොඳ විය හැකිය .

යාවත්කාලීන කිරීම: මෙම ඒකරාශි පිටුපස අදහසක් නිපදවීමේ වෙනුවට (හරස් වලංගු) තොරව වෙනුවට ආදේශ (bootstrap / යල්-, bootstrap වලංගු) සමග resampling කිරීමට resampling ඉල්ලුම් කළා.

මෙන්න අපි මෙම තාක්ෂණය භාවිතා කළ කඩදාසි:
බෙලයිට්ස්, සී.
DOI: 10.1007 / s00216-007-1818-6

සමහර විට වඩාත්ම වැදගත් දෙය නම්, මගේ දත්ත කට්ටලයේ ඇති සියලුම කරුණු සමඟ පුහුණු වී අධික ලෙස ආහාර ගැනීම සමඟ සටන් කරන්නේ කෙසේද?

“හොඳම” ආකෘතිය සඳහා ඉඩ දී ඇති නිදහසේ උපාධි සමඟ ඉතා ගතානුගතික වීමෙන්, එනම් ප්‍රශස්තිකරණ හරස් වලංගු කිරීමේ ප්‍රති .ල පිළිබඳ (අහඹු) අවිනිශ්චිතතාව සැලකිල්ලට ගැනීමෙන්. හරස් වලංගු කිරීමේ ආකෘති සඳහා ඩීඑෆ් ඇත්ත වශයෙන්ම සුදුසු නම්, විශාල පුහුණු කට්ටලයක් සඳහා ඒවා වැඩි නොවීම හොඳය . අවාසිය නම් පරාමිති ප්‍රශස්තිකරණය ඇත්ත වශයෙන්ම බහු පරීක්ෂණ වේ. අහම්බෙන් හොඳ පෙනුමක් ඇති පරාමිති කට්ටල වලින් ඔබ ආරක්ෂා විය යුතුය.


...If you observe a large variation between the cross validation models (with the same parameters), then your models are unstable. In that case, aggregating the models can help...ඔබට මෙය තව ටිකක් පැහැදිලි කළ හැකිද? උදා: මම 10-k හරස් වලංගු කළ සැකසුමක ලොජිස්ටික් රෙග්‍රේෂන් ධාවනය කර සංගුණක කට්ටල 10 කින් අවසන් කරන්නේ නම්, අවසාන ආකෘතියක් සැකසීම සඳහා සංගුණක ඇස්තමේන්තු එකතු කිරීම ඔබ නිර්දේශ කරනවාද? එසේ නම්, මෙය කළ හැක්කේ කෙසේද?
ෂුබාර්බ්

ඔබට විස්තර කළ හැකිය If the d.f. are actually appropriate for the cross validation models. මගේ අවබෝධය අනුව ඔබ තර්ක කරන්නේ සම්පූර්ණ දත්ත කට්ටලය සමඟ සසඳන විට දුම්රිය / වලංගු කිරීමේ කට්ටල ඉතා විශාල නොවන බවයි, මම හරිද?
jpcgandre

1
@jpcgandre: වැඩිදුර භාවිතය සඳහා අන්වාදේශ ආකෘතිවලින් එකක් තෝරා ගැනීම ඇත්ත වශයෙන්ම දත්ත පදනම් කරගත් ආකෘති තේරීමක් වන අතර එයින් අදහස් කරන්නේ ඔබට බාහිර ස්වාධීන මට්ටමේ වලංගු භාවයක් අවශ්‍ය බවයි. පොදුවේ ගත් කල, ඔබට ප්‍රමාණවත් අවස්ථා නොමැති නම්, ඔබට ඇත්ත වශයෙන්ම පරීක්ෂණයේ පදනම මත සංඛ්‍යානමය වශයෙන් අර්ථවත් ආකෘති සැසඳීම් කළ හැකිය1k මුළු නියැදි ප්‍රමාණයෙන්, IMHO ඔබ තෝරා නොගත යුතුය.
එස්එක්ස්

1
වැදගත්ම දෙය: නැවත සැකසූ හරස් වලංගු කිරීමේ අන්‍යාගමික ආකෘති එකම අධි පරාමිතීන් බෙදා ගනී. එනම්, ඔබ වැදගත් යැයි සිතන සෑම දෙයකටම ඒවා සමාන වන නමුත් අත්තනෝමතික ලෙස පුහුණු හා පරීක්ෂණ අවස්ථා තෝරා ගැනීම. “හොඳ” ආකෘතියක් තෝරා ගැනීම ඇත්ත වශයෙන්ම මූලික වශයෙන් හොඳ පරීක්ෂණ / පුහුණු කට්ටල සංයෝජනයක් තෝරා ගත යුතුය - එය මූලික වශයෙන් අපට සාමාන්‍යයෙන් අවශ්‍ය නොවන දෙයකි : අපට හොඳ තේරීමක් අවශ්‍ය වන්නේ හොඳින් සාමාන්‍යකරණය වන අතර එමඟින් වාසිදායක අවස්ථා සඳහා පමණක් නොවේ. මෙම දෘෂ්ටි කෝණයෙන් බලන කල, “සාමාන්‍ය” හරස් වලංගුකරණයකින් අන්වාදේශ ආකෘතියක් තෝරා ගැනීම මට තේරුමක් නැත.
එස්එක්ස්

1
pjpcgandre: (df) පුහුණුව සඳහා සුදුසු ආදර්ශ සංකීර්ණතාවයක් තෝරා ගැනීම මම තර්ක කරමි 1-1kදත්ත කට්ටලයේ (සමස්ත දත්ත කට්ටලය තරම්ම විශාල යැයි මම තර්ක කරමි), සමස්ත දත්ත කට්ටලයම පුහුණු කිරීම සඳහා තරමක් සීමිත ආකෘති කෙරෙහි ඔබ නැඹුරු විය හැකිය. කෙසේ වෙතත්, මෙය ප්‍රායෝගිකව වැදගත් යැයි මම නොසිතමි, මගේ ක්ෂේත්‍රය පිළිබඳ මගේ හැඟීම වැඩි වන තරමට අපි සංකීර්ණ ආකෘතීන් වෙත වැරදියට නැඹුරු වෙමු.
cbeleites SX

6

ඔබ කරන්නේ හරස් වලංගු කිරීමක් නොවේ, ඒ වෙනුවට යම් ආකාරයක ස්ථිතික ප්‍රශස්තිකරණයකි.

CV හි අදහස නම්, නොපෙනෙන දත්තවල කාර්ය සාධනය අනුකරණය කිරීම, වස්තු උප කුලකයක් මත ආකෘතිය ගොඩනැගීම සහ ඉතිරි ඒවා පරීක්ෂා කිරීම. සෑම වටයකම තරමක් සාමාන්‍ය ප්‍රති results ල වනුයේ සමස්ත කට්ටලයම පුහුණු කරන ලද ආකෘතියක ක්‍රියාකාරිත්වය ආසන්න කිරීමයි .

ඔබේ ආකෘති තෝරාගැනීමේදී, ඔබ එක් එක් පරාමිති කට්ටලයක් සඳහා සම්පූර්ණ සීවී එකක් සිදු කළ යුතු අතර, එමඟින් එක් එක් සැකසුම සඳහා පූර්ණ-ක්‍රියාකාරී කාර්ය සාධන දළ විශ්ලේෂණයක් ලබා ගත යුතුය, එබැවින් ඔබට අවශ්‍ය දේ පෙනේ.

කෙසේ වෙතත්, හොඳම ඇස්තමේන්තුගත නිරවද්‍යතාව සහිත ආකෘතිය ඇත්ත වශයෙන්ම හොඳම වනු ඇති බවට කිසිසේත් සහතික නොවන බව සලකන්න - පරාමිති අවකාශයේ යම් පරාසයක් පවතින බව බැලීමට ඔබට සම්පූර්ණ ආකෘති තේරීමේ ක්‍රියා පටිපාටිය හරස්-වලංගු කළ හැකිය. ආකෘති නිරවද්‍යතාව සැලකිය යුතු නොවේ.


2
ස්තූතියි @mbq, නමුත් මම අනුගමනය කරන බව මට විශ්වාස නැත. මම කරන්න යන hyperparameter අවකාශයේ මගේ විදුලිබල පද්ධතියට සෝදිසි එක් එක් අවස්ථාවක අගය සඳහා N-ගුණයකින් හරස් වලංගු. එන්-ෆෝල්ඩ්ස් වල සාමාන්‍ය ප්‍රති result ලය ඔබ සඳහන් කළ දළ විශ්ලේෂණය මට ලබා දෙයි, මා භාවිතා කරන්නේ මාදිලි සංසන්දනය කිරීමට සහ ආකෘති තෝරාගැනීමෙන් මාදිලි තෝරාගැනීමෙන් වලංගු කිරීමේ කට්ටලයට වඩාත්ම ගැලපේ. මගේ ප්‍රශ්නය වන්නේ මම සම්පූර්ණ දත්ත කට්ටලය සමඟ පුහුණු කරන විට කුමක් සිදුවේද යන්නයි. මම හිතන්නේ උගත් ආකෘතිය වෙනස් වේ (දβඋගත් ආකෘතියේ පරාමිතීන් වෙනස් වේ), සහ ප්‍රතිපත්තිමය වශයෙන් මා අධික ලෙස ආහාර ගැනීමෙන් පීඩා විඳින්නේ දැයි දැන ගැනීමට මට හැකියාවක් නැත.
Amelio Vazquez-Reina

MAmV එසේ නම්, හරි - මා ලියා ඇති පරිදි, සීවී දැනටමත් සම්පූර්ණ සැකසුමක් පරීක්ෂා කර ඇත, ඔබට නව දත්ත නොමැතිව වැඩි යමක් පැවසිය නොහැක. නැවතත්, ඔබට බොහෝ විට කැදැලි සීවී එකක් කළ හැකිය, ආකෘති තේරීම විසින්ම අධික ලෙස ගැළපීමක් සිදු නොවන්නේද යන්න (තේරීම ඉතා හොඳ දියුණුවක් ලබා දෙන්නේ නම් හෝ දත්ත is ෝෂාකාරී නම් මෙය අවදානම තරමක් විශාලය).
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.