පරීක්ෂණ කට්ටලය සහ වලංගු කිරීමේ කට්ටලය අතර වෙනස කුමක්ද?


452

මම මැට්ලැබ් හි ස්නායුක ජාල මෙවලම් පෙට්ටිය භාවිතා කරන විට මෙය ව්‍යාකූල විය.
එය අමු දත්ත කොටස් තුනකට බෙදා ඇත:

  1. පුහුණු කට්ටලය
  2. වලංගු කිරීමේ කට්ටලය
  3. පරීක්ෂණ කට්ටලය

බොහෝ පුහුණු හෝ ඉගෙනුම් ඇල්ගොරිතම වල මම දකිමි, දත්ත බොහෝ විට කොටස් 2 කට බෙදා ඇත, පුහුණු කට්ටලය සහ පරීක්ෂණ කට්ටලය.

මගේ ප්‍රශ්න:

  1. වලංගු කිරීමේ කට්ටලය සහ පරීක්ෂණ කට්ටලය අතර වෙනස කුමක්ද?
  2. වලංගු කිරීමේ කට්ටලය ස්නායුක ජාලයට සැබවින්ම විශේෂිතද? නැතහොත් එය විකල්පයකි.
  3. තවදුරටත් ඉදිරියට යාමට, යන්ත්‍ර ඉගෙනීමේ සන්දර්භය තුළ වලංගු කිරීම සහ පරීක්ෂා කිරීම අතර වෙනසක් තිබේද?

58
සංඛ්‍යානමය ඉගෙනුම් මූලද්‍රව්‍ය 222 වන පොතේ ප්‍රශ්නයට පිළිතුරු සපයයි. වලංගුකරණ කට්ටලය ආදර්ශ තෝරා ගැනීම සඳහා භාවිතා කරයි, අවසාන ආකෘතිය සඳහා පරීක්ෂණ කට්ටලය (තේරීමේ ක්‍රියාවලිය මඟින් තෝරාගත් ආකෘතිය) පුරෝකථන දෝෂයකි.
mpiktas

ආදර්ශ ඇගයීම සහ තේරීම යන පරිච්ඡේදයට ඔබ යොමු කරන්නේද?
සෙල්ඩෝර්

2
ඔව්. පිටු අංකය 5 වන මුද්‍රණ සංස්කරණයෙන් විය.
mpiktas

13
@mpiktas ක්‍රියාත්මකයි. ඇත්ත පා text ය මෙන්න:The training set is used to fit the models; the validation set is used to estimate prediction error for model selection; the test set is used for assessment of the generalization error of the final chosen model. Ideally, the test set should be kept in a “vault,” and be brought out only at the end of the data analysis.
අරුන්

Answers:


266

සාමාන්‍යයෙන් අධීක්ෂණය කළ ඉගෙනීම සිදු කිරීම සඳහා, ඔබට දත්ත කට්ටල වර්ග දෙකක් අවශ්‍ය වේ:

  1. එක් දත්ත කට්ටලයක (ඔබේ "රන් ප්‍රමිතිය"), ඔබට ආදාන දත්ත නිවැරදි / අපේක්ෂිත ප්‍රතිදානය සමඟ ඇත; මෙම දත්ත කට්ටලය සාමාන්‍යයෙන් නිසි පරිදි සකස් කරනු ලබන්නේ මිනිසුන් විසින් හෝ අර්ධ ස්වයංක්‍රීය ආකාරයකින් දත්ත රැස් කිරීමෙනි. නමුත් මෙහි ඇති සෑම දත්ත පේළියක් සඳහාම අපේක්ෂිත ප්‍රතිදානය ඔබ සතුව තිබිය යුතුය.

  2. ඔබ ඔබේ ආකෘතිය අදාළ කිරීමට යන දත්ත. බොහෝ අවස්ථාවන්හීදී, ඔබේ ආකෘතියේ ප්‍රතිදානය ගැන ඔබ උනන්දු වන දත්ත මෙය වන අතර එමඟින් ඔබට තවමත් මෙහි “අපේක්ෂිත” ප්‍රතිදානයක් නොමැත.

යන්ත්‍ර ඉගෙනීම අතරතුර, ඔබ පහත සඳහන් දේ කරයි:

  1. පුහුණු අදියර: අපේක්ෂිත ප්‍රතිදානය සමඟ ආදානය යුගලනය කිරීමෙන් ඔබ ඔබේ දත්ත “රන් ප්‍රමිතියෙන්” ඉදිරිපත් කර ඔබේ ආකෘතිය පුහුණු කරන්න.
  2. වලංගුකරණය / පරීක්ෂණ අදියර: ඔබේ ආකෘතිය කොතරම් හොඳින් පුහුණු කර ඇත්දැයි තක්සේරු කිරීම සඳහා (එය ඔබගේ දත්තවල ප්‍රමාණය, ඔබ පුරෝකථනය කිරීමට කැමති වටිනාකම, ආදානය යනාදිය මත රඳා පවතී) සහ ආකෘති ගුණාංග තක්සේරු කිරීම සඳහා (සංඛ්‍යාත්මක අනාවැකි කියන්නන් සඳහා මධ්‍යන්‍ය දෝෂයකි , වර්ගීකරණ සඳහා වර්ගීකරණ දෝෂ, IR ආකෘති සඳහා නැවත කැඳවීම සහ නිරවද්‍යතාවය ආදිය)
  3. යෙදුම් අවධිය: දැන්, ඔබ ඔබේ නැවුම් ලෙස සකස් කරන ලද ආකෘතිය තාත්වික දත්ත වලට අදාළ කර ප්‍රති .ල ලබා ගනී. ඔබට සාමාන්‍යයෙන් මෙම වර්ගයේ දත්තවල කිසිදු යොමු අගයක් නොමැති බැවින් (එසේ නොමැතිනම් ඔබට ඔබේ ආකෘතිය අවශ්‍ය වන්නේ ඇයි?), ඔබට අනුමාන කළ හැක්කේ ඔබේ වලංගු කිරීමේ අවධියේ ප්‍රති results ල භාවිතා කරමින් ඔබේ ආදර්ශ ප්‍රතිදානයේ ගුණාත්මකභාවය ගැන පමණි.

වලංගු කිරීමේ අදියර බොහෝ විට කොටස් දෙකකට බෙදා ඇත :

  1. පළමු කොටසේදී, ඔබ ඔබේ ආකෘති දෙස බලා වලංගු දත්ත භාවිතා කරමින් හොඳම ක්‍රියාකාරී ප්‍රවේශය තෝරන්න (= වලංගුකරණය)
  2. එවිට ඔබ තෝරාගත් ප්‍රවේශයේ නිරවද්‍යතාවය තක්සේරු කරයි (= පරීක්ෂණය).

එබැවින් 50/25/25 දක්වා වෙන් කිරීම.

ප්‍රතිවාදී ප්‍රවේශයන් කිහිපයකින් ඔබට සුදුසු ආකෘතියක් තෝරා ගැනීමට අවශ්‍ය නොවන්නේ නම්, ඔබේ පුහුණු ආකෘතියේ වලංගු භාවය සිදු නොකර, මූලික වශයෙන් ඔබ සතුව ඇත්තේ පුහුණු කට්ටලයක් සහ පරීක්ෂණ කට්ටලයක් පමණක් බව ඔබේ කට්ටලය නැවත කොටස් කළ හැකිය. මම පෞද්ගලිකව ඒවා 70/30 ලෙස කොටස් කරමි.

මෙම ප්‍රශ්නය ද බලන්න .


24
වලංගු කිරීමේ කට්ටලය මුළුමනින්ම ඉවත් කර, පරීක්ෂණ කට්ටලය මත පදනම්ව හොඳම ක්‍රියාකාරී ආකෘතිය තෝරා නොගන්නේ ඇයි?
සෙබස්තියන් ග්‍රාෆ්

4
එය අධික ලෙස ආහාර ගැනීම නිසාද? හෝ පරීක්ෂණ ප්‍රති result ල මත පදනම් වූ වැරදි සංඛ්‍යාලේඛන සඳහා අපට ස්වාධීන සංඛ්‍යාලේඛන කිහිපයක් අවශ්‍ය නිසාද?
සෙබස්තියන් ග්‍රාෆ්

12
E සෙබස්තියන් [ඔබ භාවිතා කරන්නේ පරීක්ෂණ කට්ටලය පමණි:] "අවසාන තෝරාගත් ආකෘතියේ පරීක්ෂණ කට්ටල දෝෂය සත්‍ය පරීක්ෂණ දෝෂය අවතක්සේරු කරනු ඇත, සමහර විට සැලකිය යුතු ලෙස සැලකිය හැකිය" [හස්ටි සහ වෙනත්]
user695652

25
වලංගුකරණ කට්ටලය බොහෝ විට අධි-පරාමිතීන් සුසර කිරීමට භාවිතා කරයි. නිදසුනක් ලෙස, ගැඹුරු ඉගෙනුම් ප්‍රජාව තුළ, ජාල ස්ථරයේ ප්‍රමාණය, සැඟවුණු ඒකක අංකය, නියාමනය කිරීමේ පදය (තෙත් L1 හෝ L2) සුසර කිරීම වලංගු කිරීමේ කට්ටලය මත රඳා පවතී
xiaohan2012

4
6 user695652 සංඛ්‍යාලේඛන ඉගෙනීමේ මූලිකාංග ඔබ උපුටා දක්වන බව මට පෙනේ. නමුත් මෙය සත්‍යයක් වන්නේ මන්දැයි මට සිතේ. පුහුණු දත්ත කට්ටලය මත මම මගේ ආකෘතිය පුහුණු කරන විට, පරීක්ෂණ දත්ත කට්ටලයේ කිසිදු දත්තයක් භාවිතා නොකළෙමි. එසේම, මම කිසිදු විශේෂාංග ඉංජිනේරු ක්‍රමයක් නොකළේ නම්, එනම්, මම මගේ දත්ත කට්ටලයේ මුල් අංග කට්ටලය භාවිතා කරමි, එවිට තොරතුරු කාන්දු වීමක් නොතිබිය යුතුය. ඉතින් මේ අවස්ථාවේ දී, මට තවමත් වලංගු කිරීමේ කට්ටලය අවශ්‍ය වන්නේ ඇයි? මා පරීක්ෂණ කට්ටලය පමණක් භාවිතා කරන්නේ නම්, එය සත්‍ය පරීක්ෂණ දෝෂය අවතක්සේරු කරන්නේ ඇයි?
කෙවින්කිම්

283

පුහුණු කට්ටලය: ඉගෙනීම සඳහා භාවිතා කරන උදාහරණ සමූහයක්: වර්ගීකරණයේ පරාමිතීන්ට සරිලන සේ, බහු ස්ථර පර්සෙප්ට්‍රෝන් (එම්එල්පී) නඩුවේදී, අපි පසුපස මුක්කු රීතිය සමඟ “ප්‍රශස්ත” බර සොයා ගැනීමට පුහුණු කට්ටලය භාවිතා කරමු.

වලංගුකරණ කට්ටලය: වර්ගීකරණයේ පරාමිතීන් සුසර කිරීම සඳහා භාවිතා කරන උදාහරණ සමූහයක් එම්එල්පී නඩුවේදී, අපි සැඟවුණු ඒකක “ප්‍රශස්ත” සංඛ්‍යාව සොයා ගැනීමට හෝ පසු ප්‍රචාරක ඇල්ගොරිතම සඳහා නැවතුම් ස්ථානයක් තීරණය කිරීමට වලංගු කිරීමේ කට්ටලය භාවිතා කරමු.

පරීක්ෂණ කට්ටලය: පූර්ණ පුහුණුව ලත් වර්ගීකරණයේ ක්‍රියාකාරිත්වය තක්සේරු කිරීමට පමණක් භාවිතා කරන උදාහරණ සමූහයක් එම්එල්පී නඩුවේදී, අපි අවසාන ආකෘතිය (එම්එල්පී ප්‍රමාණය සහ සැබෑ බර) තෝරා ගැනීමෙන් පසුව දෝෂ අනුපාතය තක්සේරු කිරීමට පරීක්ෂණය භාවිතා කරමු. පරීක්ෂණ කට්ටලයේ අවසාන ආකෘතිය, ඔබ තවදුරටත් ආකෘතිය සුසර නොකළ යුතුය!

වෙනම පරීක්ෂණ සහ වලංගුකරණ කට්ටල ඇයි? වලංගු කිරීමේ දත්ත පිළිබඳ අවසාන ආකෘතියේ දෝෂ අනුපාත ඇස්තමේන්තුව පක්ෂග්‍රාහී වනු ඇත (සත්‍ය දෝෂ අනුපාතයට වඩා කුඩා) වලංගු කිරීමේ කට්ටලය අවසාන ආකෘතිය තෝරා ගැනීම සඳහා භාවිතා කරන බැවින් පරීක්ෂණ කට්ටලයේ අවසාන ආකෘතිය තක්සේරු කිරීමෙන් පසුව, ඔබ ආකෘතිය කිසිසේත් නොගැලපේ. තව දුරටත්!

මූලාශ්‍රය: රටා විශ්ලේෂණය පිළිබඳ හැඳින්වීම, රිකාඩෝ ගුටරෙස්-ඔසුනා ටෙක්සාස් ඒ ඇන්ඩ් එම් විශ්ව විද්‍යාලය, ටෙක්සාස් ඒ ඇන්ඩ් එම් විශ්වවිද්‍යාලය


46
+1 සඳහා "ඔබ තවදුරටත් ආකෘතිය සුසර නොකළ යුතුය!"
stmax

6
"පරාමිතීන්ට ගැළපීම" සහ "පරාමිතීන් සුසර කිරීම" අතර වෙනස කුමක්ද?
Metariat

21
mastmax නිශ්ශබ්ද නොවිය යුතුය, නමුත් අපගේ අවසාන පරීක්ෂණ දෝෂය ඇති වූ විට සහ එහි ප්‍රති result ලය පිළිබඳව අප සෑහීමකට පත් නොවන්නේ නම්, අපගේ ආකෘතිය තවදුරටත් සුසර කළ නොහැකි නම් අප කුමක් කරමුද? ... මම බොහෝ විට මෙම නඩුව ගැන කල්පනා කර ඇත්තෙමි.
ස්පේසි

8
Arant ටැරන්ටියුලා ඔබට දිගටම ආකෘතිය සුසර කළ හැකිය, නමුත් ඔබට නව පරීක්ෂණ කට්ටලයක් එකතු කිරීමට සිදුවේ. ඇත්ත වශයෙන්ම කිසිවෙකු එසේ නොකරයි;) නමුත් එය උල්ලං ting නය කිරීම (විශේෂයෙන් ඔබ එය කිහිප වතාවක් පුනරාවර්තනය කරන විට) ඔබේ ආකෘතියට පරීක්ෂණ කට්ටලයට ගැලපෙන පරිදි යොමු විය හැකිය - එහි ප්‍රති results ලය වන්නේ යථාර්ථවාදී නොවන / ඕනෑවට වඩා ශුභවාදී ලකුණු ය.
stmax

6
මම හිතන්නේ මේ නාමකරණය ව්‍යාකූලයි. පරීක්ෂණ කට්ටලය භාවිතා කිරීමෙන් පසු "ඔබ තවදුරටත් ආකෘතිය සුසර නොකළ යුතුය" යැයි පැවසීම නිවැරදිය, නමුත් ... ඔබ කිරීමට අදහස් කළේ කුමන ප්‍රදේශයද? ඒ මත වැඩ කිරීම නවත්වන්නද? යථාර්ථයේ දී ඔබට පරීක්ෂණ කට්ටලවල ධූරාවලියක් අවශ්‍ය වේ. 1: වලංගුකරණ කට්ටලය - ආකෘතියක් සුසර කිරීම සඳහා භාවිතා කරයි, 2: ටෙස්ට් කට්ටලය, ආකෘතියක් ඇගයීමට ලක් කර ඔබ නැවත චිත්‍රණ මණ්ඩලයට යා යුතු දැයි බලන්න, 3: සුපිරි පරීක්ෂණ කට්ටලය, අවසාන-අවසාන ඇල්ගොරිතමයේ භාවිතා කරන්නේ කෙසේදැයි බැලීමට. හොඳයි, 4: අධි-පරීක්ෂණ කට්ටලය, පර්යේෂකයන් වසර 10 ක් තිස්සේ MNIST ඇල්ගොරිතම සංවර්ධනය කිරීමෙන් පසුව භාවිතා කරන්නේ ඒවා කෙතරම් උමතුවෙන් දැයි බැලීමට යනාදියයි. ආදිය.
Timmmm

71

පරිගණක විද්‍යාව පිළිබඳ මගේ අවුරුදු 5 ක අත්දැකීම් මට කියා දුන්නේ සරලත්වයට වඩා හොඳ කිසිවක් නැති බවයි.

'පුහුණුව / හරස් වලංගුකරණය / පරීක්ෂණය' දත්ත කට්ටල සංකල්පය මේ තරම්ම සරල ය. ඔබට විශාල දත්ත කට්ටලයක් ඇති විට, එය කොටස් 3 කට බෙදීම රෙකමදාරු කරනු ලැබේ:

++ පුහුණු කට්ටලය (මුල් දත්ත කට්ටලයේ 60%): මෙය අපගේ පුරෝකථන ඇල්ගොරිතම ගොඩනැගීම සඳහා යොදා ගනී. අපගේ ඇල්ගොරිතම පුහුණු දත්ත කට්ටලවල විචල්‍යතාවයන් සමඟ සම්බන්ධ වීමට උත්සාහ කරයි. මෙම අදියරේදී අපි සාමාන්‍යයෙන් හරස් ඇල්ගොරිතම අවධියේදී ඔවුන්ගේ කාර්ය සාධනය සංසන්දනය කිරීම සඳහා බහු ඇල්ගොරිතම නිර්මාණය කරමු.

++ හරස් වලංගුකරණ කට්ටලය (මුල් දත්ත කට්ටලයේ 20%): පුහුණු කට්ටලය මත පදනම්ව නිර්මාණය කරන ලද පුරෝකථන ඇල්ගොරිතම වල ක්‍රියාකාරිත්වය සංසන්දනය කිරීමට මෙම දත්ත කට්ටලය භාවිතා කරයි. හොඳම කාර්ය සාධනය ඇති ඇල්ගොරිතම අපි තෝරා ගනිමු.

++ පරීක්ෂණ කට්ටලය (මුල් දත්ත කට්ටලයේ 20%): දැන් අපි අපේ කැමති පුරෝකථන ඇල්ගොරිතම තෝරාගෙන ඇති නමුත් එය සම්පූර්ණයෙන්ම නොපෙනෙන තාත්වික දත්ත මත ක්‍රියා කරන්නේ කෙසේදැයි අපි තවමත් නොදනිමු. එබැවින්, අප විසින් තෝරාගත් පුරෝකථන ඇල්ගොරිතම අපගේ පරීක්ෂණ කට්ටලය මත ක්‍රියාත්මක කරන්නේ එය ක්‍රියාත්මක වන්නේ කෙසේදැයි බැලීමට වන අතර එමඟින් නොපෙනෙන දත්ත පිළිබඳ අපගේ ඇල්ගොරිතමයේ ක්‍රියාකාරිත්වය පිළිබඳ අදහසක් ලබා ගත හැකිය.

සටහන්:

පරීක්ෂණ අවධිය මඟ හැරීම නිර්දේශ නොකරන බව මතක තබා ගැනීම ඉතා වැදගත් වේ, මන්ද හරස් වලංගු කිරීමේ අවධියේදී හොඳින් ක්‍රියාත්මක වූ ඇල්ගොරිතම එය සැබවින්ම හොඳම එකක් යැයි අදහස් නොකෙරේ, මන්ද ඇල්ගොරිතම සංසන්දනය කරනු ලබන්නේ කුරුසය මත පදනම්ව ය. වලංගු කිරීමේ කට්ටලය සහ එහි විචක්ෂණ හා ශබ්ද ...

ටෙස්ට් අවධියේදී, අපගේ අවසාන ආකෘතිය වනගතව කටයුතු කරන්නේ කෙසේදැයි බැලීම මෙහි අරමුණයි, එබැවින් එහි ක්‍රියාකාරිත්වය ඉතා දුර්වල නම් පුහුණු අවධියේ සිට ආරම්භ වන සමස්ත ක්‍රියාවලියම අප නැවත කළ යුතුය.


1
කට්ටල අදියර ලෙස හැඳින්වීම පහසු සහ ව්‍යාකූල වේ.
මැට් ඕ බ්‍රයන්

3
nininnovIsmail මම වලංගු කිරීමේ පියවර මඟ හැරියහොත් කුමක් කළ යුතුද? මට බොහෝ ඇල්ගොරිතම ඇති බව පවසමින් මම ඔවුන්ව දුම්රිය කට්ටලය මත පුහුණු කළෙමි, පසුව මම ඒවා සියල්ලම පරීක්ෂණ කට්ටලයට
යොදවන්නෙමි

3
එය හරියට ඔබ පරීක්ෂණ පියවර මඟ හැර යන බවක් මට පෙනේ.
මිහයි ඩැනිලා

1
> පුරෝකථන ඇල්ගොරිතම වල ක්‍රියාකාරිත්වය සංසන්දනය කරන්න - මෙම සන්දර්භය තුළ “ඇල්ගොරිතමයක්” යනු කුමක්ද? ඔබේ ආකෘතිය ඇල්ගොරිතමයක් නොවේද? වලංගු කිරීම සඳහා අදියර කිහිපයක් ලබා ගැනීම සඳහා යමෙකුට ආකෘති කිහිපයක් ගොඩනඟා ඒවා වෙන වෙනම පුහුණු කළ යුතුද?
බොපිටි බොප්

2
මෙම සරල බව මිත්‍යාවකි, මන්ද විශාල නොවන නියැදි ප්‍රමාණයේ දී යමෙකුට සැලකිය යුතු ලෙස වෙනස් පුරෝකථන ඇල්ගොරිතම ලැබෙනු ඇති අතර අහඹු ලෙස බෙදීම් නැවත සිදුවුවහොත් වලංගු කිරීමේ ප්‍රති results ල ලැබෙනු ඇත.
ෆ්‍රෑන්ක් හැරල්

33

තීරණයක් ගැනීමට ඔබෙන් ඉල්ලා සිටින සෑම පියවරකදීම (එනම් විකල්ප කිහිපයක් අතර එක් විකල්පයක් තෝරන්න), ඔබේ තේරීමෙහි නිරවද්‍යතාවය මැන බැලීම සඳහා ඔබට අතිරේක කට්ටලයක් / කොටසක් තිබිය යුතුය, එවිට ඔබ අහඹු ලෙස වඩාත් හිතකර ප්‍රති result ල තෝරා නොගනී. 1 කේන්ද්‍රය සඳහා බෙදාහැරීමේ වලිගය වැරදීම . වම් අශුභවාදී ය. දකුණ සුභවාදී ය. කේන්ද්‍රය ප්‍රායෝගිකවාදීන් ය. ප්‍රායෝගිකවාදියා වන්න.

රූප විස්තරය මෙහි ඇතුළත් කරන්න

පියවර 1) පුහුණුව: සෑම වර්ගයකම ඇල්ගොරිතමයට තමන්ගේම පරාමිති විකල්ප ඇත (ස්නායුක ජාලයක ස්ථර ගණන, සසම්භාවී වනාන්තරයක ඇති ගස් ගණන ආදිය). ඔබගේ එක් එක් ඇල්ගොරිතම සඳහා, ඔබ එක් විකල්පයක් තෝරා ගත යුතුය. ඔබට පුහුණු කට්ටලයක් ඇත්තේ එබැවිනි.

පියවර 2) වලංගු කිරීම: ඔබට දැන් ඇල්ගොරිතම එකතුවක් ඇත. ඔබ එක් ඇල්ගොරිතමයක් තෝරා ගත යුතුය. ඔබට පරීක්ෂණ කට්ටලයක් ඇත්තේ එබැවිනි. බොහෝ අය වලංගු කිරීමේ කට්ටලය මත වඩාත් හොඳින් ක්‍රියා කරන ඇල්ගොරිතම තෝරා ගනී (එය හරි). එහෙත්, ඔබ පරීක්ෂණ කට්ටලය මත ඔබේ ඉහළ ක්‍රියාකාරී ඇල්ගොරිතමයේ දෝෂ අනුපාතය මනින්නේ නැතිනම් සහ වලංගු කිරීමේ කට්ටලය මත එහි දෝෂ අනුපාතය සමඟ ගියහොත්, “බොහෝ දුරට ඉඩ ඇති අවස්ථාව” සඳහා “හැකි හොඳම අවස්ථාව” ඔබ අන්ධ ලෙස වරදවා වටහාගෙන ඇත. එය ව්‍යසනය සඳහා වූ වට්ටෝරුවකි.

පියවර 3) පරීක්ෂා කිරීම: ඔබේ ඇල්ගොරිතම වල කිසිදු පරාමිතියක් නොතිබුනේ නම් ඔබට තුන්වන පියවරක් අවශ්‍ය නොවනු ඇතැයි මම සිතමි. එවැනි අවස්ථාවකදී, ඔබේ වලංගු කිරීමේ පියවර ඔබේ පරීක්ෂණ පියවර වේ. සමහර විට මැට්ලැබ් ඔබෙන් පරාමිතීන් ඉල්ලන්නේ නැත, නැතහොත් ඔබ ඒවා භාවිතා නොකිරීමට තෝරාගෙන ඇති අතර එය ඔබේ ව්‍යාකූලත්වයට හේතුව විය හැකිය.

1 සෑම විකල්පයක්ම එක හා සමානයි (උදා: සියලු පරාමිතීන් එක හා සමානයි හෝ සියලු ඇල්ගොරිතම එක හා සමානයි) යන උපකල්පනය සමඟ සෑම පියවරකටම යෑම බොහෝ විට ප්‍රයෝජනවත් වේ, එබැවින් බෙදා හැරීම පිළිබඳ මගේ සඳහන.

2 මෙම රූපය මගේ නොවේ. මම එය මෙම වෙබ් අඩවියෙන් ලබාගෙන ඇත: http://www.teamten.com/lawrence/writings/bell-curve.png


5
මම හිතන්නේ පළමු වාක්‍යය මෙම ප්‍රශ්නයට මූලික පිළිතුර වෙනත් ඕනෑම පිළිතුරකට වඩා හොඳින් ග්‍රහණය කරයි. "තීරණයක් ගැනීමට ඔබෙන් ඉල්ලා සිටින සෑම පියවරකදීම (එනම් විකල්ප කිහිපයක් අතර එක් විකල්පයක් තෝරන්න), ඔබේ
තේරීමෙහි

2
E කෙවින්කිම්: ඔබ ඔබේ පරීක්ෂණ කට්ටලය සියලුම RF වලට යොදවා ප්‍රති results ල තවත් තේරීමක් කිරීමට භාවිතා කරන්නේ නම් (වෙනත් ආකෘතියක් තෝරන්න), එවිට ඔබ වලංගු කිරීමේ පියවර නැවත නැවතත් කර ඇත. ඔබ ඔබේ මනස සකස් කර ඇත්තේ "මට ආකෘතියක් සමඟ අඩුම දෝෂය ලබා ගැනීමට අවශ්‍යයි!". පුහුණුවීම් සහ වලංගු කිරීමේ ලක්ෂ්‍යය එයයි. පරීක්ෂා කිරීම ගැන පමණයි: මම ආකෘතියක් පුහුණු කර තෝරාගෙන ඇත්තෙමි, දැන් එය "පොදුවේ" ක්‍රියාත්මක වන්නේ කෙසේදැයි බලමු. නිසැකවම "සාමාන්‍ය" පරීක්ෂණ කට්ටලය යනු අධික ලෙස ගැලපෙන හෝ නොවිය හැකි තවත් දත්ත පෙත්තක් පමණි, නමුත් කාරණය වන්නේ තේරීම් අනුව ඔබ දැනුවත්ව ඔබේ ආකෘතිය එයට නොගැලපීමයි.
මී පැණි

1
සීමිත උත්සාහයකින් සහ (සී) සීමිත නිරීක්‍ෂණය කළ දත්තවලින් (බී) ආකෘතිය සාමාන්‍යකරණය කරන්නේ කෙසේද යන්න පිළිබඳ අදහසක් ලබා දීම සඳහා ත්‍රි-ඛණ්ඩ බෙදීම ඉතා පොදු ප්‍රවේශයකි. (බී) ප්‍රකාරව ඔබට වඩා හොඳින් කිරීමට අවශ්‍ය නම්, ඔබ යෝජනා කරන දේ ඔබට කළ හැකිය: සාමාන්‍යකරණය සඳහා නිම කිරීම සඳහා විවිධ වලංගුකරණ කට්ටල භාවිතා කරන්න. හරස් වලංගුකරණය ලෙස හැඳින්වෙන සීමිත දත්ත සමඟ: විවිධ පුහුණුවීම් සහ පරීක්ෂණ කට්ටල සමඟ පුහුණුව සහ වලංගු කිරීම නැවත සිදු කරන්න (පුහුණුව සඳහා සති ගනනාවක් ගතවන ස්නායුක ජාල සඳහා මෙය කාරණයක් නොවේ).
මී පැණි

1
(සී) ප්‍රකාරව: වැඩි දත්ත සමඟින් ඔබට පුහුණුව (වඩාත් සාමාන්‍යයෙන් පුහුණු කරන ලද ආකෘති), වලංගු කිරීම (වඩාත් සාමාන්‍ය ආකෘතියක් තෝරා ගැනීම) සහ පරීක්ෂා කිරීම (ආකෘතියේ සාමාන්‍යකරණය පිළිබඳ වඩා හොඳ අදහසක්) ලබා ගත හැකිය. එම්එල් චක්‍රය සැලසුම් කිරීම සාමාන්‍යයෙන් වැඩි දත්ත ලබා ගැනීම ගැන නොවේ. තුන් ආකාරයකින් බෙදීම එක් වරක් (A), (B) සහ (C) අතර හුවමාරුවකි.
මී පැණි

2
නමුත්: "සැබෑ ලෝකයේ" ආකෘතිය ක්‍රියා කරන්නේ කෙසේද යන්න තවමත් නොදනී. එය වලංගු හා පරීක්‍ෂිත උපකල්පනයක් පමණක් වන අතර, එය නොපෙනෙන දත්ත මත හොඳින් ක්‍රියා කරනු ඇති අතර විද්‍යාත්මක අරමුණු සඳහා මෙය සාමාන්‍යයෙන් ප්‍රමාණවත් යැයි සැලකේ. ඔබ දැන් නැවත ගොස් ආකෘති උත්පාදනය කර තෝරා ගන්නේ නම්, එකක් වලංගු කිරීමේ කට්ටලයක් හා පරීක්ෂණ කට්ටලයක් හොඳින් ගැලපෙන තුරු, ඔබ ඔබේ පරීක්ෂණ කට්ටලය වලංගු කිරීමේ කට්ටලයකට පිරිහී ගියේය. ඒ සඳහා හරස් වලංගු කිරීම වඩා හොඳය. පරීක්ෂණ කට්ටලය මත ඔබේ කාර්ය සාධනය නිරන්තරයෙන් සැලකිය යුතු ලෙස නරක නම්, එය සැමවිටම ඔබේ දත්ත නරක ලෙස බෙදී ඇති විකල්පයක් වන අතර නැවත මාරු කළ කට්ටල සමඟ නැවත ආරම්භ කිරීමට ඔබට අවශ්‍යය.
මී පැණි

21

ඔබට කිසිදු ආකාරයකින් දත්ත බෙදීමට අවශ්‍ය බව එය අනුගමනය නොකරයි. ආකෘතිය සංවර්ධනය කිරීම සහ පරීක්ෂා කිරීම යන දෙකම සඳහා සම්පූර්ණ නියැදිය භාවිතා කරමින් පුරෝකථන නිරවද්‍යතාව පිළිබඳ කුඩා මධ්‍ය පරිමාණ දෝෂ ඇස්තමේන්තු ලබා දීමට බූට්ස්ට්‍රැප් හට හැකිය.


1
අනාවැකි ආකෘති පරීක්ෂා කිරීම / වලංගු කිරීම සඳහා විශාල දත්ත කට්ටල බෙදීමෙන් ඔබ හරස් වලංගුකරණය වෙනුවෙන් පෙනී නොසිටින්නේද?
OFish

10
නැත, දත්ත කට්ටලය විශාල හෝ සං signal ාව හැර: ශබ්ද අනුපාතය ඉහළයි. හරස් වලංගුකරණය මගේ අත්දැකීම් වල බූට්ස්ට්‍රැප් තරම් නිවැරදි නොවන අතර එය සම්පූර්ණ නියැදි ප්‍රමාණය භාවිතා නොකරයි. බොහෝ අවස්ථාවන්හීදී ප්‍රමාණවත් නිරවද්‍යතාවයක් ලබා ගැනීම සඳහා හරස් වලංගුකරණය 50-100 වාරයක් පුනරාවර්තනය කළ යුතුය. නමුත් ඔබේ දත්ත කට්ටලවල විෂයයන් 20,000 ක් ඇත, බෙදීම්-නියැදි වලංගුකරණය වැනි සරල ප්‍රවේශයන් බොහෝ විට හරි ය.
ෆ්‍රෑන්ක් හැරල්

2
එය දැන ගැනීම ඇත්තෙන්ම හොඳයි! ස්තූතියි. ඔබ වෙතින් පැමිණීම, එය තොරතුරු වල විශිෂ්ට “ප්‍රභවයක්” වේ. චියර්ස්!
OFish

1
බෙදීම්-නියැදි වලංගු කිරීම බොහෝ විට දැඩි ඇරඹුම් වලට වඩා නරක ලෙස ක්‍රියා කරයි. සියලුම අධීක්ෂණය කරන ලද ඉගෙනුම් පියවරයන් (Y භාවිතා කරන සියලුම පියවර) පුනරාවර්තනය කරන පිටත බූට්ස්ට්‍රැප් පෙනුමක් සාදන්න. එෆ්‍රොන්-ගොං සුභවාදී බූට්ස්ට්‍රැප් ඇස්තමේන්තු කරන්නේ දත්ත නැවත රඳවා නොගෙන ඇල්ගොරිතම නොදකින දත්තවල පුරෝකථන ආකෘතිය කොතරම් දුරට වැටේද යන්නයි.
ෆ්‍රෑන්ක් හැරල්

1
ඔව් පුනරාවර්තනය අවධාරණය කරමින් . එය ගැටළු සහගත තනි බෙදීමයි.
ෆ්‍රෑන්ක් හැරල්

15

සාමාන්‍ය යන්ත්‍ර ඉගෙනීමේ කාර්යයක් පහත සඳහන් කැදැලි ලූපය ලෙස දැකිය හැකිය:

while (error in validation set > X) {
    tune hyper-parameters
    while (error in training set > Y) {
        tune parameters
    }
}

සාමාන්‍යයෙන් පිටත ලූපය සිදු කරනු ලබන්නේ මිනිසා , වලංගු කිරීමේ කට්ටලය මත සහ අභ්‍යන්තර ලූපය යන්ත්‍රයෙන් පුහුණු කට්ටලය මත ය . ආකෘතියේ අවසාන ක්‍රියාකාරිත්වය තක්සේරු කිරීමට ඔබට 3 වන පරීක්ෂණ කට්ටලයක් අවශ්‍ය වේ.

වෙනත් වචන වලින් කිවහොත්, වලංගු කිරීමේ කට්ටලය යනු මිනිසා සඳහා වන පුහුණු කට්ටලයයි.


9

මෙම කට්ටල තුන ගැන සිතිය හැකි එක් ක්‍රමයක් නම්, ඒවායින් දෙකක් ( trainingසහ validation) අතීතයෙන් පැමිණ ඇති අතර, එම testකට්ටලය පැමිණෙන්නේ "අනාගතයෙන්" ය. "අතීතයේ" ( training/ validationදත්ත) දත්ත භාවිතා කරමින් ආකෘතිය ගොඩනඟා සුසර කළ යුතුය , නමුත් කිසි විටෙකත් test"අනාගතයෙන්" ලැබෙන දත්ත නොවේ .

ප්‍රායෝගික නිදසුනක් ලබා දීම සඳහා, අනාගතයේ දී බේස්බෝල් ක්‍රීඩකයින් කෙතරම් හොඳින් කරනු ඇත්දැයි අනාවැකි කීමට අපි ආදර්ශයක් ගොඩනඟමු යැයි කියමු. A testසහ validationකට්ටලයක් නිර්මාණය කිරීම සඳහා අපි 1899-2014 සිට දත්ත භාවිතා කරමු . ආකෘතිය ගොඩනඟා එම දත්තයන් සුසර කළ පසු, අපි 2015 සිට දත්ත (ඇත්ත වශයෙන්ම අතීතයේ!) පරීක්ෂණ කට්ටලයක් ලෙස භාවිතා කරන්නෙමු, එය ආකෘතියේ දෘෂ්ටි කෝණයෙන් "අනාගත" දත්ත ලෙස පෙනෙන අතර ආදර්ශ නිර්මාණයට කිසිදු ආකාරයකින් බලපාන්නේ නැත. . (නිසැකවම, න්‍යායිකව, අපට සැබවින්ම අවශ්‍ය නම් 2016 සිට දත්ත එනතෙක් බලා සිටිය හැකිය!)

නිසැකවම මම සෑම තැනකම උපුටා දැක්වීම් භාවිතා කරමි, මන්ද දත්තවල සත්‍ය තාවකාලික අනුපිළිවෙල සැබෑ අනාගතයට සමපාත නොවිය හැකි බැවිනි (අර්ථ දැක්වීම අනුව දත්ත උත්පාදනය සියල්ලම සිදුවී ඇත්තේ අතීතයේ දී විය හැකිය). යථාර්ථය නම්, මෙම testකට්ටලය හුදෙක් training/ validationකට්ටල මෙන් එකම කාල පරිච්ඡේදයක දත්ත විය හැකිය . මේ ආකාරයෙන්, එය ආකෘතිය සුසර කිරීමට කිසිදු බලපෑමක් නොකළ නමුත් දත්ත දරණ අය ඇත්ත වශයෙන්ම අනාගතයෙන් පැමිණෙන්නේ නැත.


4
අනෙක් සියලුම පිළිතුරු කියවීමෙන් පසුව, මෙම පිළිතුර නිසා එය මට "ක්ලික් කරන්න" විය! ඔබ දුම්රිය කට්ටලය සමඟ පුහුණු වන්න, ඔබ වලංගු කිරීමේ කට්ටලය සමඟ වැඩිපුර නොගැලපෙනවාදැයි පරීක්ෂා කරන්න (සහ ආකෘතිය සහ අධි පරාමිතීන් "නොදන්නා දත්ත" සමඟ ක්‍රියා කරයිද), ඉන්පසු ඔබ පරීක්ෂණ කට්ටලය සමඟ තක්සේරු කරයි - "නව දත්ත" - ඔබ දැන්ද යන්න කිසියම් පුරෝකථන බලයක් තිබේද ..!
stolsvik

testදත්ත කිසි විටෙකත් පුහුණු ක්‍රියාවලියේ කොටසක් නොවිය යුතුය යන අර්ථයෙන් එය බැලීමට මෙය සාධාරණ ක්‍රමයකි : අප එය “අනාගත” දත්ත ලෙස සලකන්නේ නම් එය කළ නොහැකි වැරැද්දක් බවට පත්වේ.
javadba

7

බොහෝ අධීක්ෂණය කරන ලද දත්ත කැණීමේ ඇල්ගොරිතම මෙම පියවර තුන අනුගමනය කරයි:

  1. මෙම පුහුණු මාලාවක් ආදර්ශ ඉදි කිරීමට භාවිතා කරයි. පූර්ව නිශ්චිත ඉලක්ක සහ පුරෝකථන විචල්‍යයන් සහිත දත්ත සමූහයක් මෙහි අඩංගු වේ.
  2. පුහුණු කට්ටලයෙන් පිටත දත්ත සමඟ ආකෘතිය කෙතරම් හොඳින් ක්‍රියා කරනවාද යන්න තක්සේරු කිරීමට සාමාන්‍යයෙන් රඳවා තබා ගත හැකි දත්ත කට්ටලයක් හෝ පරීක්ෂණ කට්ටලයක් භාවිතා කරයි. පරීක්ෂණ කට්ටලයේ පූර්ව වර්ගීකරණය කරන ලද ප්‍රති results ල දත්ත අඩංගු වන නමුත් පරීක්ෂණ කට්ටල දත්ත අවසානය දක්වා ආකෘතිය හරහා ක්‍රියාත්මක වන විට, ආදර්ශ ප්‍රති .ල සමඟ පූර්ව වර්ගීකරණය කළ දත්ත සංසන්දනය කරන විට ඒවා භාවිතා නොවේ. පරීක්ෂණ කට්ටලයේ දෝෂ අවම කිරීම සඳහා ආකෘතිය සකසා ඇත.
  3. # 2 පියවරේදී සකස් කරන ලද ආකෘතිය තක්සේරු කිරීම සඳහා තවත් රඳවා තබා ගැනීමේ දත්ත කට්ටලයක් හෝ වලංගුකරණ කට්ටලයක් භාවිතා කරනු ලැබේ, එහිදී නැවතත්, වලංගුකරණ කට්ටල දත්ත සකස් කරන ලද ආකෘතියට එරෙහිව ක්‍රියාත්මක වන අතර ප්‍රති results ල භාවිතා නොකරන ලද පූර්ව වර්ගීකරණය කළ දත්ත සමඟ සසඳන විට.

5

අප වලංගු කිරීමේ කට්ටලයක් භාවිතා කරන්නේ ඇයිද යන්න පිළිබඳව සමහර පුද්ගලයින්ට ව්‍යාකූලත්වයක් ඇත, එබැවින් ඔබ වලංගු දත්ත කට්ටලයක් භාවිතා නොකරන්නේ නම් කුමක් සිදුවේද යන්න පිළිබඳ සරල, අවබෝධාත්මක පැහැදිලි කිරීමක් මම ලබා දෙන්නෙමි.

ඔබ වලංගු කිරීමේ කට්ටලයක් භාවිතා නොකරන්නේ නම්, ඒ වෙනුවට ඔබට අධි පරාමිතීන් තෝරාගෙන පරීක්ෂණ දත්ත කට්ටලයේ ආකෘතියේ ක්‍රියාකාරිත්වය මත පදනම්ව පුහුණුව නැවැත්විය යුත්තේ කවදාදැයි තීරණය කළ යුතුය. පරීක්ෂණ දත්ත කට්ටලයේ ආකෘතියේ ක්‍රියාකාරිත්වය මත පදනම්ව පුහුණුව නැවැත්විය යුත්තේ කවදාදැයි ඔබ තීරණය කරන්නේ නම්, පරීක්ෂණ දත්ත කට්ටලයේ ආකෘතිය හොඳින් සිදු වූ විට ඔබට පුහුණුව නැවැත්විය හැකිය. ඉන්පසු ඔබ ඔබේ ප්‍රති results ල වාර්තා කරන විට, පරීක්ෂණ දත්ත කට්ටලයේ නිරවද්‍යතාවය වාර්තා කරයි. මෙහි ඇති ගැටළුව නම්, ඔබේ ආකෘතිය ඇත්තෙන්ම අහඹු විචල්‍යතාවයක් වූ විට එය පරීක්ෂණ කට්ටලය මත වඩා හොඳ කිරීමට හේතු වූ බව ඔබට පැවසිය හැකිය.

පුහුණුව නැවැත්විය යුත්තේ කවදාදැයි තීරණය කිරීම සඳහා ඔබ වලංගුකරණ කට්ටලයක් භාවිතා කරන්නේ නම්, පරීක්ෂණ කට්ටලයේ ආකෘතියේ නිරවද්‍යතාවය පොදුවේ එය කාර්යය කෙතරම් හොඳින් ඉටු කරයිද යන්න පිළිබඳ අපක්ෂපාතී පිළිබිඹුවකි, තවද එය ඔබ ප්‍රශස්තිකරණය නොකළ බව පෙන්නුම් කරයි. පරීක්ෂණ කට්ටලය මත හොඳින් ක්‍රියා කිරීමට ආදර්ශය.


2

"අවකල්‍ය පෞද්ගලිකත්වය" යනුවෙන් හැඳින්වෙන යන්ත්‍ර ඉගෙනීමේ සාපේක්ෂව නව ප්‍රවේශයක් වෙත යොමු කිරීමෙන් මම මෙහි වෙනත් ඉතා හොඳ පිළිතුරු එක් කිරීමට කැමැත්තෙමි (ඩ්වර්ක්ගේ ලිපි බලන්න; වැඩි විස්තර සඳහා වින් දෛශික බ්ලොගය ). අවසාන ආකෘති කාර්ය සාධනය නොසලකා හරිමින් පරීක්ෂණ කට්ටලය නැවත භාවිතා කිරීමට අදහස ඉඩ දෙයි. සාමාන්‍ය සැකසුමක දී පරීක්ෂණ කට්ටලය භාවිතා කරනුයේ අවසාන කාර්යසාධනය තක්සේරු කිරීමට පමණි; ඉතා මැනවින් කෙනෙකුට එය බැලීමට පවා අවසර නැත.

මෙම වින් දෛශික බ්ලොග් අඩවියේ එය හොඳින් විස්තර කර ඇති පරිදි (වෙනත් ඇතුළත් කිරීම් ද බලන්න), ආකෘතියේ ක්‍රියාකාරිත්වය පක්ෂග්‍රාහී නොකර පරීක්ෂණ කට්ටලය "භාවිතා" කළ හැකිය. මෙය සිදු කරනු ලබන්නේ "අවකල්‍ය පෞද්ගලිකත්වය" නම් විශේෂ ක්‍රියා පටිපාටියෙනි. ඉගෙනුම්කරුට පරීක්ෂණ කට්ටලයට access ජු ප්‍රවේශයක් නොමැත.


-1

මගේ අදහස නම් ස්නායුක ජාල මෙවලම් පෙට්ටියේ ඇති විකල්පය අධික ලෙස ආහාර ගැනීමෙන් වැළකී සිටීමයි. මෙම තත්වය තුළ බර නියම කර ඇත්තේ පුහුණු දත්ත සඳහා පමණක් වන අතර ගෝලීය ප්‍රවණතාවය නොපෙන්වයි. වලංගුකරණ කට්ටලයක් තිබීමෙන්, පුහුණු දත්ත දෝෂයේ අඩුවීමක් වලංගු දත්ත වල අඩුවීමක් සහ වලංගු දත්ත දෝෂයක් වැඩි වන ස්ථානයට අනුගතවීම් අනුවර්තනය වේ; පුහුණු දත්ත දෝෂයේ අඩුවීමක් සමඟ, මෙය අධික ලෙස ගැලපෙන සංසිද්ධිය පෙන්නුම් කරයි.


ටෙස්ට් කට්ටල සමස්ත ක්‍රියාවලියටම සනීපාරක්ෂක පරීක්‍ෂණයක් එක් කරන බව මම සිතමි. සෑම යුගයකම වලංගු කිරීම / අලාභ වක්‍රය අනුකරණය කරන පුහුණු වක්‍රය ඔබට තිබිය හැකිය. නමුත් ඔබේ පරීක්ෂණ කට්ටල නිරවද්‍යතාවය යුග හෝ ටැංකි සමඟ වැඩිදියුණු නොවන්නේ නම් ඔබ හොඳ නැත. ඔබ ඕනෑවට වඩා වැඩ කරනවා.
agcala
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.