K- ගුණයකින් හරස් වලංගු කිරීමෙන් පසු පුරෝකථන ආකෘතියක් තෝරා ගන්නේ කෙසේද?


174

K- ගුණයකින් හරස් වලංගුකරණය කිරීමෙන් පසු පුරෝකථන ආකෘතියක් තෝරා ගන්නේ කෙසේදැයි මම කල්පනා කරමි.

මෙය අමුතු ලෙස සැකසීමට ඉඩ ඇත, එබැවින් මට වඩාත් විස්තරාත්මකව විස්තර කිරීමට ඉඩ දෙන්න: මම K- ගුණයකින් හරස් වලංගුකරණය ක්‍රියාත්මක කරන සෑම විටම, මම පුහුණු දත්තවල K උප කුලක භාවිතා කරන අතර K විවිධ මාදිලි සමඟ අවසන් වෙමි.

K මාදිලි වලින් එකක් තෝරා ගන්නේ කෙසේදැයි දැන ගැනීමට මා කැමතිය, එවිට මට එය යමෙකුට ඉදිරිපත් කර "මෙය අපට නිෂ්පාදනය කළ හැකි හොඳම ආකෘතියයි" යනුවෙන් පැවසිය හැකිය.

K මාදිලි වලින් එකක් තෝරා ගැනීම හරිද? එසේත් නැතිනම් මධ්‍ය පරීක්ෂණ දෝෂය සාක්ෂාත් කර ගන්නා ආකෘතිය තෝරා ගැනීම වැනි යම් ආකාරයක හොඳ පුහුණුවක් තිබේද?


2
පහත සඳහන් ප්‍රශ්නයේ පිළිතුරු ඔබට ප්‍රයෝජනවත් විය හැකිය: stats.stackexchange.com/questions/2306/…
BGreene

1
ප්‍රමාණවත් නිරවද්‍යතාවයක් ලබා ගැනීම සඳහා ඔබට 5 ගුණයක සීවී 100 වතාවක් පුනරාවර්තනය කළ යුතු අතර ප්‍රති results ල සාමාන්‍ය වේ. @ බොග්ඩනොවිස්ට්ගේ පිළිතුර ක්‍රියාත්මක වේ. අඩු නිරවද්‍යතා ඇස්තමේන්තු වල නිරවද්‍යතා ඇස්තමේන්තුව බූට්ස්ට්‍රැප් වෙතින් ලබා ගත හැකිය.
ෆ්‍රෑන්ක් හැරල්

Ran ෆ්‍රෑන්ක් හැරල්, පුනරාවර්තන 100 ක් අවශ්‍ය යැයි ඔබ කියන්නේ ඇයි (මම සාමාන්‍යයෙන් 10 ගුණයකින් නියෝජිතයින් 10 ක් භාවිතා කරමි), OP කිසිදු නිශ්චිතයක් ලබා නොදුන් බැවින් මෙය නියමාකාර නීතියක් ද?
BGreene

2
10 ගුණයක cv සඳහා පුනරාවර්තන කිරීම වඩාත් සුදුසුය . 5 ගුණයකින් වැඩි පුනරාවර්තන අවශ්‍ය වේ. මේවා නියමාකාර නීති වේ. තනි 10 ගුණයකින් යුත් සීවී එකක් අස්ථායී පිළිතුරක් ලබා දෙනු ඇත, එනම්, භේද 10 නැවත නැවත කරන්න, ඔබට කරදර වීමට වෙනස් පිළිතුරක් ලැබෙනු ඇත. 50 යි
ෆ්‍රෑන්ක් හැරල්

1
හරියටම හරියටම අනුපිටපතක්: වටිනා පිළිතුරු සහිත stats.stackexchange.com/questions/11602 . සමහර විට මෙම කෙඳි ඒකාබද්ධ කළ යුතු නමුත් කුමන දිශාවටදැයි මට විශ්වාස නැත. දෙදෙනාම ඉතා හොඳ පිළිතුරු පිළිගෙන ඇත. නමුත් අනෙකා වයසින් වැඩි වන අතර වැඩි අදහස් / උඩු යටිකුරු ඇති බැවින් මෙය එකකට ඒකාබද්ධ කිරීම අර්ථවත් කරයි.
amoeba

Answers:


232

හරස් වලංගු කිරීමේ අරමුණ පිළිබඳ ඔබේ අවබෝධයේ තවමත් ඔබට යමක් මග හැරී ඇතැයි මම සිතමි.

සමහර පාරිභාෂිතය කෙලින්ම ලබා ගනිමු, සාමාන්‍යයෙන් අපි 'ආකෘතියක්' යැයි කියන විට, අපි පුරෝකථනය කිරීමට උත්සාහ කරන දෙයට සමහර ආදාන දත්ත සම්බන්ධ වන්නේ කෙසේද යන්න විස්තර කිරීම සඳහා අපි විශේෂිත ක්‍රමයක් වෙත යොමු වෙමු. අපි සාමාන්‍යයෙන් එම ක්‍රමයේ විශේෂිත අවස්ථා විවිධ ආකෘති ලෙස හඳුන්වන්නේ නැත. එබැවින් ඔබට 'මට රේඛීය ප්‍රතිගාමී ආකෘතියක් ඇත' යැයි පැවසිය හැකි නමුත් ඔබ පුහුණු කළ සංගුණකවල වෙනස් කට්ටල දෙකක් විවිධ ආකෘතීන් ලෙස නොකියනු ඇත. අවම වශයෙන් ආකෘති තෝරා ගැනීමේ සන්දර්භය තුළ නොවේ.

එබැවින්, ඔබ K- ගුණයකින් හරස් වලංගු භාවයක් සිදු කරන විට, ඔබේ ආකෘතියට සමහර දත්ත මගින් පුහුණුව ලබා ගත හැකි ආකාරය පරීක්ෂා කර බලා එය දැක නැති දත්ත පුරෝකථනය කරන්න. අපි මේ සඳහා හරස් වලංගුකරණය භාවිතා කරන්නෙමු, මන්ද ඔබ සතුව ඇති සියලුම දත්ත භාවිතා කරමින් ඔබ පුහුණු කරන්නේ නම්, ඔබට පරීක්ෂා කිරීමට කිසිවක් ඉතිරිව නැත. ඔබට මෙය එක් වරක් කළ හැකිය, පුහුණු කිරීමට දත්ත වලින් 80% ක් සහ පරීක්ෂා කිරීමට 20% ක් භාවිතා කිරීමෙන් කියන්න, නමුත් ඔබ පරීක්‍ෂා කිරීමට තෝරාගත් 20% ක් සිදුවුවහොත් විශේෂයෙන් පහසු (හෝ විශේෂයෙන් අමාරු) ලකුණු පොකුරක් අඩංගු වේ නම් කුමක් කළ යුතුද? පුරෝකථනය කිරීමට? ඉගෙනීමට හා පුරෝකථනය කිරීමට ආකෘති හැකියාව පිළිබඳ හොඳම තක්සේරුව අප ඉදිරිපත් නොකරනු ඇත.

අපට සියලු දත්ත භාවිතා කිරීමට අවශ්‍යයි. එබැවින් 80/20 භේදයක ඉහත උදාහරණය දිගටම කරගෙන යාම සඳහා, අපි 80% ක දත්තයන් 5% ක් පුහුණු කිරීමෙන් සහ දත්ත වලින් 80% ක් පරීක්ෂා කිරීමෙන් 20% ක් හරස් වලංගු කිරීමක් කරන්නෙමු. සෑම දත්ත ලක්ෂ්‍යයක්ම එක් වරක් 20% පරීක්ෂණ කට්ටලය තුළ අවසන් වන බව අපි සහතික කරමු. එබැවින් අපගේ දත්ත සමහර දත්ත වලින් ඉගෙනීමේ හා නව දත්ත පුරෝකථනය කිරීමේ කාර්යය කෙතරම් හොඳින් ඉටු කරයිද යන්න අවබෝධ කර ගැනීම සඳහා දායක විය යුතු සෑම දත්ත ලක්ෂ්‍යයක්ම අපි භාවිතා කර ඇත්තෙමු.

නමුත් හරස් වලංගුකරණයේ අරමුණ අපගේ අවසාන ආකෘතිය සමඟ පැමිණීම නොවේ. කිසිදු සත්‍ය පුරෝකථනයක් කිරීමට අපගේ පුහුණු ආකෘතියේ මෙම අවස්ථා 5 අපි භාවිතා නොකරමු. ඒ සඳහා අපට අවශ්‍ය සියලුම දත්ත භාවිතා කිරීමට අපට හැකි හොඳම ආකෘතිය ඉදිරිපත් කළ යුතුය. හරස් වලංගුකරණයේ අරමුණ ආකෘති පරීක්ෂා කිරීම මිස ආකෘති ගොඩනැගීම නොවේ.

දැන්, අපට ආකෘති දෙකක් ඇති බව පවසන්න, රේඛීය ප්‍රතිගාමී ආකෘතියක් සහ ස්නායුක ජාලයක් කියන්න. වඩා හොඳ කුමන ආකෘතියදැයි අපට කිව හැක්කේ කෙසේද? අපට K- ගුණයකින් හරස් වලංගුකරණයක් කළ හැකි අතර පරීක්ෂණ කට්ටල ලකුණු අනාවැකි කීමට වඩා හොඳ වන්නේ කුමක්දැයි බලන්න. නමුත් වඩා හොඳ ක්‍රියාකාරී ආකෘතියක් තෝරා ගැනීම සඳහා අපි හරස් වලංගුකරණය භාවිතා කළ පසු, අපි එම ආකෘතිය (එය රේඛීය ප්‍රතිගාමී හෝ ස්නායුක ජාලය වේවා) සියලු දත්ත මත පුහුණු කරමු. අපගේ අවසාන පුරෝකථන ආකෘතිය සඳහා හරස් වලංගුකරණයේදී අප පුහුණු කළ සත්‍ය ආදර්ශ අවස්ථා අපි භාවිතා නොකරමු.

සමෝධානික ආකෘතියක් තැනීම සඳහා හරස් වලංගුකරණයට සමාන ආකාරයකින් නිපදවන ලද ආදර්ශ අවස්ථා භාවිතා කරන බූට්ස්ට්‍රැප් ඇග්‍රිජේෂන් (සාමාන්‍යයෙන් 'බෑග්' ලෙස කෙටි කර ඇත) යනුවෙන් තාක්‍ෂණයක් ඇති බව සලකන්න, නමුත් එය විෂය පථයෙන් ඔබ්බට දියුණු තාක්‍ෂණයකි. ඔබේ ප්‍රශ්නය මෙතන.


9
මම මෙම කරුණ සමඟ සම්පුර්ණයෙන්ම එකඟ වන අතර සියලු දත්ත භාවිතා කිරීම ගැන සිතුවෙමි. එයින් කියැවුණේ, අපගේ අවසාන ආකෘතිය සම්පූර්ණ දත්ත කට්ටලයම භාවිතා කර පුහුණු කළහොත් මෙය අධික ලෙස ගැලපීම හා අනාගත අනාවැකි කඩාකප්පල් කිරීමක් නොවේද?
බර්ක් යූ.

19
නොමැත! අධික ලෙස ගැළපීම ආකෘති සංකීර්ණතාවයට සම්බන්ධ වන අතර, එය ආකෘතිය පුහුණු කිරීම සඳහා භාවිතා කරන දත්ත ප්‍රමාණය සමඟ කිසිදු සම්බන්ධයක් නැත. ආකෘති සංකීර්ණතාවයට සම්බන්ධ වන්නේ ආකෘතිය භාවිතා කරන ක්‍රමයට මිස එහි පරාමිතීන් ගන්නා අගයන්ට නොවේ. උදාහරණයක් ලෙස x ^ 2 සම-කාර්යක්ෂමතා මෙන්ම x සම-කාර්යක්ෂමතාව ප්‍රතිගාමී ආකෘතියකට ඇතුළත් කළ යුතුද යන්න.
බොග්ඩනොවිස්ට්

20
Og බොග්ඩනොවිස්ට්: මම කියන්නේ ඕනෑවට වඩා ව්‍යායාම කිරීම ඉතා සංකීර්ණ ආකෘතියක් සඳහා පුහුණු අවස්ථා කිහිපයක් තිබීමයි. එබැවින් එය (එසේම) පුහුණු අවස්ථා ගණනක් සමඟ සම්බන්ධ වේ. නමුත් වැඩි පුහුණු අවස්ථා තිබීම අධික ලෙස ආහාර ගැනීමේ අවදානම අඩු කරයි (නිරන්තර ආකෘති සංකීර්ණතාව සඳහා).
එස්එක්ස්

3
Og බොග්ඩනොවිස්ට් For that we want to use all the data we have to come up with the best model possible.- කේ-ගුණයකින් හරස් වලංගු කිරීම සමඟ ග්‍රිඩ් සෙවුමක් කරන විට, මෙයින් අදහස් කරන්නේ ඔබ ග්‍රිඩ් සෙවුමෙන් සොයාගත් හොඳම පරාමිතීන් භාවිතා කර සමස්ත පුහුණු දත්තයන්හි ආකෘතියක් ගැලපෙන බවත්, පසුව පරීක්ෂණ කට්ටලය භාවිතයෙන් සාමාන්‍යකරණ කාර්ය සාධනය ඇගයීමට ලක් කරන බවත් ද?
අරුන්

6
unarun, ඔබ k- ගුණයකින් හරස් වලංගුකරණය භාවිතා කර හොඳම පරාමිතීන් සහ අධි-පරාමිතීන් සහිත හොඳම ආකෘතිය තෝරාගෙන තිබේ නම්, පුහුණු කට්ටලයට වඩා අවසාන ආකෘතිය සවිකිරීමෙන් පසු, ඔබ නැවත කාර්ය සාධනය සඳහා පරීක්ෂා කිරීම අවශ්‍ය නොවේ පරීක්ෂණ කට්ටලය. මෙයට හේතුව නිශ්චිත පරාමිතීන් සහිත ආකෘතිය නොපෙනෙන දත්ත මත ක්‍රියා කරන්නේ කෙසේදැයි ඔබ දැනටමත් පරීක්ෂා කර ඇති බැවිනි.
සන්දීප් එස්. සන්ඩු

31

බොග්ඩනොවිස්ට්ගේ පිළිතුරට අමතරව කරුණු කිහිපයක් ඉදිරිපත් කිරීමට මට ඉඩ දෙන්න

k

දැන්, මෙම ක්රියාවලියේ සමහර උපකල්පන තිබේ.


  • k

  • k
    එන්k-1kkk

  • සීමිත අවස්ථා ගණන යන්නෙන් අදහස් වන්නේ සීමිත පරීක්ෂණ අවස්ථා හේතුවෙන් කාර්ය සාධනය මැනීම අහඹු දෝෂයකට (විචල්‍යතාවයකට) යටත් වනු ඇති බවයි. මෙම විචල්‍යතාවයේ ප්‍රභවය ආදර්ශ අස්ථායී විචල්‍යතාවයට වඩා වෙනස් වේ.

නිරීක්ෂණය කරන ලද කාර්ය සාධනයේ වෙනස්කම් ඇති වන්නේ මෙම විචල්‍යතා ප්‍රභවයන් දෙක හේතුවෙනි.

ඔබ සිතන "තේරීම" යනු දත්ත කට්ටල තේරීමකි: අන්වාදේශ ආකෘති වලින් එකක් තෝරා ගැනීම යනු පුහුණු සාම්පලවල උප කුලකයක් තෝරා ගැනීම සහ මෙම පුහුණු සාම්පල උප කාණ්ඩය උසස් ආකෘතියකට මඟ පෙන්වන බව ප්‍රකාශ කිරීම ය. මෙය සත්‍ය වශයෙන්ම විය හැකි වුවත්, සාමාන්‍යයෙන් “උත්තරීතර භාවය” ව්‍යාජ ය. කෙසේ වෙතත්, අන්‍යාගමික මාදිලිවල "හොඳම" තෝරා ගැනීම දත්ත පදනම් කරගත් ප්‍රශස්තිකරණයක් බැවින්, ඔබ තෝරාගත් ආකෘතිය නව නොදන්නා දත්ත සමඟ වලංගු කිරීම (කාර්ය සාධනය මැනීම) අවශ්‍ය වේ. මෙම හරස් වලංගුකරණය තුළ ඇති පරීක්ෂණ කට්ටලය ස්වාධීන නොවේ, එය අන්වාදේශ ආකෘතිය තෝරා ගැනීමට භාවිතා කළ බැවින්.

ඔබට අපගේ කඩදාසි දෙස බැලීමට අවශ්‍ය විය හැකිය, එය වර්ගීකරණය ගැන වන අතර එය සාමාන්‍යයෙන් ප්‍රතිගාමීත්වයට වඩා නරක ය. කෙසේ වෙතත්, මෙම විචල්‍යතා සහ පක්ෂග්‍රාහී ප්‍රභවයන් එකතු වන ආකාරය එය පෙන්වයි.
බෙලයිට්ස්, සී. සහ නියුගුබවර්, යූ. සහ බොක්ලිට්ස්, ටී. සහ ක්‍රාෆ්ට්, සී. සහ පොප්, ජේ .: වර්ගීකරණ ආකෘති සඳහා නියැදි ප්‍රමාණ සැලසුම් කිරීම. අනල් චිම් ඇක්ටා, 2013, 760, 25-33.
DOI: 10.1016 / j.aca 2012.11.007
arXiv හි පිළිගත් අත් පිටපත: 1211.1323


ඔබ පවසන විට ඔබ සහ බොග්ඩනොවිස්ට් අතර එකඟතාවයක් නොමැති picking "the best" of the surrogate models is a data-driven optimization, you'd need to validate (measure performance) this picked model with new unknown data. The test set within this cross validation is not independent as it was used to select the surrogate model.අතර ඔහු පවසන්නේ But once we have used cross-validation to select the better performing model, we train that model (whether it be the linear regression or the neural network) on all the data.මෙය බෙහෙවින් පොදු වන අතර ප්‍රමිතිගත ප්‍රවේශයක් නියම කිරීම ඉතා වැදගත් බවයි
jpcgandre

විශේෂයෙන් කුඩා දත්ත කට්ටල සඳහා CV වෙතින් දත්ත පිටවීම කළ නොහැක්කක් විය හැකි නමුත් ඔබේ ආකෘතිය අධික ලෙස සවිකිරීමේ අවදානම ද ඉහළ ය! මෙම ගැටළුව පැහැදිලි කිරීම සඳහා යොමු කිරීම් අවශ්ය වේ.
jpcgandre

5
pjpcgandre: මට කිසිම එකඟතාවයක් නොපෙනේ. හරස් වලංගුකරණය හරහා තෝරාගත් හයිපර් පරාමිතීන්ගෙන් තේරීමේ ආකෘතිය සැබවින්ම ගණනය කරන්නේ කෙසේදැයි බොග්ඩනොවිස්ට් පැහැදිලි කරන අතර, එවැනි තේරීමකින් පසුව, ආකෘතියට තවත් (පිටත) ස්වාධීන මට්ටමේ වලංගු භාවයක් අවශ්‍ය බව මම එකතු කළෙමි. වෙනත් වචන වලින් කිවහොත්, උදා: කැදැලි වලංගු කිරීමේ සැලසුම: හයිපර් පරාමිතික තේරීම සඳහා අභ්‍යන්තර වලංගු කිරීමේ ලූපය, තෝරාගත් ආකෘති පරීක්ෂා කිරීම සඳහා පිටත ලූපය (ඔබට ප්‍රමාණවත් අවස්ථා තිබේ නම්, ඔබට ස්වාධීන පරීක්ෂණ කට්ටලයක් සඳහාද යා හැකිය).
එස්එක්ස්

6
අභ්‍යන්තර / පිටත වලංගු කිරීම ද්විත්ව හෝ කැදැලි හරස් වලංගුකරණය ලෙස හැඳින්වෙන හරස් වලංගුකරණය සඳහා වන අතර, එය හරස් ආකෘති වලංගුකරණය ලෙසද මම දැක ඇත්තෙමි ( dx.doi.org/10.1016/j.chemolab.2006.04.021 ). ස්වාධීන පරීක්ෂණ කට්ටලයක් සමඟ එය කට්ටල තුනකට බෙදීමට අනුරූප වේ: දුම්රිය / (ප්‍රශස්තිකරණය) වලංගු කිරීම / පරීක්ෂණය (= අවසාන වලංගුකරණය). ඔබට දෙවන මට්ටමේ සීවී සඳහා දත්ත අතහැර දැමිය නොහැකි අවස්ථා කිහිපයක් තිබේ නම්, මම තර්ක කරන්නේ හයිපර් පරාමිතික කට්ටලවලින් එකක් තෝරා ගැනීමෙන් ප්‍රශස්තිකරණය කිරීමට උත්සාහ කරනවා වෙනුවට ඔබේ හයිපර් පරාමිතීන් වෙනත් ක්‍රමයකින් සවි කළ යුතු බවයි.
cbeleites SX

මට ප්‍රශ්නයක් තියෙනවා. අවසාන ආකෘති පරාමිතීන් ලබා ගැනීම සඳහා, ඔබ එක් එක් බාහිර ගුණයකින් හයිපර් පරාමිතීන්ගේ සාමාන්‍යය ගෙන, එම සාමාන්‍ය හයිපර් පරාමිතිය භාවිතා කර මුළු දත්ත කට්ටලයම නැවත ලබා ගන්නවාද? එසේත් නැතිනම් සාමාන්‍ය සීවී එකක හයිපර් පරාමිතික සෙවීම සිදු කර නැවත නැවත කැදැලි සීවී භාවිතා කරමින් මෙම ක්‍රමයේ ස්ථායිතාව තහවුරු කරයිද?
මිෂෙල්

14

යන්ත්‍ර ඉගෙනීමේ දී සීවී භාවිතය සම්බන්ධයෙන් මා සතුව ඇති සියලු ව්‍යාකූලතා ඉවත් කිරීමට අවසාන යන්ත්‍ර ඉගෙනීමේ ආකෘතියක් පුහුණු කරන්නේ කෙසේද යන්න මෙම විශිෂ්ට ලිපිය මට හමු විය .

අනාගතයේ දී නොපෙනෙන පරිදි ඔබේ සමස්ත ක්‍රියා පටිපාටිය (දත්ත ඉංජිනේරු විද්‍යාව, මාදිලියේ තේරීම (එනම් ඇල්ගොරිතම) සහ අධි-පරාමිතීන් ආදිය) කෙතරම් හොඳින් ක්‍රියාත්මක වේදැයි තක්සේරු කිරීමට මූලික වශයෙන් අපි CV (උදා. 80/20 භේදය, k- ගුණය, ආදිය) භාවිතා කරමු. දත්ත. ඔබ ජයග්‍රාහී "ක්‍රියා පටිපාටිය" තෝරාගත් පසු, සීවී වෙතින් සවිකර ඇති ආකෘති ඔවුන්ගේ අරමුණු ඉටු කර ඇති අතර දැන් ඒවා ඉවත දැමිය හැකිය. ඉන්පසු ඔබ එකම ජයග්‍රාහී “ක්‍රියා පටිපාටිය” භාවිතා කර සම්පූර්ණ දත්ත කට්ටලය භාවිතා කර ඔබේ අවසාන ආකෘතිය පුහුණු කරන්න.


2

එය ඉතා රසවත් ප්‍රශ්නයකි. එය පැහැදිලි කිරීම සඳහා, ආකෘති සහ ආකෘති ඇගයීමේ වෙනස අප තේරුම් ගත යුතුය. ආකෘතියක් තැනීම සඳහා අපි සම්පූර්ණ පුහුණු කට්ටලයක් භාවිතා කරන අතර, මෙම ආකෘතිය අවසාන වශයෙන් භාවිතා කරනු ඇතැයි අපි අපේක්ෂා කරමු.

K ගුණයකින් හරස් ඇගයීම මඟින් K ආකෘති ගොඩනඟන නමුත් සියල්ල අතහැර දමනු ඇත. K ආකෘති ඇගයීම සඳහා පමණක් භාවිතා කරයි. මෙම ආකෘතිය ඔබගේ දත්ත සමඟ කොතරම් හොඳින් ගැලපේදැයි ඔබට පැවසීමට එය ප්‍රමිතික නිපදවීය.

නිදසුනක් ලෙස, ඔබ රේඛීය ප්‍රතිගාමී ඇල්ගෝව තෝරාගෙන එකම පුහුණු කට්ටලයක් මත මෙහෙයුම් දෙකක් සිදු කරයි: එකක් 10 ගුණයකින් හරස් වලංගු කිරීමක් සහ අනෙක 20 ගුණයකින්. ප්‍රතිගාමී (හෝ වර්ගීකරණ) ආකෘතිය සමාන විය යුතුය, නමුත් සහසම්බන්ධතා සංගුණකය සහ මූල සාපේක්ෂ වර්ග දෝෂය වෙනස් වේ.

පහත දැක්වෙන්නේ වෙකා සමඟ 10 ගුණයකින් සහ 20 ගුණයකින් හරස් වලංගු කිරීම සඳහා ලකුණු දෙකක්

පළමු ධාවනය 10 ගුණයකින්

=== Run information ===
Test mode:    10-fold cross-validation
...
=== Classifier model (full training set) ===


Linear Regression Model  <---- This model is the same

Date = 844769960.1903 * passenger_numbers -711510446549.7296

Time taken to build model: 0 seconds

=== Cross-validation ===  <---- Hereafter produced different metrics
=== Summary ===

Correlation coefficient                  0.9206
Mean absolute error                35151281151.9807
Root mean squared error            42707499176.2097
Relative absolute error                 37.0147 %
Root relative squared error             38.9596 %
Total Number of Instances              144     

2 වන ධාවන පථය 20 ගුණයකින්

=== Run information ===
...
Test mode:    20-fold cross-validation

=== Classifier model (full training set) ===


Linear Regression Model   <---- This model is the same

Date = 844769960.1903 * passenger_numbers -711510446549.7296

Time taken to build model: 0 seconds

=== Cross-validation ===  <---- Hereafter produced different metrics
=== Summary ===

Correlation coefficient                  0.9203
Mean absolute error                35093728104.8746
Root mean squared error            42790545071.8199
Relative absolute error                 36.9394 %
Root relative squared error             39.0096 %
Total Number of Instances              144     

1

අපි k-fold හරස් වලංගුකරණය භාවිතා කරන්නේ ඇයි?

හරස් වලංගුකරණය යනු නොපෙනෙන දත්ත පිළිබඳ ක්‍රමවේදයක නිපුණතාවය තක්සේරු කිරීමේ ක්‍රමයකි. දුම්රිය පරීක්ෂණ භේදයක් භාවිතා කරනවා වගේ.

හරස් වලංගුකරණය දත්ත සමුදායේ බහුවිධ උප කුලකවල බහු ආකෘති ක්‍රමානුකූලව නිර්මාණය කර ඇගයීමට ලක් කරයි. මෙය අනෙක් අතට කාර්ය සාධන මිනුම් ජනගහනයක් සපයයි .

  • ක්‍රියා පටිපාටිය සාමාන්‍යයෙන් කොතරම් හොඳින් ක්‍රියාත්මක වේද යන්න පිළිබඳ අදහසක් ලබා ගැනීමට අපට මෙම පියවරයන්ගේ මධ්‍යන්‍යය ගණනය කළ හැකිය .
  • ක්‍රියා පටිපාටියේ නිපුණතාවය ප්‍රායෝගිකව කොතරම් වෙනස් වනු ඇතැයි අපේක්ෂා කරන්නේද යන්න පිළිබඳ අදහසක් ලබා ගැනීම සඳහා අපට මෙම පියවරයන්ගේ සම්මත අපගමනය ගණනය කළ හැකිය .

ඔබ භාවිතා කළ යුතු ඇල්ගොරිතම සහ දත්ත සැකසීමේ ක්‍රියා පටිපාටි තෝරා ගැනීමට උත්සාහ කරන විට එක් ක්‍රියා පටිපාටියක් තවත් ක්‍රියාපටිපාටියකට වඩා සූක්ෂම සංසන්දනයක් සැපයීමට මෙය උපකාරී වේ.

එසේම, ප්‍රායෝගිකව යන්ත්‍ර ඉගෙනීමේ ක්‍රියාපටිපාටියක් මත අපේක්ෂිත කාර්ය සාධනය පිළිබඳ විශ්වාසනීය පරතරයක් ලබා දීම සඳහා මධ්යන්යය සහ පැතිරීම භාවිතා කළ හැකි බැවින් මෙම තොරතුරු මිල කළ නොහැකි ය.

යොමුව


0

ඉහත සාකච්ඡාව මුළුමනින්ම නිවැරදි යැයි මට විශ්වාස නැත. හරස් වලංගුකරණයේදී, එක් එක් ධාවනය සඳහා දත්ත පුහුණු හා පරීක්ෂණ ලෙස බෙදිය හැකිය. පුහුණු දත්ත පමණක් භාවිතා කරමින්, ආකෘතියට සරිලන සේ සලකා බැලිය යුතු එක් එක් පන්තියේ ආකෘතිවල සුසර කිරීමේ පරාමිතීන් තෝරා ගත යුතුය. උදාහරණයක් ලෙස, ස්නායුක දැල් වල සුසර කිරීමේ පරාමිතීන් වන්නේ නියුරෝන ගණන සහ සක්‍රිය කිරීමේ ක්‍රියාකාරිත්වය සඳහා වන තේරීම් ය. මෙය සිදු කිරීම සඳහා, එක් අයෙකු පුහුණු දත්තවල පමණක් හරස් වලංගු කරයි .

එක් එක් පන්තියේ හොඳම ආකෘතිය සොයාගත් පසු, පරීක්ෂණ දත්ත භාවිතා කරමින් හොඳම යෝග්‍යතා ආකෘතිය ඇගයීමට ලක් කෙරේ. පරීක්ෂණ දත්ත ක්‍රියාකාරිත්වය පිළිබඳ වඩා හොඳ තක්සේරුවක් මෙන්ම විචල්‍යතාව පිළිබඳ තක්සේරුවක් ලබා දීමට “පිටත” හරස් වලංගු කිරීමේ ලූපය භාවිතා කළ හැකිය. සාකච්ඡාවකට පසුව විවිධ පංති සඳහා පරීක්ෂණ කාර්ය සාධනය සංසන්දනය කළ හැකිය. නියුරල් නෙට්ස් එදිරිව එස්වීඑම්. එක් මාදිලි පංතියක් තෝරාගෙන ඇති අතර, ආකෘති ප්‍රමාණය සවි කර ඇති අතර දැන් සම්පූර්ණ දත්ත හොඳම ආකෘතිය ඉගෙන ගැනීමට යොදා ගනී.

දැන්, ඔබේ යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතමයේ කොටසක් ලෙස ඔබට නිරන්තරයෙන් හොඳම ආදර්ශ පන්තිය තෝරා ගැනීමට අවශ්‍ය නම් (සෑම සතියකම කියන්න), එවිට මෙම තේරීම පවා පුහුණු දත්ත මගින් ඇගයීමට ලක් කළ යුතුය! ආකෘති දත්ත තේරීම ගතික විකල්පයක් නම් විනිශ්චය කිරීමට පරීක්ෂණ දත්ත මිනුම් භාවිතා කළ නොහැක.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.