හරස් වලංගුකරණයෙන් පසු සම්පූර්ණ දත්ත කට්ටලය සමඟ පුහුණු කිරීම සැමවිටම හොඳ අදහසක් ද ? එය වෙනත් ආකාරයකින් පවසන්නේ නම් එය සමග පුහුණු කිරීමට හරි සියලු මගේ දත්ත සමුදාය තුළ සාම්පල හා නොවන මෙම විශේෂ සුදුසු නම්, පරීක්ෂා කිරීමට හැකි වීම overfits ?
ගැටලුවේ පසුබිම:
මා විසින් පරාමිතිගත කරන ලද මාදිලි පවුලක් සිටින බව පවසන්න. මට කට්ටලයක් ඇති බව ද කියන්න දත්ත ලක්ෂ්යයන් සහ දත්ත වඩාත් හොඳින් සාමාන්යකරණය කරන ආකෘතිය තෝරා ගැනීම සඳහා මම කේ-ගුණයකින් හරස් වලංගුකරණය සමඟ ආකෘති තෝරා ගැනීම සිදු කරමි.
ආකෘති තේරීම සඳහා, මට සෙවීමක් කළ හැකිය (උදා: ජාලක සෙවුමක්) උදාහරණයක් ලෙස, එක් එක් අපේක්ෂකයා සඳහා k- ගුණයකින් හරස් වලංගු කිරීම. හරස් වලංගුකරණයේ එක් එක් ගුණයකින්, මම ඉගෙනගත් ආකෘතියෙන් අවසන් වෙමි .
හරස් වලංගු කිරීමේ කාරණය නම්, මෙම සෑම ගුණයකින්ම මට “නොපෙනෙන දත්ත” මත පරීක්ෂා කිරීමෙන් උගත් ආකෘතියට අධික බරක් තිබේදැයි පරීක්ෂා කළ හැකිය. ප්රති results ල මත පදනම්ව, මට ආකෘතිය තෝරා ගත හැකිය පරාමිතීන් සඳහා ඉගෙන ගත්තා ජාලක සෙවුමේ හරස් වලංගුකරණයේදී වඩාත් සාමාන්යකරණය කළ.
දැන්, ඒ කියන්නේ ආදර්ශ තෝරා ගැනීමෙන් පසුව , මම භාවිතා කිරීමට කැමති සියලු වනමගේ දත්ත කට්ටලයේ ලකුණු කර වඩා හොඳ ආකෘතියක් ඉගෙන ගන්න. මේ සඳහා මට පරාමිතීන් භාවිතා කළ හැකියආකෘති තෝරාගැනීමේදී මා තෝරාගත් ආකෘතියට අනුරූප වන අතර, පසුව සම්පූර්ණ දත්ත කට්ටලය පිළිබඳ පුහුණුවීමෙන් පසුව, මට නව උගත් ආකෘතියක් ලැබෙනු ඇත. ගැටළුව වන්නේ, මගේ දත්ත කට්ටලයේ සියලුම කරුණු පුහුණුව සඳහා භාවිතා කරන්නේ නම්, මෙම නව උගත් ආකෘතිය මට පරීක්ෂා කළ නොහැක නොපෙනෙන ඕනෑම දත්තයකට අධික ලෙස ගැලපේ . මෙම ගැටලුව වටා සිතීමට නිවැරදි ක්රමය කුමක්ද?