හරස් වලංගු කිරීමේ අරමුණ පිළිබඳ ඔබේ අවබෝධයේ තවමත් ඔබට යමක් මග හැරී ඇතැයි මම සිතමි.
සමහර පාරිභාෂිතය කෙලින්ම ලබා ගනිමු, සාමාන්යයෙන් අපි 'ආකෘතියක්' යැයි කියන විට, අපි පුරෝකථනය කිරීමට උත්සාහ කරන දෙයට සමහර ආදාන දත්ත සම්බන්ධ වන්නේ කෙසේද යන්න විස්තර කිරීම සඳහා අපි විශේෂිත ක්රමයක් වෙත යොමු වෙමු. අපි සාමාන්යයෙන් එම ක්රමයේ විශේෂිත අවස්ථා විවිධ ආකෘති ලෙස හඳුන්වන්නේ නැත. එබැවින් ඔබට 'මට රේඛීය ප්රතිගාමී ආකෘතියක් ඇත' යැයි පැවසිය හැකි නමුත් ඔබ පුහුණු කළ සංගුණකවල වෙනස් කට්ටල දෙකක් විවිධ ආකෘතීන් ලෙස නොකියනු ඇත. අවම වශයෙන් ආකෘති තෝරා ගැනීමේ සන්දර්භය තුළ නොවේ.
එබැවින්, ඔබ K- ගුණයකින් හරස් වලංගු භාවයක් සිදු කරන විට, ඔබේ ආකෘතියට සමහර දත්ත මගින් පුහුණුව ලබා ගත හැකි ආකාරය පරීක්ෂා කර බලා එය දැක නැති දත්ත පුරෝකථනය කරන්න. අපි මේ සඳහා හරස් වලංගුකරණය භාවිතා කරන්නෙමු, මන්ද ඔබ සතුව ඇති සියලුම දත්ත භාවිතා කරමින් ඔබ පුහුණු කරන්නේ නම්, ඔබට පරීක්ෂා කිරීමට කිසිවක් ඉතිරිව නැත. ඔබට මෙය එක් වරක් කළ හැකිය, පුහුණු කිරීමට දත්ත වලින් 80% ක් සහ පරීක්ෂා කිරීමට 20% ක් භාවිතා කිරීමෙන් කියන්න, නමුත් ඔබ පරීක්ෂා කිරීමට තෝරාගත් 20% ක් සිදුවුවහොත් විශේෂයෙන් පහසු (හෝ විශේෂයෙන් අමාරු) ලකුණු පොකුරක් අඩංගු වේ නම් කුමක් කළ යුතුද? පුරෝකථනය කිරීමට? ඉගෙනීමට හා පුරෝකථනය කිරීමට ආකෘති හැකියාව පිළිබඳ හොඳම තක්සේරුව අප ඉදිරිපත් නොකරනු ඇත.
අපට සියලු දත්ත භාවිතා කිරීමට අවශ්යයි. එබැවින් 80/20 භේදයක ඉහත උදාහරණය දිගටම කරගෙන යාම සඳහා, අපි 80% ක දත්තයන් 5% ක් පුහුණු කිරීමෙන් සහ දත්ත වලින් 80% ක් පරීක්ෂා කිරීමෙන් 20% ක් හරස් වලංගු කිරීමක් කරන්නෙමු. සෑම දත්ත ලක්ෂ්යයක්ම එක් වරක් 20% පරීක්ෂණ කට්ටලය තුළ අවසන් වන බව අපි සහතික කරමු. එබැවින් අපගේ දත්ත සමහර දත්ත වලින් ඉගෙනීමේ හා නව දත්ත පුරෝකථනය කිරීමේ කාර්යය කෙතරම් හොඳින් ඉටු කරයිද යන්න අවබෝධ කර ගැනීම සඳහා දායක විය යුතු සෑම දත්ත ලක්ෂ්යයක්ම අපි භාවිතා කර ඇත්තෙමු.
නමුත් හරස් වලංගුකරණයේ අරමුණ අපගේ අවසාන ආකෘතිය සමඟ පැමිණීම නොවේ. කිසිදු සත්ය පුරෝකථනයක් කිරීමට අපගේ පුහුණු ආකෘතියේ මෙම අවස්ථා 5 අපි භාවිතා නොකරමු. ඒ සඳහා අපට අවශ්ය සියලුම දත්ත භාවිතා කිරීමට අපට හැකි හොඳම ආකෘතිය ඉදිරිපත් කළ යුතුය. හරස් වලංගුකරණයේ අරමුණ ආකෘති පරීක්ෂා කිරීම මිස ආකෘති ගොඩනැගීම නොවේ.
දැන්, අපට ආකෘති දෙකක් ඇති බව පවසන්න, රේඛීය ප්රතිගාමී ආකෘතියක් සහ ස්නායුක ජාලයක් කියන්න. වඩා හොඳ කුමන ආකෘතියදැයි අපට කිව හැක්කේ කෙසේද? අපට K- ගුණයකින් හරස් වලංගුකරණයක් කළ හැකි අතර පරීක්ෂණ කට්ටල ලකුණු අනාවැකි කීමට වඩා හොඳ වන්නේ කුමක්දැයි බලන්න. නමුත් වඩා හොඳ ක්රියාකාරී ආකෘතියක් තෝරා ගැනීම සඳහා අපි හරස් වලංගුකරණය භාවිතා කළ පසු, අපි එම ආකෘතිය (එය රේඛීය ප්රතිගාමී හෝ ස්නායුක ජාලය වේවා) සියලු දත්ත මත පුහුණු කරමු. අපගේ අවසාන පුරෝකථන ආකෘතිය සඳහා හරස් වලංගුකරණයේදී අප පුහුණු කළ සත්ය ආදර්ශ අවස්ථා අපි භාවිතා නොකරමු.
සමෝධානික ආකෘතියක් තැනීම සඳහා හරස් වලංගුකරණයට සමාන ආකාරයකින් නිපදවන ලද ආදර්ශ අවස්ථා භාවිතා කරන බූට්ස්ට්රැප් ඇග්රිජේෂන් (සාමාන්යයෙන් 'බෑග්' ලෙස කෙටි කර ඇත) යනුවෙන් තාක්ෂණයක් ඇති බව සලකන්න, නමුත් එය විෂය පථයෙන් ඔබ්බට දියුණු තාක්ෂණයකි. ඔබේ ප්රශ්නය මෙතන.