ඇගයීම පිළිබඳ වැරදි වැටහීමක් තිබේ. මෙයින් කොටසක් පැමිණෙන්නේ දත්ත පිළිබඳ සැබෑ උනන්දුවක් නොමැතිව දත්ත කට්ටලවල ඇල්ගොරිතම ප්රශස්තිකරණය කිරීමට උත්සාහ කිරීමේ යන්ත්ර ඉගෙනීමේ ප්රවේශයෙනි.
වෛද්යමය සන්දර්භයක් තුළ, එය සැබෑ ලෝකයේ ප්රති come ල ගැන ය - නිදසුනක් වශයෙන්, ඔබ මියයෑමෙන් කී දෙනෙකු බේරා ගනී ද? වෛද්ය සන්දර්භයක් තුළ සංවේදීතාව (TPR) භාවිතා කරනුයේ ධනාත්මක අවස්ථා කීයක් නිවැරදිව තෝරාගෙන ඇත්දැයි බැලීමටය (ව්යාජ සෘණ = FNR ලෙස මඟ හැරුණු අනුපාතය අවම කිරීම) සහ negative ණාත්මක අවස්ථා කීයක් නිවැරදිව දැයි බැලීමට නිශ්චිතතාව (TNR) භාවිතා කරයි. ඉවත් කරන ලදි (ව්යාජ ධනාත්මක ලෙස පෙනෙන අනුපාතය අවම කිරීම = FPR). සමහර රෝග මිලියනයකට එකක් පැතිර පවතී. මේ අනුව ඔබ සැමවිටම negative ණාත්මක ලෙස පුරෝකථනය කරන්නේ නම් ඔබට 0.999999 ක නිරවද්යතාවයක් ඇත - මෙය සාක්ෂාත් කරගනු ලබන්නේ සරල ZeroR ඉගෙන ගන්නෙකු විසින් උපරිම පන්තිය ගැන පුරෝකථනය කරයි. ඔබ රෝගවලින් තොර යැයි පුරෝකථනය කිරීම සඳහා නැවත කැඳවීම සහ නිරවද්යතාවය සලකා බැලුවහොත්, අපට ZeroR සඳහා මතක් කිරීම = 1 සහ නිරවද්යතාව = 0.999999 ඇත. ඇත්ත වශයෙන්, ඔබ ආපසු හරවා + ve සහ -ve කර පුද්ගලයෙකුට ZeroR සමඟ රෝගයක් ඇති බවට අනාවැකි කීමට උත්සාහ කළහොත් ඔබට මතක් වන්නේ = 0 සහ නිරවද්යතාව = undef (ඔබ ධනාත්මක පුරෝකථනයක් පවා නොකළ නිසා, නමුත් බොහෝ විට මිනිසුන් මෙහි නිරවද්යතාවය 0 ලෙස අර්ථ දක්වයි නඩුව). රෙකෝල් (+ ve රෙකෝල්) සහ ප්රතිලෝම රෙකෝල් (-ve රෙකෝල්) සහ අදාළ ටීපීආර්, එෆ්පීආර්, ටීඑන්ආර් සහ එෆ්එන්ආර් සෑම විටම අර්ථ දක්වා ඇත්තේ අප ගැටළුව විසඳන්නේ පංති දෙකක් වෙන්කර හඳුනාගත හැකි නිසා සහ අපි හිතාමතාම සපයන බැවිනි. එක් එක් උදාහරණ.
වෛද්ය සන්දර්භය තුළ පිළිකා අතුරුදහන් වීම අතර ඇති විශාල වෙනස සැලකිල්ලට ගන්න (යමෙකු මිය යන අතර ඔබට නඩු පවරනු ලැබේ) වෙබ් සෙවුමක කඩදාසි අතුරුදහන් වීමට එරෙහිව (අනෙක් අයගෙන් එක් අයෙක් එය වැදගත් නම් එය සඳහන් කරයි). මෙම අවස්ථා දෙකෙහිම මෙම දෝෂයන් ව්යාජ නිෂේධනීය ලෙස සංලක්ෂිත වේ. වෙබ් සෙවුම් නඩුවේදී අපට සත්ය නිෂේධනයන් විශාල ප්රමාණයක් ස්වයංක්රීයව ලැබෙනුයේ අප ප්රති results ල කුඩා සංඛ්යාවක් පමණක් පෙන්වන නිසා (උදා: 10 හෝ 100) සහ පෙන්වීම නොකිරීම ඇත්ත වශයෙන්ම negative ණාත්මක පුරෝකථනයක් ලෙස නොගත යුතුය (එය 101 විය හැකිය ), පිළිකා පරීක්ෂණ නඩුවේදී අපට සෑම පුද්ගලයෙකුටම ප්රති result ලයක් ඇති අතර වෙබ් සෙවුම මෙන් නොව ව්යාජ negative ණාත්මක මට්ටම (අනුපාතය) අපි සක්රියව පාලනය කරමු.
එබැවින් ROC විසින් සත්ය ධනාත්මක (සැබෑ සෘණවලට සමානුපාතිකයක් ලෙස ව්යාජ නිෂේධනවලට එදිරිව) සහ ව්යාජ ධනාත්මක (සැබෑ සෘණවලට සාපේක්ෂව සැබෑ නිෂේධනවල සමානුපාතිකයක්) අතර වෙළඳාම ගවේෂණය කරයි. එය සංවේදීතාව (+ ve මතක් කිරීම) සහ නිශ්චිතතාව (-ve Recall) සංසන්දනය කිරීමට සමාන වේ. ටීපීආර් එදිරිව එෆ්පීආර් වලට වඩා ටීපී එදිරිව එෆ්පී කුමන්ත්රණය කරන ස්ථානයට සමාන පෙනුමක් ඇති පීඑන් ප්රස්ථාරයක් ද ඇත - නමුත් අපි බිම් කොටසට හරවන බැවින් එකම වෙනස වන්නේ අප පරිමාණයන් මත තබන සංඛ්යා ය. ඒවා නියතයන් මගින් සම්බන්ධ වේ TPR = TP / RP, FPR = TP / RN, එහිදී RP = TP + FN සහ RN = FN + FP යනු දත්ත කට්ටලයේ තාත්වික ධනාත්මක සහ තාත්වික සෘණ සංඛ්යාව වන අතර අනෙක් අතට පක්ෂග්රාහී PP = TP + FP සහ PN = TN + FN යනු අපි ධනාත්මක හෝ පුරෝකථනය කරන සෘණ වාර ගණනයි. ධනාත්මක ප්රතිචාරයේ ව්යාප්තිය අපි rp = RP / N සහ rn = RN / N ලෙස හඳුන්වන බව සලකන්න. negative ණ සහ pp = PP / N සහ rp = RP / N ධනාත්මක ප්රතිචාර දැක්වීමේ නැඹුරුව.
අපි සංවේදීතාව සහ නිශ්චිතතාව ගණනය කරන්නේ නම් හෝ වෙළඳාම් වක්රය යටතේ ඇති ප්රදේශය දෙස බැලුවහොත් (ROC යන්තම් x- අක්ෂය ආපසු හැරවීමට සමාන වේ) අපි කුමන පන්තිය + ve සහ + ve ලෙස හුවමාරු කර ගන්නේ නම් අපට එම ප්රති result ලයම ලැබේ. නිරවද්යතාවය සහ නැවත මතක් කිරීම සඳහා මෙය සත්ය නොවේ (ඉහත විස්තර කර ඇති පරිදි ZeroR විසින් රෝග අනාවැකි සමඟ). මෙම අත්තනෝමතික භාවය නිරවද්යතාව, මතක් කිරීම සහ ඒවායේ සාමාන්යයන් (අංක ගණිතය, ජ්යාමිතික හෝ හාර්මොනික් වේවා) සහ වෙළඳ ප්රස්ථාරවල ප්රධාන iency නතාවයකි.
පද්ධතියේ පරාමිතීන් වෙනස් වන බැවින් PR, PN, ROC, LIFT සහ වෙනත් ප්රස්ථාර සැලසුම් කර ඇත. පුහුණුව ලත් එක් එක් පද්ධතිය සඳහා මෙම සම්භාව්ය කුමන්ත්රණ ලකුණු, බොහෝ විට එළිපත්ත වැඩි කිරීම හෝ අඩුවීම සමඟ ධනාත්මක හා negative ණාත්මක ලෙස වර්ගීකරණය කරන ලද ලක්ෂ්යය වෙනස් කිරීම.
සමහර විට සැලසුම් කරන ලද ලකුණු එකම ආකාරයකින් පුහුණු කරන ලද පද්ධති කට්ටලවල සාමාන්ය (පරාමිතීන් / සීමාවන් / ඇල්ගොරිතම වෙනස් කිරීම) විය හැකිය (නමුත් විවිධ අහඹු සංඛ්යා හෝ නියැදි හෝ ඇණවුම් භාවිතා කිරීම). මේවා න්යායාත්මක ව්යුහයන් වන අතර ඒවා කිසියම් ගැටළුවක් මත ඒවායේ ක්රියාකාරිත්වයට වඩා පද්ධතිවල සාමාන්ය හැසිරීම ගැන අපට කියයි. වෙළඳ ප්රස්ථාර ප්රස්ථාර මගින් විශේෂිත යෙදුමක් සඳහා (දත්ත කට්ටලය සහ ප්රවේශය) නිවැරදි මෙහෙයුම් ලක්ෂ්යයක් තෝරා ගැනීමට අපට උපකාරී වනු ඇති අතර ROC වෙත එහි නම ලැබෙන්නේ මෙහිදීය (ලබන්නාගේ මෙහෙයුම් ලක්ෂණ මගින් ලැබෙන තොරතුරු උපරිම ලෙස දැනුවත් කිරීමේ අර්ථයෙන්).
නැවත කැඳවීම හෝ ටීපීආර් හෝ ටීපී වලට එරෙහිව කුමන්ත්රණය කළ හැකි දේ සලකා බලමු.
TP vs FP (PN) - හරියටම ROC කුමන්ත්රණය මෙන් පෙනේ, විවිධ සංඛ්යා සමඟ
TPR vs FPR (ROC) - +/- ආපසු හරවා ඇත්නම් AUC සමඟ FPR ට එරෙහි TPR නොවෙනස්ව පවතී.
TPR vs TNR (alt ROC) - ROC හි දර්පණ රූපය TNR = 1-FPR (TN + FP = RN)
TP vs PP (LIFT) - ධනාත්මක හා negative ණාත්මක උදාහරණ සඳහා X incs (රේඛීය නොවන දිගු කිරීම)
TPR vs pp (alt LIFT) - විවිධ සංඛ්යා සමඟ LIFT හා සමානයි
TP vs 1 / PP - LIFT ට බෙහෙවින් සමාන ය (නමුත් රේඛීය නොවන දිගකින් ප්රතිලෝමව)
TPR vs 1 / PP - TP vs 1 / PP හා සමාන වේ (y- අක්ෂයේ විවිධ සංඛ්යා)
TP එදිරිව TP / PP - සමාන නමුත් x- අක්ෂයේ ප්රසාරණය සමඟ (TP = X -> TP = X * TP)
TPR vs TP / PP - සමාන පෙනුමක් ඇති නමුත් අක්ෂවල විවිධ සංඛ්යා ඇත
අන්තිමයා රෙකෝල් එදිරිව නිරවද්යතාවය!
මෙම ප්රස්ථාර සඳහා සටහන වෙනත් වක්රයන්හි ආධිපත්යය දරන ඕනෑම වක්රයක් (වඩා හොඳ හෝ අවම වශයෙන් සෑම ලක්ෂ්යයකම ඉහළ මට්ටමක පවතී) මෙම පරිවර්තනයන්ගෙන් පසුවද ආධිපත්යය දරයි. ආධිපත්යය යනු සෑම අවස්ථාවකම “අවම වශයෙන් ඉහළ” යන්නයි, ඉහළ වක්රය වක්රය (AUC) යටතේ “අවම වශයෙන් ඉහළ” ප්රදේශයක් ද ඇති බැවින් එයට වක්ර අතර ප්රදේශය ද ඇතුළත් වේ. ආපසු හැරවීම සත්ය නොවේ : ස්පර්ශයට වඩා වක්රය එකිනෙක ගැටේ නම්, ආධිපත්යයක් නොමැත, නමුත් එක් AUC එකක් අනෙක් ඒවාට වඩා විශාල විය හැකිය.
ROC හෝ PN ප්රස්ථාරයේ යම් කොටසකට විවිධ (රේඛීය නොවන) ආකාරවලින් පරාවර්තනය කිරීම සහ / හෝ විශාලනය කිරීම සියලු පරිවර්තනයන් සිදු කරයි. කෙසේ වෙතත්, වක්රය යටතේ ප්රදේශය පිළිබඳ හොඳ අර්ථකථනයක් ඇත්තේ ROC ට පමණි (ධනාත්මක අගය negative ණ අගයකට වඩා ඉහළ අගයක් ගනී - මෑන්-විට්නි යූ සංඛ්යාලේඛන) සහ වක්රයට ඉහළින් ඇති දුර (අනුමාන කරනවාට වඩා දැනුවත් තීරණයක් ගැනීමේ සම්භාවිතාව - යූඩන් ජේ සංඛ්යාලේඛන තොරතුරු වල ද්විමාන ස්වරූපය ලෙස).
සාමාන්යයෙන්, PR වෙළඳාමේ වක්රය භාවිතා කිරීමේ අවශ්යතාවයක් නොමැති අතර විස්තර අවශ්ය නම් ඔබට ROC වක්රයට විශාලනය කළ හැකිය. විකර්ණ (ටීපීආර් = එෆ්පීආර්) අවස්ථාව නිරූපණය කරන, චාන්ස් රේඛාවට ඉහළින් ඇති දුර (ඩීඒසී) තොරතුරු දැනගැනීම හෝ දැනුවත් තීරණයක සම්භාවිතාව නිරූපණය කරන අතර වක්රය (ඒ.යූ.සී) යටතේ ඇති ප්රදේශය ශ්රේණිගත කිරීම හෝ නිවැරදි යුගල වශයෙන් ශ්රේණිගත කිරීමේ සම්භාවිතාව. මෙම ප්රති results ල PR වක්රය සඳහා නොපවතින අතර, ඉහත විස්තර කර ඇති පරිදි AUC ඉහළ නැවත කැඳවීම හෝ TPR සඳහා විකෘති වේ. PR AUC විශාල වීම එසේ නොවේ ROC AUC විශාල වන අතර එමඟින් ශ්රේණිගත කිරීම් වැඩි වීමක් අදහස් නොකෙරේ (ශ්රේණිගත +/- යුගල නිවැරදිව පුරෝකථනය කිරීමේ සම්භාවිතාව - එනම්, එය + ves ට වඩා වැඩි වාර ගණනක් පුරෝකථනය කරයි) සහ වැඩි තොරතුරු ඇඟවීමක් අදහස් නොකරයි (දැනුවත් පුරෝකථනයක සම්භාවිතාව අහඹු අනුමානය - එනම්, එය පුරෝකථනයක් කරන විට එය කරන්නේ කුමක්ද යන්න කොපමණ වාරයක් දනී).
කණගාටුයි - ප්රස්ථාර නැත! ඉහත පරිවර්තනයන් නිදර්ශනය කිරීම සඳහා යමෙකුට ප්රස්ථාර එකතු කිරීමට අවශ්ය නම්, එය විශිෂ්ට වනු ඇත! ROC, LIFT, BIRD, Kappa, F-measure, Informedness යනාදිය පිළිබඳ මගේ ලිපිවල මා සතුව ඇත්තේ ස්වල්පයක් පමණි. නමුත් ඒවා මේ ආකාරයෙන් ඉදිරිපත් නොකෙරේ. නමුත් ROC එදිරිව LIFT එදිරිව BIRD vs RP පිළිබඳ නිදර්ශන https : //arxiv.org/pdf/1505.00401.pdf
යාවත්කාලීන කිරීම: දීර් or පිළිතුරු හෝ අදහස් දැක්වීම් වලින් සම්පූර්ණ පැහැදිලි කිරීම් ලබා දීමට උත්සාහ කිරීමෙන් වලක්වා ගැනීම සඳහා, මගේ ලිපි කිහිපයක් මෙහි දැක්වෙන්නේ නිරවද්යතාවයට එදිරිව සහ වෙළඳාමේ වෙළඳාම පිළිබඳ ගැටළුව "සොයා ගැනීම" ය. F1, තොරතුරු ලබා ගැනීම සහ පසුව ROC, Kappa, Significance, DeltaP, AUC යනාදිය සමඟ ඇති සබඳතා "ගවේෂණය කිරීම" යනාදිය මෙය මගේ සිසුවෙකු මීට වසර 20 කට පෙර (එන්ට්විස්ල්) ගැටී ඇති ගැටළුවක් වන අතර එතැන් සිට තවත් බොහෝ අය සොයාගෙන ඇත්තේ සැබෑ ලෝක උදාහරණයකි R / P / F / A ප්රවේශය මඟින් ඉගෙනුම්කරුට වැරදි මාර්ගය යැවූ බවට ආනුභවික සාක්ෂි ඇති අතර, තොරතුරු (හෝ සුදුසු අවස්ථාවල දී කප්පා හෝ සහසම්බන්ධය) ඔවුන්ට නිවැරදි මාර්ගය යවා ඇත - දැන් ක්ෂේත්ර දුසිම් ගණනක් හරහා. කප්පා සහ ආර්ඕසී හි වෙනත් කතුවරුන්ගේ හොඳ සහ අදාළ ලිපි ලේඛන ද තිබේ, නමුත් ඔබ කප්පාස් එදිරිව ආර්ඕසී ඒයූසී එදිරිව ආර්ඕසී හයිට් (තොරතුරු හෝ යූඩන් ' s J) මා ලැයිස්තුගත කර ඇති 2012 පත්තරවල පැහැදිලි කර ඇත (අනෙක් අයගේ වැදගත් ලිපි බොහොමයක් ඒවායේ දක්වා ඇත). 2003 බුක්මේකර් පත්රය පළමු වරට බහු පංති නඩුව සඳහා තොරතුරු දැනගැනීම සඳහා සූත්රයක් ලබා ගනී. තොරතුරු දැනගැනීම ප්රශස්ත කිරීම සඳහා අනුවර්තනය කරන ලද ඇඩබූස්ට් හි බහු පංතියේ අනුවාදයක් 2013 පත්රිකාවෙන් ලබාගෙන ඇත (නවීකරණය කරන ලද වීකා සමඟ එය සත්කාරකත්වය සපයන සහ ක්රියාත්මක කරන).
යොමුව
1998 එන්එල්පී පාර්සර් ඇගයීමේ දී සංඛ්යාලේඛන වර්තමාන භාවිතය. ජේ එන්ට්විස්ල්, ඩී.එම්.ඩබ්ලිව් පවර්ස් - භාෂා සැකසීමේ නව ක්රම පිළිබඳ ඒකාබද්ධ සම්මන්ත්රණවල ක්රියා පටිපාටි: 215-224
https://dl.acm.org/citation.cfm?id=1603935
උපුටා දක්වා ඇත්තේ 15
2003 බුක්මේකර්ට එදිරිව සිහිපත් කිරීම ඩීඑම්ඩබ්ලිව් පවර්ස් - සංජානන විද්යාව පිළිබඳ ජාත්යන්තර සමුළුව: 529-534
http://dspace2.flinders.edu.au/xmlui/handle/2328/27159
උපුටා දක්වා ඇත්තේ 46
2011 ඇගයීම: නිරවද්යතාව, නැවත කැඳවීම සහ එෆ්-මිනුම් සිට ROC දක්වා, දැනුවත්භාවය, සලකුණු කිරීම සහ සහසම්බන්ධය. ඩීඑම්ඩබ්ලිව් පවර්ස් - යන්ත්ර ඉගෙනීමේ තාක්ෂණය පිළිබඳ ජර්නලය 2 (1): 37-63.
http://dspace2.flinders.edu.au/xmlui/handle/2328/27165
1749 වන විට උපුටා දක්වා ඇත
2012 කප්පාදුවේ ගැටලුව. ඩීඑම්ඩබ්ලිව් පවර්ස් - යුරෝපීය ඒසීඑල් හි 13 වන සමුළුවේ ක්රියා පටිපාටි: 345-355
https://dl.acm.org/citation.cfm?id=2380859
උපුටා දක්වා ඇත්තේ 63
2012 ROC-ConCert: ROC මත පදනම් වූ අනුකූලතාව සහ නිශ්චිතභාවය මැනීම. ඩී.එම්.ඩබ්ලිව් පවර්ස් - ඉංජිනේරු හා තාක්ෂණය පිළිබඳ වසන්ත සම්මේලනය (එස්-සීඊටී) 2: 238-241
http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf
උපුටා දක්වා ඇත්තේ 5
2013 ADABOOK & MULTIBOOK :: අවස්ථාව නිවැරදි කිරීම සමඟ අනුවර්තී තල්ලුව. ඩීඑම්ඩබ්ලිව් පවර්ස් - පාලනය, ස්වයංක්රීයකරණය සහ රොබෝ විද්යාව පිළිබඳ තොරතුරු පිළිබඳ ICINCO ජාත්යන්තර සමුළුව
http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf
https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat (GUI shortcut on Windows)
4 කින් සඳහන් කර ඇත