ඉහළ සහ පහත් සෙවූ අතර පුරෝකථනයට අදාළව AUC නියෝජනය කරන්නේ කුමක් ද යන්න සොයා ගැනීමට නොහැකි වී තිබේ.
ඉහළ සහ පහත් සෙවූ අතර පුරෝකථනයට අදාළව AUC නියෝජනය කරන්නේ කුමක් ද යන්න සොයා ගැනීමට නොහැකි වී තිබේ.
Answers:
AUROC යන්නෙන් බොහෝ විට AUC භාවිතා වේ, එය නරක පුරුද්දකි. මාක් ක්ලේසන් පෙන්වා දුන් පරිදි AUC නොපැහැදිලි (ඕනෑම වක්රයක් විය හැකිය) සහ AUROC නොමැති විට.
AUROC ට සමාන අර්ථකථන කිහිපයක් ඇත :
තවදුරටත් ඉදිරියට යාම: AUROC හි සම්භාවිතා අර්ථ නිරූපණය ව්යුත්පන්න කරන්නේ කෙසේද?
අපට ලොජිස්ටික් රෙග්රේෂන් වැනි සම්භාවිතා, ද්විමය වර්ගීකරණයක් ඇතැයි උපකල්පනය කරන්න.
ROC වක්රය ඉදිරිපත් කිරීමට පෙර (= ලබන්නාගේ මෙහෙයුම් ලක්ෂණ වක්රය), ව්යාකූල අනුකෘතිය පිළිබඳ සංකල්පය තේරුම් ගත යුතුය. අපි ද්විමය පුරෝකථනයක් කරන විට, ප්රති come ල වර්ග 4 ක් තිබිය හැකිය:
ව්යාකූලතා අනුකෘතිය ලබා ගැනීම සඳහා, අපි ආකෘතිය විසින් කරන ලද සියලු අනාවැකි ඉක්මවා ගොස්, එම එක් එක් ප්රති come ල 4 න් කොපමණ වාර ගණනක් සිදු වේදැයි ගණනය කරමු:
ව්යාකූල අනුකෘතියක මෙම උදාහරණයේ, වර්ගීකරණය කර ඇති දත්ත ලක්ෂ්ය 50 න් 45 ක් නිවැරදිව වර්ගීකරණය කර ඇති අතර 5 වැරදි වර්ගීකරණය කර ඇත.
විවිධ මාදිලි දෙකක් සංසන්දනය කිරීම බොහෝ විට ඒවාට වඩා තනි මෙට්රික් එකක් තිබීම වඩාත් පහසු බැවින්, අපි ව්යාකූල අනුකෘතියේ ප්රමිතික දෙකක් ගණනය කරන්නෙමු, පසුව අපි ඒවා එකකට ඒකාබද්ධ කරමු:
එෆ්පීආර් සහ ටීපීආර් එක් තනි මෙට්රික් එකකට ඒකාබද්ධ කිරීම සඳහා, අපි මුලින්ම ප්රමිතික දෙක විවිධාකාර එළිපත්ත සමඟ ගණනය කරමු (නිදසුනක් ලෙස ) ලොජිස්ටික් රෙග්රේෂන් සඳහා, පසුව ඒවා තනි ප්රස්ථාරයක කුමන්ත්රණය කරන්න. අබ්සිස්සා හි එෆ්පීආර් අගයන් සහ ඕඩිනේට් මත ටීපීආර් අගයන්. එහි ප්රති ing ලයක් ලෙස වක්රය ROC වක්රය ලෙස හැඳින්වෙන අතර, අප සලකන මෙට්රික් මෙම වක්රයේ AUC වන අතර එය අප AUROC ලෙස හැඳින්වේ.
පහත රූපයේ දැක්වෙන්නේ AUROC ප්රස්ථාරිකව ය:
මෙම රූපයේ දැක්වෙන පරිදි, නිල් ප්රදේශය ග්රාහක මෙහෙයුම් ලක්ෂණයේ (AUROC) වක්රය යටතේ ඇති ප්රදේශයට අනුරූප වේ. විකර්ණයේ ඉරුණු ඉර අහඹු අනාවැකි කරුවෙකුගේ ROC වක්රය අපි ඉදිරිපත් කරමු: එයට AUROC 0.5 ක් ඇත. සසම්භාවී පුරෝකථනය ආකෘතිය ප්රයෝජනවත් දැයි බැලීමට මූලික පදනමක් ලෙස බහුලව භාවිතා වේ.
ඔබට පළමු අත්දැකීම ලබා ගැනීමට අවශ්ය නම්:
මම සාදයට ටිකක් ප්රමාද වුවත්, මෙන්න මගේ ශත 5 යි. RanFranckDernoncourt (+1) දැනටමත් AUC ROC පිළිබඳ අර්ථ නිරූපණයන් සඳහන් කර ඇති අතර මගේ ලැයිස්තුවේ පළමුවැන්නා මගේ ප්රියතම එකයි (මම වෙනස් වචන භාවිතා කරමි, නමුත් එය එසේමය):
මෙම උදාහරණය සලකා බලන්න (auc = 0.68):
අපි එය අනුකරණය කිරීමට උත්සාහ කරමු: අහඹු ධනාත්මක හා negative ණාත්මක උදාහරණ අඳින්න, ඉන්පසු ධන නිෂේධනවලට වඩා වැඩි ලකුණු ඇති විට අවස්ථා අනුපාතය ගණනය කරන්න
cls = c('P', 'P', 'N', 'P', 'P', 'P', 'N', 'N', 'P', 'N', 'P',
'N', 'P', 'N', 'N', 'N', 'P', 'N', 'P', 'N')
score = c(0.9, 0.8, 0.7, 0.6, 0.55, 0.51, 0.49, 0.43, 0.42, 0.39, 0.33,
0.31, 0.23, 0.22, 0.19, 0.15, 0.12, 0.11, 0.04, 0.01)
pos = score[cls == 'P']
neg = score[cls == 'N']
set.seed(14)
p = replicate(50000, sample(pos, size=1) > sample(neg, size=1))
mean(p)
අපි 0.67926 ලබා ගනිමු. ටිකක් සමීපයි නේද?
මාර්ගය වන විට, RI හි සාමාන්යයෙන් ROC වක්ර ඇඳීම සහ AUC ගණනය කිරීම සඳහා ROCR පැකේජය භාවිතා කරයි .
library('ROCR')
pred = prediction(score, cls)
roc = performance(pred, "tpr", "fpr")
plot(roc, lwd=2, colorize=TRUE)
lines(x=c(0, 1), y=c(0, 1), col="black", lwd=1)
auc = performance(pred, "auc")
auc = unlist(auc@y.values)
auc
මෙම කිසිදු සාකච්ඡාවකට වැදගත් කරුණු ඇතුළත් නොවේ. ඉහත සාකච්ඡා කර ඇති ක්රියා පටිපාටි නුසුදුසු එළිපත්තට ආරාධනා කරන අතර වැරදි ලක්ෂණ තෝරාගෙන ඒවාට වැරදි බරක් ලබා දීමෙන් ප්රශස්ත කර ඇති නුසුදුසු නිරවද්යතා ලකුණු නීති (සමානුපාතිකයන්) භාවිතා කරයි.
අඛණ්ඩ අනාවැකි ද්වි පරමාණුකරණය ප්රශස්ත තීරණ සිද්ධාන්තය හමුවේ පියාසර කරයි. ROC වක්ර කිසිදු ක්රියාකාරී අවබෝධයක් ලබා නොදේ. පර්යේෂකයන් එහි ප්රතිලාභ පරීක්ෂා නොකර ඒවා අනිවාර්ය කර ඇත. ඔවුන් සතුව ඉතා විශාල තීන්තයක් ඇත: තොරතුරු අනුපාතය.
ප්රශස්ත තීරණ "ධනාත්මක" සහ "නිෂේධනීය" ලෙස නොසලකයි. ROC ඉදිකිරීමේ කිසිදු කාර්යභාරයක් ඉටු නොකරන උපයෝගීතා / පිරිවැය / අලාභ ශ්රිතය, එබැවින් ROC වල නිෂ් less ල භාවය අවදානම් ඇස්තමේන්තුව ප්රශස්ත (උදා: අවම අපේක්ෂිත අලාභය) තීරණයට පරිවර්තනය කිරීම සඳහා යොදා ගනී.
සංඛ්යානමය ආකෘතියක පරමාර්ථය බොහෝ විට පුරෝකථනයක් කිරීම වන අතර, විශ්ලේෂකයා බොහෝ විට එහි නතර විය යුත්තේ විශ්ලේෂකයා පාඩු ක්රියාකාරිත්වය නොදන්නා බැවිනි. (, Bootstrap භාවිතා උදා,) unbiasedly තහවුරු කිරීමට අනාවැකිය ප්රධාන සංරචක වන අනාවැකි වෙනස්කම් (මෙම ගණනය කිරීම එක් අර්ධ හොඳ ක්රමයක් සබදතා ආරම්භ යටතේ එම ප්රදේශයේ සම සිදු එහෙත් ඔබ නම්, වඩා පහසුවෙන් අවබෝධ කර ගත හැකි වන අකාරාදිය සම්භාවිතාව වේ වේ දොන් 't වූ සබදතා ආරම්භ යොමු) සහ ක්රමාංකන වක්රය. ඔබ නිරපේක්ෂ පරිමාණයෙන් අනාවැකි භාවිතා කරන්නේ නම් ක්රමාංකන වලංගු කිරීම සැබවින්ම අවශ්ය වේ.
වැඩි විස්තර සඳහා ජෛව වෛද්ය පර්යේෂණ සඳහා ජෛව සංඛ්යාන හා වෙනත් පරිච්ඡේදවල තොරතුරු නැතිවීමේ පරිච්ඡේදය බලන්න .
AUC යනු වක්රයට යටින් ඇති ප්රදේශය සඳහා කෙටි යෙදුමකි . වර්ගීකරණ විශ්ලේෂණයේ දී එය භාවිතා කරනුයේ කුමන ආකෘතීන් විසින් පන්ති වඩාත් හොඳින් පුරෝකථනය කරනවාද යන්න තීරණය කිරීම සඳහා ය.
එහි යෙදුමට උදාහරණයක් වන්නේ ROC වක්රය. මෙන්න, සැබෑ ධනාත්මක අනුපාත ව්යාජ ධනාත්මක අනුපාතයන්ට එරෙහිව සැලසුම් කර ඇත. උදාහරණයක් පහතින්. ආකෘතියක් සඳහා AUC සමීප වන විට එය 1 ට වඩා හොඳය. එබැවින් අඩු AUC සහිත අයට වඩා ඉහළ AUC සහිත ආකෘති වඩාත් කැමති වේ.
ROC වක්ර හැර වෙනත් ක්රම ද ඇති නමුත් ඒවා සත්ය ධනාත්මක හා ව්යාජ ධනාත්මක අනුපාතයන්ට සම්බන්ධ බව කරුණාවෙන් සලකන්න.
ප්රතිචාර දැක්වීමට ඉතා ප්රමාද නමුත් බහු ප්රභවයන්ගෙන් ඉගෙන ගැනීමෙන් පසුව මට AUC පිළිබඳ මගේම අවබෝධයක් ගොඩනගා ගැනීමට හැකි විය. මෙම ප්රතිචාරය ප්රධාන වශයෙන් සුවදායී ස්වභාවයක් ගන්නා අතර දැඩි ලෙස අදහස් නොකෙරේ
නියැදියක් තෝරා ගනිමු
auc
ඔබ භාවිතා කළ ටැගය පිළිබඳ විස්තරය පරීක්ෂා කරන්න : stats.stackexchange.com/questions/tagged/auc