අතර ඇති වෙනස කුමක්ද Logit හා Probit ආදර්ශ ?
ලොජිස්ටික් රෙග්රේෂන් භාවිතා කරන්නේ කවදාද සහ ප්රොබිට් භාවිතා කරන්නේ කවදාදැයි දැන ගැනීමට මම මෙහි වැඩි කැමැත්තක් දක්වමි.
R භාවිතා කරමින් එය නිර්වචනය කරන සාහිත්යයක් තිබේ නම් , එය ද ප්රයෝජනවත් වනු ඇත.
අතර ඇති වෙනස කුමක්ද Logit හා Probit ආදර්ශ ?
ලොජිස්ටික් රෙග්රේෂන් භාවිතා කරන්නේ කවදාද සහ ප්රොබිට් භාවිතා කරන්නේ කවදාදැයි දැන ගැනීමට මම මෙහි වැඩි කැමැත්තක් දක්වමි.
R භාවිතා කරමින් එය නිර්වචනය කරන සාහිත්යයක් තිබේ නම් , එය ද ප්රයෝජනවත් වනු ඇත.
Answers:
ඒවා ප්රධාන වශයෙන් සම්බන්ධක ක්රියාකාරිත්වයේ වෙනස් වේ.
පිවිසුම් තුළ:
Probit හි: (සමුච්චිත සාමාන්ය pdf)
වෙනත් ආකාරයකින්, ලොජිස්ටික් තරමක් පැතලි වලිග ඇත. එනම්, ප්රොබිට් වක්රය ලොජිට් වක්රයට වඩා ඉක්මනින් අක්ෂයට ළඟා වේ.
ප්රක්ෂේපනයට වඩා පහසු අර්ථකථනයක් ලොජිටයට ඇත. ලොජිස්ටික් ප්රතිගාමීත්වය ආකෘතිමය ලොග් අමුතු ලෙස අර්ථ දැක්විය හැකිය (එනම් දිනකට සිගරට් 25 ක් දුම් පානය කරන අය වයස අවුරුදු 65 ට පෙර මියයාමට 6 ගුණයක් වැඩිය). සාමාන්යයෙන් මිනිසුන් ආකෘති නිර්මාණය ලොජිට් සමඟ ආරම්භ කරයි. ලොජිට් එදිරිව ප්රොබිට් සඳහා තීරණය කිරීම සඳහා ඔබට එක් එක් ආකෘතියේ සම්භාවිතා අගය භාවිතා කළ හැකිය.
සම්මත රේඛීය ආකෘතියක් (උදා: සරල ප්රතිගාමී ආකෘතියක්) 'කොටස්' දෙකක් ඇතැයි සිතිය හැකිය. මේවා ව්යුහාත්මක සංරචකය සහ අහඹු සංරචකය ලෙස හැඳින්වේ . උදාහරණයක් ලෙස:
පළමු පද දෙක (එනම්, ) ව්යුහාත්මක සංරචකය වන අතර (සාමාන්යයෙන් බෙදා හරින ලද දෝෂ පදය පෙන්නුම් කරයි) අහඹු වේ. ප්රතිචාර විචල්යය සාමාන්යයෙන් බෙදා හරිනු නොලබන විට (නිදසුනක් ලෙස, ඔබේ ප්රතිචාර විචල්යය ද්විමය නම්) මෙම ප්රවේශය තවදුරටත් වලංගු නොවේ. මෙම පොදු රේඛීය ආකෘතිය
β 0 + β 1 X ε g ( μ ) = β 0 + β 1 X β 0 + β 1 X g ( ) μ
සම්බන්ධක ශ්රිතය GLiMs සඳහා යතුරයි: ප්රතිචාර විචල්යය බෙදා හැරීම සාමාන්ය නොවන බැවින්, ව්යුහාත්මක සංරචකය ප්රතිචාරයට සම්බන්ධ කිරීමට එය අපට ඉඩ දෙයි - එය ඒවා 'සම්බන්ධ කරයි' (එබැවින් නම). ලොජිට් සහ ප්රොබිට් සබැඳි බැවින් (@vinux පැහැදිලි කළ පරිදි) එය ඔබගේ ප්රශ්නයේ යතුර වන අතර, සම්බන්ධක කාර්යයන් අවබෝධ කර ගැනීමෙන් කුමන එකක් භාවිතා කළ යුතුද යන්න බුද්ධිමත්ව තෝරා ගැනීමට අපට ඉඩ ලබා දේ. පිළිගත හැකි බොහෝ සම්බන්ධක කාර්යයන් තිබිය හැකි වුවද, බොහෝ විට විශේෂ එකක් තිබේ. වල් පැලෑටි වලට වැඩි දුරක් යාමට අවශ්ය නොවී (මෙය ඉතා තාක්ෂණික විය හැකිය) පුරෝකථනය කරන ලද මධ්යන්යය, , ප්රතිචාර බෙදාහැරීමේ කැනොනිකල් ස්ථාන පරාමිතියට ගණිතමය වශයෙන් සමාන නොවනු ඇත ;β ( 0 , 1 ) ln ( - ln ( 1 - μ ) ). මෙහි ඇති වාසිය නම් “ සඳහා අවම ප්රමාණවත් සංඛ්යාලේඛනයක් ” ( ජර්මානු රොඩ්රිගුස් ). ද්විමය ප්රතිචාර දත්ත සඳහා කැනොනිකල් සබැඳිය (වඩාත් නිශ්චිතවම, ද්විමය ව්යාප්තිය) යනු ලොජිටරයයි. කෙසේ වෙතත්, ව්යුහාත්මක සංරචකය අන්තරයට සිතියම් ගත කළ හැකි කාර්යයන් රාශියක් ඇති අතර එමඟින් පිළිගත හැකි ය; තහනම ද ජනප්රිය ය, නමුත් සමහර විට භාවිතා කරන තවත් විකල්ප තිබේ (අනුපූරක ලොග් ලොගය, , බොහෝ විට 'ක්ලෝග්ලොග්' ලෙස හැඳින්වේ). මේ අනුව, හැකි සම්බන්ධක කාර්යයන් රාශියක් ඇති අතර සම්බන්ධක ක්රියාකාරිත්වය තේරීම ඉතා වැදගත් වේ. යම් සංයෝජනයක් මත පදනම්ව තේරීම කළ යුතුය:
මෙම අදහස් වඩාත් පැහැදිලිව වටහා ගැනීමට අවශ්ය සංකල්පීය පසුබිමක් ස්වල්පයක් ආවරණය කර ඇති (මට සමාව දෙන්න), ඔබේ සබැඳිය තේරීමට මග පෙන්වීම සඳහා මෙම කරුණු භාවිතා කළ හැකි ආකාරය මම පැහැදිලි කරමි. (මා සිතන බව සටහන් කර ගන්න @ ඩේවිඩ්ගේ ප්රකාශය ප්රායෝගිකව විවිධ සබැඳි තෝරා ගැනීමට හේතුව නිවැරදිව ග්රහණය කරගනී .) ආරම්භ කිරීමට, ඔබේ ප්රතිචාර විචල්යය බර්නූලි නඩු විභාගයක ප්රති is ලය නම් (එනම් හෝ ), ඔබේ ප්රතිචාර බෙදා හැරීම වනු ඇත ද්විමය, සහ ඔබ සැබවින්ම ආකෘති නිර්මාණය කරන්නේ නිරීක්ෂණය (එනම් ) වීමේ සම්භාවිතාවයි . එහි ප්රති As ලයක් ලෙස තාත්වික සංඛ්යා රේඛාව , අන්තරයට සිතියම් ගත කරන ඕනෑම ශ්රිතයක්1 1 π ( Y = 1 ) ( - ∞ , + ∞ ) ( 0 , 1 )වැඩ කරයි.
ඔබේ සාර්ථක සිද්ධාන්තයේ දෘෂ්ටි කෝණයෙන් බලන කල, ඔබේ සහචරයින් සාර්ථකත්වයේ සම්භාවිතාවට directly ජුව සම්බන්ධ යැයි ඔබ සිතන්නේ නම්, ඔබ සාමාන්යයෙන් ලොජිස්ටික් රෙග්රේෂන් තෝරා ගන්නේ එය කැනොනිකල් සම්බන්ධකය වන බැවිනි. කෙසේ වෙතත්, පහත උදාහරණය සලකා බලන්න: high_Blood_Pressure
සමහර සහකාරියන්ගේ ශ්රිතයක් ලෙස නිරූපණය කිරීමට ඔබෙන් ඉල්ලා සිටී . රුධිර පීඩනය සාමාන්යයෙන් ජනගහනය තුළ බෙදා හරිනු ලැබේ (මම එය ඇත්ත වශයෙන්ම නොදනිමි, නමුත් එය සාධාරණ ප්රාථමික මුහුණුවරක් ලෙස පෙනේ), කෙසේ වෙතත්, සායනික වෛද්යවරු එය අධ්යයනයේදී ද්විමානකරණය කළහ (එනම්, ඔවුන් වාර්තා කළේ 'අධි-බීපී' හෝ 'සාමාන්ය' ). මෙම අවස්ථාවෙහිදී, න්යායාත්මක හේතූන් මත තහනම් කිරීම වඩාත් සුදුසු වනු ඇත. එල්විස් අදහස් කළේ "ඔබේ ද්විමය ප්රති come ලය සැඟවුණු ගවුසියානු විචල්යයක් මත රඳා පවතී" යන්නයි.සමමිතික , සාර්ථකත්වයේ සම්භාවිතාව ශුන්යයෙන් සෙමෙන් ඉහළ යන බව ඔබ විශ්වාස කරන්නේ නම්, නමුත් එය එකකට ළඟා වන විට එය ඉක්මණින් කපා දමයි, ක්ලෝග්ලොග් කැඳවනු ලැබේ.
අවසාන වශයෙන්, දත්ත වලට ආකෘතියේ ආනුභවික යෝග්යතාවය සබැඳියක් තෝරාගැනීමේදී උපකාරයක් විය නොහැකි බව සලකන්න, ප්රශ්නයේ ඇති සම්බන්ධක ක්රියාකාරිත්වයේ හැඩයන් සැලකිය යුතු ලෙස වෙනස් නොවන්නේ නම් (ඒවායින් ලොජිට් සහ ප්රොබිට් නැත). උදාහරණයක් ලෙස, පහත දැක්වෙන සමාකරණය සලකා බලන්න:
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
දත්ත ජනනය කරනු ලැබුවේ ප්රොබිට් මොඩලයක් මගින් බව අප දැන සිටියත්, අපට දත්ත ලක්ෂ්ය 1000 ක් ඇතත්, ප්රොබිට් මොඩලය ලබා දෙන්නේ කාලයෙන් 70% කට වඩා හොඳ සුදුසුකමක් ලබා දෙන අතර, එසේ වුවද, බොහෝ විට ඉතා සුළු මුදලකින් පමණි. අවසාන පුනරාවර්තනය සලකා බලන්න:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
මෙයට හේතුව වන්නේ එකම යෙදවුම් ලබා දීමේදී ලොජිට් සහ ප්රොබිට් ලින්ක් ශ්රිත සමාන ප්රතිදානයන් ලබා දීමයි.
@ විනූක්ස් ප්රකාශ කළ පරිදි, ලොජිට් 'කෙළවරට හරවන විට' සීමාවෙන් මඳක් ඉදිරියට ඇති බව හැර, ලොජිට් සහ ප්රොබිට් ශ්රිත ප්රායෝගිකව සමාන වේ. (ලොජිටය සහ ප්රක්ෂේපණය ප්රශස්ත ලෙස පෙළගැස්වීමට නම්, , ප්රක්ෂේපණයට අනුරූප බෑවුමේ අගය මෙන් ගුණයක් විය යුතුය . ඊට අමතරව, මට ක්ලෝග් එක තරමක් ඉහළට ගෙනයාමට හැකි වන පරිදි ඒවා ඉහළට තැබිය හැකිය. රූපය තව දුරටත් කියවිය හැකි ලෙස තබා ගැනීම සඳහා මම එය පැත්තකට තැබුවෙමි.) කැටි ගැසීම අසමමිතික වන අතර අනෙක් ඒවා නොමැති අතර; එය කලින් 0 සිට ඇද ගැනීමට පටන් ගනී, නමුත් වඩා සෙමින්, 1 ට ළඟා වී තියුණු ලෙස හැරේ. ≈ 1.7
සම්බන්ධක කාර්යයන් ගැන තවත් කරුණු කිහිපයක් පැවසිය හැකිය. පළමුව, අනන්යතා ශ්රිතය ( ) සම්බන්ධක ශ්රිතයක් ලෙස සලකා සාමාන්ය රේඛීය ආකෘතිය සාමාන්යකරණය කළ රේඛීය ආකෘතියේ විශේෂ අවස්ථාවක් ලෙස තේරුම් ගැනීමට අපට ඉඩ සලසයි (එනම් ප්රතිචාර බෙදා හැරීම සාමාන්යය වන අතර සබැඳිය අනන්යතා ශ්රිතය). ප්රතිචාරය බෙදා හැරීම පාලනය කරන පරාමිතියට (එනම්, ) සබැඳිය ක්ෂණිකව වෙනස් වන ඕනෑම පරිවර්තනයක් සත්ය ප්රතිචාර දත්ත නොවන බව හඳුනා ගැනීම ද වැදගත් ය.μ μ = g - 1 ( β 0 + β 1 X ) π ( Y ) = exp ( β 0 + β 1 X ). අවසාන වශයෙන්, ප්රායෝගිකව අපට කිසි විටෙකත් පරිණාමනය කිරීමට අවශ්ය පරාමිතිය නොමැති හෙයින්, මෙම ආකෘති පිළිබඳ සාකච්ඡා කිරීමේදී, බොහෝ විට සත්ය සබැඳිය ලෙස සලකනු ලබන දෙය ව්යංගයෙන් ඉතිරි වන අතර ආකෘතිය නිරූපණය කරන්නේ ව්යුහාත්මක සංරචකයට යොදන සම්බන්ධක ශ්රිතයේ ප්රතිලෝමයෙනි . . එනම්:
නිදසුනක් ලෙස, ලොජිස්ටික් ප්රතිගාමීත්වය සාමාන්යයෙන් නිරූපණය කෙරේ:
වෙනුවට:
සාමාන්යකරණය කරන ලද රේඛීය ආකෘතිය පිළිබඳ ඉක්මන් හා පැහැදිලි, නමුත්, න දළ විශ්ලේෂණයක් සඳහා, ෆිට්ස්මොරිස්, ලෙයාර්ඩ් සහ වෙයාර් (2004) හි 10 වන පරිච්ඡේදය බලන්න (මෙම පිළිතුරේ කොටස් සඳහා මම නැඹුරු වූ නමුත් මෙය මගේම අනුවර්තනයකි. - සහ වෙනත් - ද්රව්යමය, ඕනෑම වැරැද්දක් මගේම වේ). , ආර් මෙම ආකෘති ගැලපෙන ආකාරය උත්සවය සඳහා ලේඛගතකිරීම පරීක්ෂා කිරීම සඳහා ? Glm පදනම ඇසුරුම තුල.
(එක් අවසාන සටහනක් පසුව එකතු කරන ලදි :) ඔබ වරින් වර අසන්නේ ඔබ තහනම භාවිතා නොකළ යුතු යැයි මිනිසුන් පවසන නිසා එය අර්ථ නිරූපණය කළ නොහැකි බැවිනි. බීටා වල අර්ථ නිරූපණය අඩු බුද්ධිමත් වුවද මෙය සත්ය නොවේ. ලොජිස්ටික් ප්රතිගාමීත්වය සමඟ, හි එක් ඒකක වෙනසක් 'සාර්ථකත්වයේ' ලොග් අන්තරයන්හි වෙනසක් සමඟ සම්බන්ධ වේ (විකල්පයක් ලෙස, වෙනස් වීම), අනෙක් සියල්ලම සමාන වේ. සමඟ, මෙය හි වෙනසක් වනු ඇත . ( උදාහරණයක් ලෙස 1 සහ 2 හි ලකුණු සහිත දත්ත කට්ටලයක නිරීක්ෂණ දෙකක් ගැන සිතන්න .) මේවා පුරෝකථනය කළ සම්භාවිතාවන් බවට පරිවර්තනය කිරීම සඳහා ඔබට ඒවා සාමාන්ය සීඩීඑෆ් හරහා යැවිය හැකිය, හෝ ඒවා ටේබල් එකකින් බලන්න.
.
දැනටමත් වඩාත්ම වැදගත් දේ පවසන විනක්ස්ගේ පිළිතුරට අමතරව:
සංගුණක the ලොජිට් රෙග්රේෂන් හි හි පරස්පර අනුපාතය අනුව ස්වාභාවික අර්ථකථන ඇත;
ඔබේ ද්විමය ප්රති come ලය සැඟවුණු ගෝස්සියානු විචල්යයක් වන [eq. 1] in සමඟ නිශ්චිත ආකාරයකින්: හරියටම .
වඩාත් පොදුවේ, සහ තවත් ස්වභාවිකව, ඔබ ප්රතිඵලය බව සිතන්නේ නම් probistic පරිහානිය වඩාත් ස්වාභාවික ආකෘතිය සමහර හරියටම විට වූ පර්යන්තය ඉක්මවා සමග, . හුදෙක් rescale: එය මෙම ඉහත සඳහන් නඩුව දක්වා අඩු කළ හැකි බව දැකීම පහසුය ලෙස ; එම සමීකරණය පරීක්ෂා කිරීම පහසුය [eq. 1] තවමත් රඳවා තබා ගනී (සංගුණක නැවත සකස් කර අන්තර්ග්රහණය පරිවර්තනය කරන්න). මෙම ආකෘතීන් ආරක්ෂා කර ඇත, උදාහරණයක් ලෙස, වෛද්ය සන්දර්භය තුළ, නොකඩවා අඛණ්ඩ විචල්යයක් වන අතර උදා: විට සමහර "ව්යාධිජනක සීමාව" ඉක්මවයි.
Logit හා probit ආකෘති දෙක පමණි ආකෘති . බොක්ස් වරක් පැවසූ පරිදි "සියලුම මාදිලි වැරදියි, සමහර ඒවා ප්රයෝජනවත් වේ"! මෙම ප්රති both ල හි ප්රති on මත හි බලපෑමක පැවැත්ම හඳුනා ගැනීමට ඔබට ඉඩ සලසයි ; සමහර විශේෂ අවස්ථා හැර, ඒවා කිසිවක් “සැබවින්ම සත්ය” නොවනු ඇති අතර, ඒවායේ අර්ථ නිරූපණය ප්රවේශමෙන් කළ යුතුය.
ඔබේ ප්රකාශය සම්බන්ධයෙන්
ලොජිස්ටික් රෙග්රේෂන් භාවිතා කළ යුත්තේ කවදාද සහ ප්රොබිට් භාවිතා කරන්නේ කවදාදැයි දැන ගැනීමට මම මෙහි වැඩි කැමැත්තක් දක්වමි
මේ දෙක අතර තෝරාගැනීමේදී සලකා බැලිය යුතු කරුණු රාශියක් දැනටමත් මෙහි ඇත, නමුත් තවම ප්රකාශ කර නොමැති එක් වැදගත් කරුණක් තිබේ: මිශ්ර ප්රයෝග ලොජිස්ටික් භාවිතා කරමින් ද්විමය දත්තවල පොකුරු සංගම් දෙස බැලීමට ඔබේ උනන්දුව ඇති විට හෝ ප්රොබිට් ආකෘති, ප්රොබිට් මොඩලයට වැඩි කැමැත්තක් දැක්වීම සඳහා න්යායාත්මක පදනමක් ඇත. මෙම නොමැති බව උපකල්පනය, ඇත්ත වශයෙන්, වේ එය පූර්ව (ඔබ අනුරූපන කරන්නේ එය සැබෑ ආකෘතිය බව අප දන්නවා කරන්නේ නම්, උදා:) ලොජිස්ටික් ආදර්ශ කැමති හේතුව.
පළමුව , මෙය සත්ය වන්නේ මන්දැයි බැලීමට පළමු සටහන මෙම මාදිලි දෙකම එළිපත්ත අඛණ්ඩ ප්රතිගාමී ආකෘති ලෙස දැකිය හැකිය. උදාහරණයක් ලෙස නිරීක්ෂණය සඳහා මිශ්ර බලපෑම් ආකෘතිය රේඛීය සරල සලකා පොකුරක් තුළ :
මෙහි යනු පොකුරු අහඹු බලපෑම වන අතර the යනු දෝෂ . එවිට ලොජිස්ටික් හා ප්රොබිට් ප්රතිගාමී ආකෘති දෙකම මෙම ආකෘතියෙන් ජනනය වන අතර 0 ට එළිපත්ත ලෙස සමානව සකසා ඇත.
නම් කාලීන සාමාන්යයෙන් බෙදා ඇත, ඔබ probit අවගමනය ඇති අතර එය සංවිධානාත්මක බෙදා නම් ඔබ ලොජිස්ටික් 'ප්රතිපායන ආදර්ශ තිබෙනවා. පරිමාණය හඳුනාගෙන නොමැති බැවින්, මෙම අවශේෂ දෝෂ පිළිවෙලින් සම්මත සාමාන්ය සහ සම්මත ලොජිස්ටික් ලෙස දක්වා ඇත.
පියර්සන් (1900) පෙන්වා දුන්නේ බහුකාර්ය සාමාන්ය දත්ත ජනනය කර වර්ගීකරණය කළ හැකි නම්, යටින් පවතින විචල්යයන් අතර සහසම්බන්ධතා තවමත් සංඛ්යානමය වශයෙන් හඳුනාගෙන ඇති බවයි - මෙම සහසම්බන්ධතා බහු අවයවික සහසම්බන්ධතා ලෙස හඳුන්වන අතර ද්විමය නඩුවට විශේෂිත වූ ඒවා ටෙට්රාචෝරික් සහසම්බන්ධතා ලෙස හැඳින්වේ . මෙයින් අදහස් කරන්නේ, තහනම් ආකෘතියක් තුළ, සාමාන්යයෙන් බෙදා හරින ලද විචල්යයන්ගේ අභ්යන්තර පන්තියේ සහසම්බන්ධතා සංගුණකය:
හඳුනාගෙන ඇති අතර එයින් අදහස් වන්නේ ප්රොබිට් නඩුවේදී ඔබට යටින් පවතින ගුප්ත විචල්යයන්ගේ ඒකාබද්ධ ව්යාප්තිය සම්පූර්ණයෙන් සංලක්ෂිත කළ හැකි බවයි.
ලොජිස්ටික් ආකෘතියේ දී, ලොජිස්ටික් ආකෘතියේ අහඹු බලපෑම් විචලනය තවමත් හඳුනාගෙන ඇති නමුත් එය පරායත්ත ව්යුහය (සහ ඒ නිසා ඒකාබද්ධ ව්යාප්තිය) සම්පූර්ණයෙන් සංලක්ෂිත නොවේ, මන්ද එය සාමාන්ය හා ලොජිස්ටික් සසම්භාවී විචල්යයක් අතර මිශ්රණයක් නොවන බැවිනි. දේපල එහි මධ්යන්ය සහ සහසංයුජ අනුකෘතියෙන් සම්පූර්ණයෙන් නියම කර ඇත. යටින් පවතින ගුප්ත විචල්යයන් සඳහා මෙම අමුතු පරාමිතික උපකල්පනය සටහන් කිරීමෙන් ලොජිස්ටික් ආකෘතියේ අහඹු බලපෑම් අර්ථ නිරූපණය කිරීම පොදුවේ අර්ථ නිරූපණය කිරීමට අඩු වේ.
පෙර (විශිෂ්ට) පිළිතුරු වල ආමන්ත්රණය කර නොමැති වැදගත් කරුණක් වන්නේ සත්ය තක්සේරු කිරීමේ පියවරයි. බහුකාර්ය ලොජිට් ආකෘති වලට පී.ඩී.එෆ් ඇති අතර එය ඒකාබද්ධ කිරීමට පහසු වන අතර එමඟින් තේරීමේ සම්භාවිතාව සංවෘත ස්වරූපයෙන් ප්රකාශ වේ. සාමාන්ය බෙදාහැරීමේ function නත්වයේ ක්රියාකාරිත්වය එතරම් පහසුවෙන් ඒකාබද්ධ නොවේ, එබැවින් තහනම් ආකෘති සඳහා සාමාන්යයෙන් අනුකරණය අවශ්ය වේ. එබැවින් ආකෘති දෙකම සැබෑ ලෝක තත්වයන්හි වියුක්තයන් වන අතර, ලොජිට් සාමාන්යයෙන් විශාල ගැටළු (බහු විකල්ප හෝ විශාල දත්ත කට්ටල) භාවිතා කිරීමට වේගවත් වේ.
මෙය වඩාත් පැහැදිලිව දැකීමට, නිශ්චිත තෝරා ගැනීමේ සම්භාවිතාව අනාවැකි විචල්යයන්ගේ ශ්රිතයක් වන අතර දෝෂ නියමයන් ( දුම්රිය අනුගමනය කරමින් )ε
I f ( x )
තහනම් ආකෘති සඳහා එවැනි පහසු ආකාරයක් නොමැත.
මා කියන්නට යන දෙය මෙතෙක් පවසා ඇති දේ අවලංගු නොකරයි. ප්රොබිට් මාදිලි IIA (අනවශ්ය විකල්පයන්ගේ ස්වාධීනත්වය) උපකල්පන වලින් පීඩා විඳින්නේ නැති බව මට පෙන්වා දීමට අවශ්යයි, සහ පිවිසුම් ආකෘතිය එසේ කරයි.
දුම්රියේ විශිෂ්ට පොතෙන් උදාහරණයක් භාවිතා කිරීමට. මගේ මෝටර් රථයේ නිල් බස් රථයක් ධාවනය කිරීමට හෝ ධාවනය කිරීමට යනවාදැයි පුරෝකථනය කරන ලොජිටියක් මා සතුව තිබේ නම්, රතු බස් රථයක් එකතු කිරීම කාර් සහ නිල් බස් යන දෙකින්ම සමානුපාතිකව ලබා ගනී. නමුත් තහනම් ආකෘතියක් භාවිතා කිරීමෙන් ඔබට මෙම ගැටළුව මඟහරවා ගත හැකිය. සාරාංශයක් ලෙස, සමානුපාතිකව දෙකින්ම ඇඳීම වෙනුවට, නිල් බස් රථයෙන් ඒවා ආදේශක වන බැවින් ඔබට තවත් ඇදී යා හැකිය.
ඔබ කරන පරිත්යාගය නම්, ඉහත පෙන්වා දී ඇති පරිදි සංවෘත ආකෘති විසඳුම් නොමැති වීමයි. IIA ගැටළු පිළිබඳව මා කනස්සල්ලට පත්වන විට ප්රොබිට් මගේ ගොටෝ බවට පත්වේ. ලොජිට් රාමුවක (GEV බෙදාහැරීම්) IIA වටා යාමට ක්රම නොමැති බව එයින් අදහස් නොකෙරේ. නමුත් මම සෑම විටම මෙම මාදිලි දෙස බැලුවේ ගැටලුව වටා ඇති අවුල් සහගත ක්රමයක් ලෙස ය. ඔබට ලබා ගත හැකි පරිගණකමය වේගය සමඟ, මම කියන්නේ තහනම සමඟ යන්න.
ලොජිට් සහ ප්රොබිට් අතර වඩාත්ම ප්රචලිත වෙනස වන්නේ (න්යායාත්මක) ප්රතිගාමී අවශේෂ බෙදා හැරීමයි: තහනමට සාමාන්යය, ලොජිස්ටික් සඳහා ලොජිස්ටික් (කරුණාකර බලන්න: කූප් ජී. ඉකොනොමෙට්රික්ස් හැඳින්වීමක් චිචෙස්ටර්, විලේ: 2008: 280).
සංඛ්යාලේඛනමය තොරතුරු ලබා නොගෙන සංඛ්යාලේඛන මත පදනම් වූ තීරණ කෙරෙහි අවධානය යොමු නොකර “ලොජිස්ටික් රෙග්රේෂන් භාවිතා කළ යුත්තේ කවදාද, සහ තහනම භාවිතා කරන්නේ කවදාද” යන්න පිළිබඳව පමණක් අවධානය යොමු කරන ප්රශ්නයට මම ප්රායෝගික පිළිතුරක් ඉදිරිපත් කරමි. පිළිතුර ප්රධාන කරුණු දෙකක් මත රඳා පවතී: ඔබට විනය මනාපයක් තිබේද, ඔබේ දත්ත වලට වඩාත් ගැලපෙන ආකෘතිය ගැන පමණක් ඔබ සැලකිලිමත්ද?
මූලික වෙනස
ලොජිට් සහ ප්රොබිට් මාදිලි දෙකම සංඛ්යානමය ආකෘතීන් සපයන අතර එය යැපෙන ප්රතිචාර විචල්යයක් 0 හෝ 1 විය හැකි බවට සම්භාවිතාව ලබා දෙයි. ඒවා බොහෝ සමානකම් ඇති අතර බොහෝ විට ප්රායෝගිකව අනන්ය ප්රති results ල ලබා දී ඇත, නමුත් සම්භාවිතාව ගණනය කිරීම සඳහා විවිධ කාර්යයන් භාවිතා කරන බැවින් ඒවායේ ප්රති results ල සමහර විට සුළු වේ වෙනස්.
විනය මනාපය
සමහර ශාස්ත්රීය විෂයයන් සාමාන්යයෙන් කැමති වන්නේ එක් හෝ වෙනත් දෙයකට ය. ඔබ ඔබේ ප්රති results ල විශේෂිත සාම්ප්රදායික මනාපයක් සහිත ශාස්ත්රීය විනයකට ප්රකාශයට පත් කිරීමට හෝ ඉදිරිපත් කිරීමට යන්නේ නම්, ඔබේ සොයාගැනීම් වඩාත් පහසුවෙන් පිළිගත හැකි වන පරිදි ඔබේ තේරීම නියම කිරීමට ඉඩ දෙන්න. උදාහරණයක් ලෙස ( ක්රම උපදේශකයින්ගෙන් ),
ලොජිස්ටික් - ලොජිස්ටික් රෙග්රේෂන් ලෙසද හැඳින්වේ - වසංගත විද්යාව වැනි සෞඛ්ය විද්යාවන්හි වඩාත් ජනප්රිය වන්නේ අර්ධ වශයෙන් සංගුණක පරස්පර අනුපාත අනුව අර්ථ නිරූපණය කළ හැකි බැවිනි. වඩාත් දියුණු ආර්ථිකමිතික සැකසුම් වල (හීටරොස්කෙඩැස්ටික් ප්රොබිට් ආකෘති ලෙස හැඳින්වේ) නියත නොවන දෝෂ විචල්යතාවයන් සඳහා ගණනය කිරීම සඳහා ප්රොබිට් ආකෘති සාමාන්යකරණය කළ හැකි අතර එබැවින් ආර්ථික විද්යා ists යින් සහ දේශපාලන විද්යා .යින් විසින් සමහර සන්දර්භයන්හි භාවිතා කරනු ලැබේ.
කාරණය වන්නේ ප්රති results ලවල වෙනස්කම් ඉතා සුළු වීම නිසා ඔබේ සාමාන්ය ප්රේක්ෂකයින්ට ඔබේ ප්රති results ල තේරුම් ගැනීමට ඇති හැකියාව ප්රවේශයන් දෙක අතර ඇති සුළු වෙනස්කම් ඉක්මවා යයි.
ඔබ සැලකිලිමත් වන සියල්ල වඩා සුදුසු නම් ...
ඔබේ පර්යේෂණය එක් හෝ වෙනත් ක්රමයකට අකමැති විනයක තිබේ නම්, මෙම ප්රශ්නය පිළිබඳ මගේ අධ්යයනය (වඩා හොඳ, ලොජිට් හෝ ප්රොබිට්) මගේ නිගමනයට එළඹී ඇත්තේ එය සාමාන්යයෙන් සෑම විටම පාහේ සිදුවන බැවින්, ප්රොබිට් භාවිතා කිරීම වඩා හොඳ බවය. පිවිසුම් ආකෘතියට සමාන හෝ උසස් දත්ත වලට සංඛ්යානමය සුදුසුකමක් ලබා දෙන්න. ලොජිට් ආකෘති වඩා හොඳ සුදුසුකමක් ලබා දෙන විට වඩාත්ම කැපී පෙනෙන ව්යතිරේකය වන්නේ “අන්ත ස්වාධීන විචල්යයන්” (මම පහත විස්තර කරන).
මගේ නිගමනය පදනම් වී ඇත්තේ (වෙනත් මූලාශ්ර ගණනාවක් සොයා බැලීමෙන් පසුව) හාන්, ඊඩී සහ සෝයර්, ආර්., 2005 මත ය. ප්රොබිට් සහ ලොජිට් ආකෘති: බහුකාර්ය ක්ෂේත්රයේ වෙනස්කම්. ලබා ගත හැකි: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . ලොජිට් එදිරිව ප්රොබිට් බහුකාර්ය ආකෘති දත්ත වලට වඩා හොඳ සුදුසුකමක් ලබා දෙන්නේද යන්න පිළිබඳ මෙම ලිපියේ ප්රායෝගික තීරණ නිගමනවල සාරාංශය මෙන්න (මෙම නිගමන ඒකීය නොවන ආකෘති සඳහා ද අදාළ වේ, නමුත් ඒවා ස්වාධීන විචල්යයන් දෙකක් සඳහා පමණක් අනුකරණය කරන ලද බලපෑම්):
බොහෝ අවස්ථාවන්හීදී, පහත දැක්වෙන ව්යතිරේක දෙක සමඟ, ලොජිට් සහ ප්රොබිට් ආකෘති දත්ත සමානව ගැලපේ.
"අන්ත ස්වාධීන විචල්යයන්" සම්බන්ධයෙන් ලොජිට් අනිවාර්යයෙන්ම වඩා හොඳය . මේවා ස්වාධීන විචල්යයන් වන අතර, විශේෂයෙන් විශාල හෝ කුඩා අගයක් බොහෝ විට යැපෙන විචල්යය 0 හෝ 1 ද යන්න බොහෝ විට තීරණය කරනු ඇත, එය වෙනත් බොහෝ විචල්යයන්ගේ බලපෑම් අභිබවා යයි. හාන් සහ සෝයර් එය විධිමත් ලෙස අර්ථ දක්වන්නේ (පිටුව 4):
ආන්තික ස්වාධීන විචල්ය මට්ටමක් සිදුවීම් තුනක සං con ටකයට සම්බන්ධ වේ. පළමුව, ආන්තික ස්වාධීන විචල්ය මට්ටමක් ස්වාධීන විචල්යයක ඉහළ හෝ පහළ අන්තයේ සිදු වේ. උදාහරණයක් ලෙස, ස්වාධීන විචල්ය x 1, 2 සහ 3.2 අගයන් ගත යුතු යැයි පවසන්න. ආන්තික ස්වාධීන විචල්ය මට්ටමට x = 3.2 (හෝ x = 1) හි අගයන් ඇතුළත් වේ. දෙවනුව, මුළු n හි සැලකිය යුතු ප්රමාණයක් (උදා: 60%) මෙම මට්ටමේ තිබිය යුතුය. තෙවනුව, මෙම මට්ටමේ සාර්ථකත්වයේ සම්භාවිතාව ආන්තික විය යුතුය (උදා: 99% ට වඩා වැඩි).
හාන් සහ සෝයර්ගේ විශ්ලේෂණය මත පදනම්ව, මගේ නිගමනය වන්නේ අන්ත ස්වාධීන විචල්යයන් හැරුණු විට සෑම විටම ප්රොබිට් ආකෘති භාවිතා කිරීමයි . අතිශයින්ම ස්වාධීන විචල්යයන් එතරම් පොදු නොවන අතර ඒවා හඳුනා ගැනීම පහසු විය යුතුය. මෙම නියමය සමඟ, ආකෘතිය අහඹු බලපෑම් ආකෘතියක් ද නැද්ද යන්න ගැටළුවක් නොවේ. ආකෘතියක් සසම්භාවී බලපෑම් ආකෘතියක් වන (තහනමට වැඩි කැමැත්තක් දක්වන) නමුත් අතිශය ස්වාධීන විචල්යයන් ඇත (ලොජිටයට වැඩි කැමැත්තක් දක්වන), හාන් සහ සෝයර් මේ පිළිබඳව අදහස් නොදැක්වුවද, ඔවුන්ගේ ලිපියෙන් මගේ හැඟීම වන්නේ එහි බලපෑමයි ආන්තික ස්වාධීන විචල්යයන් වඩා ප්රමුඛ වේ, එබැවින් ලොජිටයට වැඩි කැමැත්තක් දක්වනු ඇත.
පහත දැක්වෙන්නේ, කැදැල්ල විශේෂ අවස්ථා ලෙස තහනම් කර ඇති බවත්, වඩාත් සුදුසු යැයි කෙනෙකුට පරීක්ෂා කළ හැකි ඇස්තමේන්තුවක් මම පැහැදිලි කරමි.
ප්රොබිට් සහ ලොජිට් යන දෙකම ගුප්ත විචල්ය ආකෘතියක කූඩු කළ හැකිය,
නිරීක්ෂණය කරන ලද සංරචකය ඇති තැන
ක්ලයින් සහ ස්පාඩි හි, නිර්ණායක ශ්රිතය ඒ වෙනුවට වේ
ඒවා ඉතා සමාන ය.
හෝ ඒ හා සමානව:
එවිට බෙදා හැරීම සඳහා ඔබ තෝරා ගන්නා දෙය වැදගත් වේ :
විචල්යතාව වැදගත් නොවේ එය නියතයකින් ගුණ කිරීමෙන් ස්වයංක්රීයව වන්දි ලබා දේ . ඔබ අන්තර්ග්රහණයක් භාවිතා කරන්නේ නම් මධ්යන්යය ද වැදගත් නොවේ.
මෙය එළිපත්ත බලපෑමක් ලෙස දැකිය හැකිය. සමහර නොපෙනෙන ප්රතිඵලය රේඛීය ශ්රිතයක් වේ යම් හඬක් සමග රේඛීය අවගමනය වගේ එක් කල, අපි මෙසේ විසින් 0/1 ප්රතිඵලයක් ලබා:
ලොජිස්ටික් සහ ප්රොබිට් අතර වෙනස පවතින්නේ ලොජිස්ටික් සහ සාමාන්ය බෙදාහැරීම් අතර වෙනසයි. එතරම් දෙයක් නැත. සකස් කළ පසු, ඔවුන් එය මෙන් පෙනේ:
ලොජිස්ටික් බරින් වැඩි වලිගයක් ඇත. කුඩා (<1%) හෝ ඉහළ (> 99%) සම්භාවිතාවක් ගැලපෙන ආකාරය මෙය සුළු වශයෙන් බලපායි. ප්රායෝගිකව, බොහෝ අවස්ථාවන්හි දී පවා වෙනස සැලකිය යුතු නොවේ: ලොජිට් සහ ප්රොබිට් අනාවැකි පළ කරන්නේ එකම දෙයයි. Http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article බලන්න
“දාර්ශනිකව”, ලොජිස්ටික් ප්රතිගාමීත්වය උපරිම එන්ට්රොපි මූලධර්මයට සමාන වීමෙන් සාධාරණීකරණය කළ හැකිය: http://www.win-vector.com/blog/2011/09/the-equivlance-of-logistic-regression-and-maximum -entropy-models /
ගණනය කිරීම් වලට අනුව: ලොජිස්ටික් බෙදාහැරීමේ සමුච්චිත ව්යාප්තිය සාමාන්ය බෙදාහැරීමට වඩා සංවෘත සූත්රයක් ඇති බැවින් ලොජිස්ටික් සරල ය. නමුත් බහු බෙදාහැරීම් වලට යන විට සාමාන්ය බෙදාහැරීම් වලට හොඳ ගුණාංග ඇත, මේ නිසා බොහෝ විට උසස් අවස්ථාවන්හිදී තහනම් කිරීම වඩාත් සුදුසු වේ.