පිවිසුම් සහ තහනම් ආකෘති අතර වෙනස


316

අතර ඇති වෙනස කුමක්ද Logit හා Probit ආදර්ශ ?

ලොජිස්ටික් රෙග්‍රේෂන් භාවිතා කරන්නේ කවදාද සහ ප්‍රොබිට් භාවිතා කරන්නේ කවදාදැයි දැන ගැනීමට මම මෙහි වැඩි කැමැත්තක් දක්වමි.

R භාවිතා කරමින් එය නිර්වචනය කරන සාහිත්‍යයක් තිබේ නම් , එය ද ප්‍රයෝජනවත් වනු ඇත.


6
මේ දෙකේ

2
මා වරක් පුළුල් (ජෛව රසායන) දත්ත කට්ටලයක් ඇති අතර එහිදී අපට ප්‍රොබිට් සවිකර ඇති බව පෙනේ. නමුත් එය නිගමනවලට කිසිදු වෙනසක් නොවීය.
kjetil b halvorsen

2
Ly ආලියාස් ෂා: මගේ දත්ත ප්‍රොබිට් සමඟ (ආන්තිකව) වඩා හොඳ වන්නේ ඇයිද යන්න පැහැදිලි කිරීම එයයි --- මන්දයත් එක්තරා මාත්‍රාවකට වඩා මරණ අනුපාතය 100% ක් වන අතර යම් සීමාවකට වඩා මරණ අනුපාතය 0% ක් වන නිසා මන්දගාමී ප්‍රවේශය අපට නොපෙනේ. ලොජිටියේ!
kjetil b halvorsen

4
තාත්වික දත්ත සඳහා, ලොජිට් හෝ ප්‍රොබිට් වලින් ජනනය කරන ලද දත්ත සමඟ විරුද්ධ වීමෙන්, ගැටලුවට සැලකිය යුතු ප්‍රවේශයක් වනුයේ ආදර්ශ සංසන්දනයක් ක්‍රියාත්මක කිරීමයි. මගේ අත්දැකීම් අනුව, දත්ත කලාතුරකින් ආකෘති දෙකෙන් එකක් දෙසට නැඹුරු වේ.
ෂියාන්

2
ලොජිස්ටික් බෙදාහැරීමේ ප්‍රායෝගික භාවිතය සාමාන්‍ය සීඩීඑෆ් හා එහි වඩා සරල සමුච්චිත බෙදා හැරීමේ ක්‍රියාකාරිත්වයට සමාන බව මම අසා ඇත්තෙමි. ඇත්ත වශයෙන්ම සාමාන්‍ය සීඩීඑෆ් හි ඇගයීමට ලක් කළ යුතු අනුකලනය අඩංගු වේ - මම හිතන්නේ එය පරිගණකමය වශයෙන් මිල අධික විය.
dv_bn

Answers:


149

ඒවා ප්‍රධාන වශයෙන් සම්බන්ධක ක්‍රියාකාරිත්වයේ වෙනස් වේ.

පිවිසුම් තුළ: Pr(Y=1X)=[1+eXβ]1

Probit හි: (සමුච්චිත සාමාන්‍ය pdf)Pr(Y=1X)=Φ(Xβ)

වෙනත් ආකාරයකින්, ලොජිස්ටික් තරමක් පැතලි වලිග ඇත. එනම්, ප්‍රොබිට් වක්‍රය ලොජිට් වක්‍රයට වඩා ඉක්මනින් අක්ෂයට ළඟා වේ.

ප්‍රක්ෂේපනයට වඩා පහසු අර්ථකථනයක් ලොජිටයට ඇත. ලොජිස්ටික් ප්‍රතිගාමීත්වය ආකෘතිමය ලොග් අමුතු ලෙස අර්ථ දැක්විය හැකිය (එනම් දිනකට සිගරට් 25 ක් දුම් පානය කරන අය වයස අවුරුදු 65 ට පෙර මියයාමට 6 ගුණයක් වැඩිය). සාමාන්‍යයෙන් මිනිසුන් ආකෘති නිර්මාණය ලොජිට් සමඟ ආරම්භ කරයි. ලොජිට් එදිරිව ප්‍රොබිට් සඳහා තීරණය කිරීම සඳහා ඔබට එක් එක් ආකෘතියේ සම්භාවිතා අගය භාවිතා කළ හැකිය.


6
ඔබගේ පිළිතුරට ස්තූතියි Vinux. නමුත් ලොජිට් භාවිතා කරන්නේ කවදාදැයි දැන ගැනීමටත්, ප්‍රොබිට් භාවිතා කිරීමටත් මට අවශ්‍යය. මම දන්නවා ලොජිට් ප්‍රොබිට් වලට වඩා ජනප්‍රියයි, අපි බහුතරයක් ලොජිට් රෙග්‍රේෂන් භාවිතා කරනවා. නමුත් ප්‍රොබිට් ආකෘති වඩාත් ප්‍රයෝජනවත් වන අවස්ථා තිබේ. කරුණාකර මට කියන්න පුළුවන්ද ඒ අවස්ථා මොනවාද කියලා. එම අවස්ථා නිත්‍ය සිද්ධීන්ගෙන් වෙන්කර හඳුනා ගන්නේ කෙසේද.
බීටා

5
ඔබ වක්‍රයේ වලිග කොටස ගැන සැලකිලිමත් වන විට, යම් වේලාවක ලොජිට් හෝ ප්‍රොබිට් කරුණු තෝරා ගැනීම. ප්‍රොබිට් හෝ ලොජිට් තෝරා ගැනීමට නිශ්චිත රීතියක් නොමැත. සම්භාවිතාව (හෝ ලොග් සම්භාවිතාව) හෝ AIC දෙස බැලීමෙන් ඔබට ආකෘතිය තෝරා ගත හැකිය.
vinux

12
උපදෙස් වලට ස්තූතියි! ලොජිට් එදිරිව ප්‍රොබිට් අතර තෝරා ගන්නේ කෙසේද යන්න විස්තරාත්මකව විස්තර කළ හැකිද? විශේෂයෙන්: (1) ඔබ වක්‍රයේ වලිග කොටස ගැන සැලකිලිමත් වන විට මා කියන්නේ කෙසේද? (2) සම්භාවිතාව, ලොග් සම්භාවිතාව හෝ AIC දෙස බැලීමෙන් මා ආකෘතියක් තෝරා ගන්නේ කෙසේද? මා විශේෂයෙන් බැලිය යුත්තේ කුමක්ද, කුමන ආකෘතිය භාවිතා කළ යුතුද යන්න පිළිබඳ මගේ තීරණයට මෙය බලපාන්නේ කෙසේද?
ඩීඩබ්ලිව්

හොඳයි, තහනමට සාපේක්ෂව ලොජිට් අසමත් වන උදාහරණ ඔබට දිය හැකිද? ඔබේ මනසෙහි ඇති ඒවා මට සොයාගත නොහැක.
වොක්

1
මෙන්න @flies අනුකෘතිය ඇති transpose සතුටයි . XXX
ගණිතමය

462

සම්මත රේඛීය ආකෘතියක් (උදා: සරල ප්‍රතිගාමී ආකෘතියක්) 'කොටස්' දෙකක් ඇතැයි සිතිය හැකිය. මේවා ව්‍යුහාත්මක සංරචකය සහ අහඹු සංරචකය ලෙස හැඳින්වේ . උදාහරණයක් ලෙස: පළමු පද දෙක (එනම්, ) ව්‍යුහාත්මක සංරචකය වන අතර (සාමාන්‍යයෙන් බෙදා හරින ලද දෝෂ පදය පෙන්නුම් කරයි) අහඹු වේ. ප්‍රතිචාර විචල්‍යය සාමාන්‍යයෙන් බෙදා හරිනු නොලබන විට (නිදසුනක් ලෙස, ඔබේ ප්‍රතිචාර විචල්‍යය ද්විමය නම්) මෙම ප්‍රවේශය තවදුරටත් වලංගු නොවේ. මෙම පොදු රේඛීය ආකෘතිය
β 0 + β 1 X ε g ( μ ) = β 0 + β 1 X β 0 + β 1 X g ( ) μ

Y=β0+β1X+εwhere εN(0,σ2)
β0+β1Xε(GLiM) එවැනි අවස්ථාවන් සඳහා විසඳුම් ලබා දී ඇති අතර, ලොජිට් සහ ප්‍රොබිට් ආකෘති යනු ද්විමය විචල්‍යයන් සඳහා සුදුසු GLiM වල විශේෂ අවස්ථා වේ (හෝ ක්‍රියාවලියට යම් අනුවර්තනයන් සහිත බහු-කාණ්ඩ ප්‍රතිචාර විචල්‍යයන්). GLiM හි කොටස් තුනක් ඇත, ව්‍යුහාත්මක අංගයක් , සම්බන්ධක ශ්‍රිතයක් සහ ප්‍රතිචාර බෙදාහැරීමක් . උදාහරණයක් ලෙස: මෙන්න නැවතත් ව්‍යුහාත්මක සංරචකයයි, යනු සම්බන්ධක ශ්‍රිතය වන අතර
g(μ)=β0+β1X
β0+β1Xg()μයනු කෝවරියට් අවකාශයේ එක්තරා ස්ථානයක කොන්දේසි සහිත ප්‍රතිචාර බෙදාහැරීමේ මධ්‍යන්‍යයකි. මෙහි ව්‍යුහාත්මක සං component ටකය ගැන අප සිතන ආකාරය සම්මත රේඛීය මාදිලි සමඟ අප සිතන ආකාරය වඩා වෙනස් නොවේ; ඇත්ත වශයෙන්ම, එය GLiMs හි විශාල වාසියකි. බොහෝ බෙදාහැරීම් සඳහා විචල්‍යතාවය කොන්දේසි සහිත මධ්යන්යයකට ගැලපෙන මධ්යන්යයේ ක්රියාකාරිත්වයක් වන නිසා (සහ ඔබ ප්රතිචාර බෙදාහැරීමක් නියම කර ඇති පරිදි), ඔබ රේඛීය ආකෘතියක අහඹු සංරචකයේ ඇනලොග් සඳහා ස්වයංක්රීයව ගණනය කර ඇත (NB: මෙය විය හැකිය ප්රායෝගිකව වඩාත් සංකීර්ණ).

සම්බන්ධක ශ්‍රිතය GLiMs සඳහා යතුරයි: ප්‍රතිචාර විචල්‍යය බෙදා හැරීම සාමාන්‍ය නොවන බැවින්, ව්‍යුහාත්මක සංරචකය ප්‍රතිචාරයට සම්බන්ධ කිරීමට එය අපට ඉඩ දෙයි - එය ඒවා 'සම්බන්ධ කරයි' (එබැවින් නම). ලොජිට් සහ ප්‍රොබිට් සබැඳි බැවින් (@vinux පැහැදිලි කළ පරිදි) එය ඔබගේ ප්‍රශ්නයේ යතුර වන අතර, සම්බන්ධක කාර්යයන් අවබෝධ කර ගැනීමෙන් කුමන එකක් භාවිතා කළ යුතුද යන්න බුද්ධිමත්ව තෝරා ගැනීමට අපට ඉඩ ලබා දේ. පිළිගත හැකි බොහෝ සම්බන්ධක කාර්යයන් තිබිය හැකි වුවද, බොහෝ විට විශේෂ එකක් තිබේ. වල් පැලෑටි වලට වැඩි දුරක් යාමට අවශ්‍ය නොවී (මෙය ඉතා තාක්‍ෂණික විය හැකිය) පුරෝකථනය කරන ලද මධ්‍යන්‍යය, , ප්‍රතිචාර බෙදාහැරීමේ කැනොනිකල් ස්ථාන පරාමිතියට ගණිතමය වශයෙන් සමාන නොවනු ඇත ;β ( 0 , 1 ) ln ( - ln ( 1 - μ ) )μ. මෙහි ඇති වාසිය නම් “ සඳහා අවම ප්‍රමාණවත් සංඛ්‍යාලේඛනයක් ” ( ජර්මානු රොඩ්‍රිගුස් ). ද්විමය ප්‍රතිචාර දත්ත සඳහා කැනොනිකල් සබැඳිය (වඩාත් නිශ්චිතවම, ද්විමය ව්‍යාප්තිය) යනු ලොජිටරයයි. කෙසේ වෙතත්, ව්‍යුහාත්මක සංරචකය අන්තරයට සිතියම් ගත කළ හැකි කාර්යයන් රාශියක් ඇති අතර එමඟින් පිළිගත හැකි ය; තහනම ද ජනප්‍රිය ය, නමුත් සමහර විට භාවිතා කරන තවත් විකල්ප තිබේ (අනුපූරක ලොග් ලොගය, , බොහෝ විට 'ක්ලෝග්ලොග්' ලෙස හැඳින්වේ). මේ අනුව, හැකි සම්බන්ධක කාර්යයන් රාශියක් ඇති අතර සම්බන්ධක ක්‍රියාකාරිත්වය තේරීම ඉතා වැදගත් වේ. යම් සංයෝජනයක් මත පදනම්ව තේරීම කළ යුතුය: β(0,1)ln(ln(1μ))

  1. ප්‍රතිචාර බෙදා හැරීම පිළිබඳ දැනුම,
  2. න්‍යායාත්මක සලකා බැලීම් සහ
  3. දත්ත වලට ආනුභවික යෝග්‍යතාවය.

මෙම අදහස් වඩාත් පැහැදිලිව වටහා ගැනීමට අවශ්‍ය සංකල්පීය පසුබිමක් ස්වල්පයක් ආවරණය කර ඇති (මට සමාව දෙන්න), ඔබේ සබැඳිය තේරීමට මග පෙන්වීම සඳහා මෙම කරුණු භාවිතා කළ හැකි ආකාරය මම පැහැදිලි කරමි. (මා සිතන බව සටහන් කර ගන්න @ ඩේවිඩ්ගේ ප්‍රකාශය ප්‍රායෝගිකව විවිධ සබැඳි තෝරා ගැනීමට හේතුව නිවැරදිව ග්‍රහණය කරගනී .) ආරම්භ කිරීමට, ඔබේ ප්‍රතිචාර විචල්‍යය බර්නූලි නඩු විභාගයක ප්‍රති is ලය නම් (එනම් හෝ ), ඔබේ ප්‍රතිචාර බෙදා හැරීම වනු ඇත ද්විමය, සහ ඔබ සැබවින්ම ආකෘති නිර්මාණය කරන්නේ නිරීක්‍ෂණය (එනම් ) වීමේ සම්භාවිතාවයි . එහි ප්‍රති As ලයක් ලෙස තාත්වික සංඛ්‍යා රේඛාව , අන්තරයට සිතියම් ගත කරන ඕනෑම ශ්‍රිතයක්1 1 π ( Y = 1 ) ( - , + ) ( 0 , 1 )011π(Y=1)(,+)(0,1)වැඩ කරයි.

ඔබේ සාර්‍ථක සිද්ධාන්තයේ දෘෂ්ටි කෝණයෙන් බලන කල, ඔබේ සහචරයින් සාර්ථකත්වයේ සම්භාවිතාවට directly ජුව සම්බන්ධ යැයි ඔබ සිතන්නේ නම්, ඔබ සාමාන්‍යයෙන් ලොජිස්ටික් රෙග්‍රේෂන් තෝරා ගන්නේ එය කැනොනිකල් සම්බන්ධකය වන බැවිනි. කෙසේ වෙතත්, පහත උදාහරණය සලකා බලන්න: high_Blood_Pressureසමහර සහකාරියන්ගේ ශ්‍රිතයක් ලෙස නිරූපණය කිරීමට ඔබෙන් ඉල්ලා සිටී . රුධිර පීඩනය සාමාන්‍යයෙන් ජනගහනය තුළ බෙදා හරිනු ලැබේ (මම එය ඇත්ත වශයෙන්ම නොදනිමි, නමුත් එය සාධාරණ ප්‍රාථමික මුහුණුවරක් ලෙස පෙනේ), කෙසේ වෙතත්, සායනික වෛද්‍යවරු එය අධ්‍යයනයේදී ද්විමානකරණය කළහ (එනම්, ඔවුන් වාර්තා කළේ 'අධි-බීපී' හෝ 'සාමාන්‍ය' ). මෙම අවස්ථාවෙහිදී, න්‍යායාත්මක හේතූන් මත තහනම් කිරීම වඩාත් සුදුසු වනු ඇත. එල්විස් අදහස් කළේ "ඔබේ ද්විමය ප්‍රති come ලය සැඟවුණු ගවුසියානු විචල්‍යයක් මත රඳා පවතී" යන්නයි.සමමිතික , සාර්ථකත්වයේ සම්භාවිතාව ශුන්‍යයෙන් සෙමෙන් ඉහළ යන බව ඔබ විශ්වාස කරන්නේ නම්, නමුත් එය එකකට ළඟා වන විට එය ඉක්මණින් කපා දමයි, ක්ලෝග්ලොග් කැඳවනු ලැබේ.

අවසාන වශයෙන්, දත්ත වලට ආකෘතියේ ආනුභවික යෝග්‍යතාවය සබැඳියක් තෝරාගැනීමේදී උපකාරයක් විය නොහැකි බව සලකන්න, ප්‍රශ්නයේ ඇති සම්බන්ධක ක්‍රියාකාරිත්වයේ හැඩයන් සැලකිය යුතු ලෙස වෙනස් නොවන්නේ නම් (ඒවායින් ලොජිට් සහ ප්‍රොබිට් නැත). උදාහරණයක් ලෙස, පහත දැක්වෙන සමාකරණය සලකා බලන්න:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

දත්ත ජනනය කරනු ලැබුවේ ප්‍රොබිට් මොඩලයක් මගින් බව අප දැන සිටියත්, අපට දත්ත ලක්ෂ්‍ය 1000 ක් ඇතත්, ප්‍රොබිට් මොඩලය ලබා දෙන්නේ කාලයෙන් 70% කට වඩා හොඳ සුදුසුකමක් ලබා දෙන අතර, එසේ වුවද, බොහෝ විට ඉතා සුළු මුදලකින් පමණි. අවසාන පුනරාවර්තනය සලකා බලන්න:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

මෙයට හේතුව වන්නේ එකම යෙදවුම් ලබා දීමේදී ලොජිට් සහ ප්‍රොබිට් ලින්ක් ශ්‍රිත සමාන ප්‍රතිදානයන් ලබා දීමයි.

රූප විස්තරය මෙහි ඇතුළත් කරන්න

@ විනූක්ස් ප්‍රකාශ කළ පරිදි, ලොජිට් 'කෙළවරට හරවන විට' සීමාවෙන් මඳක් ඉදිරියට ඇති බව හැර, ලොජිට් සහ ප්‍රොබිට් ශ්‍රිත ප්‍රායෝගිකව සමාන වේ. (ලොජිටය සහ ප්‍රක්ෂේපණය ප්‍රශස්ත ලෙස පෙළගැස්වීමට නම්, , ප්‍රක්ෂේපණයට අනුරූප බෑවුමේ අගය මෙන් ගුණයක් විය යුතුය . ඊට අමතරව, මට ක්ලෝග් එක තරමක් ඉහළට ගෙනයාමට හැකි වන පරිදි ඒවා ඉහළට තැබිය හැකිය. රූපය තව දුරටත් කියවිය හැකි ලෙස තබා ගැනීම සඳහා මම එය පැත්තකට තැබුවෙමි.) කැටි ගැසීම අසමමිතික වන අතර අනෙක් ඒවා නොමැති අතර; එය කලින් 0 සිට ඇද ගැනීමට පටන් ගනී, නමුත් වඩා සෙමින්, 1 ට ළඟා වී තියුණු ලෙස හැරේ. 1.7β11.7

සම්බන්ධක කාර්යයන් ගැන තවත් කරුණු කිහිපයක් පැවසිය හැකිය. පළමුව, අනන්‍යතා ශ්‍රිතය ( ) සම්බන්ධක ශ්‍රිතයක් ලෙස සලකා සාමාන්‍ය රේඛීය ආකෘතිය සාමාන්‍යකරණය කළ රේඛීය ආකෘතියේ විශේෂ අවස්ථාවක් ලෙස තේරුම් ගැනීමට අපට ඉඩ සලසයි (එනම් ප්‍රතිචාර බෙදා හැරීම සාමාන්‍යය වන අතර සබැඳිය අනන්‍යතා ශ්‍රිතය). ප්‍රතිචාරය බෙදා හැරීම පාලනය කරන පරාමිතියට (එනම්, ) සබැඳිය ක්ෂණිකව වෙනස් වන ඕනෑම පරිවර්තනයක් සත්‍ය ප්‍රතිචාර දත්ත නොවන බව හඳුනා ගැනීම ද වැදගත් ය.μ μ = g - 1 ( β 0 + β 1 X ) π ( Y ) = exp ( β 0 + β 1 X )g(η)=ημ. අවසාන වශයෙන්, ප්‍රායෝගිකව අපට කිසි විටෙකත් පරිණාමනය කිරීමට අවශ්‍ය පරාමිතිය නොමැති හෙයින්, මෙම ආකෘති පිළිබඳ සාකච්ඡා කිරීමේදී, බොහෝ විට සත්‍ය සබැඳිය ලෙස සලකනු ලබන දෙය ව්‍යංගයෙන් ඉතිරි වන අතර ආකෘතිය නිරූපණය කරන්නේ ව්‍යුහාත්මක සංරචකයට යොදන සම්බන්ධක ශ්‍රිතයේ ප්‍රතිලෝමයෙනි . . එනම්: නිදසුනක් ලෙස, ලොජිස්ටික් ප්‍රතිගාමීත්වය සාමාන්‍යයෙන් නිරූපණය කෙරේ: වෙනුවට:

μ=g1(β0+β1X)
π(Y)=exp(β0+β1X)1+exp(β0+β1X)
ln(π(Y)1π(Y))=β0+β1X

සාමාන්‍යකරණය කරන ලද රේඛීය ආකෘතිය පිළිබඳ ඉක්මන් හා පැහැදිලි, නමුත්, න දළ විශ්ලේෂණයක් සඳහා, ෆිට්ස්මොරිස්, ලෙයාර්ඩ් සහ වෙයාර් (2004) හි 10 වන පරිච්ඡේදය බලන්න (මෙම පිළිතුරේ කොටස් සඳහා මම නැඹුරු වූ නමුත් මෙය මගේම අනුවර්තනයකි. - සහ වෙනත් - ද්‍රව්‍යමය, ඕනෑම වැරැද්දක් මගේම වේ). , ආර් මෙම ආකෘති ගැලපෙන ආකාරය උත්සවය සඳහා ලේඛගතකිරීම පරීක්ෂා කිරීම සඳහා ? Glm පදනම ඇසුරුම තුල.

(එක් අවසාන සටහනක් පසුව එකතු කරන ලදි :) ඔබ වරින් වර අසන්නේ ඔබ තහනම භාවිතා නොකළ යුතු යැයි මිනිසුන් පවසන නිසා එය අර්ථ නිරූපණය කළ නොහැකි බැවිනි. බීටා වල අර්ථ නිරූපණය අඩු බුද්ධිමත් වුවද මෙය සත්‍ය නොවේ. ලොජිස්ටික් ප්‍රතිගාමීත්වය සමඟ, හි එක් ඒකක වෙනසක් 'සාර්ථකත්වයේ' ලොග් අන්තරයන්හි වෙනසක් සමඟ සම්බන්ධ වේ (විකල්පයක් ලෙස, වෙනස් වීම), අනෙක් සියල්ලම සමාන වේ. සමඟ, මෙය හි වෙනසක් වනු ඇත . ( උදාහරණයක් ලෙස 1 සහ 2 හි ලකුණු සහිත දත්ත කට්ටලයක නිරීක්ෂණ දෙකක් ගැන සිතන්න .) මේවා පුරෝකථනය කළ සම්භාවිතාවන් බවට පරිවර්තනය කිරීම සඳහා ඔබට ඒවා සාමාන්‍ය සීඩීඑෆ් හරහා යැවිය හැකියX1β1exp(β1)β1 zz, හෝ ඒවා ටේබල් එකකින් බලන්න. z

.


83
ස්තූතියි, යාලුවනේ. මෙය හොඳින් එකට එකතු වීම ගැන මට සතුටුයි; ප්‍රශ්න වලට පිළිතුරු සැපයීමෙන් මෙන්ම අන් අයගේ පිළිතුරු ඇසීමෙන් සහ කියවීමෙන් ඔබට සීවී එකෙන් දේවල් ඉගෙන ගත හැකි ආකාරය පිළිබඳ මෙය හොඳ උදාහරණයකි : මම මෙම තොරතුරු කලින් දැන සිටියෙමි, නමුත් මට එය සීතලෙන් ලිවීමට තරම් ප්‍රමාණවත් නොවේ. ඒ නිසා මම ඇත්ත වශයෙන්ම මගේ පැරණි පා through හරහා තොරතුරු සංවිධානය කර එය පැහැදිලිව ඉදිරිපත් කරන්නේ කෙසේදැයි සොයා බැලීමට කාලය ගත කළෙමි. මෙම ක්‍රියාවලියේදී මෙම අදහස් මා වෙනුවෙන්ම ශක්තිමත් කර ගතිමි.
gung - මොනිකා නැවත

6
පැහැදිලි කිරීම සඳහා ස්තූතියි, පොදුවේ ගත් කල ජීඑල්එම් පිළිබඳ පැහැදිලි විස්තරයකි.
fmark

hwhuber "ප්‍රතිචාර විචල්‍යය සාමාන්‍යයෙන් බෙදා හරිනු නොලබන විට (නිදසුනක් ලෙස, ඔබේ ප්‍රතිචාර විචල්‍යය ද්විමය නම්) මෙම ප්‍රවේශය [සම්මත OLS] තවදුරටත් වලංගු නොවනු ඇත." ඔබට කණගාටු වීම ගැන මට කණගාටුයි (නැවතත්!), නමුත් මට මෙය ටිකක් අවුල් සහගතය. OLS හි යැපෙන විචල්‍යය මත කොන්දේසි විරහිතව බෙදා හැරීමේ උපකල්පන නොමැති බව මම තේරුම් ගතිමි . මෙම උපුටා දැක්වීමෙන් අදහස් කරන්නේ ප්‍රතිචාරය එතරම් සාමාන්‍ය නොවන බැවින් (එනම් ද්විමය විචල්‍යයක්) එහි කොන්දේසි සහිත ව්‍යාප්තිය ලබා දී ඇති අතර (එබැවින් අවශේෂ බෙදා හැරීම) සාමාන්‍ය තත්වයට ළඟා විය නොහැකි බව ද? X
ලන්ඩ්‍රෝනි

7
@landroni, ඔබට මේ සඳහා නව ප්‍රශ්නයක් ඇසීමට අවශ්‍ය විය හැකිය. කෙටියෙන් කිවහොත්, ඔබේ ප්‍රතිචාරය ද්විමය නම්, ලබා දී ඇති Y = X හි කොන්දේසි සහිත ව්‍යාප්තියට සාමාන්‍ය තත්වයට ළඟා විය නොහැක; එය සැමවිටම ද්විමය වේ. අමු අපද්‍රව්‍ය බෙදා හැරීම කිසි විටෙකත් සාමාන්‍ය තත්වයට ළඟා නොවනු ඇත. ඒවා සැමවිටම pi & (1-pi) වනු ඇත. මෙම සාම්පලක් ගැනීම බෙදා හැරීම X = xi (එනම්, පයි) ලබා දෙන අතර Y යන කොන්දේසියට මධ්යන්ය නමුත් සාමාන්ය තත්වයට ළඟා වනු ඇත.
gung - මොනිකා නැවත

2
ලෑන්ඩ්‍රෝනිගේ කනස්සල්ලෙන් මම යම් ප්‍රමාණයක් බෙදා ගනිමි: සියල්ලට පසු, සාමාන්‍යයෙන් බෙදා හරින ලද ප්‍රති come ල සාමාන්‍යයෙන් බෙදා හරිනු නොලබන අපද්‍රව්‍ය සහ සාමාන්‍යයෙන් බෙදා හරිනු නොලබන ප්‍රති come ල සාමාන්‍යයෙන් බෙදා හරින ලද අපද්‍රව්‍ය විය හැකිය. ප්‍රති come ලය පිළිබඳ ගැටළුව එහි පරාසයට වඩා එහි බෙදා හැරීම ගැන අඩු බව පෙනේ .
ඇලෙක්සිස්

47

දැනටමත් වඩාත්ම වැදගත් දේ පවසන විනක්ස්ගේ පිළිතුරට අමතරව:

  • සංගුණක the ලොජිට් රෙග්‍රේෂන් හි හි පරස්පර අනුපාතය අනුව ස්වාභාවික අර්ථකථන ඇත;β

  • ඔබේ ද්විමය ප්‍රති come ලය සැඟවුණු ගෝස්සියානු විචල්‍යයක් වන [eq. 1] in සමඟ නිශ්චිත ආකාරයකින්: හරියටම .Z=Xβ+ϵ ϵN(0,1)Y=1Z>0

  • වඩාත් පොදුවේ, සහ තවත් ස්වභාවිකව, ඔබ ප්රතිඵලය බව සිතන්නේ නම් probistic පරිහානිය වඩාත් ස්වාභාවික ආකෘතිය සමහර හරියටම විට වූ පර්යන්තය ඉක්මවා සමග, . හුදෙක් rescale: එය මෙම ඉහත සඳහන් නඩුව දක්වා අඩු කළ හැකි බව දැකීම පහසුය ලෙස ; එම සමීකරණය පරීක්ෂා කිරීම පහසුය [eq. 1] තවමත් රඳවා තබා ගනී (සංගුණක නැවත සකස් කර අන්තර්ග්‍රහණය පරිවර්තනය කරන්න). මෙම ආකෘතීන් ආරක්ෂා කර ඇත, උදාහරණයක් ලෙස, වෛද්‍ය සන්දර්භය තුළ, නොකඩවා අඛණ්ඩ විචල්‍යයක් වන අතර උදා: විට1Z0=Xβ0+ϵ0cϵN(0,σ2)Z0Z=1σ(Z0c)Z0YZ0 සමහර "ව්යාධිජනක සීමාව" ඉක්මවයි.

Logit හා probit ආකෘති දෙක පමණි ආකෘති . බොක්ස් වරක් පැවසූ පරිදි "සියලුම මාදිලි වැරදියි, සමහර ඒවා ප්‍රයෝජනවත් වේ"! මෙම ප්‍රති both ල හි ප්‍රති on මත හි බලපෑමක පැවැත්ම හඳුනා ගැනීමට ඔබට ඉඩ සලසයි ; සමහර විශේෂ අවස්ථා හැර, ඒවා කිසිවක් “සැබවින්ම සත්‍ය” නොවනු ඇති අතර, ඒවායේ අර්ථ නිරූපණය ප්‍රවේශමෙන් කළ යුතුය.XY


18
ප්‍රොබිට් එදිරිව ලොජිට් ආකෘති භාවිතය විනය සම්ප්‍රදායට බෙහෙවින් බලපා ඇති බව ද සඳහන් කිරීම වටී. නිදසුනක් වශයෙන්, මනෝවිද්‍යාවේ පර්යේෂකයන් වැඩි වශයෙන් රඳා පවතින්නේ ලොජිට් ආකෘති මත වන අතර විශ්ලේෂණය තහනම් කිරීමට ආර්ථික විද්‍යා ist යා බොහෝ සෙයින් පුරුදු වී ඇත.
ඩේවිඩ්

කාසියක් පෙරළීම පිටුපස ඇති ආකෘතිය කුමක්ද?
ස්කෑන්

34

ඔබේ ප්‍රකාශය සම්බන්ධයෙන්

ලොජිස්ටික් රෙග්‍රේෂන් භාවිතා කළ යුත්තේ කවදාද සහ ප්‍රොබිට් භාවිතා කරන්නේ කවදාදැයි දැන ගැනීමට මම මෙහි වැඩි කැමැත්තක් දක්වමි

මේ දෙක අතර තෝරාගැනීමේදී සලකා බැලිය යුතු කරුණු රාශියක් දැනටමත් මෙහි ඇත, නමුත් තවම ප්‍රකාශ කර නොමැති එක් වැදගත් කරුණක් තිබේ: මිශ්‍ර ප්‍රයෝග ලොජිස්ටික් භාවිතා කරමින් ද්විමය දත්තවල පොකුරු සංගම් දෙස බැලීමට ඔබේ උනන්දුව ඇති විට හෝ ප්‍රොබිට් ආකෘති, ප්‍රොබිට් මොඩලයට වැඩි කැමැත්තක් දැක්වීම සඳහා න්‍යායාත්මක පදනමක් ඇත. මෙම නොමැති බව උපකල්පනය, ඇත්ත වශයෙන්, වේ එය පූර්ව (ඔබ අනුරූපන කරන්නේ එය සැබෑ ආකෘතිය බව අප දන්නවා කරන්නේ නම්, උදා:) ලොජිස්ටික් ආදර්ශ කැමති හේතුව.

පළමුව , මෙය සත්‍ය වන්නේ මන්දැයි බැලීමට පළමු සටහන මෙම මාදිලි දෙකම එළිපත්ත අඛණ්ඩ ප්‍රතිගාමී ආකෘති ලෙස දැකිය හැකිය. උදාහරණයක් ලෙස නිරීක්ෂණය සඳහා මිශ්ර බලපෑම් ආකෘතිය රේඛීය සරල සලකා පොකුරක් තුළ :ij

yij=μ+ηj+εij

මෙහි යනු පොකුරු අහඹු බලපෑම වන අතර the යනු දෝෂ . එවිට ලොජිස්ටික් හා ප්‍රොබිට් ප්‍රතිගාමී ආකෘති දෙකම මෙම ආකෘතියෙන් ජනනය වන අතර 0 ට එළිපත්ත ලෙස සමානව සකසා ඇත.ηjN(0,σ2)jεij

yij={1if   yij00if   yij<0

නම් කාලීන සාමාන්යයෙන් බෙදා ඇත, ඔබ probit අවගමනය ඇති අතර එය සංවිධානාත්මක බෙදා නම් ඔබ ලොජිස්ටික් 'ප්රතිපායන ආදර්ශ තිබෙනවා. පරිමාණය හඳුනාගෙන නොමැති බැවින්, මෙම අවශේෂ දෝෂ පිළිවෙලින් සම්මත සාමාන්‍ය සහ සම්මත ලොජිස්ටික් ලෙස දක්වා ඇත.εij

පියර්සන් (1900) පෙන්වා දුන්නේ බහුකාර්ය සාමාන්‍ය දත්ත ජනනය කර වර්ගීකරණය කළ හැකි නම්, යටින් පවතින විචල්‍යයන් අතර සහසම්බන්ධතා තවමත් සංඛ්‍යානමය වශයෙන් හඳුනාගෙන ඇති බවයි - මෙම සහසම්බන්ධතා බහු අවයවික සහසම්බන්ධතා ලෙස හඳුන්වන අතර ද්විමය නඩුවට විශේෂිත වූ ඒවා ටෙට්‍රාචෝරික් සහසම්බන්ධතා ලෙස හැඳින්වේ . මෙයින් අදහස් කරන්නේ, තහනම් ආකෘතියක් තුළ, සාමාන්‍යයෙන් බෙදා හරින ලද විචල්‍යයන්ගේ අභ්‍යන්තර පන්තියේ සහසම්බන්ධතා සංගුණකය:

ICC=σ^2σ^2+1

හඳුනාගෙන ඇති අතර එයින් අදහස් වන්නේ ප්‍රොබිට් නඩුවේදී ඔබට යටින් පවතින ගුප්ත විචල්‍යයන්ගේ ඒකාබද්ධ ව්‍යාප්තිය සම්පූර්ණයෙන් සංලක්ෂිත කළ හැකි බවයි.

ලොජිස්ටික් ආකෘතියේ දී, ලොජිස්ටික් ආකෘතියේ අහඹු බලපෑම් විචලනය තවමත් හඳුනාගෙන ඇති නමුත් එය පරායත්ත ව්‍යුහය (සහ ඒ නිසා ඒකාබද්ධ ව්‍යාප්තිය) සම්පූර්ණයෙන් සංලක්ෂිත නොවේ, මන්ද එය සාමාන්‍ය හා ලොජිස්ටික් සසම්භාවී විචල්‍යයක් අතර මිශ්‍රණයක් නොවන බැවිනි. දේපල එහි මධ්‍යන්‍ය සහ සහසංයුජ අනුකෘතියෙන් සම්පූර්ණයෙන් නියම කර ඇත. යටින් පවතින ගුප්ත විචල්‍යයන් සඳහා මෙම අමුතු පරාමිතික උපකල්පනය සටහන් කිරීමෙන් ලොජිස්ටික් ආකෘතියේ අහඹු බලපෑම් අර්ථ නිරූපණය කිරීම පොදුවේ අර්ථ නිරූපණය කිරීමට අඩු වේ.


7
යමෙකු තහනමට කැමති තවත් අවස්ථා තිබේ. ආර්ථිකමිතික තේරීම් ආකෘති (එනම් හෙක්මන්) ඔප්පු කර ඇත්තේ ප්‍රොබිට් ආකෘතිය භාවිතා කිරීම පමණි. මට මේ ගැන එතරම් විශ්වාසයක් නැත, නමුත් ද්විමය විචල්‍යයන් අන්තරාසර්ග වන සමහර SEM ආකෘති ද උපරිම සම්භාවිතාව තක්සේරු කිරීම සඳහා අවශ්‍ය බහුකාර්ය සාමාන්‍යය උපකල්පනය කිරීම නිසා තහනම් ආකෘතිය භාවිතා කරයි.
ඇන්ඩි ඩබ්ලිව්

1
Nd ඇන්ඩි ඩබ්ලිව්, ඔබ ද්විමය SEM ගැන නිවැරදියි - එය මා මෙහි කර ඇති කාරණයට සමීපව සම්බන්ධයි - එහි ඇස්තමේන්තු කිරීම (සහ පසුව අර්ථ නිරූපණය කිරීම) යටින් පවතින සහසම්බන්ධතා හඳුනාගෙන ඒකාබද්ධ ව්‍යාප්තිය සම්පූර්ණයෙන් සංලක්ෂිත කරයි යන කාරණයට සහාය වේ. .
මැක්‍රෝ

30

පෙර (විශිෂ්ට) පිළිතුරු වල ආමන්ත්‍රණය කර නොමැති වැදගත් කරුණක් වන්නේ සත්‍ය තක්සේරු කිරීමේ පියවරයි. බහුකාර්ය ලොජිට් ආකෘති වලට පී.ඩී.එෆ් ඇති අතර එය ඒකාබද්ධ කිරීමට පහසු වන අතර එමඟින් තේරීමේ සම්භාවිතාව සංවෘත ස්වරූපයෙන් ප්‍රකාශ වේ. සාමාන්‍ය බෙදාහැරීමේ function නත්වයේ ක්‍රියාකාරිත්වය එතරම් පහසුවෙන් ඒකාබද්ධ නොවේ, එබැවින් තහනම් ආකෘති සඳහා සාමාන්‍යයෙන් අනුකරණය අවශ්‍ය වේ. එබැවින් ආකෘති දෙකම සැබෑ ලෝක තත්වයන්හි වියුක්තයන් වන අතර, ලොජිට් සාමාන්‍යයෙන් විශාල ගැටළු (බහු විකල්ප හෝ විශාල දත්ත කට්ටල) භාවිතා කිරීමට වේගවත් වේ.

මෙය වඩාත් පැහැදිලිව දැකීමට, නිශ්චිත තෝරා ගැනීමේ සම්භාවිතාව අනාවැකි විචල්‍යයන්ගේ ශ්‍රිතයක් වන අතර දෝෂ නියමයන් ( දුම්රිය අනුගමනය කරමින් )εxε

I f ( x )

P=I[ε>βx]f(ε)dε
කොහෙද තෝරාගත්තේ නම් දර්ශකයක් කාර්යය, 1 වන අතර, ශුන්ය වෙනස් දෙයකි. මෙම අනුකලනය තක්සේරු කිරීම උපකල්පනය මත බෙහෙවින් රඳා පවතී . ලොජිට් ආකෘතියක, මෙය ලොජිස්ටික් ශ්‍රිතයක් වන අතර, තහනම් ආකෘතියේ සාමාන්‍ය බෙදා හැරීමකි. පිවිසුම් ආකෘතියක් සඳහා, මෙය බවට පත්වේIf(x)

P=ε=βxf(ε)dε=1F(βx)=11exp(βx)

තහනම් ආකෘති සඳහා එවැනි පහසු ආකාරයක් නොමැත.


4
සත්‍ය සංසිද්ධිය ප්‍රොබිට් එකකින් වඩා හොඳින් ආදර්ශනය කර තිබුණද, අවකාශීය විවික්ත තේරීම් ගැටළු තක්සේරු කිරීම සඳහා බහුකාර්ය ප්‍රවේශ ප්‍රවේශයන් සම්භාව්‍ය ලෙස භාවිතා කරන්නේ මේ නිසා ය.
fmark

DC ආකෘතියකට අවකාශීය අංග ඇතුළත් කරන්නේ කෙසේද? මම ගොඩක් කැමතියි.
gregmacfarlane

2
එහෙත්, තේරීමේ තත්වය තුළ, තහනම වඩාත් නම්‍යශීලී වේ, එබැවින් අද මුවර් භාවිතා වේ! බහුකාර්ය ලොජිටය යන්නෙන් අදහස් කරන්නේ අදාළ නොවන විකල්පයන්ගේ නොගැලපීම උපකල්පනය කිරීමයි, එය සැමවිටම ආනුභවිකව යුක්ති සහගත නොවේ.
kjetil b halvorsen

2
IIA සැමවිටම යුක්ති සහගත නොවන බව ඔබ නිවැරදියි, නවීන ඇස්තමේන්තු කරුවන් සමඟ තහනම් ආකෘති සාධාරණ ලෙස ඉක්මණින් තක්සේරු කළ හැකි බව ඔබ ද නිවැරදිය. නමුත් GEV ආකෘති IIA ගැටළුව විසඳන අතර ඇතැම් අවස්ථාවන්හිදී තේරීමේ ව්‍යුහය වඩා හොඳින් නිරූපණය කරයි. තහනම "අද වැඩිපුර භාවිතා වේ" යැයි මට විශ්වාස නැත; මගේ ක්ෂේත්‍රය තුළ (ප්‍රවාහන ආකෘති නිර්මාණය), තහනම් ආකෘති නව්‍යතාවයක් ලෙස පවතී.
gregmacfarlane

14

මා කියන්නට යන දෙය මෙතෙක් පවසා ඇති දේ අවලංගු නොකරයි. ප්‍රොබිට් මාදිලි IIA (අනවශ්‍ය විකල්පයන්ගේ ස්වාධීනත්වය) උපකල්පන වලින් පීඩා විඳින්නේ නැති බව මට පෙන්වා දීමට අවශ්‍යයි, සහ පිවිසුම් ආකෘතිය එසේ කරයි.

දුම්රියේ විශිෂ්ට පොතෙන් උදාහරණයක් භාවිතා කිරීමට. මගේ මෝටර් රථයේ නිල් බස් රථයක් ධාවනය කිරීමට හෝ ධාවනය කිරීමට යනවාදැයි පුරෝකථනය කරන ලොජිටියක් මා සතුව තිබේ නම්, රතු බස් රථයක් එකතු කිරීම කාර් සහ නිල් බස් යන දෙකින්ම සමානුපාතිකව ලබා ගනී. නමුත් තහනම් ආකෘතියක් භාවිතා කිරීමෙන් ඔබට මෙම ගැටළුව මඟහරවා ගත හැකිය. සාරාංශයක් ලෙස, සමානුපාතිකව දෙකින්ම ඇඳීම වෙනුවට, නිල් බස් රථයෙන් ඒවා ආදේශක වන බැවින් ඔබට තවත් ඇදී යා හැකිය.

ඔබ කරන පරිත්‍යාගය නම්, ඉහත පෙන්වා දී ඇති පරිදි සංවෘත ආකෘති විසඳුම් නොමැති වීමයි. IIA ගැටළු පිළිබඳව මා කනස්සල්ලට පත්වන විට ප්‍රොබිට් මගේ ගොටෝ බවට පත්වේ. ලොජිට් රාමුවක (GEV බෙදාහැරීම්) IIA වටා යාමට ක්‍රම නොමැති බව එයින් අදහස් නොකෙරේ. නමුත් මම සෑම විටම මෙම මාදිලි දෙස බැලුවේ ගැටලුව වටා ඇති අවුල් සහගත ක්‍රමයක් ලෙස ය. ඔබට ලබා ගත හැකි පරිගණකමය වේගය සමඟ, මම කියන්නේ තහනම සමඟ යන්න.


1
කරුණාකර “අනවශ්‍ය විකල්පයන්ගේ ස්වාධීනත්වය” ඔබට පැහැදිලි කළ හැකිද?
ස්කෑන්

3
IIA උපකල්පනයේ ප්‍රභේදයක් බලාත්මක කරන බහුකාර්ය තහනම් ආකෘතියක් තක්සේරු කිරීමට තවමත් හැකි බව සලකන්න (ස්ටේටා හි mprobit විධානය මෙන්). බහුකාර්ය ප්‍රක්ෂේපණයේ IIA ඉවත් කිරීම සඳහා, ප්‍රතිචාර විචල්‍යයේ සෑම විකල්පයක් සඳහාම ගුප්ත විචල්‍ය දෝෂවල විචල්‍ය-සහසංයුජ අනුකෘතිය ආදර්ශනය කළ යුතුය.
කෙන්ජි

8

ලොජිට් සහ ප්‍රොබිට් අතර වඩාත්ම ප්‍රචලිත වෙනස වන්නේ (න්‍යායාත්මක) ප්‍රතිගාමී අවශේෂ බෙදා හැරීමයි: තහනමට සාමාන්‍යය, ලොජිස්ටික් සඳහා ලොජිස්ටික් (කරුණාකර බලන්න: කූප් ජී. ඉකොනොමෙට්‍රික්ස් හැඳින්වීමක් චිචෙස්ටර්, විලේ: 2008: 280).


2
නමුත් අපගේ දත්ත වලට න්‍යායාත්මක සාමාන්‍ය හෝ ලොජිස්ටික් අවශේෂ බෙදාහැරීමක් තිබිය යුතුදැයි අපි දන්නේ කෙසේද? උදාහරණයක් ලෙස මම කාසියක් පෙරළන විට.
skan

8

සංඛ්‍යාලේඛනමය තොරතුරු ලබා නොගෙන සංඛ්‍යාලේඛන මත පදනම් වූ තීරණ කෙරෙහි අවධානය යොමු නොකර “ලොජිස්ටික් රෙග්‍රේෂන් භාවිතා කළ යුත්තේ කවදාද, සහ තහනම භාවිතා කරන්නේ කවදාද” යන්න පිළිබඳව පමණක් අවධානය යොමු කරන ප්‍රශ්නයට මම ප්‍රායෝගික පිළිතුරක් ඉදිරිපත් කරමි. පිළිතුර ප්‍රධාන කරුණු දෙකක් මත රඳා පවතී: ඔබට විනය මනාපයක් තිබේද, ඔබේ දත්ත වලට වඩාත් ගැලපෙන ආකෘතිය ගැන පමණක් ඔබ සැලකිලිමත්ද?

මූලික වෙනස

ලොජිට් සහ ප්‍රොබිට් මාදිලි දෙකම සංඛ්‍යානමය ආකෘතීන් සපයන අතර එය යැපෙන ප්‍රතිචාර විචල්‍යයක් 0 හෝ 1 විය හැකි බවට සම්භාවිතාව ලබා දෙයි. ඒවා බොහෝ සමානකම් ඇති අතර බොහෝ විට ප්‍රායෝගිකව අනන්‍ය ප්‍රති results ල ලබා දී ඇත, නමුත් සම්භාවිතාව ගණනය කිරීම සඳහා විවිධ කාර්යයන් භාවිතා කරන බැවින් ඒවායේ ප්‍රති results ල සමහර විට සුළු වේ වෙනස්.

විනය මනාපය

සමහර ශාස්ත්‍රීය විෂයයන් සාමාන්‍යයෙන් කැමති වන්නේ එක් හෝ වෙනත් දෙයකට ය. ඔබ ඔබේ ප්‍රති results ල විශේෂිත සාම්ප්‍රදායික මනාපයක් සහිත ශාස්ත්‍රීය විනයකට ප්‍රකාශයට පත් කිරීමට හෝ ඉදිරිපත් කිරීමට යන්නේ නම්, ඔබේ සොයාගැනීම් වඩාත් පහසුවෙන් පිළිගත හැකි වන පරිදි ඔබේ තේරීම නියම කිරීමට ඉඩ දෙන්න. උදාහරණයක් ලෙස ( ක්‍රම උපදේශකයින්ගෙන් ),

ලොජිස්ටික් - ලොජිස්ටික් රෙග්‍රේෂන් ලෙසද හැඳින්වේ - වසංගත විද්‍යාව වැනි සෞඛ්‍ය විද්‍යාවන්හි වඩාත් ජනප්‍රිය වන්නේ අර්ධ වශයෙන් සංගුණක පරස්පර අනුපාත අනුව අර්ථ නිරූපණය කළ හැකි බැවිනි. වඩාත් දියුණු ආර්ථිකමිතික සැකසුම් වල (හීටරොස්කෙඩැස්ටික් ප්‍රොබිට් ආකෘති ලෙස හැඳින්වේ) නියත නොවන දෝෂ විචල්‍යතාවයන් සඳහා ගණනය කිරීම සඳහා ප්‍රොබිට් ආකෘති සාමාන්‍යකරණය කළ හැකි අතර එබැවින් ආර්ථික විද්‍යා ists යින් සහ දේශපාලන විද්‍යා .යින් විසින් සමහර සන්දර්භයන්හි භාවිතා කරනු ලැබේ.

කාරණය වන්නේ ප්‍රති results ලවල වෙනස්කම් ඉතා සුළු වීම නිසා ඔබේ සාමාන්‍ය ප්‍රේක්ෂකයින්ට ඔබේ ප්‍රති results ල තේරුම් ගැනීමට ඇති හැකියාව ප්‍රවේශයන් දෙක අතර ඇති සුළු වෙනස්කම් ඉක්මවා යයි.

ඔබ සැලකිලිමත් වන සියල්ල වඩා සුදුසු නම් ...

ඔබේ පර්යේෂණය එක් හෝ වෙනත් ක්‍රමයකට අකමැති විනයක තිබේ නම්, මෙම ප්‍රශ්නය පිළිබඳ මගේ අධ්‍යයනය (වඩා හොඳ, ලොජිට් හෝ ප්‍රොබිට්) මගේ නිගමනයට එළඹී ඇත්තේ එය සාමාන්‍යයෙන් සෑම විටම පාහේ සිදුවන බැවින්, ප්‍රොබිට් භාවිතා කිරීම වඩා හොඳ බවය. පිවිසුම් ආකෘතියට සමාන හෝ උසස් දත්ත වලට සංඛ්‍යානමය සුදුසුකමක් ලබා දෙන්න. ලොජිට් ආකෘති වඩා හොඳ සුදුසුකමක් ලබා දෙන විට වඩාත්ම කැපී පෙනෙන ව්‍යතිරේකය වන්නේ “අන්ත ස්වාධීන විචල්‍යයන්” (මම පහත විස්තර කරන).

මගේ නිගමනය පදනම් වී ඇත්තේ (වෙනත් මූලාශ්‍ර ගණනාවක් සොයා බැලීමෙන් පසුව) හාන්, ඊඩී සහ සෝයර්, ආර්., 2005 මත ය. ප්‍රොබිට් සහ ලොජිට් ආකෘති: බහුකාර්ය ක්ෂේත්‍රයේ වෙනස්කම්. ලබා ගත හැකි: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . ලොජිට් එදිරිව ප්‍රොබිට් බහුකාර්ය ආකෘති දත්ත වලට වඩා හොඳ සුදුසුකමක් ලබා දෙන්නේද යන්න පිළිබඳ මෙම ලිපියේ ප්‍රායෝගික තීරණ නිගමනවල සාරාංශය මෙන්න (මෙම නිගමන ඒකීය නොවන ආකෘති සඳහා ද අදාළ වේ, නමුත් ඒවා ස්වාධීන විචල්‍යයන් දෙකක් සඳහා පමණක් අනුකරණය කරන ලද බලපෑම්):

  • බොහෝ අවස්ථාවන්හීදී, පහත දැක්වෙන ව්‍යතිරේක දෙක සමඟ, ලොජිට් සහ ප්‍රොබිට් ආකෘති දත්ත සමානව ගැලපේ.

  • "අන්ත ස්වාධීන විචල්යයන්" සම්බන්ධයෙන් ලොජිට් අනිවාර්යයෙන්ම වඩා හොඳය . මේවා ස්වාධීන විචල්‍යයන් වන අතර, විශේෂයෙන් විශාල හෝ කුඩා අගයක් බොහෝ විට යැපෙන විචල්‍යය 0 හෝ 1 ද යන්න බොහෝ විට තීරණය කරනු ඇත, එය වෙනත් බොහෝ විචල්‍යයන්ගේ බලපෑම් අභිබවා යයි. හාන් සහ සෝයර් එය විධිමත් ලෙස අර්ථ දක්වන්නේ (පිටුව 4):

ආන්තික ස්වාධීන විචල්‍ය මට්ටමක් සිදුවීම් තුනක සං con ටකයට සම්බන්ධ වේ. පළමුව, ආන්තික ස්වාධීන විචල්‍ය මට්ටමක් ස්වාධීන විචල්‍යයක ඉහළ හෝ පහළ අන්තයේ සිදු වේ. උදාහරණයක් ලෙස, ස්වාධීන විචල්ය x 1, 2 සහ 3.2 අගයන් ගත යුතු යැයි පවසන්න. ආන්තික ස්වාධීන විචල්‍ය මට්ටමට x = 3.2 (හෝ x = 1) හි අගයන් ඇතුළත් වේ. දෙවනුව, මුළු n හි සැලකිය යුතු ප්‍රමාණයක් (උදා: 60%) මෙම මට්ටමේ තිබිය යුතුය. තෙවනුව, මෙම මට්ටමේ සාර්ථකත්වයේ සම්භාවිතාව ආන්තික විය යුතුය (උදා: 99% ට වඩා වැඩි).

  • මධ්‍යස්ථ හෝ විශාල නියැදි ප්‍රමාණ සහිත “සසම්භාවී බලපෑම් ආකෘති” සම්බන්ධයෙන් ප්‍රොබිට් වඩා හොඳය (එය කුඩා නියැදි ප්‍රමාණ සඳහා ප්‍රවේශ වීමට සමාන වේ). ස්ථාවර බලපෑම් ආකෘති සඳහා, තහනම් කිරීම සහ ප්‍රවේශ වීම සමානවම හොඳයි. හාන් සහ සෝයර් ඔවුන්ගේ ලිපියේ "අහඹු බලපෑම් ආකෘති" යන්නෙන් අදහස් කරන්නේ කුමක්දැයි මට නොතේරේ. බොහෝ අර්ථ දැක්වීම් ඉදිරිපත් කර ඇතත් ( මෙම තොග හුවමාරු ප්‍රශ්නයේ දී මෙන් ), මෙම පදයෙහි අර්ථ දැක්වීම ඇත්ත වශයෙන්ම අපැහැදිලි සහ නොගැලපේ . නමුත් මේ සම්බන්ධයෙන් ලොජිට් කිසි විටෙකත් තහනම් කිරීමට වඩා උසස් නොවන හෙයින්, හුදෙක් ප්‍රොබිට් තෝරා ගැනීමෙන් කාරණය වැදගත් වේ.

හාන් සහ සෝයර්ගේ විශ්ලේෂණය මත පදනම්ව, මගේ නිගමනය වන්නේ අන්ත ස්වාධීන විචල්‍යයන් හැරුණු විට සෑම විටම ප්‍රොබිට් ආකෘති භාවිතා කිරීමයි . අතිශයින්ම ස්වාධීන විචල්‍යයන් එතරම් පොදු නොවන අතර ඒවා හඳුනා ගැනීම පහසු විය යුතුය. මෙම නියමය සමඟ, ආකෘතිය අහඹු බලපෑම් ආකෘතියක් ද නැද්ද යන්න ගැටළුවක් නොවේ. ආකෘතියක් සසම්භාවී බලපෑම් ආකෘතියක් වන (තහනමට වැඩි කැමැත්තක් දක්වන) නමුත් අතිශය ස්වාධීන විචල්‍යයන් ඇත (ලොජිටයට වැඩි කැමැත්තක් දක්වන), හාන් සහ සෝයර් මේ පිළිබඳව අදහස් නොදැක්වුවද, ඔවුන්ගේ ලිපියෙන් මගේ හැඟීම වන්නේ එහි බලපෑමයි ආන්තික ස්වාධීන විචල්‍යයන් වඩා ප්‍රමුඛ වේ, එබැවින් ලොජිටයට වැඩි කැමැත්තක් දක්වනු ඇත.


5

පහත දැක්වෙන්නේ, කැදැල්ල විශේෂ අවස්ථා ලෙස තහනම් කර ඇති බවත්, වඩාත් සුදුසු යැයි කෙනෙකුට පරීක්‍ෂා කළ හැකි ඇස්තමේන්තුවක් මම පැහැදිලි කරමි.

ප්‍රොබිට් සහ ලොජිට් යන දෙකම ගුප්ත විචල්‍ය ආකෘතියක කූඩු කළ හැකිය,

yi=xiβ+εi,εiG(),

නිරීක්ෂණය කරන ලද සංරචකය ඇති තැන

yi=1(yi>0).

G

(β)=yilogG(xiβ)+(1yi)log[1G(xiβ)].

G

ක්ලයින් සහ ස්පාඩි හි, නිර්ණායක ශ්‍රිතය ඒ වෙනුවට වේ

(β)=yilogG^(xiβ)+(1yi)log[1G^(xiβ)],

G^()

G^(z)=i=1NyiK(zxiβh)j=1NK(zxjβh),

Khβhh

G^ih

GβG


5

ඒවා ඉතා සමාන ය.

Y=1XSX

P(Y=1|X)=P(S<βX)

හෝ ඒ හා සමානව:

P(Y=1|X)=P(βXS>0)

එවිට බෙදා හැරීම සඳහා ඔබ තෝරා ගන්නා දෙය වැදගත් වේ :S

  • ලොජිස්ටික් රෙග්‍රේෂන් වලදී, ලොජිස්ටික් බෙදාහැරීමක් ඇත.S
  • ප්‍රොබිට් රෙග්‍රේෂන් වලදී, සාමාන්‍ය ව්‍යාප්තියක් ඇත.S

විචල්‍යතාව වැදගත් නොවේ එය නියතයකින් ගුණ කිරීමෙන් ස්වයංක්‍රීයව වන්දි ලබා දේ . ඔබ අන්තර්ග්‍රහණයක් භාවිතා කරන්නේ නම් මධ්‍යන්‍යය ද වැදගත් නොවේ.β

මෙය එළිපත්ත බලපෑමක් ලෙස දැකිය හැකිය. සමහර නොපෙනෙන ප්රතිඵලය රේඛීය ශ්රිතයක් වේ යම් හඬක් සමග රේඛීය අවගමනය වගේ එක් කල, අපි මෙසේ විසින් 0/1 ප්රතිඵලයක් ලබා:E=βXSXS

  • විට , ප්රතිඵලයකිවයි = 1E>0Y=1
  • විට , ප්රතිඵලයකිY = 0E<0Y=0

ලොජිස්ටික් සහ ප්‍රොබිට් අතර වෙනස පවතින්නේ ලොජිස්ටික් සහ සාමාන්‍ය බෙදාහැරීම් අතර වෙනසයි. එතරම් දෙයක් නැත. සකස් කළ පසු, ඔවුන් එය මෙන් පෙනේ: රූප විස්තරය මෙහි ඇතුළත් කරන්න

ලොජිස්ටික් බරින් වැඩි වලිගයක් ඇත. කුඩා (<1%) හෝ ඉහළ (> 99%) සම්භාවිතාවක් ගැලපෙන ආකාරය මෙය සුළු වශයෙන් බලපායි. ප්‍රායෝගිකව, බොහෝ අවස්ථාවන්හි දී පවා වෙනස සැලකිය යුතු නොවේ: ලොජිට් සහ ප්‍රොබිට් අනාවැකි පළ කරන්නේ එකම දෙයයි. Http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article බලන්න

“දාර්ශනිකව”, ලොජිස්ටික් ප්‍රතිගාමීත්වය උපරිම එන්ට්‍රොපි මූලධර්මයට සමාන වීමෙන් සාධාරණීකරණය කළ හැකිය: http://www.win-vector.com/blog/2011/09/the-equivlance-of-logistic-regression-and-maximum -entropy-models /

ගණනය කිරීම් වලට අනුව: ලොජිස්ටික් බෙදාහැරීමේ සමුච්චිත ව්‍යාප්තිය සාමාන්‍ය බෙදාහැරීමට වඩා සංවෘත සූත්‍රයක් ඇති බැවින් ලොජිස්ටික් සරල ය. නමුත් බහු බෙදාහැරීම් වලට යන විට සාමාන්‍ය බෙදාහැරීම් වලට හොඳ ගුණාංග ඇත, මේ නිසා බොහෝ විට උසස් අවස්ථාවන්හිදී තහනම් කිරීම වඩාත් සුදුසු වේ.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.