ලොජිස්ටික් රෙග්‍රේෂන් හි පරිපූර්ණ වෙන්වීමක් සමඟ කටයුතු කරන්නේ කෙසේද?


176

ඉලක්ක විචල්‍යයේ ශුන්‍යයන් සහ ඒවා පරිපූර්ණ ලෙස වෙන් කරන විචල්‍යයක් ඔබ සතුව ඇත්නම්, R විසින් පහත දැක්වෙන “පරිපූර්ණ හෝ අර්ධ පරිපූර්ණ වෙන් කිරීම” අනතුරු ඇඟවීමේ පණිවිඩය ලබා දෙනු ඇත:

Warning message:
glm.fit: fitted probabilities numerically 0 or 1 occurred 

අපට තවමත් ආකෘතිය ලැබුණද සංගුණක ඇස්තමේන්තු උද්ධමනය කර ඇත.

ප්‍රායෝගිකව ඔබ මෙය සමඟ කටයුතු කරන්නේ කෙසේද?



Answers:


108

මේ සඳහා විසඳුමක් වන්නේ ද penal ුවම් ලැබිය හැකි ප්‍රතිගාමී ක්‍රමයක් භාවිතා කිරීමයි. ඇත්ත වශයෙන්ම, ද penal ුවම් කරන ලද ප්‍රතිගාමී ආකෘති සමහරක් සංවර්ධනය කිරීමට මුල් හේතුව මෙයයි (ඒවා වෙනත් රසවත් ගුණාංග ඇති බව පෙනෙන්නට තිබුණද.

R හි පැකේජ glmnet ස්ථාපනය කර පටවන්න, ඔබ බොහෝ දුරට යාමට සූදානම්ය. ග්ලම්නෙට් හි අඩු පරිශීලක-හිතකාමී අංගයක් නම්, ඔබට එය පෝෂණය කළ හැක්කේ මෙට්‍රික්ස් මිස අප පුරුදු වී ඇති සූත්‍ර නොවේ. කෙසේ වෙතත්, ඔබට model.matrix සහ ඒ හා සමාන දෑ මෙම දත්ත න්‍යාය දත්ත රාමුවකින් සහ සූත්‍රයකින් සෑදිය හැකිය ...

දැන්, මෙම පරිපූර්ණ වෙන්වීම ඔබේ නියැදියේ අතුරු duct ලයක් පමණක් නොව ජනගහනයේ සත්‍යයක් විය හැකි යැයි ඔබ අපේක්ෂා කරන විට, ඔබට මෙය හැසිරවීමට විශේෂයෙන් අවශ්‍ය නැත : මෙම වෙන් කිරීමේ විචල්‍යය ඔබේ ප්‍රති come ල සඳහා එකම පුරෝකථනය ලෙස භාවිතා කරන්න, නමුත් නොවේ ඕනෑම ආකාරයක ආකෘතියක් භාවිතා කිරීම.


20
කැරට් පැකේජය හරහා ඔබට ග්ලම්නෙට් සඳහා සූත්‍ර අතුරු මුහුණතක් භාවිතා කළ හැකිය.
Zach

"දැන්, ඔබ අපේක්ෂා කරන විට ..." මේ සම්බන්ධයෙන් ප්රශ්නය කරන්න. ක්ෂුද්‍ර ජීවීන් සමඟ ඇති සම්බන්ධතාවය දෙස මට සිද්ධි / පාලන අධ්‍යයනයක් ඇත. අපට ප්‍රතිකාරයක් ඇත්තේ රෝගීන් අතර පමණක් දක්නට ලැබෙන ප්‍රතිකාරයකි. කෙසේ වෙතත්, ප්‍රතිකාරය ක්ෂුද්‍රජීවයට ද බලපානු ඇතැයි අපි සිතමු. මෙය ඔබගේ අවවාදයට උදාහරණයක් ද? උපකල්පිත වශයෙන් අපට උත්සාහ කළහොත් ප්‍රතිකාර භාවිතා නොකිරීමට තවත් අවස්ථා රාශියක් සොයා ගත හැකිය, නමුත් අපට ඇති දේ අප සතුව ඇත.
abalter

152

ඔබට විකල්ප කිහිපයක් තිබේ:

  1. සමහර නැඹුරුව ඉවත් කරන්න.

    (අ) @ නික්ගේ යෝජනාවට අනුව ද penal ුවම් කිරීමෙන්. R හි පැකේජ ලොජිස්ට් හෝ FIRTHSAS හි ඇති විකල්පය PROC LOGISTICෆර්ත් (1993) හි යෝජනා කර ඇති ක්‍රමය ක්‍රියාත්මක කරයි, “උපරිම සම්භාවිතා ඇස්තමේන්තු පක්ෂග්‍රාහීව අඩු කිරීම”, බයෝමෙට්‍රිකා , 80 , 1 .; එමඟින් පළමු ඇණවුමේ නැඹුරුව උපරිම සම්භාවිතා ඇස්තමේන්තු වලින් ඉවත් කරයි. ( මෙන්න av ගැවින් brglmමට හුරු නැති පැකේජය නිර්දේශ කරයි , නමුත් මම එය රැස් කරන්නේ කැනොනිකල් නොවන සම්බන්ධක ක්‍රියාකාරකම් සඳහා සමාන ප්‍රවේශයක් ක්‍රියාත්මක කරන ලෙස ය. උදා.

    (ආ) නිශ්චිත කොන්දේසි සහිත ලොජිස්ටික් ප්‍රතිගාමීතාවයේ මධ්‍ය-අපක්ෂපාතී ඇස්තමේන්තු භාවිතා කිරීමෙන්. R හි ඇසුරුම් elrm හෝ logistiX , හෝ EXACTSAS හි ප්‍රකාශය PROC LOGISTIC.

  2. බැහැර රෝගීන් ද ප්රබල කොටසකට හෝ අගය ඇති වෙන් සිදුවන එහිදී. මේවා ඔබේ විෂය පථයෙන් පිටත විය හැකිය; හෝ වැඩිදුර අවධානය යොමු කළ විමර්ශනයකට සුදුසු ය. (R පැකේජය safeBinaryRegress ඒවා සොයා ගැනීම සඳහා පහසුය .)

  3. ආකෘතිය නැවත දමන්න. සාමාන්‍යයෙන් මෙය ඔබ කලින් සිතුවා නම් ඔබ ඒ ගැන සිතුවා නම් එය ඔබගේ නියැදි ප්‍රමාණයට වඩා සංකීර්ණ නිසා.

    (අ) අනාවැකිය ආකෘතියෙන් ඉවත් කරන්න . ඩිසි, im සිමොන් විසින් දෙන ලද හේතු නිසා : "ප්‍රතිචාරය වඩාත් හොඳින් පැහැදිලි කරන අනාවැකි ඔබ ඉවත් කරයි".

    (ආ) පුරෝකථන කාණ්ඩ බිඳවැටීමෙන් / පුරෝකථන අගයන් සම්බන්ධ කිරීමෙන්. මෙය අර්ථවත් නම් පමණි.

    (ඇ) අන්තර්ක්‍රියා නොමැතිව අනාවැකි හරස් සාධක දෙකක් (හෝ වැඩි) ලෙස නැවත ප්‍රකාශ කිරීම . මෙය අර්ථවත් නම් පමණි.

  4. @ මනෝයෙල්ගේ යෝජනාවට අනුව බේසියානු විශ්ලේෂණයක් භාවිතා කරන්න . එය ඔබට අවශ්ය කියලා උගහටය නමුත් දැන් වෙන් නිසා, එහි සෙසු merits.The කඩදාසි මත සලකා ඔහු නිර්දේශ වටී Gelman et al (2008), "ඒ දුර්වල තොරතුරු පෙරනිමි පෙර සැපයුම් සහ අනෙකුත් අවගමනය මාදිලි සඳහා බෙදා හැරීම", ඈන්. යෙදුම. ප්‍ර .ප්තිය. , 2 , 4 : ශුන්‍යයේ මධ්‍යන්‍යයක් සහ පරිමාණයක් සහිත, එක් එක් සංගුණකය සඳහා පෙර ඇති පෙරනිමි ස්වාධීන කෝචි වේ ; අඛණ්ඩ අනාවැකි පළ කරන්නන් ශුන්‍යයේ මධ්‍යන්‍යයක් සහ of හි සම්මත අපගමනය සඳහා ප්‍රමිතිකරණය කිරීමෙන් පසුව භාවිතා කිරීමට . ඔබට දැඩි තොරතුරු සහිත ප්‍රියර්ස් පැහැදිලි කළ හැකි නම්, වඩා හොඳය.5212

  5. කිසිවක් නොකරන්න. (නමුත් සම්මත දෝෂය පිළිබඳ වෝල්ඩ් තක්සේරු කර ඇති පරිදි පැතිකඩ සම්භාවිතාව මත පදනම්ව විශ්වාසනීය කාල පරතරයන් ගණනය කරන්න.) බොහෝ විට ඕනෑවට වඩා බැලූ විකල්පයකි. ආකෘතියේ පරමාර්ථය අනාවැකි සහ ප්‍රතිචාර අතර සම්බන්ධතා ගැන ඔබ ඉගෙන ගත් දේ විස්තර කිරීම පමණක් නම්, 2.3 ඉහළට යන අවාසි අනුපාතය සඳහා විශ්වාසනීය පරතරයක් උපුටා දැක්වීමේ කිසිදු ලැජ්ජාවක් නැත. (ඇත්ත වශයෙන්ම දත්ත මගින් වඩාත්ම සහාය දක්වන අවාසි අනුපාතයන් බැහැර කරන අපක්ෂපාතී ඇස්තමේන්තු මත පදනම්ව විශ්වාසනීය කාල පරතරයන් උපුටා දැක්වීම මාළු බවක් පෙනේ.) ඔබ ලක්ෂ්‍ය ඇස්තමේන්තු භාවිතා කර අනාවැකි කීමට උත්සාහ කරන විට ගැටළු ඇති වන අතර, වෙන්වීම සිදුවන අනාවැකිය අනෙක් ඒවා ගිල දමයි.

  6. , Rousseeuw සහ Christmann (2003) හි විස්තර කර ඇති පරිදි, සඟවා ලොජිස්ටික් 'ප්රතිපායන ආකෘතිය භාවිතා කරන්න "ලොජිස්ටික්' ප්රතිපායන දී වෙන්වීමේ හා ප්රයෝගයක් එරෙහිව මෙමගින් මනාව පිළිබිඹු වනවා", ගණනය සංඛ්යානය සහ දත්ත විශ්ලේෂණය , 43 , 3, සහ ආර් පැකේජය ක්රියාත්මක hlr . (@ user603 මෙය යෝජනා කරයි. ) මම සාරාංශය කියවා නැත, නමුත් ඔවුන් සාරාංශයේ “තරමක් වැඩි සාමාන්‍ය ආකෘතියක් යෝජනා කර ඇති අතර ඒ යටතේ නිරීක්ෂණය කරන ලද ප්‍රතිචාරය දැඩි ලෙස සම්බන්ධ වන නමුත් පාලනය කළ නොහැකි සත්‍ය ප්‍රතිචාරයට සමාන නොවේ” යනුවෙන් යෝජනා කරයි. මට එය පිළිගත හැකි යැයි හැඟෙන්නේ නැත්නම් ක්‍රමය භාවිතා කිරීම හොඳ අදහසක් නොවනු ඇත.

  7. "සම්පූර්ණ වෙන්වීමක් පෙන්නුම් කරන විචල්යයන් අතර අහඹු ලෙස තෝරාගත් නිරීක්ෂණ කිහිපයක් 1 සිට 0 දක්වා හෝ 0 සිට 1 දක්වා වෙනස් කරන්න": @ රොබට් එෆ් ගේ අදහස . මෙම යෝජනාව ප්රශ්නයක් ලෙස වෙන් සම්බන්ධයෙන් පැන නැගිය පෙනේ අවතක්සේරුවට වඩා ඔබ සමඟ කළ හැකි අයට උපරිම-සම්භාවිතාව ඇස්තමේන්තු කිරීම, හෝ සීමාව වැටහීමක් කිරීමට වෙනත් ක්රම තෝරා ගැනීමට ඔබ තුඩු දුන් දත්ත තොරතුරු නගරයෙන් දුගී නිවැසියන් රෝග ලක්ෂනයක් ලෙස සාධාරණ නිරවද්‍යතාව - තමන්ගේම කුසලතා ඇති සහ වෙන්වීම සඳහා “නිවැරදි කිරීම්” නොවන ප්‍රවේශයන්. (පසෙකට එහි නිර්ලජ්ජිතව වීමෙන් තත්කාර්ය , එය, එම දත්ත එම ප්රශ්න අහනවා විශ්ලේෂකයින් එම උපකල්පන කිරීම බව බොහෝ කිරීමට නීරස දෙයක්, වෙනස් පිළිතුරු නිසා කාසියක් කාසියේ වාසිය හෝ කුමන ප්රතිඵලයක් කිරීමට ලබා දිය යුතුය.)


1
@Scortchi තවත් (මිථ්‍යාදෘෂ්ටික) විකල්පයක් ඇත. සම්පූර්ණ වෙන්වීමක් පෙන්නුම් කරන විචල්‍යයන් අතර අහඹු ලෙස තෝරාගත් නිරීක්ෂණ කිහිපයක් 1 සිට 0 දක්වා හෝ 0 සිට 1 දක්වා වෙනස් කිරීම ගැන කුමක් කිව හැකිද?
රොබට් එෆ්

රොබට් එෆ්: ස්තූතියි! මම මේ ගැන සිතුවේ නැත - ඔබ එහි ක්‍රියාකාරිත්වය පිළිබඳව කිසියම් සඳහනක් කර ඇත්නම් මම කෘත ful වෙමි. ඔබ එය ප්‍රායෝගිකව භාවිතා කරන පුද්ගලයින් හමු වී තිබේද?
ස්කොර්චි - මොනිකා නැවත ස්ථාපනය කරන්න

C ස්කොට්චි - නැත, සම්පූර්ණ වෙන්වීම තුරන් කිරීම සඳහා පර්යේෂකයන් කෘතිම දත්ත එකතු කිරීම ගැන සඳහනක් ඇත, නමුත් දත්ත තෝරා බේරා වෙනස් කිරීම පිළිබඳ කිසිදු ලිපියක් මට හමු නොවීය. මෙම ක්‍රමය කෙතරම් effective ලදායී වේදැයි මා දන්නේ නැත.
රොබට් එෆ්

1
attatami: සෑම (බොහෝ?) වැඩසටහන් වෙන් කිරීම ගැන අනතුරු අඟවන්නේ නැත, එය විචල්යයන් කිහිපයක රේඛීය සංයෝජනයක සිටින විට එය හඳුනා ගැනීමට උපක්‍රමශීලී විය හැකිය, නමුත් අභිසාරී අසමත්වීම සහ / හෝ නොගැලපෙන අගයන් කිසිවක් හෝ එකකට ආසන්නයි - මම කැමතියි සෑම විටම මේවා පරීක්ෂා කරන්න.
ස්කොර්චි - මොනිකා නැවත ස්ථාපනය කරන්න

2
C ස්කොට්චි: ඔබේ පිළිතුරේ ඉතා හොඳ සාරාංශයක්. පුද්ගලිකව මම බේසියානු ප්‍රවේශයට කැමැත්තක් දක්වන නමුත් projecteuclid.org/euclid.ejs/1239716414 හි නිරන්තර දෘෂ්ටි කෝණයකින් සාමාන්‍ය සංසිද්ධිය පිළිබඳ සුන්දර විශ්ලේෂණය සඳහන් කිරීම වටී . කතුවරයා ලොජිස්ටික් රෙග්‍රේෂන් හි සම්පූර්ණ වෙන්වීමක් තිබියදීත් භාවිතා කළ හැකි ඒකපාර්ශ්වික විශ්වාසනීය අන්තරයන් කිහිපයක් ඉදිරිපත් කරයි.
සයන්

58

මෙය ස්කොට්චි සහ මනෝයෙල්ගේ පිළිතුරු වල ව්‍යාප්තියකි, නමුත් ඔබ RI භාවිතා කරන බව පෙනෙන බැවින් මම යම් කේතයක් සපයනු ඇතැයි සිතුවෙමි. :)

ජෙල්මන් et al (2008) විසින් යෝජනා කරන ලද පරිදි තොරතුරු රහිත පූර්ව උපකල්පන සහිත බේසියානු විශ්ලේෂණයක් භාවිතා කිරීම ඔබේ ගැටලුවට ඇති පහසුම හා සරලම විසඳුම බව මම විශ්වාස කරමි. ස්කොර්ට්චි සඳහන් කරන පරිදි, එක් එක් සංගුණකය සඳහා මධ්‍යන්‍ය 0.0 ​​හා 2.5 පරිමාණයට පෙර කොචියක් තැබීමට ජෙල්මන් නිර්දේශ කරයි (සාමාන්‍ය 0.0 ​​හා එස්ඩී 0.5 ලෙස සාමාන්‍යකරණය කර ඇත). මෙය සංගුණක විධිමත් කර ඒවා ශුන්‍ය දෙසට මඳක් ඇද දමනු ඇත. මෙම අවස්ථාවේ දී එය ඔබට අවශ්ය දේම වේ. ඉතා පුළුල් වලිග ඇති හෙයින්, කොචී තවමත් ජෙල්මන් වෙතින් විශාල සංගුණක (කෙටි වලිග සාමාන්‍යයට වඩා වෙනස්ව) සඳහා ඉඩ දෙයි:

රූප විස්තරය මෙහි ඇතුළත් කරන්න

මෙම විශ්ලේෂණය ක්‍රියාත්මක කරන්නේ කෙසේද? මෙම විශ්ලේෂණය bayesglmක්‍රියාත්මක කරන හස්ත පැකේජයේ ශ්‍රිතය භාවිතා කරන්න !

library(arm)

set.seed(123456)
# Faking some data where x1 is unrelated to y
# while x2 perfectly separates y.
d <- data.frame(y  =  c(0,0,0,0, 0, 1,1,1,1,1),
                x1 = rnorm(10),
                x2 = sort(rnorm(10)))

fit <- glm(y ~ x1 + x2, data=d, family="binomial")

## Warning message:
## glm.fit: fitted probabilities numerically 0 or 1 occurred 

summary(fit)
## Call:
## glm(formula = y ~ x1 + x2, family = "binomial", data = d)
##
## Deviance Residuals: 
##       Min          1Q      Median          3Q         Max  
## -1.114e-05  -2.110e-08   0.000e+00   2.110e-08   1.325e-05  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)
## (Intercept)    -18.528  75938.934       0        1
## x1              -4.837  76469.100       0        1
## x2              81.689 165617.221       0        1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1.3863e+01  on 9  degrees of freedom
## Residual deviance: 3.3646e-10  on 7  degrees of freedom
## AIC: 6
## 
## Number of Fisher Scoring iterations: 25

එය එතරම් සාර්ථක නොවේ ... දැන් බේසියානු අනුවාදය:

fit <- bayesglm(y ~ x1 + x2, data=d, family="binomial")
display(fit)
## bayesglm(formula = y ~ x1 + x2, family = "binomial", data = d)
##             coef.est coef.se
## (Intercept) -1.10     1.37  
## x1          -0.05     0.79  
## x2           3.75     1.85  
## ---
## n = 10, k = 3
## residual deviance = 2.2, null deviance = 3.3 (difference = 1.1)

සුපිරි සරල, නැහැ?

යොමුව

ජෙල්මන් et al (2008), "ලොජිස්ටික් සහ වෙනත් ප්‍රතිගාමී ආකෘති සඳහා දුර්වල තොරතුරු සහිත පෙරනිමි බෙදාහැරීමක්", .න්. යෙදුම. Stat., 2, 4 http://projecteuclid.org/euclid.aoas/1231424214


7
අංක අනවශ්ය සරල. ඔබ දැන් කර ඇති දේ ඔබට පැහැදිලි කළ හැකිද? bayesglmභාවිතා කරන පෙර කුමක්ද? එම්එල් ඇස්තමේන්තුව පැතලි පූර්වයක් සහිත බේසියානු හා සමාන නම්, තොරතුරු නොවන ප්‍රියර්ස් මෙහි උදව් කරන්නේ කෙසේද?
StasK

6
තවත් තොරතුරු කිහිපයක් එකතු කරන ලදි! පෙර නොපැහැදිලි නමුත් පැතලි නොවේ. එය ඇස්තමේන්තු විධිමත් කර 0.0 දෙසට තරමක් ඇද ගන්නා බැවින් එයට යම් බලපෑමක් ඇත. මෙම නඩුවේදී ඔබට අවශ්‍ය යැයි මම විශ්වාස කරමි.
රස්මුස් බත්

> m = bayesglm (match ~., family = binomial (link = 'logit'), data = df) අනතුරු ඇඟවීමේ පණිවිඩය: සවිකර ඇති සම්භාවිතාවන් සංඛ්‍යාත්මකව 0 හෝ 1 සිදුවිය .
ක්‍රිස්

ආරම්භකයක් ලෙස, prior.dfපෙරනිමියට පෙරනිමි 1.0සහ / හෝ අඩු කිරීමෙන් තරමක් ශක්තිමත් prior.scale2.5m=bayesglm(match ~. , family = binomial(link = 'logit'), data = df, prior.df=5)
නියාමනයක්

1
අපි ආකෘතියේ pre.df වැඩි කළ විට අපි හරියටම කරන්නේ කුමක්ද? අපට කොතරම් ඉහළට යා යුතුද යන්නට සීමාවක් තිබේද? මගේ අවබෝධය නම්, වැරදි පිළිබඳ නිවැරදි ඇස්තමේන්තු සමඟ අභිසාරී වීමට ඉඩ දීම සඳහා එය ආකෘතියට බාධා කරන බව ද?
hamilthj

7

උපරිම වශයෙන් "අර්ධ-සම්පූර්ණ වෙන්වීම" පිළිබඳ වඩාත් සවිස්තරාත්මක පැහැදිලි කිරීමක් වන්නේ පෝල් ඇලිසන්ගේ ලිපියයි. ඔහු ලියන්නේ SAS මෘදුකාංගය, නමුත් ඔහු ආමන්ත්‍රණය කරන ගැටළු ඕනෑම මෘදුකාංගයකට සාමාන්‍යකරණය කළ හැකිය:

  • X හි රේඛීය ශ්‍රිතයකට y පිළිබඳ පරිපූර්ණ අනාවැකි ජනනය කළ හැකි සෑම අවස්ථාවකම සම්පූර්ණ වෙන්වීම සිදු වේ

  • (අ) එහි යම් සංගුණකය දෛශික පවතී විට අර්ධ-සම්පූර්ණ වෙන් සිදුවන එවැනි bxi ≥ 0 විට යි = 1 , සහ bxi ≤ 0 * සෑම විටම ** යි = 0 හා මෙම සමානත්වය එක් එක් කාණ්ඩයේ අවම වශයෙන් එක් සිද්ධියකදීවත් සත්ය යැපෙන විචල්‍යය. වෙනත් වචන වලින් කිවහොත්, ලොජිස්ටික් ප්‍රතිගාමිත්වයේ ඕනෑම ද්විමාන ස්වාධීන විචල්‍යයක් සඳහා, එම විචල්‍යය සහ යැපෙන විචල්‍යය මගින් සාදන ලද 2 × 2 වගුවේ ශුන්‍යයක් තිබේ නම්, ප්‍රතිගාමී සංගුණකය සඳහා වන එම්එල් ඇස්තමේන්තුව නොපවතී.

ගැටළු විචල්‍යයන් මකාදැමීම, වර්ග බිඳවැටීම, කිසිවක් නොකර සිටීම, නිශ්චිත ලොජිස්ටික් ප්‍රතිගාමීතාව ඉහළ නැංවීම, බේසියානු ඇස්තමේන්තුව සහ උපරිම දඩ මුදල් තක්සේරු කිරීම ඇතුළු දැනටමත් සඳහන් කර ඇති විසඳුම් බොහොමයක් ඇලිසන් සාකච්ඡා කරයි .

http://www2.sas.com/proceedings/forum2008/360-2008.pdf


3

ආර් වෙතින් ලැබෙන මෙම අනතුරු ඇඟවීමේ පණිවිඩය සමඟ ප්‍රවේශම් වන්න ඇන්ඩ rew ජෙල්මන්ගේ මෙම බ්ලොග් සටහන දෙස බලන්න, එය සෑම විටම පරිපූර්ණ වෙන්වීම පිළිබඳ ගැටළුවක් නොව සමහර විට දෝෂයක් ඇති බව ඔබට පෙනෙනු ඇත glm. ආරම්භක අගයන් උපරිම සම්භාවිතා ඇස්තමේන්තුවට වඩා බොහෝ දුර නම්, එය පුපුරා යයි. එබැවින්, ස්ටාටා වැනි වෙනත් මෘදුකාංග සමඟ පළමුව පරීක්ෂා කරන්න.

ඔබට ඇත්ත වශයෙන්ම මෙම ගැටළුව තිබේ නම්, තොරතුරු සහිත ප්‍රියර්ස් සමඟ ඔබට බේසියානු ආකෘති නිර්මාණය කිරීමට උත්සාහ කළ හැකිය.

නමුත් ප්‍රායෝගිකව මම කරදර ඇති කරන අනාවැකි කරුවන්ගෙන් මිදෙන්නෙමි, මන්ද තොරතුරු ලබා ගැනීමට පෙර මා දන්නේ නැත. නමුත් පරිපූර්ණ වෙන්වීමේ ගැටලුවක් ඔබට ඇති විට තොරතුරු භාවිතා කිරීමට පෙර ජෙල්මන් විසින් ලිපියක් ඇති බව මම අනුමාන කරමි. එය ගූගල් කරන්න. සමහර විට ඔබ එය උත්සාහ කර බැලිය යුතුය.


8
අනාවැකි ඉවත් කිරීමේ ගැටළුව නම්, ප්‍රතිචාරය වඩාත් හොඳින් පැහැදිලි කරන අනාවැකි ඔබ ඉවත් කිරීමයි, එය සාමාන්‍යයෙන් ඔබ කිරීමට අදහස් කරන දෙයයි! මෙය අර්ථවත් වන්නේ ඔබ ඔබේ ආකෘතිය ඉක්මවා ගියහොත් පමණක් යැයි මම තර්ක කරමි, උදාහරණයක් ලෙස සංකීර්ණ අන්තර්ක්‍රියා රාශියක් සවිකිරීමෙන්.
සයිමන් බර්න්

4
දෝෂයක් නොව, මූලික ඇස්තමේන්තු එම්එල්ඊයට වඩා බොහෝ දුරින් තිබීම ගැටළුවක් වන අතර, ඔබ ඒවා ඔබම තෝරා ගැනීමට උත්සාහ නොකරන්නේ නම් එය මතු නොවේ.
ස්කොර්චි - මොනිකා නැවත ස්ථාපනය කරන්න

මට මෙය වැටහී ඇත, නමුත් මම හිතන්නේ මෙය ඇල්ගොරිතමයේ දෝෂයකි.
මනෝල් ගැල්ඩිනෝ

5
හොඳයි, 'දෝෂය' යන්නෙහි අර්ථ දැක්වීම ගැන විවාද කිරීමට මට අවශ්‍ය නැත. නමුත් චර්යා රටා R පදනම් කරගත නොහැකි හෝ නොගැලපෙන - ඔබට "වෙනත් මෘදුකාංග සමඟ පරීක්ෂා කිරීම" අවශ්‍ය නොවේ. ඔබට අභිසාරී නොවන බොහෝ ගැටලු සමඟ ස්වයංක්‍රීයව කටයුතු කිරීමට අවශ්‍ය නම්, glm2පැකේජය මඟින් එක් එක් ලකුණු කිරීමේ පියවරේදී සැබවින්ම සම්භාවිතාව වැඩි වන බවට චෙක්පතක් ක්‍රියාත්මක කරන අතර එය එසේ නොවේ නම් පියවර ප්‍රමාණය අඩකින් අඩු කරයි.
ස්කොර්චි - මොනිකා නැවත ස්ථාපනය කරන්න

3
(CRAN මත) R පැකේජය ඇත safeBinaryRegression , එවැනි ගැටළු හඳුනාගෙන ඒවා නිරාකරණය කිරීම සඳහා, ප්‍රශස්තිකරණ ක්‍රම භාවිතා කරමින් වෙන්වීමක් හෝ අර්ධ විපර්යාසයක් ඇත්දැයි සොයා බැලීමට. උත්සහ කරන්න!
kjetil b halvorsen

3

warning

රේඛා ඔස්සේ ජනනය කරන ලද දත්ත සමඟ

x <- seq(-3, 3, by=0.1)
y <- x > 0
summary(glm(y ~ x, family=binomial))

අනතුරු ඇඟවීම කර ඇත:

Warning messages:
1: glm.fit: algorithm did not converge 
2: glm.fit: fitted probabilities numerically 0 or 1 occurred 

එය පැහැදිලිවම මෙම දත්ත තුළ ගොඩනගා ඇති පරායත්තතාවය පිළිබිඹු කරයි.

R හි වෝල්ඩ් පරීක්ෂණය පැකේජය සමඟ summary.glmහෝ සමඟ waldtestඇත lmtest. සම්භාවිතා අනුපාත පරීක්ෂණය පැකේජය සමඟ anovaහෝ සමඟ සිදු lrtestකරනු ලැබේ lmtest. මෙම අවස්ථා දෙකෙහිම, තොරතුරු අනුකෘතිය අනන්ත ලෙස අගය කර ඇති අතර කිසිදු අනුමාන කිරීමක් නොමැත. ඒ වෙනුවට, ආර් කරන්නේ නිෂ්පාදන ප්රතිදාන, එහෙත් ඔබ එය විශ්වාස කළ නොහැක. මෙම අවස්ථා වලදී R සාමාන්‍යයෙන් නිපදවන අනුමානය p- අගයන් එකකට ඉතා ආසන්න වේ. මෙයට හේතුව OR හි නිරවද්‍යතාවය නැතිවීම විශාලත්වයේ අනුපිළිවෙලක් වන අතර විචල්‍ය-සහසංයුජ අනුකෘතියේ නිරවද්‍යතාව නැති වීමයි.

මෙහි දක්වා ඇති විසඳුම් කිහිපයක්:

එක්-පියවර ඇස්තමේන්තුවක් භාවිතා කරන්න,

එක් පියවරක් තක්සේරු කරන්නන්ගේ අඩු නැඹුරුව, කාර්යක්ෂමතාව සහ සාමාන්‍යකරණය කිරීමේ හැකියාව පිළිබඳ න්‍යායන් රාශියක් ඇත. R හි එක්-පියවර ඇස්තමේන්තුවක් නියම කිරීම පහසු වන අතර ප්‍රති results ල සාමාන්‍යයෙන් අනාවැකි සහ අනුමාන කිරීම් සඳහා ඉතා හිතකර වේ. මෙම ආකෘතිය කිසි විටෙකත් අපසරනය නොවනු ඇත, මන්ද යත්, අනුකාරකයට (නිව්ටන්-රැප්සන්) සරලවම එසේ කිරීමට අවස්ථාවක් නොමැති නිසා!

fit.1s <- glm(y ~ x, family=binomial, control=glm.control(maxit=1))
summary(fit.1s)

ලබා දෙයි:

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -0.03987    0.29569  -0.135    0.893    
x            1.19604    0.16794   7.122 1.07e-12 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

එබැවින් අනාවැකි ප්‍රවණතාවයේ දිශාව පිළිබිඹු කරන ආකාරය ඔබට දැක ගත හැකිය. අප සත්‍ය යැයි විශ්වාස කරන ප්‍රවණතා පිළිබඳව අනුමාන කිරීම බෙහෙවින් යෝජනා කරයි.

රූප විස්තරය මෙහි ඇතුළත් කරන්න

ලකුණු පරීක්ෂණයක් කරන්න,

මෙම ලකුණු (හෝ රාඕ) සංඛ්යා ලේඛන ද සම්භාවිතාව අනුපාතය හා wald සංඛ්යා ලේඛන වෙනස් ය. විකල්ප කල්පිතය යටතේ විචල්‍යතාව තක්සේරු කිරීම එයට අවශ්‍ය නොවේ. අපි ආදර්ශය ශුන්‍යයට ගැලපේ:

mm <- model.matrix( ~ x)
fit0 <- glm(y ~ 1, family=binomial)
pred0 <- predict(fit0, type='response')
inf.null <- t(mm) %*% diag(binomial()$variance(mu=pred0)) %*% mm
sc.null <- t(mm) %*% c(y - pred0)
score.stat <- t(sc.null) %*% solve(inf.null) %*% sc.null ## compare to chisq
pchisq(score.stat, 1, lower.tail=F)

χ2

> pchisq(scstat, df=1, lower.tail=F)
             [,1]
[1,] 1.343494e-11

මෙම අවස්ථා දෙකෙහිම ඔබට අනන්තයේ OR එකක් හෝ අනුමාන කිරීමක් ඇත.

, සහ විශ්වාසනීය පරතරයක් සඳහා මධ්‍ය අපක්ෂපාතී ඇස්තමේන්තු භාවිතා කරන්න.

මධ්‍ය අපක්ෂපාතී තක්සේරුවක් භාවිතා කිරීමෙන් ඔබට අසීමිත පරස්පර අනුපාතය සඳහා මධ්‍යස්ථ අපක්ෂපාතී, ඒකීය නොවන 95% CI නිපදවිය හැකිය. epitoolsR හි ඇති පැකේජයට මෙය කළ හැකිය. මෙම ඇස්තමේන්තුව ක්‍රියාත්මක කිරීම සඳහා මම මෙහි උදාහරණයක් දෙන්නෙමි: බර්නූලි නියැදීම සඳහා විශ්වාසනීය පරතරය


2
මෙය විශිෂ්ටයි, නමුත් මට සමහර විවාදාත්මක කරුණු තිබේ, ඇත්ත වශයෙන්ම: (1) සම්භාවිතා අනුපාත පරීක්ෂණය තොරතුරු අනුකෘතිය භාවිතා නොකරයි; එය සිදු කරන්නේ වෝල්ඩ් පරීක්ෂණය පමණක් වන අතර එය වෙන්වීම ඉදිරියේ ව්‍යසනකාරී ලෙස අසමත් වේ. (2) මම එක්-පියවර ඇස්තමේන්තුකරුවන් සමඟ කිසිසේත් හුරු නැත, නමුත් මෙහි බෑවුම් ඇස්තමේන්තුව විකාර සහගත ලෙස පෙනේ. (3) විශ්වාසනීය පරතරයක් මධ්‍ය-අපක්ෂපාතී නොවේ. එම කොටසට ඔබ සම්බන්ධ කරන්නේ මැද-පී විශ්වාසනීය පරතරයයි. (4) එල්ආර් හෝ ලකුණු පරීක්ෂණ පෙරළීමෙන් ඔබට විශ්වාසනීය අන්තරයන් ලබා ගත හැකිය. ...
ස්කොර්චි - මොනිකා නැවත ස්ථාපනය කරන්න

... (5) ඔබ එම තර්කය දීම මගින් ආර් දී ලකුණු ටෙස්ට් ඉටු කළ හැකිය test="Rao"වෙත anovaශ්රිතය. (හොඳයි, අන්තිම දෙක සටහන් වන්නේ
විවාදාත්මක

ඇනෝවාට පෙරනිමි ලකුණු පරීක්ෂණ ඇති බව දැන ගැනීම sccortchi හොඳයි! සමහර විට අතුරු ක්‍රියාත්මක කිරීම ප්‍රයෝජනවත් වේ. සීඅයිඅයි මධ්‍යස්ථ අපක්ෂපාතී නොවේ, නමුත් මධ්‍ය අපක්ෂපාතී තක්සේරුකරු සඳහා සීඅයිඅයි මායිම් පරාමිතීන් සඳහා නිරන්තර අනුමාන කිරීම් සපයයි. මැද p යනු එවැනි තක්සේරුකරුවෙකි. P පරස්පර අනුපාතයකට පරිවර්තනය කළ හැකිය b / c එය එකින් එක පරිණාමනයන්ට වෙනස් නොවේ. මායිම් පරාමිතීන් සඳහා LR පරීක්ෂණය අනුකූලද?
ආදම්

විල්ක්ස්ගේ ප්‍රමේයයට අදාළ වන පරාමිතීන් ශුන්‍ය උපකල්පිතයේ පමණක් අඩංගු නොවිය යුතුය, නමුත් සීමිත සාම්පලවල ලකුණු සහ එල්ආර් පරීක්ෂණ දළ වශයෙන් වේ.
ස්කොර්චි - මොනිකා නැවත ස්ථාපනය කරන්න

2

ඔබගේ ප්‍රශ්නයේ ප්‍රකාශ සමඟ මම එකඟ වන බව මට විශ්වාස නැත.

අනතුරු ඇඟවීමේ පණිවුඩයේ අර්ථය නම්, ඔබේ දත්තවල නිරීක්ෂණය කරන ලද එක්ස් මට්ටම සඳහා, සවිකර ඇති සම්භාවිතාව සංඛ්‍යාත්මකව 0 හෝ 1 වේ. වෙනත් වචන වලින් කිවහොත්, විභේදනයකදී එය 0 හෝ 1 ලෙස පෙන්වයි.

ඔබට ධාවනය කළ හැකි predict(yourmodel,yourdata,type='response')අතර පුරෝකථනය කළ හැකි සම්භාවිතාවන් ලෙස 0 හෝ / සහ 1 එහි තිබේ.

ප්රති result ලයක් වශයෙන්, ප්රති .ල පමණක් භාවිතා කිරීම සුදුසු යැයි මම සිතමි.


0

සෑම අනාවැකි කරුවෙකු සමඟම මගේ ප්‍රති come ල විචල්‍යය සැලසුම් කරන විට, සම්පූර්ණ වෙන්වීමේ සලකුණු මා දකින්නේ නැත. මට තවමත් ඒ ගැන කරදර විය යුතු අතර ඉහත දී ඇති පිළිතුරු වලින් ලබා දී ඇති යෝජනා වලින් එකක් අනුගමනය කළ යුතුද? සම්පූර්ණ වෙන්වීම දෘශ්‍යමාන කිරීමට කුමන්ත්‍රණය (y ~ X) ප්‍රමාණවත්ද?


-1

මෙය පැරණි පෝස්ට් එකක් බව මට වැටහී ඇත, කෙසේ වෙතත් මම එයට පිළිතුරු දීමට ඉදිරියට යමි.

ආකෘතියට ගැලපෙන පරිදි ඔබ තෝරාගත් විචල්‍යයන් 0 සහ 1 අතර ඉතා නිවැරදිව හෝ ඔව් සහ නැත අතර වෙනස හඳුනාගත හැකි විට සම්පූර්ණ වෙන්වීම සිදු වේ. දත්ත විද්‍යාව පිළිබඳ අපගේ සමස්ත ප්‍රවේශය සම්භාවිතා තක්සේරුව මත පදනම් වූ නමුත් එය මේ අවස්ථාවේ දී අසමත් වේ.

නිවැරදි කිරීමේ පියවර: -

  1. විචල්යයන් අතර විචලනය අඩු නම් glm () වෙනුවට bayesglm () භාවිතා කරන්න

  2. සමහර අවස්ථාවලදී (maxit = ”යම් සංඛ්‍යාත්මක අගයක්”) bayesglm () සමඟ භාවිතා කිරීම උපකාරී වේ

3. ආකෘති සවිකිරීම සඳහා ඔබ තෝරාගත් විචල්‍යයන් සඳහා තෙවන හා වඩාත්ම වැදගත් චෙක්පත, Y (outout) විචල්‍යය සමඟ බහු සහසම්බන්ධතාව ඉතා ඉහළ මට්ටමක පවතින විචල්‍යයක් තිබිය යුතුය, එම විචල්‍යය ඔබේ ආකෘතියෙන් බැහැර කරන්න.

මගේ නඩුවේදී මෙන්, වලංගු දත්ත සඳහා වන අනාවැකි අනාවැකි කීමට මට ටෙලිකොම් චර්න් දත්ත තිබුණි. මගේ පුහුණු දත්තවල විචල්‍යතාවයක් මා සතුව ඇති අතර එය ඔව් සහ නැත යන්න අතර වෙනස හඳුනාගත හැකිය. එය අතහැර දැමීමෙන් පසු මට නිවැරදි ආකෘතිය ලබා ගත හැකිය. තව දුරටත් ඔබට ඔබේ ආකෘතිය වඩාත් නිවැරදි කිරීමට පියවරෙන් පියවර (සුදුසු) භාවිතා කළ හැකිය.


2
මෙම පිළිතුර සාකච්ඡාවට වැඩි යමක් එකතු කරන බව මට නොපෙනේ. බේසියානු ප්‍රවේශය පෙර පිළිතුරු වලින් තරයේ ආවරණය කර ඇති අතර, "ගැටළු සහගත" අනාවැකි ඉවත් කිරීම ද දැනටමත් සඳහන් කර ඇත (සහ අධෛර්යමත්). මා දන්නා පරිදි පියවරෙන් පියවර විචල්ය තේරීම කලාතුරකින් හොඳ අදහසක් වේ.
einar
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.