ස්වයංක්‍රීය ආකෘති තේරීම සඳහා ඇල්ගොරිතම


201

ස්වයංක්‍රීය ආකෘති තෝරා ගැනීම සඳහා ඇල්ගොරිතමයක් ක්‍රියාත්මක කිරීමට මම කැමතියි. මම සිතන්නේ පියවරෙන් පියවර ප්‍රතිගාමී වීමක් නමුත් ඕනෑම දෙයක් කරනු ඇත (එය රේඛීය ප්‍රතිගාමී මත පදනම් විය යුතුය).

මගේ ගැටළුව නම් මට ක්‍රමවේදයක් හෝ විවෘත මූලාශ්‍රයක් සොයා ගැනීමට නොහැකි වීමයි (මම ජාවා වල අවදි වෙමි). මගේ මතකයේ ඇති ක්‍රමවේදය මෙවැන්නක් වනු ඇත:

  1. සියලු සාධකවල සහසම්බන්ධතා අනුකෘතිය ගණනය කරන්න
  2. එකිනෙකට අඩු සහසම්බන්ධතාවයක් ඇති සාධක තෝරන්න
  3. අඩු ටී-ස්ටාට් ඇති සාධක ඉවත් කරන්න
  4. වෙනත් සාධක එකතු කරන්න (තවමත් 2 හි ඇති අඩු සහසම්බන්ධතා සාධකය මත පදනම් වේ).
  5. කිසියම් නිර්ණායකයක් (උදා: AIC) යම් සීමාවකට වඩා වැඩි වන තුරු හෝ අපට විශාල අගයක් සොයාගත නොහැකි වන තෙක් කිහිප වතාවක්ම නැවත අවධාරණය කරන්න.

මේ සඳහා (stepAIC) R ක්‍රියාත්මක කිරීමක් ඇති බව මට වැටහී ඇත, නමුත් කේතය තේරුම් ගැනීමට අපහසුය. එසේම පියවරෙන් පියවර ප්‍රතිගාමීත්වය විස්තර කරන ලිපි සොයා ගැනීමට මට නොහැකි විය.


72
අවංකවම, මම හිතන්නේ මෙය විනාශකාරී අදහසක්, බොහෝ ව්‍යාජ නිගමනවලට තුඩු දෙන බවට සහතික වීම ගැන.
gung - මොනිකා නැවත

4
ung ගුං: ආකෘති තේරීමේ ප්‍රති result ලය අන්ධ ලෙස අනුගමනය කිරීම නරක අදහසක් බව මම එකඟ වන අතර, විශ්ලේෂණයක ආරම්භක ලක්ෂ්‍යයක් ලෙස එය ප්‍රයෝජනවත් විය හැකි යැයි මම සිතමි. මගේ නඩුවේදී මට සාධක සිය ගණනක් ඇත, වඩාත්ම අදාළ 5-10 තෝරා ගැනීමට මම කැමතියි. ස්වයංක්‍රීය ආකෘති තේරීමකින් තොරව මට එය කළ හැක්කේ කෙසේදැයි මම නොදනිමි (පසුව එය අතින් සංශෝධනය කෙරේ).
එස් 4 එම්

12
සියලුම ආකෘති තෝරා ගැනීමේ ක්‍රියා පටිපාටි මම පහත මගේ පිළිතුරෙහි සාකච්ඡා කරන ගැටළු වලට යටත් වේ. ඊට අමතරව, ඔබට සෙවීමට අවශ්‍ය සාධක ගණන විශාල වන තරමට, එම ගැටලු වඩාත් ආන්තික වන අතර වැඩිවීම රේඛීය නොවේ. හරස් වලංගුකරණයට සමගාමීව භාවිතා කළ යුතු වඩා හොඳ ප්‍රවේශයන් (ach සාක් විසින් සාකච්ඡා කර ඇත) (ack ජැක් ටැනර් විසින් සාකච්ඡා කරන ලදි), ටී, ආර් සහ ඒඅයිසී මත පදනම්ව තෝරා ගැනීම ඒවා අතර නොමැත. එපමණක් නොව, සාධක සිය ගණනක් සමඟ අවශ්‍ය දත්ත ප්‍රමාණය පහසුවෙන් මිලියන ගණනක් විය හැකිය. අවාසනාවට, ඔබට පෙර ඉතා දුෂ්කර කාර්යයක් ඇත.
gung - මොනිකා නැවත

7
ආකෘති තෝරා ගැනීමේ අරමුණ කුමක්ද? එය පුරෝකථන / පුරෝකථන ආකෘතියක් සඳහාද? නැතහොත් ඔබ වැදගත් විචල්‍යයන් සොයනවාද? එසේම ඔබ භාවිතා කරන දත්ත කට්ටලය කෙතරම් විශාලද - කොපමණ වාර ගණනක් සහ විචල්‍යයන් කීයක් තිබේද?
සම්භාවිතා

6
මෙහි සිත්ගන්නාසුලු අදහස්, නමුත් මම හිතන්නේ ඇල්ගොරිතම ආකෘති තෝරා ගැනීමේ ක්‍රියා පටිපාටි කෙරෙහි ඇති නිෂේධාත්මක දෘෂ්ටිය ටිකක් යල් පැන ගිය එකක් බවයි. නිදසුනක් වශයෙන්, ඩේවිඩ් හෙන්ඩ්රි විසින් පරිසරමිතික ක්‍ෂේත්‍රයේ මෑතකදී කරන ලද කාර්යයන්, විශේෂයෙන් PcGive මෘදුකාංග හා සන්තෘප්ත ක්‍රම පිළිබඳ ඔහුගේ කෘති සලකා බලන්න. ඔහුගේ ප්‍රවේශය පිළිබඳ දළ විශ්ලේෂණයක් සපයන දේශනයක් මෙහි සොයාගත හැකිය . Ic මයිකල්චර්නික් පෙන්වා දී ඇති පරිදි (සහ හෙන්ඩ්‍රි ද එසේ කරනු ඇත!), විෂය දැනුම (විශාල වශයෙන්) වැදගත් ය. විෂය විශේෂ ists යින් තුළ වටිනාකමක් ඇත්තේ එබැවිනි - ඇල්ගොරිතම තනිවම ක්‍රියා කිරීමට ඉඩ දීම වැරැද්දයි.
ග්‍රේම් වොල්ෂ්

Answers:


347

මම හිතන්නේ මෙම ප්‍රවේශය වැරදියි, නමුත් සමහර විට මම එයට හේතුව පැහැදිලි කළහොත් එය වඩාත් ප්‍රයෝජනවත් වනු ඇත. විචල්යයන් විශාල සංඛ්යාවක් පිළිබඳ යම් තොරතුරු ලබා දී ඇති හොඳම ආකෘතිය දැන ගැනීමට අවශ්යය. එපමණක් නොව, එය මිනිසුන් නිතිපතා සොයා ගන්නා තත්වයකි. ඊට අමතරව, ප්‍රතිගාමීත්වය පිළිබඳ බොහෝ පෙළපොත් (සහ පා courses මාලා) පියවරෙන් පියවර තෝරා ගැනීමේ ක්‍රම ආවරණය කරයි, එයින් ගම්‍ය වන්නේ ඒවා නීත්‍යානුකූල විය යුතු බවයි. අවාසනාවකට මෙන්, ඒවා එසේ නොවන අතර, මෙම තත්වය හා ඉලක්කය යුගලනය කිරීම සාර්ථකව සැරිසැරීමට තරමක් අපහසුය. පහත දැක්වෙන්නේ ස්වයංක්‍රීය පියවරෙන් පියවර ආකෘති තෝරා ගැනීමේ ක්‍රියා පටිපාටිවල ගැටළු ලැයිස්තුවකි (ෆ්‍රෑන්ක් හැරල්ට ආරෝපණය කර ඇති අතර මෙතැනින් පිටපත් කර ඇත ):

  1. එය ඉහළ අගයට පක්ෂග්‍රාහී වන R- වර්ග අගයන් ලබා දෙයි.
  2. මුද්‍රිත පිටුවේ එක් එක් විචල්‍යයට යාබදව සඳහන් කර ඇති එෆ් සහ චි-වර්ගවල පරීක්ෂණ සඳහා හිමිකම් පෑමක් නොමැත.
  3. මෙම ක්‍රමය මඟින් වැරදි ලෙස පටු වන බලපෑම් සහ පුරෝකථනය කරන ලද අගයන් සඳහා විශ්වාසනීය අන්තරයන් ලබා දෙයි; ඇල්ට්මන් සහ ඇන්ඩර්සන් (1989) බලන්න.
  4. එය නිසි අර්ථයක් නොමැති p- අගයන් ලබා දෙන අතර ඒවා නිවැරදිව නිවැරදි කිරීම දුෂ්කර ගැටළුවකි.
  5. එය හැකිලීමට අවශ්‍ය පක්ෂග්‍රාහී ප්‍රතිගාමී සංගුණක ලබා දෙයි (ඉතිරි විචල්‍යයන් සඳහා වන සංගුණක ඉතා විශාලය; ටිබ්ෂිරානි [1996] බලන්න).
  6. කොලීනියරිටි ඉදිරියේ එය දැඩි ගැටළු ඇති කරයි.
  7. එය පදනම් වී ඇත්තේ පෙර සැකසූ උපකල්පන පරීක්ෂා කිරීම සඳහා භාවිතා කිරීමට අදහස් කළ ක්‍රම (උදා: කැදැලි ආකෘති සඳහා එෆ් පරීක්ෂණ) ය.
  8. නියැදි ප්‍රමාණය වැඩි කිරීම බොහෝ සෙයින් උපකාරී නොවේ; ඩර්ක්සන් සහ කෙසෙල්මන් (1992) බලන්න.
  9. ගැටලුව ගැන නොසිතීමට එය අපට ඉඩ දෙයි.
  10. එය කඩදාසි ගොඩක් භාවිතා කරයි.

ප්රශ්නය වන්නේ, මෙම ක්රියා පටිපාටිවල එතරම් නරක කුමක්ද / මෙම ගැටළු ඇතිවන්නේ ඇයි? මූලික ප්‍රතිගාමී පා course මාලාවක් හැදෑරූ බොහෝ දෙනෙකුට ප්‍රතිගාමී සංකල්පය මධ්යන්යයට හුරු වී ඇත , එබැවින් මෙම ගැටළු පැහැදිලි කිරීමට මා භාවිතා කරන්නේ මෙයයි. (මෙය මුලදී මාතෘකාවෙන් බැහැර බවක් පෙනෙන්නට තිබුණද, මා සමඟ ඉවසන්න, එය අදාළ යැයි මම පොරොන්දු වෙමි.)

අත්හදා බැලීම්වල පළමු දිනයේ උසස් පාසැල් ධාවන පුහුණුකරුවෙකු ගැන සිතන්න. ළමයින් තිහක් පෙන්වයි. මෙම ළමයින්ට පුහුණුකරුට හෝ වෙනත් කිසිවෙකුට direct ජු ප්‍රවේශයක් නොමැති අභ්‍යන්තර මට්ටමේ යම් මට්ටමක හැකියාවක් ඇත. එහි ප්‍රති As ලයක් ලෙස පුහුණුකරු තමාට කළ හැකි එකම දේ කරයි. කාලය අනුමාන වශයෙන් ඔවුන්ගේ සහජ හැකියාවේ මිනුමක් වන අතර ඒවා එසේ ගනු ලැබේ. කෙසේ වෙතත්, ඒවා සම්භාවිතා ය; යමෙකු කොතරම් හොඳින් කරනවාද යන්න ඔවුන්ගේ සමානුපාතික හැකියාව මත පදනම් වන අතර සමහර අනුපාතය අහඹු වේ. සැබෑ තත්වය පහත දැක්වේ යැයි සිතන්න:

set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)

පළමු තරඟයේ ප්‍රති results ල ළමයින්ට පහත දැක්වෙන පුහුණුකරුගේ අදහස් සමඟ පහත රූපයේ දැක්වේ.

පළමු තරඟය

ළමයින් ඔවුන්ගේ ධාවන වේලාවන් අනුව කොටස් කිරීම ඔවුන්ගේ සහජ හැකියාව මත අතිච්ඡාදනය වන බව සලකන්න - මෙම කරුණ ඉතා වැදගත්ය. සමහරුන්ට ප්‍රශංසා කිරීමෙන් පසුව සහ තවත් සමහරුන්ට කෑගැසීමෙන් පසු (පුහුණුකරුවන් නැඹුරු වන පරිදි), ඔහු ඔවුන්ව නැවත ධාවනය කරවීමට සලස්වයි. පුහුණුකරුගේ ප්‍රතික්‍රියා සමඟ දෙවන තරඟයේ ප්‍රති results ල මෙන්න (ඉහත එකම ආකෘතියෙන් අනුකරණය කර ඇත):

දෙවන තරඟය

ඔවුන්ගේ සහජ හැකියාව සමාන බව සැලකිල්ලට ගන්න, නමුත් පළමු තරඟයට සාපේක්ෂව කාලය වැඩි විය. පුහුණුකරුගේ දෘෂ්ටි කෝණයෙන් බලන විට, ඔහු කෑගැසූ අය වැඩි දියුණු වීමට නැඹුරු වූ අතර ඔහු ප්‍රශංසා කළ අය වඩාත් නරක අතට හැරුණි. අර්ධ වශයෙන් අහඹු ලෙස මිනුමක් මත පදනම්ව පුහුණුකරු කණ්ඩායම සඳහා ක්‍රීඩක ක්‍රීඩිකාවන් තෝරා ගැනීම එහි ප්‍රති ence ලයයි.

දැන්, ස්වයංක්‍රීය (උදා: පියවරෙන් පියවර) ආකෘති තෝරා ගැනීමේ ක්‍රම සමඟ මෙය සම්බන්ධ වන්නේ කුමක් ද? එකම දත්ත කට්ටලය මත පදනම් වූ ආකෘතියක් සංවර්ධනය කිරීම සහ තහවුරු කිරීම සමහර විට දත්ත හෑරීම ලෙස හැඳින්වේ. විචල්යයන් අතර යම් යටින් පවතින සම්බන්ධතාවයක් පැවතුනද, ශක්තිමත් සබඳතා මගින් වඩා ශක්තිමත් ලකුණු ලබා දෙනු ඇතැයි අපේක්ෂා කෙරේ (උදා: ඉහළ ටී-සංඛ්යා ලේඛන), මේවා අහඹු විචල්යයන් වන අතර සාක්ෂාත් කරගත් අගයන් දෝෂ අඩංගු වේ. මේ අනුව, ඔබ වැඩි (හෝ පහළ) අවබෝධ කරගත් අගයන් මත පදනම්ව විචල්‍යයන් තෝරා ගන්නා විට, ඒවායේ සත්‍ය වටිනාකම, දෝෂය හෝ දෙකම නිසා ඒවා විය හැකිය. ඔබ මේ ආකාරයෙන් ඉදිරියට ගියහොත්, දෙවන තරඟයෙන් පසුව පුහුණුකරු මෙන් ඔබ පුදුමයට පත් වනු ඇත. ඔබ ඉහළ ටී සංඛ්‍යාලේඛන හෝ අඩු අන්තර් සම්බන්ධතා මත පදනම්ව විචල්‍යයන් තෝරා ගන්නේද යන්න සත්‍යයකි. ඇත්ත වශයෙන්ම, AIC භාවිතා කිරීම p- අගයන් භාවිතා කිරීමට වඩා හොඳය, මන්ද එය සංකීර්ණතාව සඳහා ආකෘතියට ද izes ුවම් කරයි, නමුත් AIC යනු අහඹු විචල්‍යයකි (ඔබ කිහිප වතාවක් අධ්‍යයනයක් පවත්වා එකම ආකෘතියට ගැලපෙන්නේ නම්, AIC එක මෙන් ඉහළට එනු ඇත අනෙක් සියල්ල). අවාසනාවට,

මෙය ප්‍රයෝජනවත් වේ යැයි මම බලාපොරොත්තු වෙමි.


44
දත්ත හෑරීම පිළිබඳ සංසිද්ධි පැහැදිලි කිරීම.
ෆ්‍රෑන්ක් හැරල්

18
-2එල්+kපිපීr(χ12>k)

7
පිk2ලඝුඑන්-2එල්

9
(-2එල්1+2පි0+2)-(-2එල්0+2පි0)=-2(එල්1-එල්0)+2. දැන් පළමු පදය p අගය පදනම් කරගත් සම්භාවිතා අනුපාත සංඛ්‍යාන වේ. එබැවින් සමහර කප්පාදුවලට වඩා සම්භාවිතා අනුපාත සංඛ්‍යාලේඛන විශාල නම් අපි අතිරේක පරාමිතිය එකතු කරන්නෙමු. මෙය p- අගය ප්‍රවේශය කරන දෙයට සමාන වේ. මෙහි ඇත්තේ සංකල්පීය වෙනසක් පමණි
සම්භාවිතා විද්‍යාව

2
AIC ගැටළුව විසඳන්නේ නැත්තේ ඇයිද යන්න නිදර්ශනයක් සඳහා බලන්න: Mundry, R. (2011). තොරතුරු න්‍යාය මත පදනම් වූ සංඛ්‍යානමය අනුමානයන්හි ගැටළු - නිතර නිතර දෘෂ්ටිකෝණයකින් විවරණය කිරීම. චර්යා පරිසර විද්‍යාව සහ සමාජ ජීව විද්‍යාව, 65 (1), 57-68.
jank

72

ආර් හි ඇති කැරට් පැකේජය පරීක්ෂා කරන්න . එය පියවරෙන් පියවර ප්‍රතිගාමී ආකෘති (භාවිතා කිරීම හෝ ) හරස්-වලංගු කිරීමට ඔබට උපකාරී වනු ඇති අතර, මෙම වර්ගයේ ආකෘතීන් දුර්වල පුරෝකථන කාර්ය සාධනයක් ඇති කරන්නේ කෙසේද යන්න තේරුම් ගැනීමට ඔබට උපකාරී වනු ඇත. තවද, කොලීනියර් විචල්‍යයන් හදුනා ගැනීම සහ තුරන් කිරීම සඳහා ඔබට කර්ට් හි ශ්‍රිතය භාවිතා කළ හැකි අතර අඩු ටී-සංඛ්‍යාලේඛන (භාවිතය ) සහිත විචල්‍යයන් තුරන් කිරීම සඳහා භාරයේ ඇති ශ්‍රිතය භාවිතා කළ හැකිය .method='lmStepAIC'method='glmStepAIC'findCorrelationrferfeControl=rfeControl(functions=lmFuncs)

කෙසේ වෙතත්, පෙර පිළිතුරු වල සඳහන් කළ පරිදි, විචල්ය තෝරා ගැනීමේ මෙම ක්රම ඔබට කරදරයක් වීමට ඉඩ ඇත, විශේෂයෙන් ඔබ ඒවා නැවත ක්රියාත්මක කරන්නේ නම්. සම්පුර්ණයෙන්ම කල් ඉකුත් වූ පරීක්ෂණ කට්ටලයක් තුළ ඔබේ කාර්යසාධනය ඇගයීමට ලක් කරන්න. ඔබේ ඇල්ගොරිතම ගැන ඔබ සතුටු වන තුරු පරීක්ෂණ කට්ටලය දෙස නොබලන්න!

අවසාන වශයෙන්, රිජ් රිග්‍රේෂන්, ලැසෝ හෝ ප්‍රත්‍යාස්ථ දැල වැනි “බිල්ට්” විශේෂාංග තේරීම් සහිත පුරෝකථන ආකෘතියක් භාවිතා කිරීම වඩා හොඳ (හා සරල) විය හැකිය. නිශ්චිතවම, method=glmnetකරත්තය සඳහා තර්කය උත්සාහ කර , එම ආකෘතියේ හරස් වලංගු නිරවද්‍යතාවය තර්කයට සංසන්දනය කරන්න method=lmStepAIC. මගේ අනුමානය නම්, කලින් ඇති අය ඔබට සාම්පලයෙන් පිටත නිරවද්‍යතාව ලබා දෙනු ඇති අතර, ඔබේ අභිරුචි විචල්‍ය තේරීමේ ඇල්ගොරිතම ක්‍රියාත්මක කිරීම සහ වලංගු කිරීම ගැන ඔබ කරදර විය යුතු නැත.


1
ලඝු(λ2+β2)

2
, ඔබට ද්වි pareto දඬුවම ඕනෑම හොඳ ක්රියාවට නැංවීම් කියලා @probabilityislogic වැනි භාෂාවෙන් rහෝ python? මම එය අත්හදා බැලීමට කැමතියි.
Zach

1
මා තේරුම් ගත් පරිදි, AIC විසින් ආකෘති තෝරා ගැනීම සහ එක්-පිටත-වලංගු කිරීම අත්යවශ්යයෙන්ම එකම දෙයයි (අසමමිතික සමානතාව, ගල්, 1977 බලන්න ) , එබැවින් AIC සහ සමහර වර්ගවල හරස් වලංගු කිරීම් බොහෝ දුරට සමාන වීමට හේතු වේ. ප්රතිපල. කෙසේ වෙතත්, මම කැරට් පැකේජය භාවිතා කර නොමැති අතර, ඇමතුම් ක්‍රමයෙන් සමහර අවස්ථාවල AIC ඇත්ත වශයෙන්ම භාවිතා වන බව පෙනේ.
fileunderwater

40

@ ගුන්ග් විසින් දක්වා ඇති ගැටළු සමඟ මම සම්පුර්ණයෙන්ම එකඟ වෙමි. යථාර්ථවාදීව කිවහොත්, ආකෘති තෝරා ගැනීම සැබෑ විසඳුමක් අවශ්‍ය සැබෑ ගැටළුවකි. මෙන්න මම ප්රායෝගිකව භාවිතා කරන දෙයක්.

  1. පුහුණුව, වලංගුකරණය සහ පරීක්ෂණ කට්ටල වලට ඔබේ දත්ත බෙදන්න.
  2. ඔබේ පුහුණු කට්ටලයේ ආකෘති පුහුණු කරන්න.
  3. අනාවැකි RMSE වැනි මෙට්‍රික් එකක් භාවිතා කර වලංගු කිරීමේ කට්ටලයේ ආකෘති කාර්ය සාධනය මැනීම සහ අවම පුරෝකථන දෝෂයක් සහිත ආකෘතිය තෝරන්න.
  4. අවශ්‍ය පරිදි නව මාදිලි සකසන්න, පියවර 2-3 නැවත කරන්න.
  5. පරීක්ෂණ කට්ටලය මත ආකෘතිය කෙතරම් හොඳින් ක්‍රියාත්මක වේදැයි වාර්තා කරන්න.

තථ්‍ය ලෝකයේ මෙම ක්‍රමය භාවිතා කිරීම පිළිබඳ උදාහරණයක් සඳහා, එය නෙට්ෆ්ලික්ස් ත්‍යාග තරඟයේදී භාවිතා කළ බව මම විශ්වාස කරමි.


16
n>20000 කි

5
Ran ෆ්‍රෑන්ක්: එන් එතරම් ඉහළ මට්ටමක තිබිය යුතු යැයි ඔබ සිතන්නේ ඇයි?
rolando2

14
දුර්වල නිරවද්යතාව නිසා. ඔබ නැවත බෙදුනහොත් ඔබට වඩා වෙනස් ප්‍රති .ල ලබා ගත හැකිය. මිනිසුන් 10 ගුණයක හරස් වලංගු කිරීමක් හෝ බූට්ස්ට්‍රැපින් 100 ක් පුනරාවර්තනය කරන්නේ එබැවිනි.
ෆ්‍රෑන්ක් හැරල්

11
RanFrankHarrell එම n> 20000 රූපය රඳා පවතින්නේ කුමක් ද? එය " සාධක සිය ගණනක් " තිබීම පිළිබඳ මුල් පෝස්ටරයේ ප්‍රකාශය මත පදනම් වී තිබේද? නැතහොත් එය දත්තවල ඕනෑම අංශයකින් ස්වාධීනද?
ඩැරන් කුක්

33
දත්ත බෙදීම පරීක්ෂා කරන ආකාරයේ සැකසුම n = 17000 වන අතර එය සිදුවීමක් සහිත 0.3 ක භාගයක් වන අතර පරාමිති 50 ක් පමණ පරීක්ෂා කර හෝ ද්විමය ලොජිස්ටික් ආකෘතියකට සවි කර ඇත. මම අහඹු ලෙස 1: 1 බෙදීමක් භාවිතා කළෙමි. මම දත්ත නැවත බෙදී නැවත ආරම්භ කරන විට පරීක්ෂණ නියැදියේ වලංගු ROC ප්‍රදේශය සැලකිය යුතු ලෙස වෙනස් විය. වැඩි විස්තර ලබා දෙන සමාකරණ අධ්‍යයන සහ අදාළ ලිපි ලේඛන සඳහා biostat.mc.vanderbilt.edu/rms හි පෙළෙහි භාවිතා කර ඇති ක්‍රම අධ්‍යයනය කරන්න .
ෆ්‍රෑන්ක් හැරල්

16

ප්‍රශ්නයට පිළිතුරු සැපයීම සඳහා විකල්ප කිහිපයක් තිබේ: 1) AIC / BIC හි සියලු උප කුලක 2) පියවරෙන් පියවර p- අගය 3) පියවරෙන් පියවර AIC / BIC 4) ලාසෝ වැනි නියාමනය (AIC / BIC හෝ CV මත පදනම්ව) 5) ජානමය ඇල්ගොරිතම (GA) 6) වෙනත් අය? 7) ස්වයංක්‍රීය නොවන, න්‍යාය ("විෂය දැනුම") නැඹුරු තෝරා ගැනීම

ඊළඟ ප්‍රශ්නය වනුයේ වඩා හොඳ කුමන ක්‍රමයද යන්නයි. මෙම පත්‍රය (doi: 10.1016 / j.amc.2013.05.016) පෙන්නුම් කරන්නේ “හැකි සෑම ප්‍රතිගාමීත්වයක්ම” ඔවුන්ගේ යෝජිත නව ක්‍රමයට සමාන ප්‍රති results ල ලබා දී ඇති අතර පියවරෙන් පියවර වඩාත් නරක ය. ඔවුන් අතර සරල දිසාපතිවරයෙක් සිටී. මෙම පත්‍රය (DOI: 10.1080 / 10618600.1998.10474784) දඩ මුදල් ආපසු ගැනීම (පාලම, ලැසෝ යනාදිය) “පිම්ම සහ සීමාවන්” සමඟ සංසන්දනය කරයි (පරිපූර්ණ සෙවුම් ඇල්ගොරිතමයක් ලෙස පෙනේ, නමුත් ඉක්මන් වේ) සහ “පාලම් ආකෘතිය හොඳම ආකෘතිය සමඟ එකඟ වේ පිම්ම සහ මායිම් ක්‍රමය අනුව උප කුලකය තෝරා ගැනීම ”. මෙම පත්‍රය (doi: 10.1186 / 1471-2105-15-88) පෙන්නුම් කරන්නේ GA ලාසෝවට වඩා හොඳ බවයි. මෙම පත්‍රය (DOI: 10.1198 / jcgs.2009.06164) ක්‍රමවේදයක් යෝජනා කළේය - මූලික වශයෙන් සමස්ත අනු කාණ්ඩයක් (BIC මත පදනම්ව) නමුත් ගණනය කිරීමේ කාලය දක්ෂ ලෙස අඩු කරයි. ඔවුන් පෙන්නුම් කරන්නේ මෙම ක්‍රමය ලාසෝවට වඩා හොඳ බවයි. සිත්ගන්නා කරුණ නම්, මෙම ලිපිය (DOI: 10.1111 / j.1461-0248.2009.01361.

එබැවින් සමස්ත ප්‍රති results ල මිශ්‍ර වී ඇති නමුත් පියවරෙන් පියවර එතරම් නරක නොවිය හැකි නමුත් එය ඉක්මන් වුවද දිසාපතිවරයා ඉතා හොඳ බව මට හැඟී ගියේය.

7 සඳහා), ස්වයංක්‍රීය නොවන, න්‍යාය ("විෂය දැනුම") නැඹුරු තේරීම. එය කාලය ගත වන අතර එය ස්වයංක්‍රීය ක්‍රමයට වඩා හොඳ නොවේ. ඇත්ත වශයෙන්ම කාල ශ්‍රේණියේ සාහිත්‍යයෙහි, ස්වයංක්‍රීය ක්‍රමවේදය (විශේෂයෙන් වාණිජ මෘදුකාංග) මානව විශේෂ experts යින් “සැලකිය යුතු ආන්තිකයකින්” අභිබවා යන බව හොඳින් තහවුරු වී ඇත (doi: 10.1016 / S0169-2070 (01) 00119-4, පිටුව 561 උදා: විවිධ on ාතීය සුමටනය තෝරා ගැනීම සහ අරිමා ආකෘති).


6
විශේෂිත පුරුද්දකට (හිතාමතාම නොවුනත්) දත්ත උත්පාදනය කිරීමේ ක්‍රියාවලිය වෙනස් කිරීමෙන් ඔබට විවිධ තේරීම් ඇල්ගොරිතම අනුකරණ අධ්‍යයනයන්හි වෙනස් කාර්ය සාධනයක් ලබා ගත හැකි බව මතක තබා ගන්න. කුමන ප්‍රවේශය වේගවත් හෝ මන්දගාමී වනු ඇත්ද යන්න පිළිබඳ ගැටළුව පැහැදිලි ය, නමුත් තවමත් වැදගත් ය.
gung - මොනිකා නැවත

2
ඇත්ත වශයෙන්ම ලාසෝ පිළිබඳ ටිබ්ෂිරානිගේ මුල් පුවත්පතේ නිදසුන් @ ගුංගේ කාරණය මනාව පැහැදිලි කරයි. තාත්වික දත්ත පිළිබඳ විවිධ ක්‍රම පිළිබඳ සංසන්දනාත්මක අධ්‍යයනයන් සඳහා ද මෙයම වේ. BTW, ඔබේ අවසාන යොමු කිරීම හරිද? ඔබ ලබා දෙන DOI සමඟ ක්ලෙමන්ට්ස් සහ හෙන්ඩ්‍රි විසින් ලියන ලද පුවත්පත ස්වයංක්‍රීය ක්‍රමවේදයන් මානව විශේෂ experts යින්ට වඩා හොඳින් ක්‍රියා කරන බවට හෝ “සැලකිය යුතු ආන්තිකයකින්” යන වචන කිසිසේත් භාවිතා නොකරන බවට ප්‍රකාශ නොකරයි. (ඔබ සම්පුර්ණ යොමු කිරීම් ලබාදුන්නේ නම් හොඳයි.)
ස්කොර්චි - මොනිකා නැවත ස්ථාපනය කරන්න

එය සොයා ගත්තේය: ගුඩ්රිච් (2001), "එම් 3-තරඟයේ වාණිජ මෘදුකාංග", ඉන්ටර්. ජේ. පුරෝකථනය., 17, පි 560-565. එය ක්ලෙමන්ට්ස් ඇන්ඩ් හෙන්ඩ්‍රි කඩදාසි මෙන් “එම් 3-තරඟය පිළිබඳ විවරණ” එකතුව යටතේ වන අතර, ඒ නිසා ගොග්ලිං ඩීඕඅයි මාව එහි යවා ඇත.
ස්කොර්චි - මොනිකා නැවත ස්ථාපනය කරන්න

කෙසේ වෙතත්, ගුඩ්රිච්ගේ අදහස් දැක්වීමට විෂය කරුණු පිළිබඳ විශේෂ ise තාව සමග කිසිදු සම්බන්ධයක් නැති බව කිසිසේත් පැහැදිලි නැත .
Scortchi - නැවත සේවයේ පිහිටුවීමට මොනිකා

1
C ස්කොර්චි එම සඟරාවේ 581 වන පිටුවේ සිට ආරම්භ වන ලිපියෙහි එය වඩාත් පැහැදිලි විය හැකිය. එය "M2- තරඟය" හා සම්බන්ධ වන අතර, ස්වයංක්‍රීය පුරෝකථන ක්‍රම ආර්ථික / කර්මාන්ත සන්දර්භය දන්නා ආරාධිත මානව විශේෂ experts යින් (කාල ශ්‍රේණි සාහිත්‍යයේ සමහර විශාල නම් ද ඇතුළුව) සමඟ සංසන්දනය කරන ලදී. දත්ත.
heran_xp

8

මෙන්න වම් ක්ෂේත්‍රයෙන් පිළිතුරක්- රේඛීය ප්‍රතිගාමීත්වය වෙනුවට ප්‍රතිගාමී ගසක් (rpart පැකේජය) භාවිතා කරන්න. මෙය ස්වයංක්‍රීය ආකෘති තෝරා ගැනීම සඳහා සුදුසු වේ. මන්දයත් සුළු කාර්යයක් මඟින් ඔබට සීපී තේරීම ස්වයංක්‍රීය කළ හැකිය.


4

වඩාත්ම වටිනා ස්වාධීන විචල්‍යයන් තෝරා ගැනීමේදී ජානමය ඇල්ගොරිතම ක්‍රියාත්මක කිරීමෙන් රේඛීය ආකෘතිය ප්‍රශස්ත කළ හැකිය. විචල්‍යයන් ඇල්ගොරිතමයේ ජාන ලෙස නිරූපණය වන අතර හරස්වර්ගය, විකෘති යනාදිය ක්‍රියාකරවන්නන්ගෙන් පසුව හොඳම වර්ණදේහය (ජාන සමූහය) තෝරා ගනු ලැබේ. එය ස්වාභාවික වරණය මත පදනම් වේ - එවිට හොඳම 'පරම්පරාව' නොනැසී පැවතිය හැකිය, වෙනත් වචන වලින් කිවහොත්, ඇල්ගොරිතම විශේෂිත ආකෘතිය මත රඳා පවතින තක්සේරු කිරීමේ කාර්යය ප්‍රශස්ත කරයි.


2
එමඟින් දත්තවල “හොඳම” විචල්‍යයන් තෝරා ගනු ඇත , අවශ්‍යයෙන්ම දත්ත උත්පාදනය කිරීමේ ක්‍රියාවලියේ / ජනගහනයේ හොඳම විචල්‍යයන් නොව, එයට දත්ත වලට ප්‍රවේශය පමණක් ඇත. OP ට අවශ්‍ය පියවරෙන් පියවර ක්‍රමයට වඩා වෙනස් නොවේ.
gung - මොනිකා නැවත

1

R පදනම් සංඛ්‍යාලේඛන පැකේජයේ අපට පියවරක් () යනුවෙන් හැඳින්වෙන ශ්‍රිතයක් ඇත, එය අවම AIC මත පදනම්ව ආකෘති ඉදිරියට, පසුපසට හෝ පියවරෙන් පියවර තෝරා ගනී. මෙය සාධක විචල්‍යයන් සඳහා ද ක්‍රියා කරයි. මෙය මෙහි අරමුණ ඉටු නොකරයිද?


-53

මගේ ප්‍රශ්නය ස්වයංක්‍රීය ආකෘති තේරීමේ ප්‍රවේශයේ වලංගුභාවය පිළිබඳ විශාල උනන්දුවක් සහ සිත්ගන්නාසුලු විවාදයක් ජනිත කළ බව මට පෙනේ. ස්වයංක්‍රීය වරණයක ප්‍රති result ලය සුළුකොට තැකීම අවදානම් බව මම එකඟ වුවත්, එය ආරම්භක ස්ථානයක් ලෙස භාවිතා කළ හැකිය. ඉතින් මගේ විශේෂිත ගැටළුව සඳහා මම එය ක්‍රියාත්මක කළ ආකාරය මෙන්න, එය දී ඇති විචල්‍යයක් පැහැදිලි කිරීමට හොඳම n සාධක සොයා ගැනීමයි

  1. එක් එක් සාධකවලට එරෙහිව සියලු ප්‍රතිගාමී විචල්‍යය කරන්න
  2. දී ඇති නිර්ණායකයකින් ප්‍රතිගාමීත්වය වර්ග කරන්න (AIC කියන්න)
  3. අඩු ටී-ස්ටාට් ඇති සාධක ඉවත් කරන්න: ඒවා අපගේ විචල්‍යය පැහැදිලි කිරීමේදී නිෂ් less ල ය
  4. 2 හි දක්වා ඇති අනුපිළිවෙල සමඟ, සාධක එකින් එක ආකෘතියට එක් කිරීමට උත්සාහ කරන්න, ඒවා අපගේ නිර්ණායක වැඩි දියුණු කරන විට ඒවා තබා ගන්න. සියලු සාධක සඳහා නැවත ක්‍රියා කරන්න.

නැවතත්, මෙය ඉතා රළු ය, ක්‍රමවේදය වැඩිදියුණු කිරීමට ක්‍රම තිබිය හැකි නමුත් එය මගේ ආරම්භක ස්ථානයයි. මම මෙම පිළිතුර වෙනත් කෙනෙකුට ප්‍රයෝජනවත් වේ යැයි බලාපොරොත්තුවෙන් පළ කරමි. අදහස් සාදරයෙන් පිළිගනිමු!


47
(1) මෙම ත්‍රෙඩ් එකේ කිසිදු "විවාදයක්" මා දැක නැත: සියලුම පිළිතුරු සහ අදහස් එකම මූලික පණිවිඩය ඉදිරිපත් කරයි. (2) ඔබේ ක්රියාත්මක වන බව පෙනී යයි තත්කාර්ය අනුවාදය stepwise අවගමනය . එය ස්වයංක්‍රීයව අවසානයක් ලෙස පිළිගන්නේ නැතිනම් එය ආරම්භක ස්ථානයක් ලෙස ප්‍රයෝජනවත් විය හැකි බව මම එකඟ වෙමි.
whuber

28
ප්‍රජාව විසින් ඉදිරිපත් කරනු ලබන සෑම තර්කයකටම එරෙහිව ඔබේම පිළිතුර ඔබ සැබවින්ම පිළිගෙන තිබේ. මෙහි ඇති නිෂේධනීය දෑ දැකීම පුදුමයක් නොවේ ...
jank

23
මම විශ්වාස කරන්නේ මම මෙතරම් පහත් අගයන් දකින පළමු අවස්ථාව මෙය බවයි. AMSAM ඔබ වෙනත් විශිෂ්ට පිළිතුරු කිහිපයක් පිළිගෙන ඔබේ "පිළිතුර" මකා නොදමන්නේ ඇයි?
මාර්බල්

මෙම SE හි වඩාත්ම පහත් පිළිතුර කුමක්ද?
mkt - මොනිකා

2
ඔබේ ඉලක්කය "දී ඇති විචල්‍යයක් පැහැදිලි කිරීම සඳහා හොඳම n සාධක සොයා ගැනීම" යනුවෙන් පවසමින් ඔබ @ ප්‍රොබබබිලිස්ලොජික්ගේ වැදගත් ප්‍රශ්නයට පිළිතුරු දී ඇති බව පෙනේ. පැහැදිලි කිරීම සඳහා ආදර්ශ ගොඩනැඟීම (හේතුව තේරුම් ගැනීමට) අනාවැකි කීමට ආදර්ශ ගොඩනැඟීමට වඩා හිතාමතාම හා සාමාන්‍යයෙන් වඩා තීව්‍ර ලෙස කළ යුතුය.
රෝලන්ඩෝ 2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.