එක් “වෙනත් විචල්‍යයන් සඳහා පාලනය” කරන්නේ කෙසේද?


158

මෙම ප්‍රශ්නයට පෙළඹවූ ලිපිය මෙන්න: නොඉවසිලිමත්කම අපව මහත කරයිද?

මම මෙම ලිපියට කැමති වූ අතර, එය විචල්‍යයන් 2 අතර සැබෑ සම්බන්ධතාවය වඩාත් හොඳින් හුදකලා කිරීම සඳහා “වෙනත් විචල්‍යයන් පාලනය කිරීම” (IQ, වෘත්තීය, ආදායම, වයස, ආදිය) යන සංකල්පය මනාව පෙන්නුම් කරයි.

සාමාන්‍ය දත්ත කට්ටලයක විචල්‍යයන් සඳහා ඔබ සැබවින්ම පාලනය කරන්නේ කෙසේදැයි මට පැහැදිලි කළ හැකිද ?

උදා: ඔබට එකම නොඉවසිලිමත්ව මට්ටමක් සහ BMI, නමුත් විවිධ ආදායම් ඇති පුද්ගලයින් දෙදෙනෙකු සිටී නම්, ඔබ මෙම දත්ත වලට සලකන්නේ කෙසේද? සමාන ආදායමක්, ඉවසීමක් සහ BMI ඇති විවිධ උප කාණ්ඩවලට ඔබ ඒවා වර්ගීකරණය කරනවාද? නමුත්, අවසානයේදී (IQ, වෘත්තිය, ආදායම, වයස, ආදිය) පාලනය කිරීම සඳහා විචල්යයන් දුසිම් ගණනක් ඇත. එසේනම් ඔබ මෙම (විභව) 100 උප සමූහයන් එකතු කරන්නේ කෙසේද? ඇත්ත වශයෙන්ම, මෙම ප්‍රවේශය වැරදි ගසකට ගසාගෙන යන බවක් මට හැඟේ, දැන් මම එය වාචිකව ප්‍රකාශ කර ඇත්තෙමි.

මම දැන් අවුරුදු කීපයක් තිස්සේ පහළට යාමට අදහස් කළ දෙයකට යම් ආලෝකයක් හෙලීමට ස්තූතියි ...!


3
එපී සහ බර්න්ඩ්, මෙයට පිළිතුරු දීමට උත්සාහ කිරීම ගැන ඔබට ස්තූතියි. අවාසනාවට, මෙම පිළිතුරු මගේ ප්‍රශ්නයෙන් විශාල පිම්මක් වන අතර ඒවා මගේ හිසට ඉහළින් තිබේ. සමහර විට එය මට R සමඟ අත්දැකීම් නොමැති අතර මූලික සංඛ්‍යාලේඛන 101 පදනමක් විය හැකිය. ඔබේ ඉගැන්වීමට ප්‍රතිපෝෂණය වූවා සේම, ඔබ BMI, වයස, නොඉවසිලිමත්කම යනාදියෙන් "කෝවරියට්" සහ වෙනත් අයගෙන් ract ත් වූ පසු, ඔබට මාව මුළුමනින්ම අහිමි විය. සංකල්ප පැහැදිලි කිරීම සඳහා ස්වයංක්‍රීයව ජනනය කරන ව්‍යාජ දත්ත ද ප්‍රයෝජනවත් නොවීය. ඇත්ත වශයෙන්ම, එය වඩාත් නරක අතට හැරුණි. පැහැදිලි කර ඇති මූලධර්මය ඔබ දැනටමත් දන්නේ නැත්නම් මිස, ආවේණික අර්ථයක් නැති ව්‍යාජ දත්ත පිළිබඳව ඉගෙන ගැනීම දුෂ්කර ය (එනම්: ගුරුවරයා මා දනී
JackOfAll

7
මූලික වැදගත්කමක් ඇති මෙම ප්‍රශ්නය ඇසීමට ස්තූතියි, ack ජැක් ඕෆ් - මෙම රේඛා ඔස්සේ කිසිදු ප්‍රශ්නයක් නොමැතිව වෙබ් අඩවිය අසම්පූර්ණ වනු ඇත - මම මේ සඳහා 'ප්‍රිය' කර ඇත්තෙමි. මෙහි ඇති පිළිතුරු මට සහ තවත් බොහෝ දෙනෙකුට උඩු යටිකුරු ගණන මත පදනම්ව බෙහෙවින් උපකාරී වී තිබේ. මෙය මෙනෙහි කිරීමෙන් පසු, ඔබට පිළිතුරු ඔබටම ප්‍රයෝජනවත් යැයි හැඟී ඇත්නම් (හෝ ඔබගේ ඕනෑම ප්‍රශ්නයකට පිළිතුරු), ඔබේ උඩු යටිකුරු භාවිතා කිරීමටත්, එය නිශ්චිත යැයි ඔබ සිතන්නේ නම් පිළිතුරක් භාර ගැනීමටත් මම ඔබව දිරිමත් කරමි. පිළිවෙලින් පිළිතුර සහ චෙක් සලකුණ අසල ඇති කුඩා ඉහළට යොමු කරන සීනුව වක්‍රය ක්ලික් කිරීමෙන් මෙය කළ හැකිය.
මැක්‍රෝ

4
මෙය සම්පුර්ණ පිළිතුරක් හෝ කිසිවක් නොවේ, නමුත් මම හිතන්නේ ක්‍රිස් ඇචෙන් විසින් රචිත "කුණු කසළ-පසුබෑම සහ කුණු කසළ දැමිය හැකි ස්ථාන" කියවීම වටී. (PDF link: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) මෙය බේසියානු හා නිතර නිතර යන දෙකටම එක හා සමානව අදාළ වේ. ඔබගේ සැකසුම තුළට කොන්දේසි විසි කිරීම බලපෑම් සඳහා "පාලනය" කිරීමට ප්‍රමාණවත් නොවේ, නමුත් කනගාටුවට කරුණ නම් මෙය බොහෝ සාහිත්‍යය තුළ පාලනය සඳහා සමත් වීමයි.
ely

9
ඔබ අසන්නේ " පරිගණක මෘදුකාංගය සියලු විචල්‍යයන් එකවර ගණිතමය වශයෙන් පාලනය කරන්නේ කෙසේද " යන්නයි. ඔබ ද "මට සූත්‍ර ඇතුළත් නොවන පිළිතුරක් අවශ්‍යයි" යැයි පවසන්න. දෙකම එකවරම කළ හැක්කේ කෙසේදැයි මම නොදනිමි. අවම වශයෙන් බරපතල අවදානමකින් තොරව ඔබව දෝෂ සහිත බුද්ධියෙන් ඉවත්ව යනු ඇත.
ග්ලෙන්_බී -රයින්ස්ටේට් මොනිකා

2
මට පුදුමයි මේ ප්‍රශ්නයට වැඩි අවධානයක් නොලැබීම. වෙබ් අඩවියේ ඇති වෙනත් ප්‍රශ්න මෙහි ගෙන එන විශේෂිත ගැටළුව හරියටම ආවරණය නොකරන බවට OP ගේ ප්‍රකාශයට මම එකඟ වෙමි. En ජෙන්, ඔබේ (දෙවන) ප්‍රශ්නයට ඇති කෙටිම පිළිතුර නම්, බහු කෝවරියට්ස් එකවරම කොටස් කර ඇති අතර ඔබ විස්තර කරන ආකාරයට ක්‍රියාකාරී නොවේ. මෙම ප්‍රශ්න සඳහා වඩාත් සවිස්තරාත්මක සහ අවබෝධාත්මක පිළිතුරක් කෙබඳු වනු ඇත්දැයි මම දැන් සිතමි.
ජේක් වෙස්ට්ෆෝල්

Answers:


138

විචල්යයන් පාලනය කිරීමට බොහෝ ක්රම තිබේ.

ඔබට පහසුම සහ ඔබ ඉදිරිපත් කළ එකක් නම්, ඔබේ දත්ත ස්ථරීකරණය කිරීමයි, එවිට ඔබට සමාන ලක්ෂණ සහිත උප කණ්ඩායම් ඇත - එක "පිළිතුරක්" ලබා ගැනීම සඳහා එම ප්‍රති results ල එකට එකතු කිරීමේ ක්‍රම තිබේ. ඔබට පාලනය කිරීමට අවශ්‍ය විචල්‍යයන් ඉතා කුඩා සංඛ්‍යාවක් තිබේ නම් මෙය ක්‍රියාත්මක වේ, නමුත් ඔබ නිවැරදිව සොයාගෙන ඇති පරිදි, ඔබ ඔබේ දත්ත කුඩා හා කුඩා කැබලිවලට බෙදූ විට මෙය වේගයෙන් කඩා වැටේ.

වඩාත් පොදු ප්‍රවේශයක් නම් ඔබට පාලනය කිරීමට අවශ්‍ය විචල්‍යයන් ප්‍රතිගාමී ආකෘතියකට ඇතුළත් කිරීමයි. උදාහරණයක් ලෙස, ඔබට ප්‍රතිගාමී ආකෘතියක් තිබේ නම් එය සංකල්පමය වශයෙන් විස්තර කළ හැකිය:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

නොඉවසිලිමත්කම සඳහා ඔබ ලබා ගන්නා ඇස්තමේන්තුව අනෙක් කෝවරියන්ට් මට්ටම් තුළ නොඉවසිලිමත් වීමේ බලපෑම වනු ඇත - ප්‍රතිගාමීත්වය මඟින් ඔබට වැඩි දත්ත ප්‍රමාණයක් නොමැති ස්ථානවල (ස්තරීකරණ ප්‍රවේශයේ ගැටලුව) අවශ්‍යයෙන්ම සුමටව සිටීමට ඉඩ ලබා දේ. පරිස්සමින්.

වෙනත් විචල්‍යයන් පාලනය කිරීම සඳහා තවත් නවීන ක්‍රම තිබේ, නමුත් අවාසි වන්නේ යමෙකු “වෙනත් විචල්‍යයන් සඳහා පාලනය වේ” යැයි පැවසූ විට, එයින් අදහස් වන්නේ ඒවා ප්‍රතිගාමී ආකෘතියකට ඇතුළත් කර ඇති බවයි.

හරි, ඔබ මෙය කළ හැකි ආකාරය බැලීමට ඔබට වැඩ කළ හැකි උදාහරණයක් ඉල්ලා ඇත. පියවරෙන් පියවර මම ඔබව ඒ හරහා ගෙන යන්නෙමි. ඔබට අවශ්‍ය වන්නේ ස්ථාපනය කර ඇති R පිටපතක් පමණි.

පළමුව, අපට දත්ත කිහිපයක් අවශ්‍යයි. පහත දැක්වෙන කේත කැබලි R ට කපා අලවන්න. මතක තබා ගන්න මෙය මම තැනින් තැන සකස් කළ ව්‍යාකූල උදාහරණයකි, නමුත් එය ක්‍රියාවලිය පෙන්වයි.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

එය ඔබේ දත්ත ය. ප්‍රති come ලය, නිරාවරණය සහ කෝවරියට් අතර ඇති සම්බන්ධය අප දැනටමත් දන්නා බව සලකන්න - එය බොහෝ අනුකරණ අධ්‍යයනවල කාරණයයි (මෙය අතිශයින්ම මූලික උදාහරණයකි. ඔබ දන්නා ව්‍යුහයකින් ආරම්භ වන අතර ඔබේ ක්‍රමයට හැකි බව ඔබ සහතික කරයි ඔබට නිවැරදි පිළිතුර ලබා දෙන්න.

දැන්, ප්‍රතිගාමී ආකෘතියට. පහත සඳහන් දේ ටයිප් කරන්න:

lm(outcome~exposure)

ඔබට ඉන්ටර්සෙප්ට් = 2.0 සහ නිරාවරණයක් = 0.6766 ලැබුණාද? දත්තවල අහඹු විචල්‍යතාවයක් ඇති වුවහොත් එයට ආසන්න යමක් තිබේද? හොඳයි - මෙම පිළිතුර වැරදියි. අපි දන්නවා ඒක වැරදියි කියලා. එය වැරදි ඇයි? ප්‍රති come ලයට හා නිරාවරණයට බලපාන විචල්‍යයක් පාලනය කිරීමට අප අසමත් වී ඇත. එය ද්විමය විචල්‍යයකි, ඔබ කැමති ඕනෑම දෙයක් බවට පත් කරන්න - ස්ත්‍රී පුරුෂ භාවය, දුම් පානය කරන්නා / දුම් නොබොන්නන් යනාදිය.

දැන් මෙම ආකෘතිය ධාවනය කරන්න:

lm(outcome~exposure+covariate)

මෙවර ඔබ අන්තර්ග්‍රහණය = 2.00, නිරාවරණ = 0.50 සහ කෝවරියට් 0.25 යන සංගුණක ලබා ගත යුතුය. අප දන්නා පරිදි මෙය නිවැරදි පිළිතුරයි. ඔබ වෙනත් විචල්‍යයන් සඳහා පාලනය කර ඇත.

දැන්, අපට අවශ්‍ය සියලුම විචල්‍යයන් ගැන අපි සැලකිලිමත් වී ඇත්දැයි නොදන්නා විට කුමක් සිදුවේද (අපි කිසි විටෙකත් එසේ නොකරමු)? මෙය අවශේෂ ව්‍යාකූල කිරීම ලෙස හැඳින්වෙන අතර, බොහෝ නිරීක්ෂණ අධ්‍යයනයන්හි එය සැලකිලිමත් වන්නේ - අප අසම්පූර්ණ ලෙස පාලනය කර ඇති අතර, අපගේ පිළිතුර දකුණට ආසන්නව තිබියදීත් එය හරියටම නොවේ. එය තවත් ප්‍රයෝජනවත් වේද?


ස්තූතියි. ඕනෑම කෙනෙකුට සරල උදාහරණ ප්‍රතිගාමී පාදක උදාහරණයක් මාර්ගගතව හෝ මට වැඩ කළ හැකි පෙළ පොතක තිබේද?
JackOfAll

Ack ජැක් ඕෆාල් එවැනි උදාහරණ සිය ගණනක් තිබිය හැකිය - ඔබ උනන්දු වන්නේ කුමන ක්ෂේත්‍ර / ප්‍රශ්නද, සහ ඔබට භාවිතා කළ හැකි මෘදුකාංග පැකේජ මොනවාද?
Fomite

හොඳයි, ඕනෑම ශාස්ත්‍රීය / විවාදාත්මක උදාහරණයක් මා විසින් හොඳයි. මට එක්සෙල් ඇත, එයට බහු විචල්‍ය ප්‍රතිගාමීත්වයක් කළ හැකිය, හරිද? එසේත් නැතිනම් මට R වැනි දෙයක් අවශ්‍යද?
JackOfAll

10
+1 මා භාවිතා කරන ga ණාත්මක බවකින් තොරව මෙයට පිළිතුරු සැපයීම සඳහා. :) සාමාන්‍යයෙන්, වෙනත් විචල්‍යයන් පාලනය කිරීම යන්නෙන් අදහස් කරන්නේ කතුවරුන් ඒවා ප්‍රතිගාමීත්වයට විසි කිරීමයි. විචල්‍යයන් සාපේක්ෂව ස්වාධීන බවත්, සමස්ත ආකෘති ව්‍යුහය (සාමාන්‍යයෙන් යම් ආකාරයක ජීඑල්එම්) හොඳින් ස්ථාපිත වී ඇති බවත් ඔවුන් වලංගු කර නොමැති නම් එයින් අදහස් කරන්නේ කුමක්දැයි එයින් අදහස් නොවේ. කෙටියෙන් කිවහොත්, යමෙකු මෙම වාක්‍ය ඛණ්ඩය භාවිතා කරන සෑම විටම එයින් අදහස් කරන්නේ ඔවුන් සංඛ්‍යාලේඛන පිළිබඳ ඉතා සුළු හෝඩුවාවක් ඇති බවත්, ඔබ ඉදිරිපත් කළ ස්තරීකරණ ක්‍රමය භාවිතා කර ප්‍රති results ල නැවත ගණනය කළ යුතු බවත් ය.
ඉටරේටර්

7
Ib සිබ්ස් සූදුව මුල් ප්‍රශ්නකරුවා සරල වැඩ කළ උදාහරණයක් ඉල්ලා සිටි බව ඔබ සටහන් කරනු ඇත .
Fomite

60
  1. හැදින්වීම

    මම කැමතියි @ එපිග්‍රෑඩ්ගේ පිළිතුරට (+1) නමුත් මට වෙනස් දෘෂ්ටිකෝණයකින් බැලීමට ඉඩ දෙන්න. පහත දැක්වෙන පරිදි මම මෙම පී.ඩී.එෆ් ලේඛනය වෙත යොමු කරමි: “බහු ප්‍රතිගාමී විශ්ලේෂණය: ඇස්තමේන්තු කිරීම” , එහි “බහු ප්‍රතිගාමී අර්ථ නිරූපණය” (පිටුව 83f.). අවාසනාවකට මෙන්, මෙම පරිච්ඡේදයේ කතුවරයා කවුරුන්දැයි මා නොදන්නා අතර මම එය REGCHAPTER ලෙස හඳුන්වන්නෙමි. ඒ හා සමාන පැහැදිලි කිරීමක් කොහ්ලර් / ක්‍රියුටර් (2009) "දත්ත විශ්ලේෂණය භාවිතා කරන දත්ත" , 8.2.3 පරිච්ඡේදය "පාලනය යටතේ පවතින" යන්නෙන් අදහස් කරන්නේ කුමක්ද?

    මෙම ප්‍රවේශය පැහැදිලි කිරීම සඳහා මම @ එපිග්‍රෑඩ්ගේ උදාහරණය භාවිතා කරමි. R කේතය සහ ප්‍රති results ල උපග්‍රන්ථයෙන් සොයාගත හැකිය.

    “වෙනත් විචල්‍යයන් සඳහා පාලනය කිරීම” අර්ථවත් වන්නේ පැහැදිලි කළ හැකි විචල්‍යයන් මධ්‍යස්ථව සහසම්බන්ධ වූ විට පමණක් බව (කොලීනියරිටි) සැලකිල්ලට ගත යුතුය. ඉහත උදාහරණයේ දී, නිෂ්පාදන-මොහොත අතර සහසම්බන්ධය exposureසහ covariate0.50 අතර වේ, එනම්,

    > cor(covariate, exposure)
    [1] 0.5036915
  2. අවශේෂ

    ප්‍රතිගාමී විශ්ලේෂණයේ ඉතිරිව ඇති සංකල්පය පිළිබඳ මූලික අවබෝධයක් ඔබට ඇතැයි මම සිතමි. විකිපීඩියා පැහැදිලි කිරීම මෙන්න : "යමෙකු යම් දත්තයක් මත ප්‍රතිගාමීතාවයක් ක්‍රියාත්මක කරන්නේ නම්, සවිකර ඇති ශ්‍රිතයෙන් යැපෙන විචල්‍ය නිරීක්ෂණවල අපගමනය වන්නේ අවශේෂ වේ".

  3. 'පාලනය යටතේ' යන්නෙන් අදහස් කරන්නේ කුමක්ද?

    විචල්ය සඳහා පාලනය covariate, බලපෑම (අවගමනය බර) exposureමත outcomeපහත සඳහන් පරිදි විස්තර කල හැකි (මම බෑවුම් සහිත වෙමි බොහෝ දර්ශක සහ සියලු තොප්පි මඟ, නිශ්චිත විස්තර සඳහා ඉහත සඳහන් පෙළ වෙත යොමුවන්න):

    β1=Σrsමම..මම1yමමΣrsමම..මම12

    වන වීමද භෝග අපි හැරී යන විට යමත, එනම්,resමම..මම1exposurecovariate

    exපිosයූr=onsටී.+βovrමමටීovrමමටී+rsමම..

    ඇති "වීමද භෝග [..] වල කොටසක් සමග uncorrelated බව x i 2 . [...] මේ අනුව, β 1 පියවර අතර නියැදි සම්බන්ධතාවය y හා x 1 පසු x 2 පිටතට partialled කර ඇත" ( 84 වන පරිච්ඡේදය). “අර්ධ වශයෙන් ඉවත් කිරීම” යන්නෙහි අර්ථය “සඳහා පාලනය” යන්නයි.xi1xමම2β^1yx1x2

    Idei එපිග්‍රෑඩ් හි උදාහරණ දත්ත භාවිතා කරමින් මම මෙම අදහස නිරූපණය කරමි. පළමුව, මම නැවත පසුබසිනු exposureඇත covariate. මම අවශේෂයන් ගැන පමණක් උනන්දු වන බැවින් lmEC.resid, මම ප්‍රතිදානය අතහැර දමමි.

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)

    මීලඟ පියවර වන්නේ outcomeමෙම අවශේෂයන් නැවත සකස් කිරීමයි ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]

    ඔබ දැක ගැනීමට හැකි වන පරිදි, සඳහා ගැලපෙන පරිදි බර lmEC.resid(තීරුව ඇස්තෙම්න්තු, බලන්න සඳහා මෙම සරල අවගමනය දී) බහු අවගමනය බරට සමාන වේ ද, එය 0.50 (EpiGrad පිළිතුර @ බලන්න හෝ පහත R ප්‍රතිදානය).βlඑම්සී.rsමම..=0.50 කිcovariate0.50 කි

උපග්රන්ථය

ආර් කේතය

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

ආර් ප්‍රතිදානය

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 

6
: කුඞා ළමුන්ගේ Wooldridge (ජෙෆ්රි එම් Wooldridge විසින් නූතනත්වයෙන් හෙවත් හඳුන්වාදීමේ Econometrics) වැනි බව පරිච්ඡේදය පෙනුම
Dimitriy වී Masterov

3
මම යම් දෙයක් වරදවා වටහාගෙන ඇති නමුත්, ඔබ කෝවරියට් වල ප්‍රති come ල නැවත ලබා ගැනීමට අවශ්‍ය නොවන්නේ නම්, අවසානයේදී නිරාවරණ අවශේෂවල ප්‍රති come ල අවශේෂයන් නැවත ලබා ගත යුත්තේ ඇයි?
hlinee

linehlinee හරි. ඔබ මෙය නොකරන්නේ මන්දැයි ඔබට පැහැදිලි කළ හැකිද?
Parseltongue

45

ඇත්ත වශයෙන්ම සමහර ගණිතය සම්බන්ධ වනු ඇත, නමුත් එය එතරම් නොවේ: යුක්ලිඩ් එය හොඳින් තේරුම් ගනීවි. ඇත්තටම ඔබ ගැන දැන ගැනීමට අවශ්ය සියලු කරන්නේ කෙසේ ද යන්න යි එකතු සහ rescale වාහකයන්. වර්තමානයේ මෙය "රේඛීය වීජ ගණිතය" යන නමින් පැවතුනද, ඔබට එය දෘශ්‍යමාන කළ යුත්තේ මානයන් දෙකකින් පමණි. රේඛීය වීජ ගණිතයේ අනුකෘතියෙන් වැළකී සංකල්ප කෙරෙහි අවධානය යොමු කිරීමට මෙය අපට හැකියාව ලබා දෙයි.


ජ්‍යාමිතික කතාවක්

yy1αx1x1ααβγ

රූපය 1

x1yyx1x1yαyy1yx1"ගැලපෙන," "පිටතට ගත්" හෝ "පාලනය කරන ලද" දෛශිකයන් නිරතුරුවම දක්වනු ඇත.)

x1x2x1βx1x21

රූපය 2

x1x2x1yx1x3,x4,x1

y1x21x21x1x21

රූපය 3

yx2y1

x21y1x1y1x1γx21y12x1

x31,x41,x2

y12x1x2y12x1,x2,yx1,x2yx1x2x2x1

(අතිරේක දෛශික තිබේ නම්, එම සෑම දෛශිකයක්ම මැචර් බවට පත්වන තෙක් අපි මෙම “මැචර්” ක්‍රියාවලිය දිගටම කරගෙන යනු ඇත. සෑම අවස්ථාවකම මෙහෙයුම් මෙහි පෙන්වා ඇති ආකාරයටම වන අතර සෑම විටම සිදුවන්නේ a තලය .)


බහු ප්‍රතිගාමී සඳහා අයදුම්පත

x1x2,වයිx1x2වයිx1x2x1,x2,

  1. ගැලපීම අනුපිළිවෙලින් කළ හැකිය

  2. ගැලපීම සිදු කරන අනුපිළිවෙල වැදගත් නොවේ.

අනෙක් සියලුම දෛශික ඒවායේ අවශේෂ මගින් ප්‍රතිස්ථාපනය කිරීමෙන් මැචරයක් "පිටතට ගැනීමේ" ක්‍රියාවලිය බොහෝ විට හැඳින්වෙන්නේ මැචර් සඳහා "පාලනය කිරීම" ලෙසිනි. සංඛ්‍යාලේඛනවල අප දුටු පරිදි, මැචරයක් පාලනය කළ පසු, පසුව සිදුකරන සියලුම ගණනය කිරීම් මඟින් එම ගැලපුමට ලම්බකව ගැලපීම් සිදු කරයි. ඔබ කැමති නම්, "පාලනය කිරීම" "අනෙක් සියලුම විචල්‍යයන් මත මැච් එකක දායකත්වය / බලපෑම / බලපෑම / ආශ්‍රය සඳහා ගිණුම්කරණය (අවම වශයෙන් වර්ග අර්ථයෙන්)" ලෙස ඔබ සිතනු ඇත.


යොමුව

Https://stats.stackexchange.com/a/46508 හි පිළිතුරෙන් දත්ත සහ ක්‍රියාකාරී කේතය සමඟ ඔබට මේ සියල්ල ක්‍රියාකාරීව දැකිය හැකිය . එම පිළිතුර ගුවන්යානා පින්තූරවලට වඩා අංක ගණිතයට වැඩි කැමැත්තක් දක්වන පුද්ගලයින්ට වඩාත් කැමති විය හැකිය. (සංගුණක අනුක්‍රමිකව ගෙන එන බැවින් සංගුණක සකස් කිරීමේ අංක ගණිතය කෙසේ වෙතත් සරල ය.) ගැලපීමේ භාෂාව ෆ්‍රෙඩ් මොස්ටෙලර් සහ ජෝන් ටුකීගෙන් ය.


1
මෙම රේඛා ඔස්සේ තවත් නිදර්ශන විකන්ගේ "බහුකාර්ය සංඛ්‍යාලේඛනවල ජ්‍යාමිතිය" (1994) පොතේ සොයාගත හැකිය. උදාහරණ කිහිපයක් මෙම පිළිතුරේ ඇත.
කැරකල්

2
xමම

1
මම මෙම පිළිතුරට ආදරය කරන්නේ එය වීජ ගණිතයට වඩා වැඩි බුද්ධියක් ලබා දෙන බැවිනි. BTW, ඔබ මේ පුද්ගලයාගේ යූ ටියුබ් නාලිකාව පරීක්ෂා කළාදැයි විශ්වාස නැත . මම එය බොහෝ සේ භුක්ති වින්දා
හයිටාවෝ ඩු

3

“වෙනත් විචල්‍යයන් පාලනය කිරීම” සඳහා මාධ්‍යයක් ලෙස කෝවරියට් ගැලපුම පිළිබඳව මෙතෙක් විශිෂ්ට සාකච්ඡාවක් තිබේ. නමුත් මම හිතන්නේ එය කතාවේ කොටසක් පමණයි. ඇත්ත වශයෙන්ම, ව්‍යාකූල විය හැකි විචල්‍යයන් ගණනාවක බලපෑම විසඳීම සඳහා බොහෝ (වෙනත්) සැලසුම්, ආකෘති සහ යන්ත්‍ර ඉගෙනුම් පදනම් කරගත් උපාය මාර්ග තිබේ. මෙය වඩාත් වැදගත් (නොගැලපෙන) මාතෘකා කිහිපයක් පිළිබඳ කෙටි සමීක්ෂණයකි. ගැලපීම් යනු වෙනත් විචල්‍යයන් සඳහා “පාලනය” කිරීමේ වඩාත් පුළුල් ලෙස භාවිතා කරන මාධ්‍යයක් වන අතර, හොඳ සංඛ්‍යාලේඛන ician යෙකුට වෙනත් ක්‍රියාවලීන් හා ක්‍රියා පටිපාටිවල සන්දර්භය තුළ එය කරන්නේ කුමක්ද (සහ නොකරන) පිළිබඳ අවබෝධයක් තිබිය යුතුය.

ගැලපීම:

ගැළපීම යනු යුගල විශ්ලේෂණයක් සැලසුම් කිරීමේ ක්‍රමයකි, එහිදී නිරීක්ෂණ 2 කට්ටලවලට කාණ්ඩ කර ඇති අතර ඒවායේ වඩාත් වැදගත් අංශවලට සමාන වේ. නිදසුනක් වශයෙන්, ඔවුන්ගේ අධ්‍යාපනය, ආදායම, වෘත්තීය කාලය, වයස, විවාහක තත්ත්වය (යනාදිය) සමග සමපාත වන නමුත් ඔවුන්ගේ නොඉවසිලිමත්කම අනුව විසංවාදී පුද්ගලයන් දෙදෙනෙකු නියැදි කළ හැකිය. ද්විමය නිරාවරණ සඳහා, ගැලපෙන සියලුම අංග සඳහා ඔවුන්ගේ BMI පාලනයේ මධ්‍යන්‍ය වෙනසක් සඳහා සරල යුගල-ටී පරීක්ෂණය ප්‍රමාණවත් වේ. ඔබ අඛණ්ඩ නිරාවරණයක් නිරූපණය කරන්නේ නම්, ප්‍රතිසම මිනුමක් යනු වෙනස්කම් සඳහා මූලාරම්භය හරහා ප්‍රතිගාමී ආකෘතියක් වනු ඇත. කාලින් 2005 බලන්න

[වයි1-වයි2]=β0(x1-x2)

බර කිරා බැලීම

xවයිද්විමය නිරාවරණයක සම්භාවිතාව පිළිබඳ ගිණුම් සහ ඒ සම්බන්ධයෙන් එම විචල්‍යයන් සඳහා පාලනයන්. එය නිරාවරණයක් සඳහා සෘජු ප්‍රමිතිකරණයට සමානය. රොත්මන්, නූතන වසංගතවේදය 3 වන සංස්කරණය බලන්න.

සසම්භාවීකරණය සහ Quasirandomization

එය සියුම් කරුණකි, නමුත් ඇත්ත වශයෙන්ම ඔබට යම් පර්යේෂණාත්මක තත්වයකට මිනිසුන් අහඹු ලෙස යොමු කළ හැකි නම්, අනෙක් විචල්‍යයන්ගේ බලපෑම අවම කරනු ලැබේ. එය සැලකිය යුතු ලෙස ශක්තිමත් කොන්දේසියකි, මන්ද එම අනෙක් විචල්‍යයන් මොනවාදැයි දැන ගැනීමට පවා ඔබට අවශ්‍ය නොවන බැවිනි. ඒ අර්ථයෙන් ගත් කල, ඔබ ඔවුන්ගේ බලපෑම සඳහා "පාලනය" කර ඇත. නිරීක්ෂණ පර්යේෂණ වලදී මෙය කළ නොහැකි නමුත්, ප්‍රවණතා ලකුණු ක්‍රම මඟින් නිරාවරණය සඳහා සරල සම්භාවිතා මිනුමක් නිර්මාණය කරන අතර එමඟින් සහභාගිවන්නන්ට බර, සැකසීමට හෝ ගැලපීමට ඉඩ සලසයි. එවිට අර්ධ-අහඹු ලෙස අධ්‍යයනය කළ ආකාරයටම ඒවා විශ්ලේෂණය කළ හැකිය. . රොසෙන්බෝම්, රූබින් 1983 බලන්න .

ක්ෂුද්‍ර උත්තේජනය

අහඹු ලෙස අධ්‍යයනයකින් ලබා ගත හැකි දත්ත අනුකරණය කිරීමේ තවත් ක්‍රමයක් නම් මයික්‍රොසිමියුලේෂන් කිරීමයි. මෙන්න, යමෙකුට සැබවින්ම ආකෘති වැනි විශාල හා වඩා නවීන, යන්ත්‍ර ඉගෙනීම කෙරෙහි ඔවුන්ගේ අවධානය යොමු කළ හැකිය. ජූඩියා පර්ල් විසින් මා කැමති “ ඔරකල් මාදිලි ”: “විශේෂාංග සහ ප්‍රති .ල ගණනාවක් සඳහා අනාවැකි සහ පුරෝකථනයන් ජනනය කළ හැකි සංකීර්ණ ජාල. සසම්භාවී සහජීවනයක් නියෝජනය කරන, ඔවුන්ගේ “පාලන විචල්‍ය” ව්‍යාප්තියේ සමතුලිතතාවය සහ තක්සේරු කිරීම සඳහා සරල ටී-පරීක්ෂණ ක්‍රම භාවිතා කරන පුද්ගලයින්ගේ සමතුලිත සහයෝගීතාවයක ප්‍රති come ල අනුකරණය කිරීම සඳහා එවැනි ඔරකල් ආකෘතියක තොරතුරු “නැමිය හැකි” බව එයින් පෙනේ. සිදුවිය හැකි වෙනස්කම් වල විශාලත්වය සහ නිරවද්‍යතාවය. රටර්, සැස්ලාව්ස්කි සහ ෆියර් 2012 බලන්න

ප්‍රතිගාමී ආකෘතියක් තුළ ගැලපීම, බර තැබීම සහ කෝවරියට් ගැලපුම යන සියල්ලම එකම සංගම් තක්සේරු කරන අතර, ඒ සියල්ලම අනෙක් විචල්‍යයන් සඳහා “පාලනය” කිරීමේ ක්‍රම ලෙස ප්‍රකාශ කළ හැකිය .


සම්පූර්ණයෙන්ම මගේ හිසට උඩින්.
JackOfAll

එය ඇසූ ප්‍රශ්නයට පිළිතුරකි, මේ දක්වා ඇති හොඳ සාකච්ඡාව බහුකාර්ය ආකෘතිවල ගැලපීම් සඳහා තරමක් ඒක පාර්ශවීය ය.
ආදම්

බහුකාර්ය ආකෘති, ගැලපීම යනාදිය වලංගු ශිල්පීය ක්‍රම වේ, නමුත් පර්යේෂකයෙකු සාමාන්‍යයෙන් එක් තාක්ෂණයක් තවත් තාක්ෂණයකට වඩා භාවිතා කරන්නේ කවදාද?
mnmn

මෙම මාතෘකා පිළිබඳ හොඳ පා course මාලාවක් / MOOC / පොතක් තිබේද?
aghd

0

වයි=xβ+εබී=(xටීx)-1xටීවයි


4
මෙම තොරතුරු ඉදිරිපත් කිරීමට අවස්ථාව ලබා දීම ගැන ස්තූතියි. ප්‍රශ්නයේ දක්වා ඇති අවශ්‍යතා සපුරාලීම සඳහා පිළිතුර සඳහා, දෙවන ප්‍රකාශනයේ අග්‍රයේ අර්ථය සහ දෙවන ප්‍රකාශනයේ අර්ථය අප දැනගත යුතුය. බෑවුම යනු එක් අක්ෂයක අනෙකාගේ වෙනසට වඩා වෙනස් වීම බව මම තේරුම් ගතිමි. මතක තබා ගන්න, අංකනය යනු විශේෂ භාෂාවක් වන අතර එය මුලින්ම නිර්මාණය කරන ලද අතර අංකිත නොවන වචන මාලාව භාවිතා කර ඉගෙන ගන්නා ලදී. භාෂාව නොදන්නා පුද්ගලයින් වෙත ළඟාවීම සඳහා වෙනත් වචන භාවිතා කිරීම අවශ්‍ය වන අතර එය විෂයයන් හරහා දැනුම ගෙන ඒමේ අඛණ්ඩ අභියෝගයයි.
ජෙන්

2
x'x
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.