රේඛීය ප්‍රතිගාමීයේදී, සත්‍ය අගයන් වෙනුවට ස්වාධීන විචල්‍යයක ලොගය භාවිතා කිරීම සුදුසු වන්නේ කවදාද?


171

සැක සහිත ස්වාධීන විචල්‍යය සඳහා වඩා හොඳ හැසිරීම් බෙදාහැරීමක් මා සොයන්නේද, නැතහොත් පිටස්තරයින්ගේ බලපෑම අඩු කිරීම සඳහාද?


1
ඔබ විමසන්නේ පිටස්තරයින්ගේ බලපෑම අඩු කරන්නේ කෙසේද යන්න හෝ යම් විචල්‍යයක ලොගය භාවිතා කරන්නේ කවදාද?
බෙන්ජමින් බැනියර්

27
මම හිතන්නේ OP කියන්නේ "ආදාන විචල්‍යයන් මත ලොග් භාවිතා කරන පුද්ගලයින් ගැන මම අසා ඇත්තෙමි: ඔවුන් එසේ කරන්නේ ඇයි?"
ෂේන්

ලොගය පමණක් ඇයි? Mx + b හා සම්බන්ධ අවශේෂ අවම කිරීම සඳහා භාවිතා කළ හැකි දත්ත පරිණාමන තාක්‍ෂණයකට මෙම ප්‍රශ්නය අදාළ විය යුතු නොවේද?
AsymLabs

2
S අසීම්ලැබ්ස් - නිෂ්පාදනයක් සාරාංශයක් බවට පරිවර්තනය කරන එකම කාර්යය වන බැවින්, ලොගය ප්‍රතිගාමී වීමේ විශේෂ විය හැකිය.
සම්භාවිතාවය

17
පා readers කයන්ට අනතුරු ඇඟවීමක්: ප්‍රශ්නය IV පරිවර්තනය කිරීම ගැන විමසයි, නමුත් සමහර පිළිතුරු ඩීවී පරිවර්තනය කිරීමට හේතු ගැන කතා කරන බව පෙනේ. ඒවා සියල්ලම IV පරිවර්තනය කිරීමට හේතු යැයි සිතමින් නොමඟ නොයන්න - සමහර ඒවා විය හැකිය, අනෙක් ඒවා නිසැකවම එසේ නොවේ. විශේෂයෙන්, IV හි ව්‍යාප්තිය සාමාන්‍යයෙන් අදාළ නොවේ (ඇත්ත වශයෙන්ම, DV හි ආන්තික ව්‍යාප්තිය ද නොවේ).
ග්ලෙන්_බී -රයින්ස්ටේට් මොනිකා

Answers:


177

මේ තරම් විශිෂ්ට ප්‍රතිචාරයන් සහිත ත්‍රෙඩ් එකකට පනින්න මම සැමවිටම පසුබට වෙමි, නමුත් මූලයන් හෝ පරස්පරතා වැනි දත්ත “ස්කොෂ්” කරන වෙනත් පරිවර්තනයකට ල ar ු ගණකය වඩාත් කැමති වීමට පිළිතුරු ස්වල්පයක් හේතු වන බව මට හැඟේ.

එය ලබා ගැනීමට පෙර , පවත්නා පිළිතුරු වල ප්‍ර wisdom ාව වඩාත් පොදු ආකාරයකින් නැවත සකස් කරමු. සමහර පහත සඳහන් කවර ෙහෝ අයදුම් කරන විට එම රඳා එකේම රේඛීය නොවන නැවත ප්රකාශනය සඳහන් වේ:

  • අවශේෂවල නොගැලපෙන ව්‍යාප්තියක් ඇත. පරිණාමනයක පරමාර්ථය වන්නේ දළ වශයෙන් සමමිතිකව බෙදා හරින ලද අවශේෂ ලබා ගැනීමයි (ඇත්ත වශයෙන්ම ශුන්‍යය ගැන).

  • අවශේෂවල පැතිරීම යැපෙන විචල්‍යයේ ("විෂම විච්ඡේදනය") අගයන් සමඟ ක්‍රමානුකූලව වෙනස් වේ. පරිවර්තනයේ පරමාර්ථය වන්නේ ව්‍යාප්තියේ ක්‍රමානුකූල වෙනස ඉවත් කර දළ වශයෙන් “සමජාතීයතාව” අත්කර ගැනීමයි.

  • සම්බන්ධතාවයක් රේඛීයකරණය කිරීම.

  • විද්‍යාත්මක න්‍යාය පෙන්නුම් කරන විට. නිදසුනක් ලෙස, රසායන විද්‍යාව බොහෝ විට යෝජනා කරන්නේ ල ar ු ගණක ලෙස සාන්ද්‍රණයන් ප්‍රකාශ කිරීම (ක්‍රියාකාරකම් ලබා දීම හෝ ප්‍රසිද්ධ pH අගය පවා).

  • වඩාත් නිශේධනීය සංඛ්‍යානමය න්‍යායක් යෝජනා කරන විට, අවශේෂයන් ආකලන ලෙස රැස් නොවන “අහඹු දෝෂ” පිළිබිඹු කරයි.

  • ආකෘතියක් සරල කිරීම සඳහා. උදාහරණයක් ලෙස, සමහර විට ල ar ු ගණකය මඟින් “අන්තර්ක්‍රියා” පදවල සංඛ්‍යාව හා සංකීර්ණතාව සරල කළ හැකිය.

(මෙම ඇඟවීම් එකිනෙකා සමඟ ගැටිය හැකිය; එවැනි අවස්ථාවලදී විනිශ්චය අවශ්‍ය වේ.)

ඒ නිසා, වන විට වේ ලඝු ගණකය විශේෂයෙන් සඳහන් වෙනුවට වෙනත් පරිවර්තනයක්?

  • අවශේෂයන්ට "තදින්" ධනාත්මක ලෙස ඇලවුණු බෙදාහැරීමක් ඇත. ජෝන් ටුකේ විසින් EDA පිළිබඳ සිය පොතේ, අවශේෂයන්ගේ ශ්‍රේණිගත සංඛ්‍යාලේඛන මත පදනම්ව (බොක්ස්-කොක්ස් පවුල තුළ හෝ බලය, පරිවර්තනයන්) තක්සේරු කිරීම සඳහා ප්‍රමාණාත්මක ක්‍රම සපයයි. එය සැබවින්ම පහළට පැමිණෙන්නේ ලොගය ගැනීමෙන් අවශේෂ සමමිතික වන්නේ නම්, එය නැවත ප්‍රකාශනයේ නිවැරදි ස්වරූපය විය හැකිය; එසේ නොමැතිනම් වෙනත් ප්‍රති ප්‍රකාශනයක් අවශ්‍ය වේ.

  • අවශේෂවල SD යනු සවිකර ඇති අගයන්ට කෙලින්ම සමානුපාතික වන විට (සහ සවිකර ඇති අගයන්හි යම් බලයකට නොවේ).

  • සම්බන්ධතාවය on ාතීයයට ආසන්න වන විට.

  • අවශේෂ බහුකාර්ය වශයෙන් සමුච්චිත දෝෂ පිළිබිඹු කරන බව විශ්වාස කරන විට.

  • ඔබට ඇත්ත වශයෙන්ම අවශ්‍ය වන්නේ විචල්‍ය විචල්‍යයන්හි ආන්තික වෙනස්කම් යැපෙන විචල්‍යයේ ගුණ කිරීමේ (ප්‍රතිශත) වෙනස්වීම් අනුව අර්ථ නිරූපණය කරන ආකෘතියකි.

අවසාන වශයෙන්, සමහර නොවන - නැවත ප්රකාශනය භාවිතා කිරීමට හේතු :

  • පිටස්තරයින් පිටස්තරයින් මෙන් නොවීම. පිටස්තරයා යනු දත්ත පිළිබඳ විකාර සහගත හා සරල විස්තරයකට නොගැලපෙන දත්තයකි. පිටස්තරයින් වඩා හොඳ පෙනුමක් ලබා ගැනීම සඳහා යමෙකුගේ විස්තරය වෙනස් කිරීම සාමාන්‍යයෙන් ප්‍රමුඛතා වැරදි ලෙස ආපසු හැරවීමකි: පළමුව විද්‍යාත්මකව වලංගු, සංඛ්‍යානමය වශයෙන් දත්ත පිළිබඳ හොඳ විස්තරයක් ලබාගෙන පසුව ඕනෑම පිටස්තරයෙකු ගවේෂණය කරන්න. ඉඳහිට පිටස්තරයාට ඉතිරි දත්ත විස්තර කරන්නේ කෙසේදැයි තීරණය කිරීමට ඉඩ නොදෙන්න!

  • මෘදුකාංගය ස්වයංක්‍රීයව එය කළ නිසා. (කිව්වා ඇති!)

  • සියලු දත්ත ධනාත්මක නිසා. (ධනාත්මක බව බොහෝ විට ඇඟවෙන්නේ ධනාත්මක වක්‍රතාවයකි, නමුත් එය එසේ කළ යුතු නොවේ. තවද, වෙනත් පරිවර්තනයන් වඩා හොඳින් ක්‍රියා කළ හැකිය.

  • "නරක" දත්ත සෑදීම සඳහා (සමහර විට අඩු ගුණාත්මක බවින්) හොඳින් හැසිරෙන බව පෙනේ.

  • දත්ත කුමන්ත්‍රණය කිරීමට හැකිවීම. (දත්ත සැකසීමට හැකි වීම සඳහා පරිවර්තනයක් අවශ්‍ය නම්, එය දැනටමත් සඳහන් කර ඇති හොඳ හේතු එකක් හෝ කිහිපයක් සඳහා අවශ්‍ය වේ. පරිවර්තනයට එකම හේතුව සැබවින්ම කුමන්ත්‍රණය කිරීම නම්, ඉදිරියට ගොස් එය කරන්න - නමුත් කුමන්ත්‍රණය කිරීමට පමණි දත්ත විශ්ලේෂණය සඳහා පරිවර්තනය නොකළ දත්ත තබන්න.)


1
කලාපයක ජනගහන ity නත්වය හෝ එක් එක් පාසල් දිස්ත්‍රික්කය සඳහා ළමා ගුරු අනුපාතය හෝ ජනගහනයේ 1000 කට මිනීමැරුම් සංඛ්‍යාව වැනි විචල්‍යයන් ගැන කුමක් කිව හැකිද? මහාචාර්යවරු මෙම විචල්‍යයන්ගේ ලොගය ගන්නා බව මම දැක ඇත්තෙමි. එයට හේතුව මට පැහැදිලි නැත. නිදසුනක් වශයෙන්, මිනීමැරුම් අනුපාතය දැනටමත් ප්‍රතිශතයක් නොවේද? ලොගය අනුපාතයේ ප්‍රතිශත වෙනස් වේ ද? ළමා-ගුරු අනුපාතයේ ලොගය වඩාත් කැමති වන්නේ ඇයි? සත්‍ය ක්‍රියාකාරී ආකෘතියක් පිළිබඳ යටි න්‍යායක් නොමැති විට සෑම අඛණ්ඩ විචල්‍යයක් සඳහාම ලොග් පරිණාමනය ගත යුතුද?
user1690130

1
@JG කුඩා අනුපාත වලට නොගැලපෙන බෙදාහැරීම් තිබේ; ල ar ු ගණක හා මූලයන් වඩාත් සමමිතික වීමට ඉඩ ඇත. ප්‍රතිශත හා සම්බන්ධ ඔබගේ ප්‍රශ්න මට තේරෙන්නේ නැත: සමහර විට ඔබ විවිධ ප්‍රතිශතවල භාවිතයන් සමඟ ගැටෙමින් සිටී (එකක් සමස්තයක් ලෙස සමානුපාතිකව යමක් ප්‍රකාශ කිරීමට සහ තවත් එකක් සාපේක්ෂ වෙනසක් ප්‍රකාශ කිරීමට)? ල ar ු ගණකය සැමවිටම යෙදිය යුතු යැයි කියා මා කිසිවක් ලියා ඇති බව මම විශ්වාස නොකරමි. එබැවින් ඔබගේ අවසාන ප්‍රශ්නයේ පදනම මට තේරෙන්නේ නැත.
whuber

2
"අවශේෂ බහුකාර්ය වශයෙන් සමුච්චිත දෝෂ පිළිබිඹු කරන බව විශ්වාස කරන විට." මෙම වාක්‍ය ඛණ්ඩය අර්ථ නිරූපණය කිරීමේදී මට ගැටලුවක් තිබේ. මෙය වෙනත් වාක්‍යයකින් හෝ දෙකකින් මඳක් පිටතට ගෙන යා හැකිද? ඔබ යොමු කරන සමුච්චය කුමක්ද?
හට්ෂෙප්සුට්

අනුපාත සහ ities නත්වය සඳහා පරිශීලක 1690130, මේවා සාමාන්‍යයෙන් නිරාවරණය සඳහා ඕෆ්සෙට් එකක් සහිත ගණනය කිරීම් සඳහා විෂ-පවුල් බෙදාහැරීමක් ලෙස සවි කළ යුතුය. උදා: පුද්ගලයින් ගණන ගණනය කිරීම වන අතර ඕෆ්සෙට් යනු කලාපයේ ප්‍රදේශයයි. හොඳ පැහැදිලි කිරීමක් සඳහා මෙම ප්‍රශ්නය බලන්න - stats.stackexchange.com/questions/11182/…
මයිකල් බාර්ටන්

2
Ats හැට්ෂෙප්සුට් බහුකාර්ය වශයෙන් සමුච්චය කිරීමේ දෝෂ සඳහා සරල උදාහරණයක් වනුයේ පරිමාව රඳා පවතින විචල්‍යයක් වන අතර එක් එක් රේඛීය මානයන්හි මිනුම්වල දෝෂ වේ.
abalter

78

ස්වාභාවික ල ar ු ගණකය ගෙන විචල්‍යයක් පරිවර්තනය කිරීමට හේතු තුනක් ඇති බව මම සෑම විටම සිසුන්ට පවසමි. විචල්‍යය ලොග් වීමට හේතුව ඔබට ස්වාධීන විචල්‍යය (ය), යැපීම හෝ දෙකම ලොග් කිරීමට අවශ්‍යද යන්න තීරණය කරයි. ස්වාභාවික ල ar ු ගණකය ගැනීම ගැන මම කතා කරමි.

පළමුව, අනෙකුත් පෝස්ටර් සටහන් කර ඇති පරිදි ආකෘති යෝග්‍යතාව වැඩි දියුණු කිරීම. නිදසුනක් ලෙස, ඔබේ අවශේෂ සාමාන්‍යයෙන් බෙදා හරිනු නොලැබේ නම්, ඇලවුණු විචල්‍යයක ල ar ු ගණකය ගැනීමෙන් පරිමාණය වෙනස් කිරීමෙන් සහ විචල්‍යය වඩාත් “සාමාන්‍යයෙන්” බෙදා හැරීමෙන් යෝග්‍යතාවය වැඩි දියුණු කළ හැකිය. නිදසුනක් වශයෙන්, ඉපැයීම් බිංදුවට කපා ඇති අතර බොහෝ විට ධනාත්මක වක්‍රයක් පෙන්නුම් කරයි. විචල්‍යයට negative ණාත්මක වක්‍රයක් තිබේ නම්, ඔබට පළමුව ල ar ු ගණකය ගැනීමට පෙර විචල්‍යය පෙරළා දැමිය හැකිය. මම මෙහි විශේෂයෙන් අඛණ්ඩ විචල්‍යයන් ලෙස ඇතුළත් කර ඇති ලිකර්ට් පරිමාණයන් ගැන සිතමි. මෙය සාමාන්‍යයෙන් යැපෙන විචල්‍යයට අදාළ වන අතර ඔබට විටින් විට ස්වාධීන විචල්‍යයක් නිසා ඇති වන අවශේෂ (උදා: විෂමජාතීයතාව) සමඟ ගැටලු ඇති අතර එම විචල්‍යයේ ල ar ු ගණකය ගැනීමෙන් සමහර විට නිවැරදි කළ හැකිය. නිදසුනක් වශයෙන්, කථිකාචාර්යවරයකු සහ පංති සමූහයක් මත කථිකාචාර්ය ඇගයීම් පැහැදිලි කළ ආකෘතියක් ධාවනය කිරීමේදී විචල්ය "පන්ති ප්‍රමාණය" (එනම් දේශනයේ සිසුන් සංඛ්‍යාව) විෂමජාතීයතාවයට හේතු වූ පිටස්තරයින් සිටි බැවින් කථිකාචාර්ය ඇගයීම්වල විචලනය විශාල වශයෙන් කුඩා විය කුඩා සමකාලයට වඩා සමකාලීනයන්. මෙම උදාහරණයේ දී ශක්තිමත් සම්මත දෝෂ ගණනය කිරීම හෝ බර අඩු චතුරස්රයන් භාවිතා කිරීම අර්ථ නිරූපණය පහසු කළ හැකි වුවද ශිෂ්‍ය විචල්‍යය ලොග් කිරීම උපකාරී වේ.

ආකෘතියේ විචල්යයන් එකක් හෝ කිහිපයක් ලොග් වීමට දෙවන හේතුව අර්ථ නිරූපණය සඳහා ය. මම මෙම පහසුව හේතුව ලෙස හඳුන්වමි. ඔබ යැපෙන (Y) සහ ස්වාධීන (X) විචල්‍යය (ය) යන දෙකම ලොග් කළහොත් ඔබේ ප්‍රතිගාමී සංගුණක ( ) ප්‍රත්‍යාස්ථතා වන අතර අර්ථ නිරූපණය පහත පරිදි වේ: X හි 1% ක වැඩිවීමක් කැටරිස් පරිබස් % Y හි වැඩි වීම (සාමාන්‍යයෙන්). ප්‍රතිගාමී “සමීකරණයේ” එක් පැත්තක් පමණක් ලොග් කිරීම පහත දක්වා ඇති පරිදි විකල්ප අර්ථ නිරූපණයන්ට තුඩු දෙනු ඇත:ββ β

Y සහ X - X හි එක් ඒකකයක් වැඩිවීම වැඩිවීමට / Y හි අඩුවීමට හේතු වේβ

ලොග් Y සහ ලොග් එක්ස් - X හි 1% ක වැඩිවීමක් % Y හි වැඩිවීමට / අඩුවීමට හේතු වේβ

ලොග් Y සහ X - X හි එක් ඒකකයක් වැඩිවීම % Y වැඩි වීමට / අඩුවීමට හේතු වේβ100

Y සහ ලොග් X - X හි 1% ක වැඩිවීමක් වැඩි වීමට / Y හි අඩුවීමට හේතු වේβ/100

අවසාන වශයෙන් එසේ කිරීමට න්‍යායාත්මක හේතුවක් තිබිය හැකිය. උදාහරණයක් ලෙස අප තක්සේරු කිරීමට කැමති සමහර ආකෘතීන් ගුණක වන අතර එබැවින් රේඛීය නොවන වේ. ල ar ු ගණක ලබා ගැනීමෙන් මෙම ආකෘති රේඛීය ප්‍රතිගාමීතාවයෙන් තක්සේරු කළ හැකිය. ආර්ථික විද්‍යාවේ කෝබ්-ඩග්ලස් නිෂ්පාදන ක්‍රියාකාරිත්වය සහ අධ්‍යාපනයේ මින්කර් සමීකරණය මෙයට හොඳ උදාහරණ වේ. කෝබ්-ඩග්ලස් නිෂ්පාදන ශ්‍රිතය මඟින් යෙදවුම් ප්‍රතිදානයන් බවට පරිවර්තනය කරන්නේ කෙසේද යන්න පැහැදිලි කරයි:

Y=ALαKβ

කොහෙද

Y යනු කිසියම් ආයතනයක සමස්ත නිෂ්පාදනය හෝ ප්‍රතිදානය උදා.

A යනු සමස්ත සාධක produc ලදායිතාවයි (නිමැවුම් වෙනස් කිරීම ආදාන නිසා ඇති නොවන උදා: තාක්‍ෂණික වෙනස්වීම් හෝ කාලගුණය)

L යනු ශ්‍රම ආදානයයි

K යනු ප්‍රාග්ධන ආදානයයි

βα සහ යනු ප්‍රතිදාන ප්‍රත්‍යාස්ථතාවයි.β

මෙහි ල ar ු ගණකය ගැනීම මඟින් OLS රේඛීය ප්‍රතිගාමීත්වය භාවිතා කරමින් ශ්‍රිතය තක්සේරු කිරීම පහසු කරයි:

log(Y)=log(A)+αlog(L)+βlog(K)

5
"ලොග් Y සහ X - X හි එක් ඒකකයක් වැඩිවීම Y හි 100% ක වැඩිවීමක් / අඩුවීමක් ඇති කරයි": මම සිතන්නේ මෙය අදාළ වන්නේ β කුඩා වන විට පමණක් exp (β) + 1 + β
ඉඩා

1
ලස්සන සහ පැහැදිලි ස්තූතියි! එක් ප්‍රශ්නයක්, ලොග් වයි සහ එක්ස් නඩුවේ අන්තර් නිරෝධනයන් ඔබ අර්ථ නිරූපණය කරන්නේ කෙසේද? සාමාන්‍යයෙන් ලොග් පරිණාමිත ප්‍රතිගාමීතා වාර්තා කරන්නේ කෙසේද යන්න ගැන මට
කරදරයි

2
මම ආර්ථික විද්යාව ආදර්ශ අඩංගු පිළිතුරු සඳහා නක්ෂත්රය ඉන්නේ [ "ඔබ 'මට තිබුණේ Cobb-ඩග්ලස් නිෂ්පාදන ශ්රිතය ඔබ දෙවන සමීකරණය තුළ අල්ලා කාලීන වෙනස් කළ යුතු ය: නමුත් එක් දෙයක්,'"] .... ලොග් (A ) එය පළමු සමීකරණයට අනුකූල වන පරිදි.
ස්ටීව් එස්

100×(eβ1)

20

මූල හෝ පරස්පර වැනි වෙනත් පරිවර්තනයන් සඳහා ල ar ු ගණකය වඩාත් කැමති වීමට හේතු පිළිබඳ වබර්ගේ විශිෂ්ට කරුණ පිළිබඳ වැඩි විස්තර සඳහා, නමුත් වෙනත් පරිවර්තනයන් හා සසඳන විට ලොග් පරිණාමනයේ ප්‍රති ing ලයක් ලෙස ඇති ප්‍රතිගාමී සංගුණකවල අද්විතීය අර්ථ නිරූපණය කෙරෙහි අවධානය යොමු කිරීම, බලන්න:

ඔලිවර් එන්. කීන්. ලොග් පරිණාමනය විශේෂයි. වෛද්‍ය විද්‍යාවේ සංඛ්‍යාලේඛන 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (සැක සහිත නීත්‍යානුකූලභාවයේ PDF http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf වෙතින් ලබා ගත හැකිය ).

ඔබ ලොග් නම් ස්වාධීන විචල්ය x පදනම , ඔබ රඳා විචල්ය වල වෙනස් ලෙස අවගමනය සංගුණකය (හා ප්රධාන පොලිස් පරීක්ෂක) අර්ථ නිරූපනය y අනුව දී -fold වැඩි x . (2 වන පාදයේ ල logs ු-සටහන් බොහෝ විට ප්‍රයෝජනවත් වන්නේ x හි දෙගුණ කිරීමකට y හි වෙනසට අනුරූප වන හෙයිනි , නැතහොත් x විශාලත්වයේ අනුපිළිවෙලට වඩා x වෙනස් වන්නේ නම් 10 වන පාදයට ල logs ු-සටහන් ඉතා දුර්ලභ වේ). වර්ග මූල වැනි වෙනත් පරිවර්තනයන්ට එවැනි සරල අර්ථකථනයක් නොමැත.

ඔබ යැපෙන විචල්ය y (මුල් ප්‍රශ්නය නොව පෙර පිළිතුරු කිහිපයකින් ආමන්ත්‍රණය කළ එකක්) ලොග් කළහොත්, ප්‍රති results ල ඉදිරිපත් කිරීම සඳහා ටිම් කෝල්ගේ 'සමකාලීනයන්' පිළිබඳ අදහස ආකර්ශනීය බව මට පෙනේ (මම ඒවා එක් වරක් කඩදාසියක භාවිතා කළෙමි), ඔවුන් ඒ සියල්ල පුළුල් ලෙස අල්ලාගෙන ඇති බවක් නොපෙනේ:

ටිම් ජේ කෝල්. සමකාලීනයන්: ලොග් 100 (ඊ) පරිමාණයේ සමමිතික ප්‍රතිශත වෙනස්කම් ලොග් පරිණාමිත දත්ත ඉදිරිපත් කිරීම සරල කරයි. වෛද්‍ය විද්‍යාවේ සංඛ්‍යාලේඛන 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [ ස්ටේට් මෙඩ් SICIs DOI ලෙස භාවිතා කිරීම නැවැත්වීම ගැන මට සතුටුයි ...]


1
යොමු කිරීම හා ඉතා හොඳ කරුණු වලට ස්තූතියි. උනන්දුව පිළිබඳ ප්‍රශ්නය නම්, මෙම ගැටළුව ලොග් වලට පමණක් නොව සියලු පරිවර්තනයන්ට අදාළ වේද යන්නයි. අපට සංඛ්‍යාලේඛන / සම්භාවිතාව ප්‍රයෝජනවත් වන්නේ එය performance ලදායී කාර්ය සාධන පුරෝකථනයකට හෝ effective ලදායී නිර්ණායක / මග පෙන්වීමට ඉඩ සලසන බැවිනි. වසර ගණනාවක් තිස්සේ අප විසින් බල පරිණාමන (වෙනත් නමකින් ල logs ු-සටහන්), බහුපද පරිණාමන සහ වෙනත් (කැබලි අක්ෂර පරිවර්තනයන්) භාවිතා කර ඉතිරිව ඇති දේ අඩු කිරීමට, විශ්වාසනීය කාල පරතරයන් තද කිරීමට සහ සාමාන්‍යයෙන් ලබා දී ඇති දත්ත සමූහයකින් පුරෝකථන හැකියාව වැඩි දියුණු කිරීමට උත්සාහ කර ඇත. අපි දැන් කියන්නේ මෙය වැරදියි කියාද?
අසයිම්ලැබ්ස්

1
S අසිම්ලැබ්ස්, බ්‍රේමන්ගේ සංස්කෘතීන් දෙක (දළ වශයෙන් පුරෝකථනය කරන්නන් සහ ආකෘතිකරුවන්) කෙතරම් වෙනමද? සී. සංස්කෘතීන් දෙකක් - විවාදාත්මක ය.
denis

14

සාමාන්‍යයෙන් ආදාන විචල්‍යයක ලොගය එය පරිමාණයට ගෙන බෙදා හැරීම වෙනස් කරයි (උදා: එය සාමාන්‍යයෙන් බෙදා හැරීමට). කෙසේ වෙතත් එය අන්ධ ලෙස කළ නොහැකිය. ප්‍රති sc ල තවමත් අර්ථ නිරූපණය කළ හැකි බව සහතික කිරීම සඳහා කිසියම් පරිමාණයක් සිදු කිරීමේදී ඔබ ප්‍රවේශම් විය යුතුය.

මෙය බොහෝ හඳුන්වාදීමේ සංඛ්‍යාන පා in වල සාකච්ඡා කෙරේ. මේ පිළිබඳ සාකච්ඡාවක් සඳහා ඇන්ඩ rew ජෙල්මන්ගේ "සම්මත අපගමනයන් දෙකකින් බෙදීමෙන් ප්‍රතිගාමී යෙදවුම් පරිමාණය කිරීම " පිළිබඳ ලිපිය ඔබට කියවිය හැකිය . "ප්‍රතිගාමී හා බහු මට්ටමේ / ධූරාවලි ආකෘති භාවිතා කරමින් දත්ත විශ්ලේෂණය" ආරම්භයේදීම ඔහු මේ පිළිබඳව ඉතා හොඳ සාකච්ඡාවක් පවත්වයි .

ලොග් ගැනීම නරක දත්ත / පිටස්තරයින් සමඟ කටයුතු කිරීම සඳහා සුදුසු ක්‍රමයක් නොවේ.


11

අවශේෂ සමඟ ගැටළුවක් ඇති වූ විට ඔබ දත්ත ලොග් කිරීමට නැඹුරු වේ. නිදසුනක් ලෙස, ඔබ යම් කෝවරියට් වලට එරෙහිව අවශේෂ සැලසුම් කර වැඩි වන / අඩු වන රටාවක් (පුනීල හැඩයක්) නිරීක්ෂණය කරන්නේ නම්, පරිවර්තනයක් සුදුසු විය හැකිය. අහඹු නොවන අවශේෂ සාමාන්‍යයෙන් පෙන්නුම් කරන්නේ ඔබේ ආකෘති උපකල්පන වැරදියි, එනම් සාමාන්‍ය නොවන දත්ත.

සමහර දත්ත වර්ග ස්වයංක්‍රීයව ල ar ු ගණක පරිවර්තනයන්ට ණයට දෙයි. උදාහරණයක් ලෙස, සාන්ද්‍රණයන් හෝ වයස සමඟ කටයුතු කිරීමේදී මම සාමාන්‍යයෙන් ල logs ු-සටහන් ගන්නෙමි.

පරිණාමනයන් මූලික වශයෙන් භාවිතා කරන්නන් සමඟ ගනුදෙනු කිරීම සඳහා භාවිතා නොකලද, ල logs ු-සටහන් ගැනීම ඔබේ දත්ත ස්කොෂ් කරන බැවින් ඒවා උපකාර කරයි.


1
නමුත් තවමත්, ලොග් භාවිතා කිරීමෙන් ආකෘතිය වෙනස් වේ - රේඛීය ප්‍රතිවර්තනය සඳහා එය y ~ a * x + b වේ, ලොග් මත රේඛීය ප්‍රතිගාමී වීම එය y ~ y0 * exp (x / x0) වේ.

1
මම එකඟ වෙමි - ලොග් වෙනස් කිරීමෙන් ඔබේ ආකෘතිය වෙනස් වේ. නමුත් ඔබට ඔබේ දත්ත පරිවර්තනය කළ යුතු නම්, එයින් ගම්‍ය වන්නේ ඔබේ ආකෘතිය මුලින් සුදුසු නොවන බවයි.
csgillespie

2
gcgillespie: සාන්ද්‍රණ, ඔව්; නමුත් වයස? එය අමුතු දෙයක්.
whuber

hwhuber: මම හිතන්නේ එය ඉතා දත්ත මත රඳා පවතින නමුත් මම භාවිතා කළ දත්ත කට්ටල, ඔබට වයස අවුරුදු 10 ත් 18 ත් අතර විශාල වෙනසක් පෙනෙනු ඇත, නමුත් වයස අවුරුදු 20 ත් 28 ත් අතර කුඩා වෙනසක්. කුඩා දරුවන්ට වුවද වයස අවුරුදු 0-1 අතර වෙනස 1-2 අතර වෙනස හා සමාන නොවේ.
csgillespie

1
@landroni එය කෙටියෙන් කියනු ලැබේ. එය දුප්පත් යැයි මම නොකියමි, එය "උදා" වෙනුවට "උදා" යන්න අදහස් කර ඇති බව හැරෙන්නට, "ස්වාධීන හා සමානව බෙදා හරින ලද" යන අර්ථයෙන් මෙහි "අහඹු" භාවිතය මට වැටහේ. OLS. දී සමහර සැකසුම් ජනතාව මීට අමතරව මෙම පොදු යටින් බෙදා උපකල්පනය සාමාන්ය, නමුත් එය ප්රායෝගිකව හෝ න්යාය අවශ්ය දැඩි නොවේ: අවශ්ය සියල්ල අදාළ සංඛ්යා ලේඛන නියැදීමෙන් බෙදාහැරීම් සමීප සාමාන්ය කෙරෙනු බව ය.
whuber

10

XXX

XXX3rmsXx

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

X3X


E[Y|X]=f(X)

9

ඔක්තෝබර් 26 '12 දින පළමු පිළිතුරට අදහස් දැක්වීමක් ලෙස ඉතිරිව ඇති පරිශීලක 1690130 ගේ ප්‍රශ්නයට ප්‍රතිචාර දැක්වීමට මා කැමතිය: “කලාපයක ජනගහන ity නත්වය හෝ එක් එක් පාසල් දිස්ත්‍රික්කයට හෝ ළමා ගුරු අනුපාතය වැනි විචල්‍යයන් ගැන කුමක් කිව හැකිද? ජනගහනයෙන් 1000 කට මිනීමැරුම් සංඛ්‍යාව? මහාචාර්යවරු මෙම විචල්‍යයන්ගේ ල log ු-සටහන් රැගෙන යන බව මම දැක ඇත්තෙමි. එය මට පැහැදිලි නැත. නිදසුනක් වශයෙන්, මිනීමැරුම් අනුපාතය දැනටමත් ප්‍රතිශතයක් නොවේද? ලොගය ප්‍රතිශත වෙනස් වනු ඇත. අනුපාතය? ළමා-ගුරු අනුපාතයේ ලොගය වඩාත් කැමති වන්නේ ඇයි?

මම ඒ හා සමාන ගැටලුවකට පිළිතුරු දීමට බලා සිටි අතර මගේ පැරණි සංඛ්‍යාලේඛන පා book මාලා ( ජෙෆ්රි වුල්ඩ්‍රිජ්, 2006. හඳුන්වාදීමේ ආර්ථිකමිතික - නවීන ප්‍රවේශයක්, 4 වන සංස්කරණය. 6 වන පරිච්ඡේදය බහු ප්‍රතිගාමී විශ්ලේෂණය: වැඩිදුර ගැටළු 191 ) ඒ ගැන පවසන දේ බෙදා ගැනීමට මට අවශ්‍ය විය. වුල්ඩ්‍රිජ් උපදෙස් දෙයි:

විරැකියා අනුපාතය, විශ්‍රාම වැටුප් සැලැස්මක් සඳහා සහභාගී වීමේ අනුපාතය, ප්‍රමිතිගත විභාගයකින් සමත්වන සිසුන්ගේ ප්‍රතිශතය සහ වාර්තා වූ අපරාධ සම්බන්ධයෙන් අත්අඩංගුවට ගැනීමේ අනුපාතය වැනි සමානුපාතික හෝ ප්‍රතිශත ආකාරයෙන් පෙනෙන විචල්‍යයන් මුල් හෝ ල ar ු ගණක ආකාරයෙන් දිස්විය හැකිය. , ඒවා මට්ටමේ ස්වරූපයෙන් භාවිතා කිරීමේ ප්‍රවණතාවක් තිබුණද . මෙයට හේතුව මුල් විචල්‍යය සම්බන්ධ ඕනෑම ප්‍රතිගාමී සංගුණක - එය යැපෙන හෝ ස්වාධීන විචල්‍යය වේවා - ප්‍රතිශත ලක්ෂ්‍ය වෙනස් කිරීමේ අර්ථ නිරූපණයක් ඇත. රැකියා විරහිත පුද්ගලයින්ගේ ප්‍රතිශතය unem වන ප්‍රතිගාමීතාවයකදී අපි ලොග් ( unem ) භාවිතා කරන්නේ නම්, ප්‍රතිශත ලක්ෂ්‍ය වෙනසක් සහ ප්‍රතිශත වෙනසක් අතර වෙනස හඳුනා ගැනීමට අප ඉතා සැලකිලිමත් විය යුතුය. මතක තබා ගන්න, unem නම්8 සිට 9 දක්වා ඉහළ යයි, මෙය එක් ප්‍රතිශතයක වැඩිවීමකි, නමුත් ආරම්භක විරැකියා මට්ටමේ සිට 12.5% ​​ක වැඩිවීමකි. ලොගය භාවිතා කිරීම යනු විරැකියා අනුපාතයේ ප්‍රතිශත වෙනස දෙස අප බලා සිටින බවයි: ලොග් (9) - ලොග් (8) = 0.118 හෝ 11.8%, මෙය සත්‍ය 12.5% ​​වැඩිවීමට ල ar ු ගණක දළ විශ්ලේෂණයකි.

මේ මත පදනම්ව සහ පරිශීලක 1690130 ගේ ප්‍රශ්නයට වයිබර්ගේ කලින් අදහස් දැක්වීම මත, gy නත්වයේ හෝ ප්‍රතිශත අනුපාත විචල්‍යයක ල ar ු ගණකය භාවිතා කිරීමෙන් මම වැළකී සිටිමි. අනුපාත විචල්‍යය.


බොහෝ විට ප්‍රතිශත සඳහා (එනම් (0,1 මත සමානුපාතිකයන්), ලොජිට් ට්‍රාන්ස්ෆෝමරයක් භාවිතා කරයි.මෙයට හේතුව සමානුපාතික දත්ත බොහෝ විට අවශේෂවල සාමාන්‍ය භාවය උපකල්පනය උල්ලං lates නය කිරීමකි, එක්තරා ආකාරයකින් ලොග් පරිවර්තනයක් නිවැරදි නොවේ.
කොලින්

3

නරක දත්ත සමඟ කටයුතු කිරීම සඳහා ලොගය රැගෙන යාම ෂේන්ගේ අදහසයි. සාමාන්‍ය අවශේෂවල වැදගත්කම කොලින්ගේ අදහසකි. ප්‍රායෝගිකව මට පෙනී යන්නේ ආදාන සහ ප්‍රතිදාන විචල්‍යයන් ද සාපේක්ෂව සාමාන්‍ය නම් සාමාන්‍යයෙන් ඔබට සාමාන්‍ය අවශේෂ ලබා ගත හැකි බවයි. ප්‍රායෝගිකව මෙයින් අදහස් කරන්නේ පරිණාමනය කරන ලද සහ පරිවර්තනය නොකළ දත්ත කට්ටල බෙදා හැරීම ඇසින් බැලීම සහ ඒවා වඩාත් සාමාන්‍ය තත්වයට පත්ව ඇති බවට සහතික වීම සහ / හෝ සාමාන්‍යභාවය පිළිබඳ පරීක්ෂණ පැවැත්වීම (උදා: ෂැපිරෝ-විල්ක් හෝ කොල්මෝගොරොව්-ස්මිර්නොව් පරීක්ෂණ) සහ ප්‍රති come ලය වඩාත් සාමාන්‍යද යන්න තීරණය කිරීමයි. අර්ථ නිරූපණය සහ සම්ප්‍රදාය ද වැදගත් ය. උදාහරණයක් ලෙස, සංජානන මනෝ විද්‍යාවේදී ප්‍රතික්‍රියා කාලයෙහි ලොග් පරිණාමනය බොහෝ විට භාවිතා වේ, කෙසේ වෙතත්, මට අවම වශයෙන්, ලොග් ආර්ටී ලොග් එකක අර්ථ නිරූපණය අපැහැදිලි ය. තවද,


2
ඡන්ද මත පදනම්ව පිළිතුරු නැවත සකස් කරනු ලැබේ, එබැවින් කරුණාකර වෙනත් පිළිතුරු වෙත යොමු නොවීමට උත්සාහ කරන්න.
Vebjorn Ljosa

4
සාමාන්යතාව පිළිබඳ පරීක්ෂණයක් සාමාන්යයෙන් දැඩි වේ. බොහෝ විට සමමිතිකව බෙදා හරින ලද අවශේෂ ලබා ගැනීමට එය ප්‍රමාණවත් වේ. (ප්‍රායෝගිකව, අවශේෂයන් දැඩි ලෙස බෙදා හැරීම් වලට නැඹුරු වන අතර, අර්ධ වශයෙන් මා සැක කරන තක්සේරුකරණයේ පුරාවස්තුවක් වන අතර, එම නිසා යමෙකු දත්ත නැවත ප්‍රකාශ කරන්නේ කෙසේ වෙතත් “සැලකිය යුතු” සාමාන්‍ය නොවන බව පරීක්ෂා කරනු ඇත.)
වයිබර්

එකඟ විය. "වඩාත් සාමාන්‍ය වන්න" යනුවෙන් මා සඳහන් කළේ එබැවිනි. පරීක්ෂණයෙහි p අගය මත පදනම්ව පිළිගැනීමක් / ප්‍රතික්ෂේප කිරීමක් වෙනුවට වෙනස්කම් සඳහා පරීක්ෂණ සංඛ්‍යාලේඛන ඇස යොමු කිරීම අරමුණ විය යුතුය.
russellpierce

යමෙක් සෑම විටම වෙනත් පිළිතුරු සුදුසු යැයි සඳහන් කළ යුතුය!
abalter

@ බෝල්ටර්? මම අනුගමනය කරන්නේ නැහැ.
රුසෙල්පියර්ස්
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.