ශුන්‍ය ඇතුළු negative ණ නොවන දත්ත පරිවර්තනය කරන්නේ කෙසේද?


191

මා සතුව ධනාත්මක දත්ත තිබේ නම් මම බොහෝ විට ල .ු-සටහන් ගන්නෙමි. නමුත් ශුන්‍යයන් ඇතුළත් වන නොගැලපෙන negative ණාත්මක නොවන දත්ත සමඟ මා කුමක් කළ යුතුද? භාවිතා කරන ලද පරිවර්තනයන් දෙකක් මම දැක ඇත්තෙමි:

  • log(x+1)0 එය 0 සිට 0 දක්වා සිතියම් ගත කරන පිළිවෙලක් ඇත.
  • log(x+c) ඇස්තමේන්තු කර ඇති හෝ ඉතා කුඩා ධනාත්මක අගයක් ලෙස සකසා ඇත.

වෙනත් ප්‍රවේශයන් තිබේද? එක් ප්‍රවේශයක් අනෙක් ඒවාට වඩා කැමති වීමට හොඳ හේතු තිබේද?


19
මම පිළිතුරු ප්ලස් වෙනත් කරුණු කිහිපයක් සාරාංශ තියෙනවා robjhyndman.com/researchtips/transformations
රොබ් Hyndman

5
stat.stackoverflow පරිවර්තනය කිරීමට සහ ප්‍රවර්ධනය කිරීමට විශිෂ්ට ක්‍රමයක්!
රොබින් ජිරාඩ්

ඔව්, මම එකඟයි @robingirard (රොබ්ගේ බ්ලොග් සටහන නිසා මම දැන් මෙහි පැමිණියෙමි)!
එලී කෙසල්මන්

1
වම් වාරණය කරන ලද දත්ත සඳහා යෙදුමක් සඳහා stats.stackexchange.com/questions/39042/… ද බලන්න (එය වර්තමාන ප්‍රශ්නයේ දී මෙන් හරියටම ස්ථාන මාරුව දක්වා සංලක්ෂිත කළ හැකිය).
whuber

2
පරිණාමනය කිරීමේ පරමාර්ථය මුලින් සඳහන් නොකර පරිවර්තනය කරන්නේ කෙසේදැයි විමසීම අමුතු දෙයක් ලෙස පෙනේ. තත්වය කුමක්ද? පරිණාමනය අවශ්‍ය වන්නේ ඇයි? ඔබ සාක්ෂාත් කර ගැනීමට උත්සාහ කරන්නේ කුමක්දැයි අපි නොදන්නේ නම්, යමෙකු සාධාරණ ලෙස යමක් යෝජනා කරන්නේ කෙසේද? (පැහැදිලි නිශ්චිත බිංදු ක (ශූන්ය නොවන) සම්භාවිතාව පැවැත්ම ශුන්ය දී බෙදා හැරීමේ දී වුවත් එයින් ගම්ය නිසා එක් සාමාන්ය තත්වයට කිරීමට පරිවර්තනය කිරීමට ඔවුහු බලාපොරොත්තු වෙති නොහැකි, කිසිදු පරිවර්තනය නගිද්දී විසින් ඉවත් කරනු ඇත - එය පමණක්, එය වටා ගමන් කළ හැක.)
Glen_b -Reinstate Monica

Answers:


55

පරිවර්තනයේ වඩාත් සුදුසු තේරීම ආකෘතිය හා සන්දර්භය මත අඛණ්ඩව පවතින බව මට පෙනේ.

'0' ලක්ෂ්‍යය විවිධ හේතු කිහිපයකින් පැන නැගිය හැකි අතර ඒ සෑම එකක්ම වෙනස් ලෙස සැලකිය යුතුය.

  • කප්පාදු කිරීම (රොබින්ගේ උදාහරණයේ දී මෙන්): සුදුසු ආකෘති භාවිතා කරන්න (උදා: මිශ්‍රණ, පැවැත්මේ ආකෘති ආදිය)
  • අස්ථානගත වූ දත්ත: සුදුසු නම් දත්ත පැටවීම / නිරීක්ෂණ අතහරින්න.
  • ස්වාභාවික ශුන්‍ය ලක්ෂ්‍යය (උදා: ආදායම් මට්ටම්; රැකියා විරහිත පුද්ගලයෙකුට ශුන්‍ය ආදායමක් ඇත): අවශ්‍ය පරිදි පරිවර්තනය කරන්න
  • මිනුම් උපකරණයේ සංවේදීතාව: සමහර විට, දත්ත වලට සුළු ප්‍රමාණයක් එකතු කළ හැකිද?

ඔබට ශුන්‍යයන් ඇති විට විශ්වීය, නිවැරදි පරිවර්තනයක් නොමැති බවට මා සැක කරන බැවින් මම ඇත්ත වශයෙන්ම පිළිතුරක් ඉදිරිපත් නොකරමි.


7
මගේ ප්‍රශ්නයට සෑම පිළිතුරක්ම ප්‍රයෝජනවත් තොරතුරු සපයා ඇති අතර මම ඒවා සියල්ලම ඉහළට ඡන්දය ප්‍රකාශ කර ඇත්තෙමි. නමුත් මට තෝරා ගත හැක්කේ එක් පිළිතුරක් පමණක් වන අතර ශ්‍රීකාන්ත්ගේ හොඳම දළ විශ්ලේෂණය IMO සපයයි.
රොබ් හින්ඩ්මන්

2
ශුන්‍ය-උද්ධෘත ආකෘති (අමතර ශුන්‍යයන් සහ ඔබ සමහර ශුන්‍යයන් ගැන සැලකිලිමත් වේ: මිශ්‍රණ ආකෘතියක්), සහ කඩුලු ආකෘති (ශුන්‍ය හා ඔබ ශුන්‍ය නොවන අය ගැන සැලකිලිමත් වේ: ආරම්භක වාරණය කරන ලද ආකෘතියක් සහිත අදියර දෙකක ආකෘතියක්) ඇති බව සලකන්න.
වේන්

84

ප්‍රතිලෝම හයිපර්බලික් සයින් පරිණාමනය කිසිවෙකු සඳහන් කළේ නැත. එබැවින් සම්පූර්ණත්වය සඳහා මම එය මෙහි එක් කරමි.

මෙම කොටුව-කොක්ස් පරිවර්තනයන් විකල්පයක් වන අතර, විසින් අර්ථ එහිදී θ > 0 . Of හි ඕනෑම අගයක් සඳහා , ශුන්‍ය සිතියම් බිංදුවට. පරාමිති දෙකක ක්‍රි.පූ පරිවර්තනයට සමානව මාරුවීමට ඉඩ දෙන පරාමිති දෙකක අනුවාදයක් ද ඇත.

f(y,θ)=sinh1(θy)/θ=log[θy+(θ2y2+1)1/2]/θ,
θ>0θBurbidge, Magee හා Robb (1988) ඇස්තමේන්තු ඇතුළු IHS පරිවර්තනය සාකච්ඡා .θ

අයිඑච්එස් පරිණාමනය negative ණාත්මක අගයන් සහ ශුන්‍යයන් ඇතුළුව සමස්ත තාත්වික රේඛාවේ අර්ථ දක්වා ඇති දත්ත සමඟ ක්‍රියා කරයි. විශාල වටිනාකම් සඳහා එය නොතකා වටිනාකම, ලඝු-සටහන් පරිවර්තනය ලෙස හැසිරේ θ (0 හැර). ලෙස සීමා නඩුව θ 0 දෙන f ( y , θ ) y .yθθ0f(y,θ)y

අයිඑච්එස් පරිණාමනය වඩා හොඳින් දැන සිටිය යුතු බව මට පෙනේ.


1
tanh

1
අයිඑච්එස් ගැන සමහරු එකඟ නොවන බව පෙනේ: onlinelibrary.wiley.com/doi/10.1890/10-0340.1/abstract
kjetil b halvorsen

3
එම පත්‍රය ප්‍රතිලෝම සයින් පරිණාමනය ගැන මිස ප්‍රතිලෝම හයිපර්බලික් සයින් ගැන නොවේ.
බ්‍රයන්

43

ප්‍රතිගාමීතාවයේ ස්වාධීන සාධකයක් ලෙස විචල්‍යය භාවිතා කරන විට ප්‍රයෝජනවත් ප්‍රවේශයක් නම් එය විචල්‍යයන් දෙකකින් ප්‍රතිස්ථාපනය කිරීමයි: එකක් එය ශුන්‍යද යන්න පිළිබඳ ද්විමය දර්ශකයකි, අනෙක මුල් විචල්‍යයේ වටිනාකම හෝ එහි ප්‍රති-ප්‍රකාශනය, එහි ල ar ු ගණකය වැනි. මෙම තාක්ෂණය ලොස්ටික් රෙග්‍රේෂන් පිළිබඳ හොස්මේර් සහ ලෙමෙෂෝගේ පොතේ සාකච්ඡා කර ඇත (සහ වෙනත් ස්ථානවල මට විශ්වාසයි). සුදුසු ප්‍රති ප්‍රකාශනයක් හඳුනා ගැනීම සඳහා මුල් විචල්‍යයේ ධනාත්මක කොටසෙහි කප්පාදු කළ සම්භාවිතා බිම් ප්‍රයෝජනවත් වේ. ( උදාහරණ සඳහා https://stats.stackexchange.com/a/30749/919 හි විශ්ලේෂණය බලන්න .)

රේඛීය ආකෘතියක විචල්‍යය රඳා පවතින විට, වාරණය කරන ලද ප්‍රතිගාමීත්වය ( ටොබිට් වැනි ) ප්‍රයෝජනවත් විය හැකි අතර, ආරම්භක ල ar ු ගණකයක් නිපදවීමේ අවශ්‍යතාවය යළිත් මග හැරේ. මෙම තාක්ෂණය පරිසරමිතිකයන් අතර පොදු වේ.


1
ශුන්‍ය-උද්ධමනය වූ පොයිසන් ලෙස දත්ත ආකෘතිකරණය මෙම ප්‍රවේශයේ විශේෂ අවස්ථාවක් ද?
ඩේවිඩ් ලෙබවර්

4
Av ඩේවිඩ්, එය සමාන යැයි පෙනුනද, එසේ නොවේ, මන්ද ZIP යනු යැපෙන විචල්‍යයේ ආකෘතියක් මිස ස්වාධීන විචල්‍යය නොවේ.
whuber

1
hwhuber මෙම තාක්ෂණය හොස්මේර් සහ ලෙමෙෂෝගේ ලොජිස්ටික් රෙග්‍රේෂන් පොතේ සාකච්ඡා කර ඇත. ඔවුන් මෙම තාක්ෂණය ගැන සාකච්ඡා කරන්නේ කුමන පරිච්ඡේදයේදැයි ඔබට දැනගත හැකිද? මම ඔවුන්ගේ පොත දෙස
බලමි

1
@landroni H&L එකල මගේ මනසෙහි නැවුම් විය, එබැවින් මෙම මාතෘකාවට අදාළ යමක් එම පොතේ ඇති බව මට විශ්වාසයි . (ඉතා විශාල ප්‍රතිගාමී ආකෘතීන් සංවර්ධනය කිරීම සඳහා මම ඒ සමඟ සාකච්ඡා කර ඇති අතර බොහෝ ස්වාධීන විචල්‍යයන්ට මේ ආකාරයෙන් ප්‍රතිකාර කළ යුතුව තිබුණි.) කෙසේ වෙතත්, මේ අවස්ථාවේ දී මට සඳහන සොයාගත නොහැක. ඔබ විස්තර සොයන්නේ නම් මම මෙම තාක්ෂණය ගැන පසු ලිපිවල ලියා ඇත. අඩවි සෙවුමක පෙන්වන දෙකක් stats.stackexchange.com/questions/6563 සහ stats.stackexchange.com/questions/4831 .
whuber

1
@landroni ඔව්, ඕනෑම ද්විමය විචල්‍යයක සංඛ්‍යාත්මක කේතීකරණ සමාන වන ආකාරයටම ඒවා සමාන වේ. ඔබට අර්ථ නිරූපණය කිරීමට වඩාත් පහසු යැයි පෙනෙන ඕනෑම එකක් තෝරන්න.
whuber

38

මාරුවීම් සමඟ ලොග් පරිණාමනය බොක්ස්-කොක්ස් පරිණාමනයේ විශේෂ අවස්ථා වේ :

y(λ1,λ2)={(y+λ2)λ11λ1when λ10log(y+λ2)when λ1=0

λ

λ

λ=(0,1)λ

R හි, boxcox.fitපැකේජයේ ශ්‍රිතය geoRඔබ සඳහා පරාමිතීන් ගණනය කරනු ඇත.


boxcoxλ1λ2=0

1
@ රොබ්: ඔහ්, සමාවෙන්න. ඩිග්ල්ගේ භූගෝලය යනු යා යුතු මාර්ගයයි - නමුත් lambda2=TRUEතර්ක වල සඳහන් කරන්න boxcox.fit. (පිළිතුර ද යාවත්කාලීන කරන ලදි.)
ars

7
මෙය කියවන ඕනෑම කෙනෙකුට මෙම ශ්‍රිතයට සිදු වූයේ කුමක්ද යන්න ගැන පුදුම වේ, එය දැන් හැඳින්වේ boxcoxfit.
stragu

19

මම සිතන්නේ එම ශුන්‍යය! = නැතිවූ දත්ත, එය සම්පූර්ණයෙන්ම වෙනස් ප්‍රශ්නයකි.

බහු රේඛීය ප්‍රතිගාමීතාවයකින් ශුන්‍යයන් හැසිරවිය යුතු ආකාරය ගැන සිතන විට, ඇත්ත වශයෙන්ම අපට ශුන්‍ය කීයක් තිබේද?

ශුන්‍ය කිහිපයක් පමණි

සාධාරණ දත්ත කට්ටලයක් තුළ මට තනි ශුන්‍යයක් තිබේ නම්, මම නැඹුරු වන්නේ:

  1. කාරණය ඉවත් කරන්න, ල logs ු-සටහන් ගෙන ආකෘතියට ගැලපෙන්න
  2. c

c

ඔබට මෙම ක්‍රියා පටිපාටිය මඳක් අඩු ගොරෝසු බවට පත් කළ හැකි අතර, බොක්ස්කොක්ස් ක්‍රමය භාවිතා කර මාර්‍ගයේ පිළිතුරෙහි විස්තර කර ඇත.

ශුන්‍ය විශාල සංඛ්‍යාවක්

මගේ දත්ත කට්ටලය තුළ ශුන්‍ය විශාල සංඛ්‍යාවක් අඩංගු වේ නම්, මෙයින් ඇඟවෙන්නේ සරල රේඛීය ප්‍රතිවර්තනය කාර්යය සඳහා හොඳම මෙවලම නොවන බවයි. ඒ වෙනුවට මම මිශ්‍රණ ආකෘති නිර්මාණය වැනි දෙයක් භාවිතා කරමි (ශ්‍රීකාන්ත් සහ රොබින් යෝජනා කළ පරිදි).


15

ඔබට ඉක්මන් හා අපිරිසිදු යමක් අවශ්‍ය නම් වර්ග මූල භාවිතා නොකරන්නේ ඇයි?


8
නිතරම කියුබ් මූල පරිණාමනය හොඳින් ක්‍රියාත්මක වන අතර ශුන්‍ය හා නිෂේධනීය දේවලට ඉඩ ලබා දේ. නිදසුනක් ලෙස, මිනුම් යනු පරිමාවක් හෝ ඒකක පරිමාවකට අංශු ගණනය කිරීමක් වන විට විශේෂයෙන් හොඳින් ක්‍රියා කිරීමට මම කියුබ් මූල සොයාගෙන ඇත. කියුබ් මූල එය රේඛීය මානයකට පරිවර්තනය කරයි. වඩාත් නම්‍යශීලී ප්‍රවේශයක් නම්, ube නක මූලයේ හෝ වර්ග මූලයේ සීමිත cub න ස්ප්ලයින් (ස්වාභාවික ස්ප්ලයින්) සවිකිරීම, උපකල්පිත ආකෘතියෙන් මඳක් ඉවත්ව යාමට ඉඩ සලසයි.
ෆ්‍රෑන්ක් හැරල්

2
+1. කියුබ් මූලයන් පිළිබඳ කුඩා ලිපියක් සඳහා, stata-journal.com/article.html?article=st0223 බලන්න (මෙය 2014 පළමු කාර්තුවේ සිට නොමිලේ .pdf එකක් වනු ඇත.)
නික් කොක්ස්

2
ශුන්‍යයේ වර්ග මූලයක් ශුන්‍ය වේ, එබැවින් ශුන්‍ය නොවන අගයන් පමණක් පරිවර්තනය වේ. ශුන්‍යය උද්ධමනය වී ඇත්නම්, ස්පයික් සමඟ කටයුතු කිරීමට මෙය කිසිවක් නොකරන අතර, කණ්ඩායම් වශයෙන්, එක් එක් වෙනස් ශුන්‍ය ප්‍රමාණයක් තිබේ නම් බරපතල ගැටළු ඇති කළ හැකිය. වෙනත් වචන වලින් කිවහොත්, සමහර කණ්ඩායම්වල බොහෝ ශුන්‍යයන් ඇති අතර අනෙක් ඒවාට ස්වල්පයක් තිබේ නම්, මෙම පරිවර්තනය බොහෝ දේට negative ණාත්මක ලෙස බලපායි. විශාලතම විචල්‍යතාවයෙන් යුත් කණ්ඩායම සඳහා (අවම ශුන්‍යයන් ද ඇත), සියලු අගයන් පාහේ පරිවර්තනය වෙමින් පවතී. ඊට වෙනස්ව, වඩාත්ම ශුන්‍යයන් ඇති අය, බොහෝ අගයන් පරිණාමනය නොවේ. විශාලතම විචල්‍යතාව ඇති කණ්ඩායම මෙය වෙනස් කළ හැකිය.
ඩී_විලියම්ස්

1
TransforD_Williams විසින් විස්තර කරන ලද නඩුවේ විචල්‍යතාවය කිසිදු පරිවර්තනයක් පවත්වා නොගනී. මිශ්‍රණ ආකෘති (මෙම ත්‍රෙඩ් එකේ වෙනත් තැනක සඳහන් කර ඇත) බොහෝ විට එම අවස්ථාවේ දී හොඳ ප්‍රවේශයක් වනු ඇත.
mkt - මොනිකා නැවත ස්ථාපනය කරන්න

10

මම හිතන්නේ ඔබට අඛණ්ඩ දත්ත තිබේ.

දත්තවල ශුන්‍යයන් ඇතුළත් නම් මෙයින් අදහස් කරන්නේ ඔබට ශුන්‍යය මත ස්පයික් ඇති බවත් එය ඔබේ දත්තවල යම් විශේෂිත අංගයක් නිසා විය හැකි බවත්ය. එය සුළං බලශක්තිය සඳහා නිදසුනක් ලෙස පෙනේ, 2 m / s ට අඩු සුළඟ ශුන්‍ය බලයක් නිපදවයි (එය කැපුම් ලෙස හැඳින්වේ) සහ සුළං උඩින් (අවට යමක්) 25 m / s ද ශුන්‍ය බලයක් නිපදවයි (ආරක්ෂක හේතුව නිසා එය කපා හැරීම ලෙස හැඳින්වේ) . නිපදවන සුළං බලශක්තිය අඛණ්ඩව ව්‍යාප්ත වන බවක් පෙනෙන්නට තිබුණද ශුන්‍යයේ ඉහළ යාමක් දක්නට ලැබේ.

මගේ විසඳුම: මෙම අවස්ථාවේ දී, ශුන්‍යයේ ස්පයික් මිශ්‍රණයක් හා අඛණ්ඩව බෙදා හැරීමේ කොටස සඳහා ඔබ භාවිතා කිරීමට සැලසුම් කළ ආකෘතිය සමඟ වැඩ කිරීමෙන් ශුන්‍යයට වෙන වෙනම ප්‍රතිකාර කිරීමට මම යෝජනා කරමි (wrt Lebesgue).


9

@RobHyndman විසින් සපයන ලද පිළිතුර ලොග්-ප්ලස්-වන් පරිවර්තනයකට the ණ අගයන් දක්වා විස්තාරණය කිරීම:

T(x)=sign(x)log(|x|+1)
r = -1000:1000

l = sign(r)*log1p(abs(r))
l = l/max(l)
plot(r, l, type = "l", xlab = "Original", ylab = "Transformed", col = adjustcolor("red", alpha = 0.5), lwd = 3)

#We scale both to fit (-1,1)
for(i in exp(seq(-10, 100, 10))){
  s = asinh(i*r)

  s = s / max(s)
  lines(r, s, col = adjustcolor("blue", alpha = 0.2), lwd = 3)
}
legend("topleft", c("asinh(x)", "sign(x) log(abs(x)+1)"), col = c("blue", "red"), lty = 1)

θθ1θ0

රූප විස්තරය මෙහි ඇතුළත් කරන්න


θx=0


8

පරාමිති දෙකේ ගැළපුම බොක්ස්-කොක්ස් යෝජනා කර ඇති බැවින්, ආදාන දත්ත වලට සරිලන සේ R, අත්තනෝමතික ශ්‍රිතයක් ක්‍රියාත්මක කරන්න (උදා: කාල ශ්‍රේණි පුරෝකථනය), ඉන්පසු ප්‍රතිලෝම ප්‍රතිදානය ආපසු එවන්න:

# Two-parameter Box-Cox function
boxcox.f <- function(x, lambda1, lambda2) {
  if (lambda1!=0) {
    return(((x + lambda2) ^ lambda1 - 1) / lambda1)
  } else {
    return(log(x + lambda2))
  }
}

# Two-parameter inverse Box-Cox function
boxcox.inv <- function(x, lambda1, lambda2) {
  if (lambda1!=0) {
    return((lambda1 * x + 1) ^ (1 / lambda1) - lambda2)
  } else {
    return(exp(x) - lambda2)
  }
}

# Function to Box-Cox transform x, apply function g, 
# and return inverted Box-Cox output y
boxcox.fit.apply <- function(x, g) {
  require(geoR)
  require(plyr)

  # Fit lambdas
  t <- try(lambda.pair <- boxcoxfit(x, lambda2=T)$lambda)

  # Estimating both lambdas sometimes fails; if so, estimate lambda1 only
  if (inherits(t, "try-error")) {
    lambda1 <- boxcoxfit(x)$lambda
    lambda2 <- 0
  } else {
    lambda1 <- lambda.pair[1]
    lambda2 <- lambda.pair[2]
  }
  x.boxcox <- boxcox.f(x, lambda1, lambda2)

  # Apply function g to x.boxcox. This should return data similar to x (e.g. ts)
  y <- aaply(x.boxcox, 1, g)

  return(boxcox.inv(y, lambda1, lambda2))
}

6

මෙම Yeo-ජොන්සන් බලය පරිවර්තනය සාකච්ඡා මෙතන පිටුවේ කොටුව කොක්ස් බලය පරිවර්තනය ශක්තීන් මත ගොඩනැගීම අතර හසුරුව බිංදු සහ සෘණ නිර්මාණය විශිෂ්ට ගුණ ඇත. මම සාමාන්‍යයෙන් ශුන්‍ය හෝ negative ණ දත්ත සමඟ කටයුතු කරන විට යන්නේ මෙයයි.

යෙයෝ-ජොන්සන් වඩාත් සුදුසු වන්නේ ඇයිද යන්න නිදර්ශනය කිරීම සඳහා වාසි / අවාසි සහිත පරිවර්තනයන්ගේ සාරාංශයක් මෙන්න.

ලඝු

වාසි: ධනාත්මක දත්ත සමඟ හොඳින් කටයුතු කරයි.

අවාසි: ශුන්‍ය හැසිරවිය නොහැක.

> log(0)
[1] -Inf

ප්ලස් 1 ලොග් කරන්න

වාසි: ප්ලස් 1 ඕෆ්සෙට් මඟින් ධනාත්මක දත්ත වලට අමතරව ශුන්‍යයන් හැසිරවීමේ හැකියාව එක් කරයි.

අවාසි: negative ණ දත්ත සමඟ අසමත් වේ

> log1p(-1)
[1] -Inf
> log1p(-2)
[1] NaN
Warning message:
In log1p(-2) : NaNs produced

වර්ගමුලය

වාසි: ශුන්‍ය හා ධනාත්මක දත්ත හැසිරවිය හැකි බල පරිවර්තනයක් භාවිතා කරයි.

අවාසි: negative ණ දත්ත සමඟ අසමත් වේ

> sqrt(-1)
[1] NaN
Warning message:
In sqrt(-1) : NaNs produced

කොටුව කොක්ස්

R කේතය:

box_cox <- function(x, lambda) {

    eps <- 0.00001
    if (abs(lambda) < eps)
        log(x)
    else
        (x ^ lambda - 1) / lambda

}

වාසි: පරිමාණ බල පරිවර්තනයන් සක්‍රීය කරයි

අවාසි: ශුන්‍ය හා නිෂේධනීය ගැටළු වලින් පීඩා විඳිති (එනම් ධනාත්මක දත්ත පමණක් හැසිරවිය හැකිය.

> box_cox(0, lambda = 0)
[1] -Inf
> box_cox(0, lambda = -0.5)
[1] -Inf
> box_cox(-1, lambda = 0.5)
[1] NaN

යෙයෝ ජොන්සන්

R කේතය:

yeo_johnson <- function(x, lambda) {

    eps <- .000001
    not_neg <- which(x >= 0)
    is_neg  <- which(x < 0)

    not_neg_trans <- function(x, lambda) {
        if (abs(lambda) < eps) log(x + 1)
        else ((x + 1) ^ lambda - 1) / lambda
    }

    neg_trans <- function(x, lambda) {
        if (abs(lambda - 2) < eps) - log(-x + 1)
        else - ((-x + 1) ^ (2 - lambda) - 1) / (2 - lambda)
    }

    x[not_neg] <- not_neg_trans(x[not_neg], lambda)

    x[is_neg] <- neg_trans(x[is_neg], lambda)

    return(x)

}

වාසි: ධනාත්මක, ශුන්‍ය හා negative ණාත්මක දත්ත හැසිරවිය හැකිය.

අවාසි: මට සිතිය හැකි කිසිවක් නැත. ගුණාංග බොක්ස්-කොක්ස් වලට බෙහෙවින් සමාන නමුත් ශුන්‍ය හා negative ණාත්මක දත්ත හැසිරවිය හැකිය.

> yeo_johnson(0, lambda = 0)
[1] 0
> yeo_johnson(0, lambda = -0.5)
[1] 0
> yeo_johnson(-1, lambda = 0.5)
[1] -1.218951

2
යෙයෝ-ජොන්සන් සඳහා අවාසි: ධනාත්මක සහ නිෂේධන සඳහා සංකීර්ණ, වෙනම පරිවර්තනයක් සහ ලැම්බඩා දෙපස ඇති අගයන් සඳහා, ඉන්ද්‍රජාලික සුසර කිරීමේ අගය (එප්සිලෝන්; සහ ලැම්බඩා යනු කුමක්ද?). ඔබට පරිමාණ බල පරිණාමනයක් අවශ්‍ය නොවන්නේ නම් (බොක්ස්-කොක්ස් හි මෙන්) ෆයර්බග්ගේ පිළිතුරෙහි පෙන්වා ඇති සරල negative ණ-විස්තාරණ ලොග් පරිණාමනය හා සසඳන විට පහසුවෙන් පෙනෙන වාසියක් නොමැත.
කොන්රාඩ් රුඩොල්ෆ්

5

Y යනු සෑම ඇමරිකානුවෙක්ම එක් වර්ෂයකදී නව මෝටර් රථයක් සඳහා වැය කරන මුදල යැයි සිතමු (මුළු මිලදී ගැනීමේ මිල). Y 0 දී ස්පයික් වනු ඇත; 0 සහ 12,000 අතර කිසිදු අගයක් නොමැත; වෙනත් අගයන් බොහෝ දුරට නව යොවුන් වියේ, විසි ගණන්වල සහ තිස් ගණන්වල ගනී. අනාවැකි කියන්නන් එවැනි අවශ්‍යතාවයක් සහ / හෝ එවැනි මිලදී ගැනීමක් කිරීමට උනන්දුවක් දක්වන අය වේ. මිලදී ගැනීමක් නොකළ පුද්ගලයන්ගේ අවශ්‍යතාවය හෝ උනන්දුව බිංදුවක් යැයි කිව නොහැකිය. මෙම පරිමාණයන්හි ගැනුම්කරුවන් නොවන අය Y ට වඩා ගැනුම්කරුවන්ට වඩා සමීප වනු ඇත හෝ Y හි ලොගය පවා යෝජනා කරයි. මේ හා සමාන නඩුවකදී නමුත් සෞඛ්‍ය රැකවරණයේදී, පරීක්ෂණ කට්ටල / පුහුණු-කට්ටල හරස් වලංගුකරණය මගින් විනිශ්චය කරන ලද වඩාත් නිවැරදි අනාවැකි ලබාගෙන ඇත්තේ අනුපිළිවෙලින්,

  1. Y හි ද්විමය අනුවාදයක ලොජිස්ටික් රෙග්‍රේෂන්,
  2. Y මත OLS,
  3. Y හි සාමාන්‍ය ප්‍රතිගාමීත්වය (PLUM) කාණ්ඩ 5 කට බෙදා ඇත (ගැනුම්කරුවන් සමාන ප්‍රමාණයේ කණ්ඩායම් 4 කට බෙදීමට),
  4. Y මත බහුකාර්ය ලොජිස්ටික් ප්‍රතිගාමීත්වය කාණ්ඩ 5 කට බෙදා ඇත,
  5. Y හි ලොග් (10) හි OLS (මම root න මූල උත්සාහ කිරීමට සිතුවේ නැත), සහ
  6. Y හි OLS කාණ්ඩ 5 කට බෙදා ඇත.

අඛණ්ඩ පරායත්ත විචල්‍යයක මෙම වර්ගීකරණයෙන් සමහරු පසුබසිනු ඇත. නමුත් එය යම් තොරතුරක් පරිත්‍යාග කළද, වර්ගීකරණය කිරීම තත්වයේ වැදගත් අංගයක් යථා තත්වයට පත් කිරීමෙන් උපකාරී වන බව පෙනේ - නැවතත්, “ශුන්‍යයන්” Y ට වඩා අනෙක් ඒවාට වඩා බොහෝ සෙයින් සමාන බව.


4
ඔබට එය මාදිලි දෙකකට බෙදිය හැකිය: මෝටර් රථයක් මිලදී ගැනීමේ සම්භාවිතාව (ද්විමය ප්‍රතිචාරය) සහ මිලදී ගැනීමක් ලබා දුන් මෝටර් රථයේ වටිනාකම. බොහෝ ක්ෂේත්‍රවල සම්මත පුහුණුව මෙයයි, උදා: රක්ෂණය, ණය අවදානම යනාදිය
හොං ඕයි

1
Ong හොන්ග්ඕයි - මෙම ප්‍රවේශය අදාළ නොවන විට හා අදාළ නොවන විට ඔබට කියවීම් යෝජනා කළ හැකිද?
rolando2

1

ප්‍රතිගාමී ආකෘතිවල ශුන්‍ය ලොගය සමඟ කටයුතු කරන්නේ කෙසේද යන්න පැහැදිලි කිරීම සඳහා, අපි හොඳම විසඳුම සහ මිනිසුන් ප්‍රායෝගිකව කරන පොදු වැරදි පැහැදිලි කරමින් අධ්‍යාපනික පත්‍රිකාවක් ලියා ඇත. මෙම ගැටළුව විසඳීම සඳහා අපි නව විසඳුමක් ද ඉදිරිපත් කළෙමු.

මෙහි ක්ලික් කිරීමෙන් ඔබට කඩදාසි සොයාගත හැකිය: https://ssrn.com/abstract=3444996

log(y)=βlog(x)+εβyx

YY+c>0

අපගේ ලිපියෙන් අපි සැබවින්ම උදාහරණයක් සපයන්නේ ඉතා කුඩා නියතයන් එකතු කිරීම ඇත්ත වශයෙන්ම ඉහළම නැඹුරුව සපයන බවයි. අපි පක්ෂග්‍රාහී ප්‍රකාශනයක් ලබා ගනිමු.

ඇත්ත වශයෙන්ම, පොයිසන් ව්‍යාජ උපරිම සම්භාවිතාව (පීපීඑම්එල්) මෙම ගැටලුවට හොඳ විසඳුමක් ලෙස සැලකිය හැකිය. යමෙකු පහත සඳහන් ක්‍රියාවලිය සලකා බැලිය යුතුය.

yi=aiexp(α+xiβ)E(ai|xi)=1

βaiyi=0E(ai|xi)=1E(yiexp(α+xiβ)|xi)=0

i=1N(yiexp(α+xiβ))xi=0

yi=0

β

log(yi+exp(α+xiβ))=xiβ+ηi

මෙම ඇස්තමේන්තුව අපක්ෂපාතී බවත් එය ඕනෑම සම්මත සංඛ්‍යානමය මෘදුකාංගයක් සමඟ GMM සමඟ තක්සේරු කළ හැකි බවත් අපි පෙන්වමු. උදාහරණයක් ලෙස, ස්ටේටා සමඟ එක් කේත පේළියක් පමණක් ක්‍රියාත්මක කිරීමෙන් එය තක්සේරු කළ හැකිය.

මෙම ලිපියට උදව් විය හැකි යැයි අපි බලාපොරොත්තු වන අතර ඔබෙන් ප්‍රතිපෝෂණ ලබා ගැනීමට අපි කැමතියි.

ක්‍රිස්ටෝෆ් බෙලිගෝ සහ ලුවී-ඩැනියෙල් පේප් CREST - ඉකෝල් පොලිටෙක්නික් - එන්එස්ඒඊ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.