R හි lm () නිමැවුමේ අර්ථ නිරූපණය


252

R හි ඇති උපකාරක පිටු එම සංඛ්‍යා වල තේරුම මා දන්නා බව උපකල්පනය කරයි, නමුත් මම එසේ නොකරමි. මම උත්සාහ කරන්නේ මෙහි ඇති සෑම අංකයක්ම අවබෝධයෙන් යුතුව තේරුම් ගැනීමටයි. මම ප්‍රතිදානය පළ කර මා සොයාගත් දේ ගැන අදහස් දක්වන්නෙමි. මම උපකල්පනය කරන දේ මම ලියන බැවින් (වැරදි) වැරදි සිදුවිය හැකිය. ප්‍රධාන වශයෙන් මම දැන ගැනීමට කැමතියි සංගුණකවල ටී අගය යනු කුමක්ද සහ ඒවා අවශේෂ සම්මත දෝෂය මුද්‍රණය කරන්නේ ඇයි.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

මෙය අවශේෂයන්ගේ කරුණු 5 ක සාරාංශයකි (ඒවායේ මධ්‍යන්‍යය සැමවිටම 0 වේ, හරිද?). විශාල පිටස්තරයින් සිටී දැයි ඉක්මනින් බැලීමට සංඛ්‍යා භාවිතා කළ හැකිය (මම මෙහි අනුමාන කරමි). අවශේෂ සාමාන්‍යයෙන් බෙදා හැරීමට වඩා දුරින් තිබේ නම් ඔබට ඒවා දැනටමත් මෙහි දැක ගත හැකිය (ඒවා සාමාන්‍යයෙන් බෙදා හැරිය යුතුය).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

ඇස්තමේන්තු , අවම වශයෙන් වර්ග මගින් ගණනය කෙරේ. එසේම, සම්මත දෝෂය වේ. මෙය ගණනය කරන්නේ කෙසේදැයි දැන ගැනීමට මා කැමතිය. ටී අගය සහ ඊට අනුරූප p අගය ලැබෙන්නේ කොහෙන්දැයි මට අදහසක් නැත. මම දන්නවා normal සාමාන්‍යයෙන් බෙදා හැරිය යුතුයි, නමුත් ටී අගය ගණනය කරන්නේ කෙසේද? σβi ββමම^σβමමβ^

Residual standard error: 0.407 on 148 degrees of freedom

1n-පිεටීε , මම හිතන්නේ. නමුත් අපි එය ගණනය කරන්නේ ඇයි, එය අපට පවසන්නේ කුමක්ද?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

n i = 1 ( ^ y i - ˉ y )2ආර්2=sy^2sy2 , එය . ලකුණු සරල රේඛාවක් මත පිහිටා තිබේ නම් අනුපාතය 1 ට ආසන්න වන අතර 0 අහඹු නම්. සකස් කළ R- වර්ග මොනවාද?Σමම=1n(yමම^-y¯)2Σමම=1n(yමම-y¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

පෙර මෙන් තනි සඳහා පමණක් නොව සමස්ත ආකෘතිය සඳහා එෆ් සහ පී . F අගය වේ. එය විශාල වන තරමට, ' ' කිසිසේත්ම බලපෑමක් ඇති නොකරයි.ඒක 2 yβමම βsy^2Σεමමβ


අවශේෂ සාමාන්‍ය තත්වයෙන් එතරම් නරක ලෙස වෙනස් නොවේ, ඔබ එසේ සිතන්නේ ඇයි?
නිකෝ

@nico: මම හිතන්නේ lex ඇලෙක්ස් හාඩ් කතා කළේ උපකල්පිත ලෙසයි. එනම් වරක් හැකි වීමද භෝග සාමාන්ය ආප නම් බලන්න පහ අංකය සාරාංශයක් භාවිතා
ගැවින් සිම්ප්සන්

Av ගේවින් සිම්සන්: ඔබ හරි, මම වාක්‍යය වැරදියට කියෙව්වා. මගේ පෙර අදහස නොසලකා හරින්න.
නිකෝ

9
සුළු විචක්ෂණභාවය: එම ප්‍රමාණ 5 මත පමණක් පදනම්ව සාමාන්‍යය හෝ සාමාන්‍ය නොවන බව ගැන ඔබට කිසිවක් පැවසිය නොහැක. එම සාරාංශය මත පදනම්ව ඔබට පැවසිය හැක්කේ ඇස්තමේන්තුගත අවශේෂ දළ වශයෙන් ශුන්‍යය වටා සමමිතිකද යන්නයි. ඇස්තමේන්තුගත අවශේෂ සම්මත දෝෂය මඟින් ඔබට වාර්තා කරන ලද ප්‍රමාණ ප්‍රමාණ බෙදිය හැකි අතර මෙම අගයන් එන් (0,1) හි ප්‍රමාණවලට සංසන්දනය කළ හැකිය, නමුත් QQ- බිම් කැබැල්ලක් දෙස බැලීම වඩා අර්ථවත් කරයි.
ෆේබියන්ස්

5
මෙහි එක් සටහනක්: ආදර්ශ නොවේ , ඒ වෙනුවට එය . පහත පිළිතුරෙහි නිවැරදිව විස්තර කර ඇත, නමුත් එය ප්‍රශ්නයේ වැරදි ලෙස අර්ථකථනය කර ඇති බව පැහැදිලිව සඳහන් නොකරයි, එබැවින් යමෙකු විෂමතාවය නොදකිනු ඇත. එස් එස් මීටර් o l / S එස් ආර් r o r එම් එස් මීටර් o l / එම් එස් ආර් r o r එෆ්එෆ්එස්එස්එම්o..l/එස්එස්rrorඑම්එස්එම්o..l/එම්එස්rrorඑෆ්
gung - මොනිකා නැවත

Answers:


212

කරුණු පහක සාරාංශය

ඔව්, අදහස වන්නේ බෙදාහැරීම පිළිබඳ ඉක්මන් සාරාංශයක් ලබා දීමයි. එය මධ්යන්යය පිළිබඳ දළ වශයෙන් සමමිතික විය යුතුය, මධ්යන්ය 0 ට ආසන්න විය යුතුය, 1Q සහ 3Q අගයන් දළ වශයෙන් සමාන අගයන් විය යුතුය.

සංගුණක සහ βමම^s

ආකෘතියේ සෑම සංගුණකයක්ම ගෝස්සියානු (සාමාන්‍ය) අහඹු විචල්‍යයකි. මෙම βමම^ බව සසම්භාවී විචල්යයක් බෙදාහැරීම අදහස් වන අතර තක්සේරු වන අතර, සම්මත දෝෂයක් බව බෙදාහැරීමේ විචලතාව වර්ග මූල වේ. එය වන අතර තක්සේරු දී අවිනිශ්චිත මිම්මකි βමම^ .

විකිපීඩියාවේ මේවා ගණනය කර ඇති ආකාරය (හොඳින් භාවිතා කරන ගණිතමය සූත්‍ර) ඔබට බලා ගත හැකිය . ඕනෑම ස්වයං-ගරු සංඛ්යාන වැඩසටහන බව සටහන නොවන ගණනය කිරීම සම්මත ගණිතමය සමීකරණ භාවිතා βමම^ පරිගණකයක් මත ඔවුන් කරන්නේ එම ගණනය දී නිරවද්යතාව විශාල පාඩුවක් විය හැක නිසා.

ටී සංඛ්‍යාන

මෙම ටී සංඛ්යා ලේඛන ඇස්තමේන්තු (වේ βමම^ ඔවුන්ගේ සම්මත දෝෂ (බෙදීම) σi^ උදා,) ti=βi^σi^ . modඔබේ Q ටසමාන වස්තුවක් ඔබ සතුව ඇතැයි උපකල්පනයකරන්න:

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

එවිට t අගයන් R වාර්තා ගණනය කරනු ලබන්නේ:

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

කොහෙද coef(mod)සිටින්නේ βi^ , සහ sqrt(diag(vcov(mod)))පරාමිතීන් (සම්මත දෝෂ වන ආදර්ශ පරාමිති, යන covariance න්යාසයක මෙම විකර්ණ මූලද්රව්ය වර්ග මුල් ලබා දෙන σi^ ).

P අගය යනු |t| සාක්ෂාත් කර ගැනීමේ සම්භාවිතාවයි t | වැනි විශාල හෝ නිරීක්ෂණය පරම ටී අගය වඩා විශාල ලෙස ශූන්ය කල්පිතය (නම් H0 ) සැබෑ වූ අතර, එහිදී H0 වේ βi=0 . ඒවා ගණනය කරනු ලබන්නේ ( tstatsඉහළ සිට භාවිතා කිරීම ):

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

ttttt

අවශේෂ සම්මත දෝෂයකි

σσσσ2

R2

R2

1(1R2)n1np1

R2R2R2R2R2

F

FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Fsummary(mod)Mean Sq3.7945/0.1656=22.91Fඑෆ්F=tPetal.Width2, p අගයයන් සමාන වන්නේ එබැවිනි. මෙම සමානතාව පවතින්නේ මෙම සරල අවස්ථාවෙහි පමණි.


5
Av ගේවින් (+1) හොඳ නිදර්ශන සමඟ විශිෂ්ට ප්‍රතිචාරයක්!
chl

2
හොද වැඩක්. ටී අගයන් ගණනය කිරීම සම්බන්ධයෙන් ඔබට පැහැදිලි කළ හැකි එක් දෙයක්: වර්ග (ඩයග් (vcov (මොඩ්)) ඇස්තමේන්තු වල SE නිෂ්පාදනය කරයි. ආකෘති සාරාංශයේ ප්‍රතිදානය වන එකම SEs මේවාය. T = ඇස්තමේන්තු කිරීම / තක්සේරු කිරීම යැයි පැවසීම පහසු සහ පැහැදිලි ය. ඒ අර්ථයෙන් ගත් කල එය වෙනත් ටී අගයකට වඩා වෙනස් නොවේ.
බ්‍රෙට්

2
එෆ්ටී2

2
Ay ජේ; ස්තූතියි. ඒ සමානකම ගැනත් සඳහන් කිරීමට මම සිතුවෙමි. එය ඕනෑවට වඩා විස්තරාත්මකද නැද්ද යන්න විශ්වාස නැද්ද? මම මේ ගැන යමක් මොහොතකින් දැන්වීමක් කරන්නම්.
ගේවින් සිම්සන්

2
"ගණනය කිරීම සඳහා සම්මත ගණිතමය සමීකරණ භාවිතා නොකරනු ඇත" ඔවුන් භාවිතා කරන්නේ කුමක්ද?
හෙලෝ වර්ල්ඩ්

1

රොනන් ඊස්රායෙල් සහ ඇඩ්‍රියන් රොස් (AQR) මෙම විෂය පිළිබඳව ඉතා හොඳ ලිපියක් ලිවීය: සාධක නිරාවරණ මැනීම: භාවිතයන් සහ අපයෝජනයන් .

සාරාංශගත කිරීම සඳහා (බලන්න: පි. 8),

  • ආර්2
  • ටී-සංඛ්‍යාලේඛන දෙකකට වඩා වැඩි වූ විට, බීටා ඇස්තමේන්තුව සංඛ්‍යාත්මකව ශුන්‍යයට වඩා වෙනස් බව අපට 95% විශ්වාසයකින් (හෝ 5% ක අවස්ථාවක් වැරදියි) කිව හැකිය. වෙනත් වචන වලින් කිවහොත්, කළඹකට සාධකයකට සැලකිය යුතු නිරාවරණයක් ඇති බව අපට පැවසිය හැකිය.

R හි lm()සාරාංශය p අගය ගණනය කරයි Pr(>|t|). P- අගය කුඩා වන තරමට වඩා වැදගත් සාධකය වේ. P-value = 0.05 යනු සාධාරණ එළිපත්තකි.


6
මෙම ලිපියේ ඇති වැරදි අර්ථකථන, "ටී-සංඛ්‍යාලේඛන දෙකට වඩා වැඩි වූ විට, බීටා ඇස්තමේන්තුව සංඛ්‍යාත්මකව ශුන්‍යයට වඩා වෙනස් යැයි අපට කිව හැකිය (5% ක අවස්ථාවක් අප වැරදියි)" [p. . 11], stats.stackexchange.com/questions/311763 සහ stats.stackexchange.com/questions/26450 හි සාකච්ඡා කෙරේ .
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.