පැහැදිලි කිරීමට සහ ප්‍රතිචාර දැක්වීමේ විචල්‍යයන් ප්‍රතිගාමී වීමට පෙර ස්වාධීනව වර්ග කළහොත් කුමක් සිදුවේද?


313

අපට දත්ත කට්ටලයක් ලකුණු සමඟ ඇතැයි . අපට රේඛීය ප්‍රතිගාමීතාවයක් සිදු කිරීමට අවශ්‍යය, නමුත් පළමුව අපි අගයන් සහ Y_i අගයන් එකිනෙකාගෙන් ස්වාධීනව වර්ග කර දත්ත කට්ටලයක් (X_i, Y_j) සාදන්නෙමු . නව දත්ත කට්ටලය පිළිබඳ ප්‍රතිගාමීත්වය පිළිබඳ අර්ථවත් අර්ථ නිරූපණයක් තිබේද? මෙයට නමක් තිබේද?(Xi,Yi)nXiYi(Xi,Yj)

මම හිතන්නේ මෙය මෝඩ ප්‍රශ්නයක් බැවින් සමාව ඉල්ලමි, මම විධිමත් ලෙස සංඛ්‍යාලේඛන පිළිබඳ පුහුණුවක් ලබා නැත. මගේ මතකයේ හැටියට මෙය අපගේ දත්ත මුළුමනින්ම විනාශ කරන අතර ප්‍රතිගාමී වීම අර්ථ විරහිත ය. නමුත් මගේ කළමණාකරු පවසන්නේ ඔහු මෙය කරන විට “බොහෝ විට වඩා හොඳ ප්‍රතිගාමීතා” ලබා ගන්නා බවයි (මෙහි “වඩා හොඳ” යන්නෙන් වඩාත් පුරෝකථනය කළ හැකිය). ඔහු තමා රවටා ගන්නා බව මට හැඟේ.

සංස්කරණය කරන්න: ඔබගේ හොඳ සහ ඉවසිලිවන්ත උදාහරණ සියල්ලටම ස්තූතියි. U RUser4512 සහ @gung විසින් මම ඔහුට උදාහරණ පෙන්වූ අතර ඔහු තදින් සිටියි. ඔහු කෝපයට පත් වන අතර මම වෙහෙසට පත්ව සිටිමි. මට දැනෙනවා. මම ඉක්මනින් වෙනත් රැකියා සෙවීම ආරම්භ කරමි.


122
නමුත් මගේ කළමණාකරු පවසන්නේ ඔහු මෙය කරන විට “බොහෝ විට වඩා හොඳ ප්‍රතිගාමීතා” ලබා ගන්නා බවයි. දෙවියනේ ...
ජේක් වෙස්ට්ෆෝල්

56
ඔබට ලැජ්ජාවක් දැනෙන්නට කිසිම හේතුවක් නැත !
ජේක් වෙස්ට්ෆෝල්

36
"විද්‍යාව යනු අපට අවශ්‍ය ඕනෑම දෙයකි." - ආචාර්ය ලියෝ ස්පේස්මන්.
සයිකොරාක්ස් පවසන්නේ මොනිකා

52
මෙම අදහස මට හමු වූ තවත් එකක් සමඟ තරඟ කළ යුතුය: ඔබේ නියැදිය කුඩා නම්, එකම දත්තවල පිටපත් කිහිපයක් සමඟ එය තොග වශයෙන් එකතු කරන්න.
නික් කොක්ස්

48
ඔබට වඩා හොඳ අදහසක් ඇති බව ඔබ ඔබේ ලොක්කාට පැවසිය යුතුය. සත්‍ය දත්ත භාවිතා කරනවා වෙනුවට ඔබේම දෑ ජනනය කරන්න, මන්ද එය ආදර්ශනය කිරීමට පහසු වනු ඇත.
dsaxton

Answers:


151

ඔබේ ලොක්කා "වඩා පුරෝකථනය" යන්නෙන් අදහස් කරන්නේ කුමක්දැයි මට විශ්වාස නැත. අඩු අගයන් වඩා හොඳ / වඩා පුරෝකථන ආකෘතියක් අදහස් කරන බව බොහෝ අය වැරදියට විශ්වාස කරති . එය අනිවාර්යයෙන්ම සත්‍ය නොවේ (මෙය කාරණයකි). කෙසේ වෙතත්, පෙර විචල්‍යයන් දෙකම ස්වාධීනව වර්ග කිරීම මඟින් අඩු අගයක් සහතික කෙරේ . අනෙක් අතට, ආකෘතියක පුරෝකථන නිරවද්‍යතාව තක්සේරු කළ හැක්කේ එහි ක්‍රියාවලියම ජනනය කළ නව දත්ත සමඟ සැසඳීමෙනි. මම එය සරල උදාහරණයකින් කරන්නෙමි (කේතනය කර ඇත ). ppR

options(digits=3)                       # for cleaner output
set.seed(9149)                          # this makes the example exactly reproducible

B1 = .3
N  = 50                                 # 50 data
x  = rnorm(N, mean=0, sd=1)             # standard normal X
y  = 0 + B1*x + rnorm(N, mean=0, sd=1)  # cor(x, y) = .31
sx = sort(x)                            # sorted independently
sy = sort(y)
cor(x,y)    # [1] 0.309
cor(sx,sy)  # [1] 0.993

model.u = lm(y~x)
model.s = lm(sy~sx)
summary(model.u)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.021      0.139   0.151    0.881
# x              0.340      0.151   2.251    0.029  # significant
summary(model.s)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.162     0.0168    9.68 7.37e-13
# sx             1.094     0.0183   59.86 9.31e-47  # wildly significant

u.error = vector(length=N)              # these will hold the output
s.error = vector(length=N)
for(i in 1:N){
  new.x      = rnorm(1, mean=0, sd=1)   # data generated in exactly the same way
  new.y      = 0 + B1*x + rnorm(N, mean=0, sd=1)
  pred.u     = predict(model.u, newdata=data.frame(x=new.x))
  pred.s     = predict(model.s, newdata=data.frame(x=new.x))
  u.error[i] = abs(pred.u-new.y)        # these are the absolute values of
  s.error[i] = abs(pred.s-new.y)        #  the predictive errors
};  rm(i, new.x, new.y, pred.u, pred.s)
u.s = u.error-s.error                   # negative values means the original
                                        # yielded more accurate predictions
mean(u.error)  # [1] 1.1
mean(s.error)  # [1] 1.98
mean(u.s<0)    # [1] 0.68


windows()
  layout(matrix(1:4, nrow=2, byrow=TRUE))
  plot(x, y,   main="Original data")
  abline(model.u, col="blue")
  plot(sx, sy, main="Sorted data")
  abline(model.s, col="red")
  h.u = hist(u.error, breaks=10, plot=FALSE)
  h.s = hist(s.error, breaks=9,  plot=FALSE)
  plot(h.u, xlim=c(0,5), ylim=c(0,11), main="Histogram of prediction errors",
       xlab="Magnitude of prediction error", col=rgb(0,0,1,1/2))
  plot(h.s, col=rgb(1,0,0,1/4), add=TRUE)
  legend("topright", legend=c("original","sorted"), pch=15, 
         col=c(rgb(0,0,1,1/2),rgb(1,0,0,1/4)))
  dotchart(u.s, color=ifelse(u.s<0, "blue", "red"), lcolor="white",
           main="Difference between predictive errors")
  abline(v=0, col="gray")
  legend("topright", legend=c("u better", "s better"), pch=1, col=c("blue","red"))

රූප විස්තරය මෙහි ඇතුළත් කරන්න

ඉහළ වම් බිම් කොටස මුල් දත්ත පෙන්වයි. සහ අතර යම් සම්බන්ධතාවයක් ඇත (එනම්, සහසම්බන්ධය පමණ වේ.) ඉහළ දකුණු බිම් කොටස මඟින් විචල්‍යයන් දෙකම ස්වාධීනව වර්ග කිරීමෙන් පසුව දත්ත කෙබඳුදැයි පෙන්වයි. සහසම්බන්ධතාවයේ ශක්තිය සැලකිය යුතු ලෙස වැඩි වී ඇති බව ඔබට පහසුවෙන් දැක ගත හැකිය (එය දැන් පමණ වේ ). කෙසේ වෙතත්, පහළ බිම් කැබලි වලදී, මුල් (වර්ගීකරණය නොකළ) දත්ත පිළිබඳව පුහුණු කරන ලද ආකෘතිය සඳහා පුරෝකථන දෝෂ බෙදා හැරීම වඩා බෙහෙවින් සමීප බව අපට පෙනේ . මුල් දත්ත භාවිතා කළ ආකෘතිය සඳහා මධ්‍යන්‍ය නිරපේක්ෂ පුරෝකථන දෝෂය වන අතර, වර්ග කළ දත්ත මත පුහුණු කරන ලද ආකෘතිය සඳහා මධ්‍යන්‍ය නිරපේක්ෂ පුරෝකථන දෝෂයxy.31.9901.11.98- ආසන්න වශයෙන් දෙගුණයක් විශාලය. ඒ කියන්නේ වර්ග කළ දත්ත ආකෘතියේ අනාවැකි නිවැරදි අගයන්ට වඩා බොහෝ සෙයින් වැඩි ය. පහළ දකුණු චතුරස්රයේ බිම් කොටස තිත් බිම් කොටසකි. එය පුරෝකථන දෝෂය මුල් දත්ත හා වර්ග කළ දත්ත අතර ඇති වෙනස්කම් පෙන්වයි. අනුකරණය කරන ලද සෑම නව නිරීක්ෂණයක් සඳහාම අනුරූප අනාවැකි දෙක සංසන්දනය කිරීමට මෙය ඔබට ඉඩ සලසයි. වම් පැත්තට නිල් තිත් යනු මුල් දත්ත නව අගයට සමීප වූ අවස්ථා වන අතර දකුණට රතු තිත් යනු වර්ග කළ දත්ත වඩා හොඳ අනාවැකි ලබා දුන් අවස්ථා වේ. මුල් දත්ත පිළිබඳව පුහුණු කරන ලද ආකෘතියෙන් වඩාත් නිවැරදි අනාවැකි පළ විය . y68%


වර්ග කිරීම මෙම ගැටළු වලට හේතු වන තරම ඔබේ දත්තවල පවතින රේඛීය සම්බන්ධතාවයේ කාර්යයකි. සහ අතර සහසම්බන්ධය දැනටමත් ක් නම් , වර්ග කිරීම කිසිදු බලපෑමක් ඇති නොකරන අතර එමඟින් අහිතකර නොවේ. අනෙක් අතට, සහසම්බන්ධයxy1.01.0, වර්ග කිරීම සම්බන්ධතාවය මුළුමනින්ම ආපසු හරවන අතර ආකෘතිය හැකිතාක් සාවද්‍ය වේ. මුලින් දත්ත සම්පුර්ණයෙන්ම එකිනෙකට සම්බන්ධ නොවූයේ නම්, වර්ග කිරීම අතරමැදි, නමුත් තවමත් තරමක් විශාල, හානිකර බලපෑමක් ඇති කරයි. ඔබේ දත්ත සාමාන්‍යයෙන් සහසම්බන්ධිත බව ඔබ සඳහන් කර ඇති හෙයින්, මෙම ක්‍රියා පටිපාටියට ආවේණික වන හානිවලින් යම් ආරක්ෂාවක් ලබා දී ඇතැයි මම සැක කරමි. එසේ වුවද, පළමුව වර්ග කිරීම අනිවාර්යයෙන්ම හානිකර ය. මෙම හැකියාවන් ගවේෂණය කිරීම සඳහා, අපට ඉහත කේතය විවිධ අගයන් සමඟ නැවත ධාවනය කළ හැකිය B1(ප්‍රජනන හැකියාව සඳහා එකම බීජ භාවිතා කිරීම) සහ ප්‍රතිදානය පරීක්ෂා කරන්න:

  1. B1 = -5:

    cor(x,y)                            # [1] -0.978
    summary(model.u)$coefficients[2,4]  # [1]  1.6e-34  # (i.e., the p-value)
    summary(model.s)$coefficients[2,4]  # [1]  1.82e-42
    mean(u.error)                       # [1]  7.27
    mean(s.error)                       # [1] 15.4
    mean(u.s<0)                         # [1]  0.98
  2. B1 = 0:

    cor(x,y)                            # [1] 0.0385
    summary(model.u)$coefficients[2,4]  # [1] 0.791
    summary(model.s)$coefficients[2,4]  # [1] 4.42e-36
    mean(u.error)                       # [1] 0.908
    mean(s.error)                       # [1] 2.12
    mean(u.s<0)                         # [1] 0.82
  3. B1 = 5:

    cor(x,y)                            # [1] 0.979
    summary(model.u)$coefficients[2,4]  # [1] 7.62e-35
    summary(model.s)$coefficients[2,4]  # [1] 3e-49
    mean(u.error)                       # [1] 7.55
    mean(s.error)                       # [1] 6.33
    mean(u.s<0)                         # [1] 0.44

12
ඔබේ පිළිතුර ඉතා හොඳ කරුණක් ඉදිරිපත් කරයි, නමුත් සමහර විට එය කළ හැකි හා කළ යුතු තරම් පැහැදිලිව නොවේ. එම සියලු බිම් කොටස් අවසානයේ (ආර් කේතය නොසලකන්න) සැබවින්ම පෙන්වන සහ ඇඟවුම් කරන දේ ලේපර්සන්ට (OP හි කළමනාකරු වැනි) අනිවාර්යයෙන්ම පැහැදිලි නොවේ. IMO, ඔබේ පිළිතුරට පැහැදිලි කිරීමේ ඡේදයක් හෝ දෙකක් භාවිතා කළ හැකිය.
ඉල්මාරි කරොනන්

3
ඔබගේ අදහස් දැක්වීමට ස්තූතියි, lIlmariKaronen. එකතු කිරීමට දේවල් යෝජනා කළ හැකිද? මම කේතය හැකිතාක් ස්වයං පැහැදිලි කිරීමක් කිරීමට උත්සාහ කළ අතර එය පුළුල් ලෙස අදහස් දැක්වුවෙමි. නමුත් මට මේ දේවල් හුරුපුරුදු නැති කෙනෙකුගේ දෑසින් බැලීමට නොහැකි වනු ඇත. පතුලේ ඇති බිම් කොටස් විස්තර කිරීම සඳහා මම යම් පෙළක් එක් කරමි. ඔබට වෙනත් දෙයක් ගැන සිතිය හැකි නම්, කරුණාකර මට දන්වන්න.
gung - මොනිකා නැවත

13
+1 යෝජිත තත්වයට ආමන්ත්‍රණය කරන එකම පිළිතුර මෙයයි: විචල්‍යයන් දෙකක් දැනටමත් යම් ධනාත්මක සම්බන්ධතාවයක් පෙන්නුම් කරන විට, ස්වාධීනව වර්ග කළ අගයන් නැවත ලබා ගැනීමේ දෝෂයකි. අනෙක් සියලුම පිළිතුරු උපකල්පනය කරන්නේ කිසිදු සම්බන්ධයක් නොමැති බව හෝ එය ඇත්ත වශයෙන්ම .ණාත්මක බවයි. ඒවා හොඳ උදාහරණ වුවද, ඒවා අදාළ නොවන බැවින් ඒවා ඒත්තු ගැන්වෙන්නේ නැත. අපට තවමත් නොමැති දේ, වැරැද්දෙහි ස්වභාවය ලැජ්ජා සහගත ලෙස පැහැදිලිව පෙනෙන පරිදි මෙහි අනුකරණය කරන ලද දත්ත වැනි බඩවැල් මට්ටමේ බුද්ධිමත් තාත්වික ලෝක උදාහරණයකි .
whuber


adsaxton, මම <-සමහර විට භාවිතා කරමි , නමුත් CV හි මගේ ඉලක්කය වන්නේ R කේතය හැකිතාක් ව්‍යාජ කේතයට ආසන්නව ලිවීමයි, එවිට එය වඩාත් කියවිය හැකි වන පරිදි w / R. හුරුපුරුදු නොවන අයට =ක්‍රමලේඛන භාෂාවන් අතර පැවරුම් ක්‍රියාකරුවෙකු ලෙස විශ්වීය වේ. .
gung - මොනිකා නැවත

103

ඔබේ ලොක්කාට ඒත්තු ගැන්වීමට ඔබට අවශ්‍ය නම්, අනුකලනය, අහඹු, ස්වාධීන දත්ත සමඟ සිදුවන්නේ කුමක්ද යන්න ඔබට පෙන්විය හැකිය . R සමඟ:x,yරූප විස්තරය මෙහි ඇතුළත් කරන්න

n <- 1000

y<- runif(n)
x <- runif(n)

linearModel <- lm(y ~ x)


x_sorted <- sort(x)
y_sorted <- sort(y)

linearModel_sorted <- lm(y_sorted ~ x_sorted)

par(mfrow = c(2,1))
plot(x,y, main = "Random data")
abline(linearModel,col = "red")


plot(x_sorted,y_sorted, main = "Random, sorted data")
abline(linearModel_sorted,col = "red")

නිසැකවම, වර්ග කළ ප්‍රති results ල වඩා හොඳ ප්‍රතිගාමීත්වයක් ලබා දෙයි. කෙසේ වෙතත්, දත්ත ජනනය කිරීම සඳහා භාවිතා කරන ක්‍රියාවලිය (ස්වාධීන සාම්පල දෙකක්) සලකා බලන විට, අනෙක අනාවැකි කීමට එකක් භාවිතා කිරීමට කිසිසේත්ම ඉඩක් නැත.


8
එය වෙළඳ දැන්වීම් වලට එදිරිව "වෙළඳ දැන්වීම් වලට පෙර" සියල්ලම පාහේ සමාන වේ :)
ටිම්

මෙය හොඳ උදාහරණයකි, නමුත් අපගේ දත්ත වර්ග කිරීමට පෙර ධනාත්මක සහසම්බන්ධතාවයක් ඇති බැවින් එය ඔහුට ඒත්තු ගැන්වෙනු ඇතැයි නොසිතයි. වර්ග කිරීම හුදෙක් සම්බන්ධතාවය "ශක්තිමත් කරයි" (වැරදි එකක් වුවද).
අත්තනෝමතික පරිශීලක

17
itarbitraryuser: හොඳයි, වර්ග කළ දත්ත සෑම විටම ධනාත්මක (හොඳින්, negative ණාත්මක නොවන) සහසම්බන්ධයක් පෙන්වනු ඇත, කුමක් වුවත්, මුල් දත්තවල සහසම්බන්ධය කුමක් වුවත්. මුල් දත්ත සෑම විටම කෙසේ හෝ ධනාත්මක සහසම්බන්ධතාවයක් ඇති බව ඔබ දන්නේ නම්, එය "අහම්බෙන් නිවැරදි ය" - නමුත් එසේ නම්, සහසම්බන්ධය පරීක්ෂා කිරීමට පවා කරදර වන්නේ ඇයි, එය දැනටමත් පවතින බවත් ධනාත්මක බවත් ඔබ දැනටමත් දන්නවා නම්? ඔබේ කළමනාකරු ක්‍රියාත්මක වන පරීක්ෂණය “හුස්ම ගත හැකි වාතය අනාවරණය” යැයි නිතරම පවසන “වායු ගුණාත්මක අනාවරකයක්” වැනි ය - එය හොඳින් ක්‍රියාත්මක වන අතර, ඔබ කිසි විටෙකත් හුස්ම ගත නොහැකි වාතය නොමැති තැනකට ගෙන නොයන තාක් කල්.
ඉල්මාරි කරොනන්

2
itarbitraryuser ඔබට වඩාත් ඒත්තු ගැන්විය හැකි තවත් උදාහරණයක් නම් x = 0: 50, සහ y = 0: -50, බෑවුම -1 සහිත පරිපූර්ණ රේඛාවක් ගැනීමයි. ඔබ ඒවා වර්ග කළහොත්, සම්බන්ධතාවය බෑවුම 1 සමඟ පරිපූර්ණ රේඛාවක් බවට පත්වේ. සත්‍යය නම් ඔබේ විචල්‍යයන් පරිපූර්ණ විරුද්ධත්වයකින් වෙනස් වන අතර, ඔබ පරිපූර්ණ එකඟතාවයකින් වෙනස් වන බවට ඔබේ වැරදි වැටහීම මත පදනම්ව ඔබ ප්‍රතිපත්ති වට්ටෝරුවක් සාදයි. හරියටම වැරදි දේ කිරීම.
ජෝන් රවුසර්

99

ඔබේ ප්‍රතිභානය නිවැරදි ය: ස්වාධීනව වර්ග කළ දත්තවලට විශ්වාසදායක අර්ථයක් නැත, මන්දයත් නිරීක්‍ෂණය කළ සම්බන්ධතාවයට වඩා ආදාන සහ ප්‍රතිදානයන් අහඹු ලෙස එකිනෙකට සිතියම් ගත කර ඇති බැවිනි.

වර්ග කළ දත්තවල ප්‍රතිගාමීත්වය මනාව පෙනෙන්නට හොඳ (හොඳ) අවස්ථාවක් තිබේ, නමුත් එය සන්දර්භය තුළ අර්ථ විරහිත ය.

බුද්ධිමත් උදාහරණය: යම් ජනගහනයක් සඳහා දත්ත කට්ටලයක් යැයි සිතමු . අශෝභන දත්තවල ප්‍රස්ථාරය බොහෝ විට ල ar ු ගණක හෝ බල ශ්‍රිතයක් මෙන් පෙනෙනු ඇත: පසුකාලීන නව යොවුන් වියේ දරුවන් සඳහා මන්දගාමී වන ළමුන්ගේ වේගවත් වර්ධන වේගය සහ “අසමමිතිකව” යෞවනයන් හා වැඩිහිටියන් සඳහා උපරිම උසකට ළඟා වේ.(X=age,වයි=hමමhටී)

අපි ආරෝහණ අනුපිළිවෙලට වර්ග කළහොත් , ප්‍රස්ථාරය බොහෝ දුරට රේඛීය වනු ඇත. මේ අනුව, පුරෝකථන කාර්යය නම් මිනිසුන් ඔවුන්ගේ මුළු ජීවිත කාලය පුරාම උසින් වැඩීමයි. මම ඒ අනාවැකි ඇල්ගොරිතමයට මුදල් ඔට්ටු අල්ලන්නේ නැහැ. x,y


25
+ 1 - නමුත් මම “අත්‍යවශ්‍යයෙන්ම” අතහැර “අර්ථ විරහිත” බව නැවත අවධාරණය කරමි.
whuber

12
OP යන්නෙන් අදහස් කරන්නේ දත්ත මාරු කිරීමට වඩා ස්වාධීනව වර්ග කිරීමයි. මෙය සියුම් නමුත් වැදගත් වෙනසක් වන අතර එය ලබා දී ඇති මෙහෙයුම ක්‍රියාත්මක කිරීමෙන් පසු නිරීක්ෂණය කරනු ලබන “සම්බන්ධතාවය” පිළිබඳව යමෙකුට පෙනේ.
කාදිනල්

3
xy

12
@amoeba සුළු දත්ත කට්ටලය: සාමාන්‍ය යෞවනයෙක්, 30 ගණන්වල මැද භාගයේ NBA මධ්‍යස්ථානය, වැඩිහිටි සාමාන්‍ය කාන්තාව. පුරෝකථන ඇල්ගොරිතම වර්ග කිරීමෙන් පසු පැරණිතම උසම වේ.
d0rmLife

1
@amoeba එය එසේ අර්ථ නිරූපණය කරන්නේ කෙසේදැයි මම දකිමි, මම පැහැදිලි කරමි.
d0rmLife

41

Viti

(ti,Vi)

(0,1.0),(1,0.9),(2,0.8),(3,0.7),(4,0.6),(5,0.5).
(0,0.5),(1,0.6),(2,0.7),(3,0.8),(4,0.9),(5,1.0).
මෙම වර්ග කළ දත්ත කට්ටලයේ නිගමනය වන්නේ කාලය වැඩි වන විට ජල පරිමාව වැඩි වන අතර එපමනක් නොව, ජල ලීටර් 1 සිට ආරම්භ වන ඔබට පැය 5 ක් බලා සිටීමෙන් පසුව ජලය ලීටර් 1 කට වඩා ලැබෙනු ඇත. එය විශිෂ්ට නොවේ ද? මුල් දත්ත පැවසූ දෙයට නිගමනය ප්‍රතිවිරුද්ධව පමණක් නොව, නව භෞතික විද්‍යාව අප විසින් සොයාගෙන ඇති බව ද එය යෝජනා කරයි!

5
හොඳ බුද්ධිමත් උදාහරණයක්! අවසාන පේළිය හැර. මුල් දත්ත සමඟ අපට කාලයාගේ ඇවෑමෙන් negative ණ පරිමාවක් ලැබෙනු ඇත, එය නව භෞතික විද්‍යාව මෙන්ම. ඔබට කිසි විටෙකත් ප්‍රතිගාමීත්වයක් නිස්සාරණය කළ නොහැක.
ජොන්ග්ස්මා

22

එය සැබෑ කලාවක් වන අතර සමහර අයගේ මාර්ගවල වැරැද්ද පිළිබඳව ඒත්තු ගැන්වීමට මනෝ විද්‍යාව පිළිබඳ සැබෑ අවබෝධයක් අවශ්‍ය වේ. ඉහත සියලු විශිෂ්ට උදාහරණ වලට අමතරව, ප්‍රයෝජනවත් උපාය මාර්ගයක් වන්නේ පුද්ගලයෙකුගේ විශ්වාසය තමා සමඟ නොගැලපීමකට තුඩු දෙන බව පෙන්වීමයි. නැතහොත් මෙම ප්‍රවේශය උත්සාහ කරන්න. Y කාර්යයේ දී පුද්ගලයින් ඉටු කරන ආකාරය වැනි ඔබේ ලොක්කා දැඩි ලෙස විශ්වාස කරන දෙයක් සොයා ගන්න, ඔවුන් සතුව X ගුණාංගය කොපමණ ප්‍රමාණයක් සමඟ සම්බන්ධයක් නැත. ඔබේ ලොක්කාගේම ප්‍රවේශය X සහ Y අතර ශක්තිමත් සම්බන්ධතාවයක නිගමනයකට එළඹෙන්නේ කෙසේදැයි පෙන්වන්න. දේශපාලන / වාර්ගික / ආගමික විශ්වාසයන් ප්‍රාග්ධනය කරන්න.

මුහුණ අවලංගු වීම ප්‍රමාණවත් විය යුතුය. මොන තරම් මුරණ්ඩු ලොක්කෙක්ද? මේ අතර වඩා හොඳ රැකියාවක් සොයන්න. වාසනාව.


12

තවත් එක් උදාහරණයක්. ඔබට විචල්යයන් දෙකක් ඇති බව සිතන්න, එකක් චොකලට් අනුභව කිරීම හා දෙවනුව සමස්ත යහපැවැත්මට සම්බන්ධයි. ඔබට දෙකක නියැදියක් ඇති අතර ඔබේ දත්ත පහත පරිදි වේ:

chocolateno happinessno chocolatehappiness

ඔබේ නියැදිය මත පදනම්ව චොකලට් හා සතුට අතර ඇති සම්බන්ධය කුමක්ද? දැන්, එක් තීරුවක අනුපිළිවෙල වෙනස් කරන්න - මෙම මෙහෙයුමෙන් පසු ඇති සම්බන්ධය කුමක්ද?

tඑන්t

iXiවයි

සමහර විට අපි ඇත්ත වශයෙන්ම නඩු අනුපිළිවෙල වෙනස් කිරීමට උනන්දු වන බව සැලකිල්ලට ගන්න, අපි එසේ කරන්නේ නැවත සකස් කිරීමේ ක්‍රමවේදයන් තුළ ය . නිදසුනක් ලෙස, අපගේ දත්ත ශුන්‍ය ලෙස බෙදා හැරීම ගැන යමක් දැන ගැනීම සඳහා අපට හිතාමතාම නිරීක්ෂණ මාරු කළ හැකිය (යුගල වශයෙන් සම්බන්ධතා නොතිබුනේ නම් අපගේ දත්ත කෙසේ පෙනේවිද), ඊළඟට අපගේ සැබෑ දත්ත අහඹු ලෙස වඩා හොඳ නම් කෙසේ හෝ සැසඳිය හැකිය. මාරු කළා. ඔබේ කළමනාකරු කරන දෙය හරියටම ප්‍රතිවිරුද්ධ දෙයකි - ව්‍යුහයක් නොමැති තැන කෘත්‍රිම ව්‍යුහයක් ඇති කිරීමට ඔහු ව්‍යාජ නිරීක්ෂණවලට බල කරයි.


9

මෙම තාක්ෂණය ඇත්තෙන්ම පුදුම සහගතය. මම කිසි විටෙකත් සැක නොකළ සියලු ආකාරයේ සම්බන්ධතා සොයා ගතිමි. නිදසුනක් ලෙස, පවර්බෝල් ලොතරැයියේ පෙන්වන සංඛ්‍යා අහඹු යැයි මම සැක නොකරමි, ඇත්ත වශයෙන්ම එදිනම ඇපල් තොගයේ ආරම්භක මිල සමඟ බෙහෙවින් සහසම්බන්ධ වී ඇත! ජනයෙනි, මම හිතන්නේ අපි විශාල වශයෙන් මුදල් උපයන්නෙමු. :)

> powerball_last_number = scan()
1: 69 66 64 53 65 68 63 64 57 69 40 68
13: 
Read 12 items
> #Nov. 18, 14, 11, 7, 4
> #Oct. 31, 28, 24, 21, 17, 14, 10
> #These are powerball dates.  Stock opening prices 
> #are on same or preceding day.
> 
> appl_stock_open = scan()
1: 115.76  115.20 116.26  121.11  123.13 
6: 120.99  116.93  116.70  114.00  111.78
11: 111.29  110.00
13: 
Read 12 items
> hold = lm(appl_stock_open ~ powerball_last_number)
> summary(hold)


Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)           112.08555    9.45628  11.853 3.28e-07 ***
powerball_last_number   0.06451    0.15083   0.428    0.678    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.249 on 10 degrees of freedom
Multiple R-squared:  0.01796,   Adjusted R-squared:  -0.08024 
F-statistic: 0.1829 on 1 and 10 DF,  p-value: 0.6779

හ්ම්, සැලකිය යුතු සම්බන්ධතාවයක් ඇති බවක් නොපෙනේ. නමුත් නව, වැඩිදියුණු කළ තාක්‍ෂණය භාවිතා කිරීම:

> 
> vastly_improved_regression = lm(sort(appl_stock_open)~sort(powerball_last_number))
> summary(vastly_improved_regression)

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 91.34418    5.36136  17.038 1.02e-08 ***
sort(powerball_last_number)  0.39815    0.08551   4.656    9e-04 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.409 on 10 degrees of freedom
Multiple R-squared:  0.6843,    Adjusted R-squared:  0.6528 
F-statistic: 21.68 on 1 and 10 DF,  p-value: 0.0008998

සටහන: මෙය බැරෑරුම් විශ්ලේෂණයක් ලෙස අදහස් නොකෙරේ. ඔබ ඒවා දෙකම වර්ග කළහොත් ඕනෑම විචල්‍යයන් දෙකක් සැලකිය යුතු ලෙස සම්බන්ධ කළ හැකි බව ඔබේ කළමනාකරුට පෙන්වන්න.


8

ඔබේ කළමනාකරුට තේරුම් ගත හැකි සරල උදාහරණයක්:

අපි ඔබට කාසි වයි සහ කාසි එක්ස් ඇති බව කියමු, ඔබ ඒ සෑම එකක්ම 100 වතාවක් පෙරළන්න. එවිට ඔබට Coin X (IV) සමඟ හිස් ලබා ගැනීමෙන් Coin Y (DV) සමඟ හිස් ලබා ගැනීමේ අවස්ථාව වැඩි කළ හැකිද යන්න අනාවැකි කීමට ඔබට අවශ්‍යය.

වර්ග කිරීමකින් තොරව, සම්බන්ධතාවය කිසිවක් නොවනු ඇත, මන්ද කාසි X හි ප්‍රති come ලය කාසි Y හි ප්‍රති come ලයට බලපාන්නේ නැත. වර්ග කිරීම සමඟ, සම්බන්ධතාවය බොහෝ දුරට පරිපූර්ණ වනු ඇත.

ඔබ වෙනත් කාසියක් සමඟ හිස පෙරළා ඇත්නම් කාසි පෙරළීමකට හිස ලබා ගැනීමට ඔබට හොඳ අවස්ථාවක් ඇතැයි නිගමනය කිරීම අර්ථවත් වන්නේ කෙසේද?


1
ඕනෑම මුදල් සඳහා පරිවර්තන අවශ්‍යයි, නමුත් ඔබ උපකල්පනය කරන මුදල. (එය අතිශය සුළු විරෝධයක් බව මම දනිමි. ඕනෑම ගැටළුවක් විසඳීම පහසුය, නමුත් ඉඳහිට මෙය ජාත්‍යන්තර සංසදයක් බව අවධාරණය කිරීම වටී.)
නික් කොක්ස්

6

මෙහි හොඳ ප්‍රතිවිරුද්ධ උදාහරණ ඕනෑ තරම් තිබේ. ගැටලුවේ හදවත ගැන ඡේදයක් එක් කිරීමට මට ඉඩ දෙන්න.

XiYiXවයිiiX1Y1X2Y2XYX1Y1X1Y1

ඇත්ත වශයෙන්ම, එය "ක්‍රියාත්මක වන්නේ" ඇයිද යන්න පිළිබඳ ඡේදයක් එක් කිරීමට මට ඉඩ දෙන්න.

XaXබීXaXYaXzXYzYXaYaXzYzX1Y1


6

ඇත්ත වශයෙන්ම, විස්තර කර ඇති පරීක්ෂණය (එනම් X අගයන් සහ Y අගයන් ස්වාධීනව වර්ග කර එකිනෙකාට එරෙහිව ප්‍රතිගාමී වීම) යමක් පරීක්ෂා කරයි, (X, Y) ද්විභාෂා ව්‍යාප්තියකින් ස්වාධීන යුගල ලෙස සාම්පල ලබා ගනී යැයි උපකල්පනය කරයි. එය ඔබගේ කළමනාකරුට පරීක්ෂා කිරීමට අවශ්‍ය දේ පිළිබඳ පරීක්ෂණයක් පමණක් නොවේ. එය අත්‍යවශ්‍යයෙන්ම QQ- බිම් කොටසක රේඛීයතාව පරීක්ෂා කරමින්, Xs හි ආන්තික ව්‍යාප්තිය Ys හි ආන්තික ව්‍යාප්තිය සමඟ සංසන්දනය කරයි. Xs (f (x)) හි ity නත්වය Ys (g (y)) හි මේ ආකාරයට සම්බන්ධ වන්නේ නම් 'දත්ත' සරල රේඛාවකට ආසන්න වනු ඇත:

f(x)=g((ya)/b)ab>0


5

පුදුම සහගත ප්‍රතිවිරුද්ධ නියැදිය එහි සරලම ස්වරූපයෙන් පිළිතුරු අතර තවමත් නොමැති වීම පුදුමයකි.

Y=X

Y^X

මෙය ඔබ මෙහි සොයා ගැනීමට කැමති රටාවේ "සෘජු ප්‍රතිලෝම" වර්ගයකි.


මෙය ප්‍රති-ආදර්ශයක් වන කුමන ප්‍රකාශයද යන්න ඔබට පැහැදිලි කළ හැකිද?
whuber

යෙදවුම් සහ ප්‍රතිදානයන් ස්වාධීනව වර්ග කිරීමෙන් ඔබට "සෑම විටම වඩා හොඳ ප්‍රතිගාමීත්වයක් ලබා ගත හැකිය" යනුවෙන් කළමනාකරුගේ ප්‍රකාශය.
කේ.ටී.

R2=1

R2

1
R2Y=X

3

ඔයා හරි. ඔබේ කළමනාකරුට "හොඳ" ප්‍රති results ල ලැබෙනු ඇත! නමුත් ඒවා අර්ථ විරහිත ය. ඔබ ඒවා ස්වාධීනව වර්ග කරන විට ඔබට ලැබෙන්නේ මේ දෙකම එක හා සමානව වැඩි වීම හෝ අඩුවීමයි. මෙය හොඳ ආකෘතියක සමානත්වයක් ලබා දෙයි. නමුත් විචල්යයන් දෙක ඔවුන්ගේ සැබෑ සම්බන්ධතාවයෙන් ඉවත් කර ඇති අතර ආකෘතිය වැරදිය.


3

xx2xx2x

රේඛීය ප්‍රතිපාදනය සාමාන්‍යයෙන් අඩු සාධාරණ ය (ව්‍යතිරේක පවතී, වෙනත් පිළිතුරු බලන්න); නමුත් වලිගවල ජ්‍යාමිතිය සහ දෝෂ බෙදා හැරීම ඔබට සමාන බෙදාහැරීම් වලින් කොතරම් දුරක් ඇත්දැයි කියයි.


2

ශ්‍රිතය ඒකාකාරී නම් මෙය සැබවින්ම හොඳ අදහසක් වන්නේ මන්දැයි මට සරල අවබෝධයක් ඇත :

x1,x2,,xnxi<xi+1f:yi=f(xi)+εiεi

εi=f(xi+δ)f(xi)
δ{Δ,Δ+1,Δ1,Δ}ΔNΔ=0Δ=n

f

εi

PS: පෙනෙන ආකාරයට සරල ප්‍රශ්නයක් නැවත සිතීමේ ප්‍රමිති ආකෘතියේ සිත්ගන්නාසුලු නව ක්‍රමවලට මඟ පෙන්වන්නේ කෙසේද යන්න මට පුදුම සහගතය. කරුණාකර ස්තූතියි ලොක්කා!


1
xi+δi+δ<1i+δ>n

2

5 අරය රවුමක ඔබට මෙම කරුණු ඇති බව පවසන්න. ඔබ සහසම්බන්ධය ගණනය කරන්නේ:

import pandas as pd
s1 = [(-5, 0), (-4, -3), (-4, 3), (-3, -4), (-3, 4), (0, 5), (0, -5), (3, -4), (3, 4), (4, -3), (4, 3), (5, 0)]
df1 = pd.DataFrame(s1, columns=["x", "y"])
print(df1.corr())

   x  y
x  1  0
y  0  1

ඉන්පසු ඔබ ඔබේ x- හා y- අගයන් වර්ග කර නැවත සහසම්බන්ධය කරන්න:

s2 = [(-5, -5), (-4, -4), (-4, -4), (-3, -3), (-3, -3), (0, 0), (0, 0), (3, 3), (3, 3), (4, 4), (4, 4), (5, 5)]
df2 = pd.DataFrame(s2, columns=["x", "y"])
print(df2.corr())

   x  y
x  1  1
y  1  1

මෙම උපාමාරු මගින්, ඔබ 0.0 සහසම්බන්ධය සහිත දත්ත කට්ටලයක් 1.0 සහසම්බන්ධය 1 ට වෙනස් කරයි. ඒක ප්‍රශ්නයක්.


1

මට මෙහි යක්ෂයාගේ අධිනීති play යා ලෙස සෙල්ලම් කිරීමට ඉඩ දෙන්න. මම හිතන්නේ බොහෝ පිළිතුරු ලොක්කාගේ ක්‍රියා පටිපාටිය මූලික වශයෙන් වැරදියට ඒත්තු ගැන්වූ අවස්ථා ඇති කර තිබේ. ඒ අතරම, මෙම වැරදි පරිවර්තනය සමඟ ලොක්කා සැබවින්ම ප්‍රති results ල වැඩිදියුණු කර ඇති බව පෙන්වන ප්‍රති-උදාහරණයක් මම ඉදිරිපත් කරමි.

මෙම ක්‍රියා පටිපාටිය ලොක්කාට “වැඩ” කර ඇති බව පිළිගැනීම වඩාත් ඒත්තු ගැන්වෙන තර්කයක් ආරම්භ කළ හැකි යැයි මම සිතමි: ෂුවර්, එය ක්‍රියාත්මක විය, නමුත් සාමාන්‍යයෙන් නොපවතින මෙම වාසනාවන්ත තත්වයන් යටතේ පමණි. එවිට අපට පෙන්විය හැකිය - විශිෂ්ට පිළිගත් පිළිතුරේ මෙන් - අප වාසනාවන්ත නොවන විට එය කෙතරම් නරක විය හැකිද යන්න. බොහෝ විට එය. හුදකලාව, ලොක්කා පෙන්නුම් කොහොමද එය නරක හැකි ඔහු එය එහිදී නඩුව දැක ඇති විය හැකි නිසා විය ඔහු කැමැති නොහැකි විය කරන්නේ දේවල් වැඩි දියුණු, හා අපගේ විසිතුරු තර්කය ඇදුරාගේ කොහේ හරි ඇති කළ යුතු බව ඇතිකරන.

මම මෙම දත්ත මාර්ගගතව සොයා ගත් අතර, X සහ Y ස්වාධීනව වර්ග කිරීම මගින් ප්‍රතිගාමීත්වය වැඩි දියුණු වී ඇති බව පෙනේ: අ) දත්ත ඉතා ධනාත්මකව සහසම්බන්ධ වී ඇති අතර, ආ) OLS සැබවින්ම ආන්තික (ඉහළ -ලෙවර්ජ්) පිටස්තරයින්. උස හා බර අතර සම්බන්ධකය 0.19 අතර පිටස්තරයා ඇතුළත් වේ, 0.77 පිටස්තරයා බැහැර කර ඇති අතර 0.78 X සහ Y සමඟ ස්වාධීනව වර්ග කර ඇත.

x <- read.csv ("https://vincentarelbundock.github.io/Rdatasets/csv/car/Davis.csv", header=TRUE)

plot (weight ~ height, data=x)

lm1 <- lm (weight ~ height, data=x)

xx <- x
xx$weight <- sort (xx$weight)
xx$height <- sort (xx$height)

plot (weight ~ height, data=xx)

lm2 <- lm (weight ~ height, data=xx)

plot (weight ~ height, data=x)
abline (lm1)
abline (lm2, col="red")

රූප විස්තරය මෙහි ඇතුළත් කරන්න

plot (x$height, x$weight)
points (xx$height, xx$weight, col="red")

රූප විස්තරය මෙහි ඇතුළත් කරන්න

එබැවින් මෙම දත්ත කට්ටලයේ ප්‍රතිගාමී ආකෘතිය ස්වාධීන වර්ග කිරීම (පළමු ප්‍රස්ථාරයේ කළු හා රතු රේඛාව) මගින් වැඩි දියුණු කර ඇති බව මට පෙනේ, සහ විශේෂිත දත්ත කට්ටලය නිසා දෘශ්‍ය සම්බන්ධතාවයක් (දෙවන ප්‍රස්ථාරයේ කළු හා රතු). ඉහළ (ධනාත්මකව) සහසම්බන්ධිත සහ ඔබ ස්වාධීනව x සහ y වර්ග කරන විට සිදුවන වෙනස්වීම් වලට වඩා ප්‍රතිගාමීත්වයට හානි කරන නිවැරදි ආකාරයේ පිටස්තරයින් සිටීම.

නැවතත්, ස්වාධීනව වර්ග කිරීම නොකිරීම පොදුවේ සංවේදී දෙයක් නොකරයි, නැතහොත් එය මෙහි නිවැරදි පිළිතුර නොවේ. නියම තත්වයන් යටතේ වැඩ කිරීමට සිදු වූ මෙවැනි දෙයක් ලොක්කා දැක ඇති.


1
ඔබ සමාන සහසම්බන්ධතා සංගුණක වෙත පැමිණීම පිරිසිදු අහඹු සිදුවීමක් සේ පෙනේ. මුල් සහ ස්වාධීනව වර්ග කළ දත්ත අතර සම්බන්ධතාවයක් ගැන කිසිවක් පෙන්වීමට මෙම උදාහරණය නොපෙනේ.
whuber

2
hwhuber: දෙවන ප්‍රස්ථාරය ගැන කුමක් කිව හැකිද? මුල් දත්ත අතිශයින්ම සහසම්බන්ධ නම්, ඒවා වර්ග කිරීම මඟින් අගයන් ටිකක් වෙනස් කළ හැකි බව මට හැඟේ, මූලික වශයෙන් මුල් සම්බන්ධතාවය +/- ආරක්ෂා කරයි. පිටස්තරයන් කිහිප දෙනෙකු සමඟ, දේවල් නැවත සකස් කර ඇත, නමුත් ... කණගාටුයි මට ඊට වඩා දුර යාමට ගණිත කුට්ටි නොමැත.
වේන්

1
මම හිතන්නේ ඔබ ප්‍රකාශ කරන බුද්ධිය නිවැරදියි, වේන්. ප්‍රශ්නයේ තර්කනය - මා එය අර්ථ නිරූපණය කරන විට - වර්ග කළ විචල්‍යයන්ගේ විසිරුම් තලය මත පමණක් පදනම් වූ මුල් දත්ත ගැන ඔබට කිව හැකි දේ ගැන සැලකිලිමත් වේ. පිළිතුර නම්, ඔවුන්ගේ වෙනම (ඒකීය) බෙදාහැරීම් වලින් ඔබට අනුමාන කළ හැකි දෙයින් ඔබ්බට කිසිවක් නැත. කාරණය නම්, ඔබේ දෙවන ප්‍රස්ථාරයේ ඇති රතු තිත් ඔබ පෙන්වන දත්ත සමඟ පමණක් නොව, තාරකා විද්‍යාත්මකව එම දත්තවල වෙනත් ප්‍රේරණයන් සංඛ්‍යාවට අනුකූල වේ - තවද එම ප්‍රේරණයන්ගෙන් කවරක් දැයි ඔබට දැන ගැනීමට හැකියාවක් නැත. හරි එක.
whuber

2
@whuber මම හිතන්නේ මෙහි ඇති ප්‍රධාන වෙනස වන්නේ OP විසින් දත්ත සම්පූර්ණයෙන්ම විනාශ කළ යුතු බවයි. ඔබ පිළිගත් පිළිතුර පොදුවේ මෙය සිදුවන්නේ කෙසේද යන්න විස්තරාත්මකව පෙන්වයි. ඔබට මේ ආකාරයෙන් දත්ත ලබා දිය නොහැකි අතර ප්‍රති result ලය අර්ථවත් වේදැයි අදහසක් තිබිය යුතුය. එහෙත්, කළමනාකරුට මීට පෙර මගේ (ප්‍රති-) උදාහරණය වැනි උදාහරණ සමඟ කටයුතු කළ හැකි බවත්, මෙම නොමඟ ගිය පරිවර්තනය ඇත්ත වශයෙන්ම ප්‍රති .ල වැඩිදියුණු කළ බවත් සොයාගෙන ඇත. එබැවින් කළමනාකරු මූලික වශයෙන් වැරදියට තේරුම් ගෙන ඇති බව අපට එකඟ විය හැකිය, නමුත් එය තරමක් වාසනාවන්ත වන්නට ඇත - වාසනාවන්ත අවස්ථාවෙහිදී එය ක්‍රියාත්මක වේ.
වේන්

huhuber: මගේ පිළිතුරට හැඳින්වීම සංස්කරණයට යොමු කර ඇති අතර එය සාකච්ඡාවට අදාළ යැයි මම සිතමි. මම හිතන්නේ ලොක්කාගේ ක්‍රියා පටිපාටිය ඔහු වෙනුවෙන් ක්‍රියා කළ ආකාරය පිළිගැනීම ලොක්කාගේ අත්දැකීම් සමඟ විහිළු කරන වඩාත් ඒත්තු ගැන්වෙන තර්කයක පළමු පියවර විය හැකිය. ඔබේ සලකා බැලීම සඳහා.
වේන්

-7

ඔහු විචල්යයන් ඒකාකාරී වීමට පෙර තෝරාගෙන තිබේ නම්, එය ඇත්ත වශයෙන්ම තරමක් ශක්තිමත් ය. ගූගල් "නුසුදුසු රේඛීය මාදිලි" සහ "රොබින් ඩේව්ස්" හෝ "හොවාර්ඩ් වයිනර්". ඩේව්ස් සහ වයිනර් සංගුණක තෝරා ගැනීමේ විකල්ප ක්‍රම ගැන කතා කරති. ජෝන් කුක් සතුව කෙටි තීරුවක් ඇත ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ).


4
කුක් එම බ්ලොග් සටහනේ සාකච්ඡා කරන්නේ x හා y එකිනෙකාගෙන් ස්වාධීනව වර්ග කිරීම හා පසුව වර්ග කළ විචල්‍යයන්ට ප්‍රතිගාමී ආකෘතියක් සවි කිරීම නොවේ.
gung - මොනිකා නැවත

4
OP හි ලොක්කා කරන්නේ "FInverse (G (x)) විසින් yhat පුරෝකථනය කිරීම නොවේ, එහිදී F සහ G යනු Y සහ X හි ecdfs වේ". මගේ පිළිතුරේ කේතයේ ක්‍රියා පටිපාටිය ඔබට දැක ගත හැකිය.
gung - මොනිකා නැවත

4
ඔබට 1. ඩේව්ස් සහ / හෝ වයිනර් විසින් විශේෂිත පුවත්පතකට යොමු කිරීමක් එක් කළ හැකිද? 2. එය ලොක්කාගේ වර්ග කිරීමේ ක්‍රියා පටිපාටියට සම්බන්ධ වන්නේ කෙසේද යන්න පැහැදිලි කළ හැකිද? එසේත් නැතිනම් සංගුණකයේ අගය ලකුණ නිවැරදි වන තාක් කල් සහ උපකල්පනය අනුව ලකුණ නිවැරදි නම්, ලොක්කාගේ ක්‍රියා පටිපාටිය සංගුණක සඳහා අමුතු අගයන් ලබා දීම එතරම් වැදගත් නොවේ ද?
ජුහෝ කොක්කලා

2
1. යොමුව: - ඩේව්ස්, ආර්එම් "තීරණ ගැනීමේදී නුසුදුසු රේඛීය ආකෘතිවල ශක්තිමත් සුන්දරත්වය." අමීර්. මනෝ. 34, නැත. 7 (1979): 571. - වයිනර්, එච්. "රේඛීය මාදිලිවල සංගුණක ඇස්තමේන්තු කිරීම: එය කිසි විටෙකත් කමක් නැත." මානසික. ගොනා. 83, අංක. 2 (1976): 213. - ඩේව්ස්, ආර්එම්, සහ කොරිගන්, බී. "තීරණ ගැනීමේදී රේඛීය ආකෘති." මානසික. බුල්., 81 95-106 (1974) 2. ඩේව්ස් සහ වයිනර් යන දෙදෙනාම පෙන්නුම් කරන්නේ සැබෑ දත්ත සහ සැබෑ පුරෝකථන ගැටලු සමඟින්, අනාගත Y X වෙතින් අනාවැකි පළ කිරීම ඔවුන්ගේ උපක්‍රම වලින් අපගමනය වීම හෝ ශ්‍රේණිගත කිරීම් ගැලපීම මගින් හොඳින් ක්‍රියාත්මක වන අතර මෙය තරමක් බෑවුමට සංවේදී නොවේ.
බිල් රේනර්

2
මෙම යොමු කිරීම් සහ පැහැදිලි කිරීම් අදහස් වල තැන්පත් කරනවාට වඩා ඔබේ පිළිතුරට වඩා හොඳ වනු ඇත.
ස්කොර්චි - මොනිකා නැවත ස්ථාපනය කරන්න

-8

මම ඒ ගැන සිතුවෙමි, ඇණවුම් සංඛ්‍යාලේඛන මත පදනම්ව මෙහි යම් ව්‍යුහයක් ඇතැයි මම සිතුවෙමි. මම පරීක්ෂා කර බැලුවෙමි, කළමනාකරුගේ මෝ ශබ්දය තරම් නට්ස් නොවන බව පෙනේ

නවකතා සංගමයක් ලෙස ඇණවුම් සංඛ්‍යාලේඛන සහසම්බන්ධතා සංගුණකය ජෛව විශ්ලේෂණය සඳහා වන අයදුම්පත් සමඟ මැනීම

http:// www.

ඇණවුම් සංඛ්‍යාලේඛන සහ ප්‍රතිසංවිධානය කිරීමේ අසමානතාවය මත පදනම්ව නව සහසම්බන්ධතා සංගුණකය අපි යෝජනා කරමු. යෝජිත සංගුණකය නිරූපණය කරන්නේ පියර්සන්ගේ රේඛීය සංගුණකය සහ ශ්‍රේණිගත පදනම් වූ සංගුණක දෙක වන ස්පීර්මන්ගේ රෝ සහ කෙන්ඩල්ගේ තව් අතර සම්මුතියකි. න්‍යායාත්මක ව්‍යුත්පන්නයන් පෙන්වන්නේ අපගේ සංගුණකය සම්භාව්‍ය සංගුණක තුනට සමාන මූලික ගුණාංග ඇති බවයි. ආකෘති හතරක් සහ ජෛව සං ign ා හයක් මත පදනම් වූ පර්යේෂණාත්මක අධ්‍යයනවලින් පෙනී යන්නේ රේඛීය සංගම් මැනීමේදී අපගේ සංගුණකය ශ්‍රේණිගත පදනම් වූ සංගුණක දෙකට වඩා හොඳින් ක්‍රියා කරන බවයි; තරාතිරම මත පදනම් වූ සංගුණක දෙක වැනි ඒකාකාරී නොවන රේඛීය සංගම් හඳුනා ගැනීමට එය හොඳින් සමත් වේ. පුළුල් සංඛ්‍යාලේඛන විශ්ලේෂණයන් පෙන්වා දෙන්නේ අපගේ නව සංගුණකයට ඉහළ ශබ්ද නාශක ශක්තිමත් බවක්, කුඩා පක්ෂග්‍රාහී බවක් ඇති බවයි.


14
ප්‍රශ්නය විස්තර කරන්නේ මෙය නොවේ. ඇණවුම් සංඛ්‍යාලේඛන මගින් දත්ත ප්‍රතිස්ථාපනය කරන විට, දත්ත යුගල සෑම විටම මෙන් තවමත් සම්බන්ධ වේ. ප්‍රශ්නය මගින් එම සම්බන්ධතා විනාශ කරන මෙහෙයුමක් විස්තර කරන අතර ඒවායේ ඒකාබද්ධ ව්‍යාප්තිය පිළිබඳ සියලු තොරතුරු මකා දමනු ලැබේ.
whuber

අවශ්‍ය නොවේ. ස්වාධීන වර්ග කිරීම මගින් ඒකාබද්ධ සම්භාවිතාව පිළිබඳ සියලු තොරතුරු විනාශ නොවන දත්ත කට්ටල තැනීමට (හෝ සිදුවීමට) හැකිය.
ඩැනියෙල්

5
කරුණාකර ඔබගේ හිමිකම් පෑමට පැහැදිලි උදාහරණයක් අපට දෙන්න, මන්ද එවැනි දෙයක් ගණිතමය වශයෙන් පවා කළ හැකි ආකාරය දැකීම දුෂ්කර වන අතර එය ප්‍රායෝගිකව අඩුය.
whuber

huhuber: කරුණාකර මගේ නව පිළිතුර බලන්න, එය ඔබේ ප්‍රශ්නයට තෘප්තිමත් වන තාත්වික දත්ත කට්ටලයක් ඇත ... මම සිතමි.
වේන්
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.