සාමාන්‍ය පරීක්ෂාව 'අත්‍යවශ්‍යයෙන්ම නිෂ් less ල' ද?


313

හිටපු සගයකු වරක් මට මෙසේ තර්ක කළේය:

අප සාමාන්‍යයෙන් ක්‍රියාවලි වල ප්‍රති results ල සඳහා සාමාන්‍ය පරීක්ෂණ සිදු කරනුයේ, ශුන්‍ය යටතේ, අහඹු විචල්‍යයන් ජනනය කරන අසමමිතික හෝ ආසන්න වශයෙන් පමණි ('අසමමිතික' කොටස අපට විශාල කළ නොහැකි යම් ප්‍රමාණයක් මත රඳා පවතී); ලාභ මතක, ලොකු දත්ත, සහ වේගවත් දත්ත සැකසුම් යුගයේ සාමාන්ය තත්වයට පරීක්ෂණ කළ යුතු සෑම විටම විශාල (නමුත් අතිශය විශාල නොවේ) සාම්පල සඳහා සාමාන්ය බෙදාහැරීම ශූන්ය ප්රතික්ෂේප කරනවා. එබැවින්, විකෘති ලෙස, සාමාන්‍ය පරීක්ෂණ භාවිතා කළ යුත්තේ කුඩා සාම්පල සඳහා පමණි, ඒවා අනුමාන වශයෙන් අඩු බලයක් සහ පළමු වර්ගයේ අනුපාතය මත අඩු පාලනයක් ඇති විට පමණි.

මෙය වලංගු තර්කයක්ද? මෙය ප්‍රසිද්ධ තර්කයක්ද? සාමාන්‍යභාවයට වඩා 'නොපැහැදිලි' ශුන්‍ය උපකල්පිතයක් සඳහා ප්‍රකට පරීක්ෂණ තිබේද?


25
යොමුව සඳහා: මෙය ප්‍රජා විකියක් විය යුතු යැයි මම නොසිතමි.
ෂේන්

2
'නිවැරදි පිළිතුරක්' ඇති බව මට විශ්වාස නැත ...
ෂබීචෙෆ්

5
එක්තරා අර්ථයකින් ගත් කල, සීමිත පරාමිති ගණනක සියලු පරීක්ෂණ වලදී මෙය සත්‍ය වේ. සමග (මෙම පරීක්ෂණය caried ඇති අතර මෙම පරාමිතීන් සංඛ්යාව) ස්ථාවර සහ සීමාවන් තොරව growthing, කණ්ඩායම් දෙක (කොතරම් කුඩා වුවත්) අතර වෙනසක් සෑම විටම යම් අවස්ථාවක දී එම ශූන්ය කඩා බිඳ දමනු ඇත. ඇත්ත වශයෙන්ම, මෙය බේසියානු පරීක්ෂණ සඳහා පක්ෂව තර්කයකි. kn
user603

2
මට නම් එය වලංගු තර්කයක් නොවේ. කෙසේ වෙතත්, කිසියම් පිළිතුරක් දීමට පෙර ඔබ දේවල් ටිකක් විධිමත් කළ යුතුය. ඔබ වැරදියි, ඔබ එසේ නොවිය හැකි නමුත් දැන් ඔබ සතුව ඇත්තේ ප්‍රතිභානයකට වඩා වැඩි දෙයක් නොවේ: මට නම් වාක්‍යය "ලාභ මතකය, විශාල දත්ත සහ වේගවත් සකසනයන් පවතින යුගයේදී, සාමාන්‍ය පරීක්ෂණ සෑම විටම සාමාන්‍ය ශුන්‍යය ප්‍රතික්ෂේප කළ යුතුය" පැහැදිලි කිරීම් අවශ්‍යයි :) මම හිතන්නේ ඔබ වඩාත් විධිමත් නිරවද්‍යතාවයක් ලබා දීමට උත්සාහ කළහොත් පිළිතුර සරල වනු ඇත.
රොබින් ජිරාඩ්

8
"විශාල දත්ත කට්ටල උපකල්පිත පරීක්ෂණ සඳහා නුසුදුසුද" යන පොතේ මෙම ප්‍රශ්නය සාමාන්‍යකරණය කිරීම ගැන සාකච්ඡා කරයි. ( stats.stackexchange.com/questions/2516/… )
whuber

Answers:


236

එය තර්කයක් නොවේ. අද අප සමඟ වැඩ කරන විශාල නියැදි ප්‍රමාණ පිළිබඳව විධිමත් සාමාන්‍ය පරීක්ෂණ සෑම විටම ප්‍රතික්ෂේප කරන බව (තරමක් තදින් ප්‍රකාශ කළ) සත්‍යයකි. N විශාල වූ විට, පරිපූර්ණ සාමාන්‍ය තත්වයෙන් කුඩාම අපගමනය පවා සැලකිය යුතු ප්‍රති .ලයකට තුඩු දෙන බව ඔප්පු කිරීම පවා පහසුය. සෑම දත්ත කට්ටලයකම යම් තරමක අහඹු බවක් ඇති බැවින්, තනි දත්ත කට්ටලයක් සාමාන්‍යයෙන් බෙදා හරින ලද නියැදියක් නොවනු ඇත. නමුත් ව්‍යවහාරික සංඛ්‍යාලේඛන වලදී ප්‍රශ්නය වන්නේ දත්ත / අවශේෂ ... පරිපූර්ණ සාමාන්‍යද යන්න නොව උපකල්පන රඳවා තබා ගැනීමට ප්‍රමාණවත් තරම් සාමාන්‍යද යන්නයි.

ෂැපිරෝ-විල්ක් පරීක්ෂණයෙන් මම නිදර්ශනය කරමි . පහත කේතය සාමාන්‍ය තත්වයට ළඟා වන නමුත් සම්පූර්ණයෙන්ම සාමාන්‍ය නොවන බෙදාහැරීම් සමූහයක් සාදයි. ඊළඟට, shapiro.testමෙම සාමාන්‍ය බෙදාහැරීම් වලින් සාම්පලයක් සාමාන්‍ය තත්වයෙන් බැහැර වේදැයි අපි පරීක්ෂා කරමු . R හි:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

අන්තිම පේළිය මඟින් සෑම නියැදි ප්‍රමාණයක් සඳහාම අනුකම්පාවලින් කුමන කොටස සාමාන්‍ය තත්වයෙන් සැලකිය යුතු ලෙස වෙනස් වේදැයි පරීක්ෂා කරයි. එබැවින් 87% ක්ම නිරීක්ෂණ 5000 ක නියැදියක් ෂැපිරෝ-විල්ක්ස් අනුව සාමාන්‍ය තත්වයෙන් සැලකිය යුතු ලෙස වෙනස් වේ. එහෙත්, ඔබ qq බිම් කොටස් දුටුවහොත්, ඔබ කිසි විටෙකත් සාමාන්‍ය තත්වයෙන් බැහැරවීමක් තීරණය නොකරනු ඇත. අහඹු නියැදි කට්ටලයක් සඳහා qq- බිම් කැබලි උදාහරණයක් ලෙස ඔබට පහත දැක්වේ

alt පෙළ

p- අගයන් සමඟ

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 

40
පැත්තක සටහනක, මධ්‍යම සීමාව ප්‍රමේයය n විශාල වන විට බොහෝ අවස්ථාවන්හි විධිමත් සාමාන්‍ය භාවය පරීක්ෂා කිරීම අනවශ්‍ය කරයි.
ජෝරිස් මේස්

31
ඔව්, ඇත්ත ප්‍රශ්නය වන්නේ දත්ත සාමාන්‍යයෙන් බෙදා හරිනු ලැබුවාද යන්න නොව විශ්ලේෂණයේ ප්‍රායෝගික අරමුණු සඳහා සාමාන්‍යය යැයි උපකල්පනය කිරීම සාධාරණ වීමට ප්‍රමාණවත් තරම් සාමාන්‍යද යන්නයි. තවද, සීඑල්ටී පදනම් කරගත් තර්කය සාමාන්‍යයෙන් [sic] යැයි මම සිතුවෙමි. ඒ සඳහා ප්‍රමාණවත්.
දික්රාන් අඟහරු

54
මෙම පිළිතුර ප්‍රශ්නයට ආමන්ත්‍රණය නොකරන බව පෙනේ: එය හුදෙක් පෙන්නුම් කරන්නේ එස්ඩබ්ලිව් පරීක්ෂණය එහි නාමික විශ්වාසනීය මට්ටම ළඟා කර නොගන්නා අතර එම නිසා එම පරීක්ෂණයෙහි අඩුපාඩුවක් හඳුනා ගනී (හෝ අවම වශයෙන් එය Rක්‍රියාත්මක කිරීමේදී). නමුත් එපමණයි - පොදුවේ සාමාන්‍ය පරීක්ෂාවේ ප්‍රයෝජනවත් වීමේ විෂය පථයට එය කිසිදු බලපෑමක් නැත. සාමාන්‍ය සාම්පල ප්‍රමාණවලින් සාමාන්‍ය පරීක්ෂණ නිතරම ප්‍රතික්ෂේප කරන බවට වන මුලික ප්‍රකාශය වැරදිය.
whuber

19
මෙම පිළිතුර ප්‍රශ්නයට ආමන්ත්‍රණය කරයි. ප්රශ්නයේ සමස්ත කරුණ වන්නේ "ආසන්න-සාමාන්යතාවයේ" "ආසන්න" ය. සාමාන්‍ය බෙදාහැරීමකින් නියැදිය ලබා ගැනීමට ඇති අවස්ථාව කුමක්දැයි SW පරීක්ෂා කරයි. මා විසින් සාදන ලද බෙදාහැරීම් හිතාමතාම සාමාන්‍ය දෙයක් නොවන බැවින්, SW පරීක්ෂණය පොරොන්දු වූ දේ කරනු ඇතැයි ඔබ අපේක්ෂා කරනු ඇත: ශුන්‍යය ප්‍රතික්ෂේප කරන්න. සමස්ත කාරණය නම්, මෙම ප්‍රතික්ෂේප කිරීම විශාල සාම්පලවල අර්ථ විරහිත බැවින් සාමාන්‍ය තත්වයෙන් බැහැරවීම එහි බලය නැතිවීමක් නොවන බැවිනි. QQplots
Joris Meys

12
මම ඔබ ලියා ඇති දේ මත විශ්වාසය තබා ඇති අතර “සාමාන්‍යය පාහේ බෙදා හැරීම” යන්නෙන් ඔබ අදහස් කළ දේ වරදවා වටහාගෙන ඇත. මම දැන් බලන්න - නමුත් එකම කියවීම හා කේතයේ එය හොඳින් පරීක්ෂා කිරීම මගින්, - ඔබ අදහස් සමග සම්මත සාමාන්ය බෙදාහැරීම් තුනක් සිට අනුකරනය කරන බව 1 , සහ 2 සහ එම ප්රතිඵල ඒකාබද්ධ 2 : 2 : 1 අනුපාතය. කනගාටුයි ඔබ බලාපොරොත්තු සාමාන්ය තත්වයට හොඳ ටෙස්ට් මෙම නඩුවේ ශූන්ය ප්රතික්ෂේප කරන බව? ඔබ effectively ලදායි ලෙස පෙන්නුම් කර ඇත්තේ QQ බිම් කැබලි එවැනි මිශ්‍රණ හඳුනා ගැනීමට එතරම් හොඳ නැති බවයි, එපමණයි! 0, 1,22:2:1
whuber

176

සාමාන්‍ය පරීක්ෂාව 'අත්‍යවශ්‍යයෙන්ම නිෂ් less ල' ද යන්න ගැන සිතන විට, පළමුව එය ප්‍රයෝජනවත් විය යුතු දේ ගැන සිතා බැලිය යුතුය. බොහෝ අය (හොඳයි ... අවම වශයෙන් බොහෝ විද්‍යා scientists යන්) සාමාන්‍ය පරීක්ෂණයට පිළිතුරු සපයන ප්‍රශ්නය වරදවා වටහා ගනී.

ප්‍රශ්නයේ සාමාන්‍ය භාවය පිළිබඳ පරීක්ෂණ පිළිතුරු සපයයි: ගවුසියානු පරමාදර්ශයෙන් බැහැරවීමක් පිළිබඳ ඒත්තු ගැන්වෙන සාක්ෂි තිබේද? තරමක් විශාල තාත්වික දත්ත කට්ටල සමඟ, පිළිතුර සෑම විටම පාහේ ඔව්.

විද්‍යා scientists යන් බොහෝ විට අපේක්ෂා කරන්නේ සාමාන්‍ය පරීක්ෂණයට පිළිතුරු සැපයීමයි: ගෝස්සියානු පරමාදර්ශයෙන් දත්ත ගෝස්සියානු ව්‍යාප්තියක් යැයි උපකල්පනය කරන පරීක්ෂණයක් “තහනම්” කිරීමට ප්‍රමාණවත්ද? සාම්ප්‍රදායික (ANOVA, ආදිය) පරීක්ෂණ අත්හැර දැමිය යුත්තේ කවදාද යන්න තීරණය කරන විනිසුරුවරයා සාමාන්‍ය විද්‍යා පරීක්ෂණයට බොහෝ විට අවශ්‍ය වන අතර ඒ වෙනුවට පරිණාමිත දත්ත විශ්ලේෂණය කිරීම හෝ ශ්‍රේණිගත කිරීම පදනම් කරගත් අසමමිතික පරීක්ෂණයක් හෝ නැවත සකස් කිරීම හෝ බූට්ස්ට්‍රැප් ප්‍රවේශයක් භාවිතා කිරීම. මෙම අරමුණු සඳහා සාමාන්‍ය පරීක්ෂණ ඉතා ප්‍රයෝජනවත් නොවේ.


17
හොඳ සහ තොරතුරු සහිත පිළිතුරක් සඳහා +1. පොදු වරදවා වටහා ගැනීමක් සඳහා හොඳ පැහැදිලි කිරීමක් දැකීම මට ප්‍රයෝජනවත් වේ (මම අහම්බෙන් මා අත්විඳ ඇති: stats.stackexchange.com/questions/7022/… ). මෙම පොදු වරදවා වටහා ගැනීම සඳහා විකල්ප විසඳුමක් මට මග හැරී ඇත. මා අදහස් කළේ, සාමාන්‍ය පරීක්ෂණ යනු වැරදි මාර්ගයක් නම්, සාමාන්‍ය දළ විශ්ලේෂණයක් පිළිගත හැකි / යුක්ති සහගත දැයි යමෙකු පරීක්ෂා කරන්නේ කෙසේද?
posdef

6
විශ්ලේෂකයාගේ (හෝ, පර්යේෂකයා / විද්‍යා ist යා) (පොදු) අර්ථයට ආදේශකයක් නොමැත. සහ අත්දැකීම් (උත්සාහ කිරීමෙන් සහ දැකීමෙන් ඉගෙන ගත් දේ: එය සාමාන්‍ය යැයි මා සිතන්නේ නම් මට ලැබෙන නිගමන මොනවාද? නැතිනම් වෙනස කුමක්ද?). ග්‍රැෆික්ස් ඔබේ හොඳම මිතුරන් වේ.
FairMiles

2
ඔබ මෙම කාරණය ඉදිරිපත් කරන කාරණයට මම කැමතියි: මිකේරි, ටී. (1989). යුනිකෝන්, සාමාන්‍ය වක්‍රය සහ වෙනත් කළ නොහැකි ජීවීන්. මනෝවිද්යාත්මක ප්රකාශනය, 105 (1), 156-166.
ජෙරමි මයිල්ස්

5
ග්‍රැෆික්ස් දෙස බැලීම විශිෂ්ටයි, නමුත් අතින් පරීක්ෂා කිරීමට තරම් ප්‍රමාණයක් තිබේ නම් කුමක් කළ යුතුද? සිදුවිය හැකි කරදරකාරී ස්ථාන පෙන්වා දීම සඳහා සාධාරණ සංඛ්‍යානමය ක්‍රියා පටිපාටි සකස් කළ හැකිද? මම මහා පරිමාණයෙන් උසස් පෙළ අත්හදා බැලීම් කරන්නන් වැනි තත්වයන් ගැන සිතමින් සිටිමි: exp-platform.com/Pages/… .
dfrankow

124

චිත්‍රක විභාග සඳහා සහකරුවන් ලෙස සාමාන්‍ය භාවය සඳහා වන පරීක්ෂණ ප්‍රයෝජනවත් වනු ඇතැයි මම සිතමි. ඒවා නිවැරදි ආකාරයෙන් භාවිතා කළ යුතුය. මගේ මතය අනුව, මෙයින් අදහස් කරන්නේ ෂැපිරෝ-විල්ක්, ඇන්ඩර්සන්-ඩාර්ලිං සහ ජාර්ක්-බෙරා වැනි බොහෝ ජනප්‍රිය පරීක්ෂණ කිසි විටෙකත් භාවිතා නොකළ යුතු බවයි.

මගේ ස්ථාවරය පැහැදිලි කිරීමට පෙර, මම අදහස් කිහිපයක් ඉදිරිපත් කිරීමට ඉඩ දෙන්න:

  • සිත්ගන්නාසුලු මෑත පුවත්පතක රොචොන් සහ වෙනත් අය. නියැදි දෙකේ ටී-පරීක්ෂණයට ෂැපිරෝ-විල්ක් පරීක්ෂණයේ බලපෑම අධ්‍යයනය කළේය. නිදසුනක් ලෙස ටී පරීක්ෂණයක් සිදු කිරීමට පෙර සාමාන්‍ය භාවය පරීක්ෂා කිරීමේ පියවර දෙකේ ක්‍රියා පටිපාටිය ගැටළු නොමැතිව නොවේ. නැවත වරක්, ටී පරීක්‍ෂණයක් සිදු කිරීමට පෙර සාමාන්‍ය භාවය ප්‍රස්ථාරිකව විමර්ශනය කිරීමේ පියවර දෙකේ ක්‍රියා පටිපාටිය ද නොවේ . වෙනස නම්, දෙවැන්නෙහි බලපෑම විමර්ශනය කිරීම වඩා දුෂ්කර ය (සංඛ්‍යාලේඛන ician යෙකුට සාමාන්‍යය 100 යි,000 හෝ ඊට වැඩි වාර ගණනක් ප්‍රස්තාරිකව විමර්ශනය කිරීම අවශ්‍ය වේ ...).
  • විධිමත් පරීක්‍ෂණයක් කිරීමට ඔබට අවශ්‍ය නොවුවද, සාමාන්‍ය නොවන බව ගණනය කිරීම ප්‍රයෝජනවත් වේ .
  • බහුකාර්ය සාමාන්‍යය ප්‍රස්තාරිකව තක්සේරු කිරීම දුෂ්කර විය හැකි අතර අසමමිතික බෙදාහැරීම් වලට අභිසාරී වීම බහු සංඛ්‍යාත්මක සංඛ්‍යාලේඛන සඳහා මන්දගාමී විය හැකිය. එබැවින් සාමාන්‍ය භාවය සඳහා වන පරීක්ෂණ බහුකාර්ය පසුබිමක දී වඩාත් ප්‍රයෝජනවත් වේ.
  • සංඛ්‍යා ලේඛන කළු පෙට්ටි ක්‍රමයක් ලෙස භාවිතා කරන වෘත්තිකයින්ට සාමාන්‍ය භාවය සඳහා වන පරීක්ෂණ විශේෂයෙන් ප්‍රයෝජනවත් වේ . සාමාන්‍ය භාවය ප්‍රතික්ෂේප වූ විට, වෘත්තිකයා තැති ගත යුතු අතර, සාමාන්‍යය උපකල්පනය මත පදනම් වූ සම්මත ක්‍රියා පටිපාටියක් අනුගමනය කරනවාට වඩා, අසමමිතික ක්‍රියා පටිපාටියක් භාවිතා කිරීම, පරිවර්තනයක් යෙදීම හෝ වඩාත් පළපුරුදු සංඛ්‍යාලේඛන ician යකුගෙන් උපදෙස් ලබා ගැනීම සලකා බලන්න.
  • අනෙක් අය පෙන්වා දී ඇති පරිදි, n ප්‍රමාණවත් තරම් විශාල නම් , සීඑල්ටී සාමාන්‍යයෙන් දවස ඉතිරි කරයි. කෙසේ වෙතත්, "ප්රමාණවත් තරම් විශාල" දේ විවිධ පංති බෙදාහැරීම් සඳහා වෙනස් වේ.

(මගේ නියතයට අනුව) සාමාන්‍ය පන්තියේ විකල්පයක් පන්තියට එරෙහිව යොමු කරනු ලබන්නේ එය එම පන්තියේ විකල්පයන්ට සංවේදී නමුත් වෙනත් පංතිවල විකල්පයන්ට සංවේදී නොවේ නම්. පැහැදිලි උදාහරණ ලෙස කරා යොමු වන බව පරීක්ෂණ වේ ලේඛයක හෝ kurtotic විකල්ප. සරලම උදාහරණ පරීක්ෂණ සංඛ්‍යාලේඛන ලෙස නියැදි වක්‍රතාව සහ කර්ටෝසිස් භාවිතා කරයි.

සිට සාමාන්ය තත්වයට අධ්යක්ෂණය පරීක්ෂණ විවාදාත්මකව බොහෝ විට බස් රථ පරීක්ෂණ (වැනි ෂපීරෝ-Wilk හා Jarque-Bera පරීක්ෂණ ලෙස) සඳහා වඩාත් වේ එය-යළිත් සාමාන්ය නොවන සමහර වර්ග පමණක් යම් inferential පටිපාටිය අවධානයට බව පොදු .

ශිෂ්‍යයාගේ ටී-පරීක්ෂණය උදාහරණයක් ලෙස සලකා බලමු. අපි skewness සමග බෙදා සිට iid නියැදි බව අනුමාන γ=(x-μ)3σ3 සහ (අතිරික්ත) kurtosisκ=E(Xμ)4σ43.Xඑහි මධ්‍යන්‍යය පිළිබඳ සමමිතිකනම්,γ=0. γසහκයන දෙකමසාමාන්‍ය බෙදා හැරීම සඳහා 0 වේ.

එකඟබව උපකල්පන යටතේ, අප පහත සඳහන් ලබා asymptotic පුළුල් පරීක්ෂණ සංඛ්යාලේඛන සිවිල් ආරක්ෂක සඳහා Tn :

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)-118 යිγ2(x4+2x2-3)-14(x2+3))φ(x)+o(n-1),

එහිදී Φ() සිවිල් ආරක්ෂක හා වන φ() සම්මත සාමාන්ය බෙදාහැරීම pdf වේ.

γ තුළ ප්රථම වරට දර්ශණයn-1/2 කාලීන, එනමුදුκ තුළ දර්ශනයn-1 වන පදය. ටී එන් හිඅසමමිතිකක්‍රියාකාරිත්වයකර්ටෝසිස් ස්වරූපයට වඩා සාමාන්‍ය තත්වයෙන් බැහැරවීමකට වඩා සංවේදී වේ.ටීn

කුඩා n සඳහාද මෙය සත්‍යයක් බව අනුකරණයන් මගින් සත්‍යාපනය කළ හැකිය . මේ අනුව ශිෂ්‍යයාගේ ටී-ටෙස්ට් එක වක්‍රතාවයට සංවේදී නමුත් බර වලිගවලට සාපේක්ෂව ශක්තිමත් වන අතර ටී-ටෙස්ට් යෙදීමට පෙර ස්කී විකල්පයන් වෙත යොමු වන සාමාන්‍ය භාවය සඳහා පරීක්ෂණයක් භාවිතා කිරීම සාධාරණ ය .

නියමාකාර නීතියක් ලෙස ( සොබාදහමේ නීතියක් නොවේ ), මාධ්‍යයන් පිළිබඳ අනුමාන කිරීම් වක්‍රතාවයට සංවේදී වන අතර විචල්‍යතාවයන් පිළිබඳ අනුමාන කිරීම් කර්ටෝසිස් වලට සංවේදී වේ.

සාමාන්‍ය භාවය සඳහා සෘජු පරීක්ෂණයක් භාවිතා කිරීමෙන් '' භයානක '' විකල්පයන්ට එරෙහිව ඉහළ බලයක් ලබා ගැනීමේ වාසිය සහ අඩු '' භයානක '' විකල්පයන්ට එරෙහිව අඩු බලය ලබා ගැනීමේ වාසිය ඇත, එයින් අදහස් කරන්නේ අප දිනාගත් සාමාන්‍යභාවයෙන් බැහැරවීම නිසා සාමාන්‍යය ප්‍රතික්ෂේප කිරීමට ඇති ඉඩකඩ අඩු බවයි. අපගේ අනුමාන ක්‍රියාපටිපාටියේ ක්‍රියාකාරිත්වයට බලපාන්නේ නැත. සාමාන්‍ය නොවන බව ගණනය කර ඇත්තේ ගැටලුවට අදාළ වන ආකාරයට ය. මෙය සෑම විටම ප්‍රස්ථාරිකව කිරීම පහසු නැත.

ලෙස n විශාල වේ, skewness හා kurtosis අඩු වැදගත් බවට පත් - හා අධ්යක්ෂණය පරීක්ෂණ මේ ප්රමාණ පවා කුඩා ප්රමාණයක් විසින් 0 සිට නොවෙනස්ව හඳුනාගත හැකි වේ. එවැනි අවස්ථාවන්හිදී, උදාහරණයක් ලෙස |γ|1 හෝ (ඉහත ප්‍රසාරණයේ පළමු පදය දෙස බලමින්)

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
γ=0යන්නට වඩා0.01. nවිශාල වන විටඅප මුහුණ දෙන සමහර ගැටලු මෙමඟින් බලා ගනී.


2
දැන් මෙය විශිෂ්ට පිළිතුරකි!
user603

11
ඔව්, මෙය පිළිගත්, ඇත්තෙන්ම අපූරු පිළිතුර විය යුතුය
රොර්ෂාච්

2
"විශේෂිත අනුමාන ක්‍රියාපටිපාටියක් ගැන සැලකිලිමත් වන්නේ සාමාන්‍ය නොවන සමහර වර්ග පමණක් වීම සාමාන්‍ය දෙයකි." - ඇත්ත වශයෙන්ම යමෙකු එම වර්ගයේ සාමාන්‍ය නොවන දෙසට යොමු කරන ලද පරීක්ෂණයක් භාවිතා කළ යුතුය. නමුත් යමෙකු සාමාන්‍ය පරීක්ෂණයක් භාවිතා කරන බව අඟවන්නේ ඔහු සාමාන්‍ය තත්වයේ සියලු අංශ ගැන සැලකිලිමත් වන බවයි. ප්රශ්නය වන්නේ: සාමාන්ය පරීක්ෂණය යනු එවැනි අවස්ථාවක හොඳ විකල්පයකි.
rbm

විශේෂිත පරීක්ෂණ සඳහා උපකල්පනවල ප්‍රමාණවත් බව සඳහා වන පරීක්ෂණය පොදු වෙමින් පවතින අතර, එමඟින් සමහර අනුමාන කිරීම් ස්තුතිවන්ත වේ.
කාල්

1
Ar කාල්: ඒ සඳහා ඔබට යොමු / උදාහරණ කිහිපයක් එකතු කළ හැකිද?
kjetil b halvorsen

58

පහත සඳහන් හේතූන් මත IMHO සාමාන්‍ය පරීක්ෂණ සම්පූර්ණයෙන්ම නිෂ් less ල ය:

  1. කුඩා සාම්පල වල, ජනගහනයේ සත්‍ය ව්‍යාප්තිය සැලකිය යුතු ලෙස සාමාන්‍ය නොවන බවට හොඳ අවස්ථාවක් තිබේ, නමුත් සාමාන්‍ය පරීක්ෂණය එය ලබා ගැනීමට බලවත් නොවේ.

  2. විශාල සාම්පල වල, ටී-ටෙස්ට් සහ ඇනෝවා වැනි දේවල් සාමාන්‍ය නොවන තත්වයට වඩා ශක්තිමත් ය.

  3. සාමාන්‍යයෙන් බෙදා හරින ලද ජනගහනයක සමස්ත අදහස කෙසේ හෝ පහසු ගණිතමය තක්සේරුවක් පමණි. සාමාන්‍යයෙන් සංඛ්‍යානමය වශයෙන් ගණුදෙනු කරන කිසිම ප්‍රමාණයකට සියලු තාත්වික සංඛ්‍යා ආධාරයෙන් බෙදා හැරීම් කළ නොහැකිය. උදාහරණයක් ලෙස, මිනිසුන්ට negative ණ උස තිබිය නොහැක. විශ්වයට වඩා යම් දෙයකට negative ණ ස්කන්ධයක් හෝ වැඩි ස්කන්ධයක් තිබිය නොහැක. ඒ නිසා, එය කියන්න ආරක්ෂිත කිසිවක් වේ හරියටම සාමාන්යයෙන් සැබෑ ලෝකයේ බෙදා.


2
විද්‍යුත් විභව වෙනස negative ණ විය හැකි තාත්වික ලෝක ප්‍රමාණයකට උදාහරණයකි.
නිකෝ

16
@nico: නිසැකවම එය negative ණාත්මක විය හැකි නමුත් විශ්වයේ ඇත්තේ ප්‍රෝටෝන හා ඉලෙක්ට්‍රෝන විශාල ප්‍රමාණයක් ඇති බැවින් එයට යම් සීමිත සීමාවක් තිබේ. ඇත්ත වශයෙන්ම මෙය ප්රායෝගිකව අදාළ නොවේ, නමුත් එය මගේ අදහසයි. කිසිවක් හරියටම සාමාන්‍යයෙන් බෙදා හරිනු නොලැබේ (ආකෘතිය වැරදියි), නමුත් ප්‍රමාණවත් තරම් සමීප බොහෝ දේ ඇත (ආකෘතිය ප්‍රයෝජනවත් වේ). මූලික වශයෙන්, ආකෘතිය දැනටමත් වැරදියි කියා ඔබ දැනටමත් දැන සිටි අතර, ශුන්‍යය ප්‍රතික්ෂේප කිරීම හෝ ප්‍රතික්ෂේප නොකිරීම අත්‍යවශ්‍යයෙන්ම එය ප්‍රයෝජනවත්ද යන්න පිළිබඳ කිසිදු තොරතුරක් ලබා නොදේ.
dsimcha

1
imdsimcha - ඇත්තෙන්ම බුද්ධිමත්, ප්‍රයෝජනවත් ප්‍රතිචාරයක් බව මට පෙනී ගියේය.
rolando2

5
t

imdsimcha "ආකෘතිය වැරදියි". සියලුම මාදිලි "වැරදි" නොවේද?
අටිරාග්

30

මා සිතන්නේ සාමාන්‍ය භාවය සඳහා පූර්ව පරීක්‍ෂණය (ග්‍රැෆික්ස් භාවිතයෙන් අවිධිමත් තක්සේරු කිරීම් ඇතුළත්) කාරණය මග හැරෙන බවයි.

  1. මෙම ප්‍රවේශය භාවිතා කරන්නන් උපකල්පනය කරන්නේ සාමාන්‍යය තක්සේරුවට 1.0 ට ආසන්න බලයක් ඇති බවයි.
  2. විල්කොක්සන්, ස්පියර්මන් සහ කෘස්කල්-වොලිස් වැනි අසමමිතික පරීක්ෂණ වල සාමාන්‍ය භාවය පවතින්නේ නම් 0.95 ක කාර්යක්ෂමතාවයක් ඇත.
  3. 2. බැලූ බැල්මට සාමාන්‍ය බෙදාහැරීමකින් දත්ත පැන නැගීමට ඇති ඉඩකඩ පවා යමෙකුට තිබේ නම්, අසමමිතික පරීක්ෂණයක් භාවිතා කිරීම කලින් නියම කළ හැකිය.
  4. වයිවයි

0.95 හි කාර්යක්ෂමතාව අසමමිතික බව සලකන්න : FWIW සාමාන්‍ය සීමිත නියැදි ප්‍රමාණ සඳහා කාර්යක්ෂමතාව බෙහෙවින් අඩු යැයි මම අනුමාන කරමි ... (පිළිගත හැකි වුවත් මම මෙය අධ්‍යයනය කර නැති බව හෝ එය ගවේෂණය කිරීමට උත්සාහ කර නැත)
බෙන් බෝල්කර්

පොදු පරීක්ෂණ ගණනාවක් සඳහා කුඩා සාම්පලවල සාපේක්ෂ කාර්යක්ෂමතාව මම ගවේෂණය කර ඇත්තෙමි; කුඩා නියැදි සාපේක්ෂ කාර්යක්ෂමතාව සාමාන්‍යයෙන් ARE ට වඩා අඩු නමුත් සාමාන්‍ය නියැදි ප්‍රමාණවලින් සාමාන්‍යයෙන් එතරම් නොවේ; ARE සාමාන්‍යයෙන් බෙහෙවින් ප්‍රයෝජනවත් මාර්ගෝපදේශයකි.
ග්ලෙන්_බී -රයින්ස්ටේට් මොනිකා

16

සාමාන්‍ය දෙයක් සඳහා පරීක්‍ෂණයක් හෝ කිසියම් ආකාරයක දළ පරීක්‍ෂණයක් “ප්‍රයෝජනවත්” දැයි විමසීමට පෙර, “ඔබ අසන්නේ ඇයි?” යන ප්‍රශ්නයට පිටුපස ඇති ප්‍රශ්නයට පිළිතුරු දිය යුතුය.

නිදසුනක් ලෙස, ඔබට අවශ්‍ය වන්නේ දත්ත සමූහයක මධ්‍යන්‍යය වටා විශ්වාසනීය සීමාවක් තැබීමට නම් , ඔබ සතුව ඇති දත්ත ප්‍රමාණය සහ පිටත්වීම් කොතරම් විශාලද යන්න මත පදනම්ව, සාමාන්‍යයෙන් පිටවීම වැදගත් විය හැකිය. කෙසේ වෙතත්, අනාගත නිරීක්ෂණ වලදී හෝ ඔබ සාම්පල ලබා ගත් ජනගහනයේ වඩාත්ම ආන්තික වටිනාකම කුමක් දැයි අනාවැකි කීමට අවශ්‍ය නම් සාමාන්‍ය තත්වයෙන් ඉවත්වීම ඉතා වැදගත් වේ.


12

මට එක් කුඩා දෙයක් එකතු කිරීමට ඉඩ දෙන්න:
එහි ඇල්ෆා දෝෂය සැලකිල්ලට නොගෙන සාමාන්‍ය පරීක්ෂණයක් සිදු කිරීම ඇල්ෆා දෝෂයක් සිදු කිරීමේ ඔබේ සමස්ත සම්භාවිතාව ඉහළ නංවයි.

ඇල්ෆා-දෝෂ සමුච්චනය සඳහා ඔබ පාලනය නොකරන තාක් කල් එක් එක් අතිරේක පරීක්ෂණය මෙය කරන බව ඔබට කිසිදා අමතක නොවේ. එබැවින් සාමාන්‍ය පරීක්ෂාව බැහැර කිරීමට තවත් හොඳ හේතුවක්.


ඔබ මුලින් සඳහන් කරන්නේ සාමාන්‍ය තත්වයේ පරීක්ෂණයක් සිදුකරන තත්වයක් ගැන යැයි මම සිතමි, ඉන්පසු එම පරීක්ෂණයෙහි ප්‍රති result ලය භාවිතා කර ඊළඟට කුමන පරීක්ෂණය සිදු කළ යුතුද යන්න තීරණය කරයි.
හාවි මොටුල්ස්කි

3
කිසියම් ක්‍රමයක් භාවිතා කිරීම සුදුසු ද නැද්ද යන්න තීරණය කිරීම සඳහා ක්‍රමවේදයක් ලෙස භාවිතා කරන විට සාමාන්‍ය පරීක්ෂණවල සාමාන්‍ය උපයෝගීතාව ගැන මම සඳහන් කරමි. මෙම අවස්ථා වලදී ඔබ ඒවා අදාළ කරන්නේ නම්, ඇල්ෆා දෝෂයක් ඇතිවීමේ සම්භාවිතාව අනුව, ඇල්ෆා දෝෂ සමුච්චය වීම වළක්වා ගැනීම සඳහා වඩාත් ශක්තිමත් පරීක්ෂණයක් කිරීම වඩා හොඳය.
හෙන්රික්

4
H0

3
සාමාන්‍ය පරීක්ෂණයකින් පළමු වර්ගයේ දෝෂ වැඩි කළ හැකි තවත් ක්‍රමයක් නම්, අපි "ඇල්ෆා දෝෂයක් සිදු කිරීමේ සමස්ත සම්භාවිතාව" ගැන කතා කරන්නේ නම්. පරීක්ෂණයට දෝෂ අනුපාතයක් ඇත, එබැවින් සමස්තයක් ලෙස අපගේ දෝෂයක් සිදු වීමේ සම්භාවිතාව වැඩිවේ. එක් කුඩා දෙයකට ද අවධාරණය
කරන්නැයි

2
IckNickStauner මට කියන්නට අවශ්‍ය වූයේ එයයි. මෙම කරුණ වඩාත් පැහැදිලි කිරීම ගැන ස්තූතියි.
හෙන්රික්

11

මෙහි පිළිතුරු දැනටමත් වැදගත් කරුණු කිහිපයක් ආමන්ත්‍රණය කර ඇත. ඉක්මනින් සාරාංශ කිරීමට:

  • දත්ත සමූහයක් සැබවින්ම බෙදාහැරීමක් අනුගමනය කරන්නේද නැද්ද යන්න තීරණය කළ හැකි ස්ථිර පරීක්ෂණයක් නොමැත.
  • ඉහළ උත්තේජනයක්, ඉහළ බලපෑම් නිරීක්ෂණ හඳුනා ගැනීමට සහ ආකෘති කෙරෙහි ඒවායේ බලපෑම පිළිබඳව අදහස් දැක්වීමට දත්ත සහ ආකෘති දෘශ්‍ය ලෙස පරීක්ෂා කිරීම සඳහා පරීක්ෂණ ආදේශකයක් නොවේ.
  • බොහෝ ප්‍රතිගාමී ක්‍රියාකාරකම් සඳහා උපකල්පන බොහෝ විට වැරදියට උපුටා දක්වනුයේ සාමාන්‍යයෙන් බෙදා හරින ලද “දත්ත” [අවශේෂ] අවශ්‍ය වන අතර නවක සංඛ්‍යාලේඛන ians යින් විසින් මෙය අර්ථකථනය කරනු ලබන්නේ විශ්ලේෂක සමඟ ඉදිරියට යාමට පෙර විශ්ලේෂකයා මෙය යම් ආකාරයකින් විධිමත් ලෙස ඇගයීමට ලක් කළ යුතු බැවිනි.

මම මුලින්ම පිළිතුරක් එක් කරන්නේ මගේ, පෞද්ගලිකව, බොහෝ විට ප්‍රවේශ වූ සහ සංඛ්‍යානමය ලිපි කියවීමට ය: ලුම්ලි et විසින් රචිත “ විශාල මහජන සෞඛ්‍ය දත්ත කට්ටලවල සාමාන්‍ය උපකල්පනවල වැදගත්කම ”. අල්. එය සම්පූර්ණයෙන්ම කියවීම වටී. සාරාංශයේ මෙසේ සඳහන් වේ:

ටී-පරීක්ෂණය සහ අවම-වර්ග රේඛීය ප්‍රතිගාමීත්වය ප්‍රමාණවත් තරම් විශාල සාම්පලවල සාමාන්‍ය ව්‍යාප්තිය පිළිබඳ උපකල්පනයක් අවශ්‍ය නොවේ. පෙර අනුකරණ අධ්‍යයනවලින් පෙනී යන්නේ “ප්‍රමාණවත් තරම් විශාල” බොහෝ විට 100 ට අඩු වන අතර අපගේ අතිශය සාමාන්‍ය නොවන වෛද්‍ය වියදම් දත්ත සඳහා පවා එය 500 ට වඩා අඩු බවයි. මෙයින් අදහස් කරන්නේ සාම්පල බොහෝ විට මීට වඩා සැලකිය යුතු තරම් විශාල වන මහජන සෞඛ්‍ය පර්යේෂණ වලදී ටී. -test සහ රේඛීය ආකෘතිය සාමාන්‍ය බෙදාහැරීම් ඇති අය පමණක් නොව බොහෝ වර්ගවල දත්තවල වෙනස්කම් සහ ප්‍රවණතා විශ්ලේෂණය කිරීම සඳහා ප්‍රයෝජනවත් පෙරනිමි මෙවලම් වේ. බෙදා හැරීම වැදගත් වන කුඩා සාම්පලවල අඩු බලයක් සහ බෙදා හැරීම වැදගත් නොවන විශාල සාම්පලවල පමණක් ඉහළ බලය ඇති බැවින් සාමාන්‍යය සඳහා විධිමත් සංඛ්‍යාන පරීක්ෂණ විශේෂයෙන් නුසුදුසු ය.

රේඛීය ප්‍රතිගාමිත්වයේ විශාල-නියැදි ගුණාංග හොඳින් වටහාගෙන ඇති නමුත්, සාමාන්‍ය උපකල්පනය වැදගත් නොවන බවට අවශ්‍ය නියැදි ප්‍රමාණ පිළිබඳව එතරම් පර්යේෂණ කර නොමැත. විශේෂයෙන්, අවශ්‍ය නියැදි ප්‍රමාණය ආකෘතියේ පුරෝකථනයන් ගණන මත රඳා පවතින්නේ කෙසේද යන්න පැහැදිලි නැත.

සාමාන්‍ය බෙදාහැරීම් කෙරෙහි අවධානය යොමු කිරීම මෙම ක්‍රමවල සැබෑ උපකල්පනයන්ගෙන් ract ත් විය හැකිය. රේඛීය ප්‍රතිවර්තනය මඟින් ප්‍රති come ල විචල්‍යයේ විචල්‍යතාව දළ වශයෙන් නියත යැයි උපකල්පනය කරයි, නමුත් ක්‍රම දෙකටම ඇති මූලික සීමාව නම් ප්‍රති come ල විචල්‍යයේ මධ්‍යන්‍යයේ වෙනස්කම් පරීක්ෂා කිරීම ප්‍රමාණවත් යැයි ඔවුන් උපකල්පනය කිරීමයි. බෙදාහැරීමේ වෙනත් සාරාංශයක් වැඩි උනන්දුවක් දක්වන්නේ නම්, ටී-පරීක්ෂණය සහ රේඛීය ප්‍රතිගාමී වීම සුදුසු නොවනු ඇත.

සාරාංශගත කිරීම සඳහා: කිසියම් විද්‍යාත්මක ප්‍රශ්නයකට පිළිතුරු සැපයීමේ වැදගත්කමට වඩා වෙනස්ව සාමාන්‍යයෙන් සාකච්ඡාවට හෝ එයට ලැබෙන අවධානයට වටින්නේ නැත. දත්තවල මධ්‍යන්‍ය වෙනස්කම් සාරාංශ කිරීමට ආශාව නම්, ටී-පරීක්ෂණය සහ ANOVA හෝ රේඛීය ප්‍රතිගාමීත්වය වඩා පුළුල් අර්ථයකින් යුක්ති සහගත වේ. බලය අහිතකර ලෙස බලපානු ඇතත්, බෙදා හැරීමේ උපකල්පන සපුරා නොමැති වුවද, මෙම ආකෘති මත පදනම් වූ පරීක්ෂණ නිවැරදි ඇල්ෆා මට්ටමේ පවතී.

සාමාන්‍ය බෙදාහැරීම් වලට ඔවුන්ගේ අවධානය ලැබීමට හේතු සම්භාව්‍ය හේතූන් විය හැකිය, එහිදී ANOVA සඳහා එෆ් බෙදාහැරීම් මත පදනම් වූ නිශ්චිත පරීක්ෂණ සහ ටී-පරීක්ෂණය සඳහා ශිෂ්‍ය-ටී බෙදාහැරීම් ලබා ගත හැකිය. සත්යය නම්, විද්යාවේ බොහෝ නූතන දියුණුව අතර, අපි සාමාන්යයෙන් කලින් එකතු කරන ලද දත්ත කට්ටල සමඟ ගනුදෙනු කරමු. යමෙක් ඇත්ත වශයෙන්ම කුඩා දත්ත කට්ටලයක් සමඟ කටයුතු කරන්නේ නම්, එම දත්ත සාමාන්‍යයෙන් බෙදා හරිනු ඇතැයි යන තාර්කිකත්වය එම දත්ත වලින්ම පැමිණිය නොහැක: ප්‍රමාණවත් තරම් බලයක් නොමැත. වෙනත් පර්යේෂණ, අනුරූකරණ හෝ මිනුම් ක්‍රියාවලියේ ජීව විද්‍යාව හෝ විද්‍යාව පිළිබඳව නැවත සඳහන් කිරීම, නිරීක්ෂණය කරන ලද දත්තවලට යටින් විය හැකි සම්භාවිතා ආකෘතියක් සාකච්ඡා කිරීම සඳහා වඩාත් යුක්ති සහගත ප්‍රවේශයකි.

මේ හේතුව නිසා, විකල්පයක් ලෙස ශ්‍රේණිගත පාදක පරීක්ෂණයක් තෝරා ගැනීමෙන් කාරණය මුළුමනින්ම මග හැරේ. කෙසේ වෙතත්, ජැක්නයිෆ් හෝ බූට්ස්ට්‍රැප් වැනි ශක්තිමත් විචල්‍යතා ඇස්තමේන්තු භාවිතා කිරීමෙන් වැදගත් ගණනය කිරීම් විකල්පයන් ඉදිරිපත් කරන බව මම එකඟ වෙමි.


10

මම භාවිතා සාමාන්ය තත්වයට පරීක්ෂණ සම්පූර්ණයෙන්ම නිෂ්ඵල බව හිතන්න.

කෙසේ වෙතත්, දැන් මම වෙනත් පර්යේෂකයන් සඳහා උපදේශනය කරමි. බොහෝ විට, සාම්පල ලබා ගැනීම අතිශයින්ම මිල අධික වන අතර, එබැවින් ඔවුන්ට n = 8 සමඟ අනුමාන කිරීමට අවශ්‍ය වනු ඇතැයි පවසන්න.

එවැනි අවස්ථාවකදී, පරාමිතික නොවන පරීක්ෂණ සමඟ සංඛ්‍යානමය වැදගත්කමක් සොයා ගැනීම ඉතා අපහසු නමුත් n = 8 සමඟ ටී පරීක්ෂණ සාමාන්‍ය තත්වයෙන් බැහැරවීම් වලට සංවේදී වේ. ඉතින් අපට ලැබෙන දෙය නම් “හොඳයි, සාමාන්‍යය යැයි උපකල්පනය කිරීම මත කොන්දේසි සහිතයි, අපට සංඛ්‍යානමය වශයෙන් සැලකිය යුතු වෙනසක් පෙනේ” (කරදර නොවන්න, මේවා සාමාන්‍යයෙන් නියමු අධ්‍යයන වේ ...).

එවිට අපට එම උපකල්පනය තක්සේරු කිරීමට යම් ක්‍රමයක් අවශ්‍ය වේ. මම කඳවුරේ බාගෙට යමි, බිම් කැබලි බැලීම වඩා හොඳ ක්‍රමයක් බව, නමුත් සත්‍යය කිවහොත් ඒ පිළිබඳව විශාල මතභේදයක් ඇතිවිය හැකිය, එය ඔබ සමඟ එකඟ නොවන අයෙකු නම් ඉතා ගැටළු සහගත විය හැකිය. ඔබේ අත් පිටපත සමාලෝචනය කරන්නා.

බොහෝ ආකාරවලින්, මම තවමත් සිතන්නේ සාමාන්‍ය භාවය පිළිබඳ පරීක්ෂණවල අඩුපාඩු රාශියක් ඇති බවයි: නිදසුනක් වශයෙන්, මම I වර්ගයට වඩා II වර්ගයේ දෝෂය ගැන සිතිය යුතුය. නමුත් ඒවා සඳහා අවශ්‍යතාවයක් ඇත.


මෙහි ඇති තර්ක වන්නේ පරීක්ෂණ න්‍යායෙන් පමණක් නිෂ් less ල බවයි. න්‍යාය අනුව, අපට සැමවිටම අපට අවශ්‍ය තරම් සාම්පල ලබා ගත හැකිය ... ඔබේ දත්ත අවම වශයෙන් කෙසේ හෝ සාමාන්‍ය තත්වයට ආසන්න බව ඔප්පු කිරීමට ඔබට තවමත් පරීක්ෂණ අවශ්‍ය වේ.
හෙලෝ වර්ල්ඩ්

2
හොඳ කරුණක්. උපකල්පිත පරීක්ෂණයකට වඩා සාමාන්‍යයෙන් බැහැරවීම මැනීම වැදගත් යැයි මම සිතමි.
ක්ලිෆ් ඒබී

3
සාමාන්‍ය පරීක්ෂණයක බලය n = 8 දී ඉතා අඩු වනු ඇත; විශේෂයෙන්, කුඩා සාම්පල ප්‍රමාණවලින් (පරීක්ෂණයෙන් හෝ දෘශ්‍යමය වශයෙන්) හඳුනා ගැනීම තරමක් අපහසු යැයි උපකල්පනය කරන පරීක්ෂණයක ගුණාංගවලට සැලකිය යුතු ලෙස බලපාන සාමාන්‍යභාවයෙන් බැහැරවීම.
Glen_b -Reinstate Monica

1
@ ග්ලෙන්_බී: මම එකඟ වෙමි; මෙම හැඟීම I වර්ගයට වඩා දෙවන වර්ගයේ දෝෂ ගැන සැලකිලිමත් වීමට අනුකූල යැයි මම සිතමි. මගේ අදහස නම් සාමාන්‍ය ලෝකය සඳහා සාමාන්‍ය ලෝකය පරීක්ෂා කිරීමේ අවශ්‍යතාවයක් ඇති බවයි. අපගේ වර්තමාන මෙවලම් ඇත්ත වශයෙන්ම එම අවශ්‍යතාවය සපුරාලන්නේද යන්න වෙනස් ප්‍රශ්නයකි.
ක්ලිෆ් ඒබී

1
මා දුටු සාමාන්‍ය භාවය සඳහා වන සෑම පරීක්ෂණයක්ම පාහේ එම උපකල්පනය මත රඳා පවතින පරීක්ෂණයක් භාවිතා කිරීමට පෙර පරීක්ෂණයෙහි භාවිතා වන දත්ත පිළිබඳ බෙදා හැරීමේ උපකල්පන පරීක්ෂා කිරීම ය; එවැනි පරීක්ෂා සිදු සියලු දී හැකි දරුණු ගැටලුවක් බව - එය නිසැකව අනුමානය විශ්වාසනීයත්වයක් ප්රතිවිපාක ඇත. ඔබ යොමු කළ අවශ්‍යතාවය එය නම්, පරීක්ෂා කිරීමේ අවශ්‍යතාවයක් ඇති බවට ප්‍රබල මතයක් ඇතැයි මම කියමි, නමුත් සෑම විටම පාහේ වඩා හොඳ දේවල් කිරීමට තිබේ. යෝග්‍යතාවයේ යහපත් බව පරීක්ෂා කිරීමට ඉඳහිට හොඳ හේතු තිබේ, නමුත් ඒවා කලාතුරකින් මෙම පරීක්ෂණ සඳහා භාවිතා කරනු ලැබේ.
ග්ලෙන්_බී -රයින්ස්ටේට් මොනිකා

10

එය වටින දෙය සඳහා, මම වරක් කප්පාදු කරන ලද සාමාන්‍ය බෙදා හැරීම සඳහා වේගවත් නියැදියක් සකස් කළ අතර, ක්‍රියාකාරීත්වය නිදොස් කිරීම සඳහා සාමාන්‍ය පරීක්ෂාව (KS) ඉතා ප්‍රයෝජනවත් විය. මෙම නියැදිය විශාල නියැදි ප්‍රමාණවලින් පරීක්ෂණය සමත් වුවද සිත්ගන්නා කරුණ නම් ජීඑස්එල් හි සිග්ගුරාට් නියැදිය නොවේ.


7

මම හිතන්නේ උපරිම එන්ට්‍රොපි ප්‍රවේශයක් මෙහි ප්‍රයෝජනවත් වේවි. අපට සාමාන්‍ය බෙදාහැරීමක් පැවරිය හැක්කේ දත්ත “සාමාන්‍යයෙන් බෙදා හරිනු” ඇතැයි අප විශ්වාස කරන නිසා (එහි තේරුම කුමක් වුවත්) හෝ අප බලාපොරොත්තු වන්නේ එකම විශාලත්වයේ අපගමනයන් දැකීමට පමණි. එසේම, සාමාන්‍ය බෙදාහැරීමට ප්‍රමාණවත් සංඛ්‍යාලේඛන දෙකක් පමණක් ඇති බැවින්, මෙම ප්‍රමාණ වෙනස් නොකරන දත්තවල වෙනස්වීම් වලට එය සංවේදී නොවේ. එබැවින් එක් අර්ථයකින් ගත් කල, සාමාන්‍ය බෙදාහැරීමක් එකම පළමු හා දෙවන අවස්ථා සමඟ කළ හැකි සියලුම බෙදාහැරීම්වලට වඩා “සාමාන්‍ය” ලෙස සිතිය හැකිය. මෙම අවම වශයෙන් කොටු ඇයි එක් හේතුවක් යුතු එය මෙන්ම වැඩ.


සංකල්ප හොඳ පාලමක්. එවැනි බෙදාහැරීමක් වැදගත් වන අවස්ථාවන්හිදී, දත්ත ජනනය වන ආකාරය ගැන සිතීම වඩා දීප්තිමත් බව මම එකඟ වෙමි . මිශ්‍ර ආකෘති සවිකිරීමේදී අපි එම මූලධර්මය ක්‍රියාත්මක කරමු. අනෙක් අතට සාන්ද්රණයන් හෝ අනුපාත සෑම විටම නොගැලපේ. "සාමාන්‍යය ... වෙනස්කම් වලට සංවේදී නොවේ" යන්නෙන් ඔබ අදහස් කරන්නේ හැඩයේ / පරිමාණයේ වෙනස්වීම් වලට වෙනස් නොවන බවයි.
ආදම් ඕ

7

එය නිෂ් less ල යැයි මම නොකියමි, නමුත් එය ඇත්ත වශයෙන්ම යෙදුම මත රඳා පවතී. සටහන, දත්ත පැමිණෙන්නේ ඔබ සැබවින්ම නොදන්නා අතර ඔබ සතුව ඇත්තේ අවබෝධයේ කුඩා කට්ටලයක් පමණි. ඔබේ නියැදි මධ්යන්ය සෑම විටම නියැදියක සීමිත වේ, නමුත් සමහර වර්ගවල සම්භාවිතා ity නත්ව කාර්යයන් සඳහා මධ්යන්ය නිර්වචනය නොකළ හෝ අනන්ත විය හැකිය. බදු බෙදා හැරීමේ ස්ථායී බෙදාහැරීම් වර්ග තුනක් අපි සලකා බලමු. ඔබගේ බොහෝ සාම්පල වල වලිගයේ බොහෝ නිරීක්ෂණ නොමැත (එනම් නියැදි මධ්‍යන්‍යයෙන් away ත්ව). එබැවින් ආනුභවික වශයෙන් මේ තුන අතර වෙනස හඳුනා ගැනීම ඉතා අසීරු ය, එබැවින් කෝචි (නිර්වචනය නොකළ මධ්යන්යයක් ඇත) සහ බද්ද (අසීමිත මධ්යන්යයක් ඇත) සාමාන්ය බෙදාහැරීමක් ලෙස පහසුවෙන් වෙස්වලා ගත හැකිය.


1
තර්ක පෙනේ "... ආනුභාව සම්පන්නව එය ඉතා දුෂ්කර ... වේ" එරෙහිව නොව, සඳහා , distributional පරීක්ෂා කිරීම. බෙදාහැරීමේ පරීක්ෂණ සඳහා සැබවින්ම භාවිතයන් ඇති බව හඳුන්වාදීමේ ඡේදයක කියවීම මෙය අමුතු දෙයක්. එසේනම් ඔබ ඇත්තටම මෙහි කීමට උත්සාහ කරන්නේ කුමක්ද?
whuber

3
මම එයට විරුද්ධ වෙමි, නමුත් මට අවශ්‍ය වන්නේ එය නිෂ් less ල යැයි පැවසීමට වඩා පරිස්සම් වීමටයි. සාමාන්‍ය උපකල්පනය මත රඳා පවතින බොහෝ පරීක්ෂණ තිබේ. සාමාන්‍ය භාවය පරීක්‍ෂා කිරීම නිෂ් less ල යැයි කීම අත්‍යවශ්‍යයෙන්ම එවැනි සංඛ්‍යාලේඛන පරීක්‍ෂණයන් ඉවත් කිරීමකි. එවැනි අවස්ථාවක ඔබ එය නොකළ යුතුය, සංඛ්‍යාලේඛනවල මෙම විශාල කොටස නොකළ යුතුය.
කොලොනෙල්

ඔබට ස්තුතියි. එම අදහස් දැක්වීමේ අදහස් ඔබගේ මුල් පිළිතුරට වඩා ප්‍රශ්නය කෙරෙහි වැඩි අවධානයක් යොමු කර ඇති බව පෙනේ! ඔබේ අදහස් සහ උපදෙස් වඩාත් පැහැදිලිව පෙනෙන පරිදි යම් අවස්ථාවක දී ඔබේ පිළිතුර යාවත්කාලීන කිරීම ගැන සලකා බැලිය හැකිය.
whuber

ගැටළුවක් නැත. ඔබට සංස්කරණයක් නිර්දේශ කළ හැකිද?
kolonel

ඔබට ලිපි දෙක - පිළිතුර සහ ඔබේ අදහස ඒකාබද්ධ කිරීමෙන් ආරම්භ කළ හැකි අතර, පසුව ස්පර්ශ කළ හැකි ඕනෑම ද්‍රව්‍යයක් වල් නෙලීම (හෝ උපග්‍රන්ථයකට යොමු කිරීම හෝ පැහැදිලි කිරීම) ගැන සිතන්න. නිදසුනක් වශයෙන්, නිර්වචනය නොකළ මාධ්‍යයන් පිළිබඳ සඳහනට තවමත් ප්‍රශ්නයට පැහැදිලි බලපෑමක් නොමැති අතර එය තරමක් අද්භූත ලෙස පවතී.
whuber

7

මම හිතන්නේ පළමු ප්‍රශ්න 2 ට තරයේ පිළිතුරු දී ඇති නමුත් 3 වන ප්‍රශ්නයට ආමන්ත්‍රණය කර ඇතැයි මම නොසිතමි. බොහෝ පරීක්ෂණ ආනුභවික ව්‍යාප්තිය දන්නා උපකල්පිත ව්‍යාප්තියකට සංසන්දනය කරයි. කොල්මෝගොරොව්-ස්මිර්නොව් පරීක්ෂණය සඳහා තීරණාත්මක අගය පදනම් වී ඇත්තේ එෆ් සම්පූර්ණයෙන්ම නියම කර ඇති බැවිනි. ඇස්තමේන්තුගත පරාමිතීන් සහිත පරාමිතික ව්‍යාප්තියකට එරෙහිව පරීක්ෂා කිරීම සඳහා එය වෙනස් කළ හැකිය. එබැවින් ෆියුසියර් යනු පරාමිති දෙකකට වඩා තක්සේරු කිරීම නම් ප්‍රශ්නයට පිළිතුර ඔව් ය. මෙම පරීක්ෂණ පරාමිති පවුල් 3 ක් හෝ ඊට වැඩි ගණනක් යෙදිය හැකිය. නිශ්චිත බෙදාහැරීම් පවුලකට එරෙහිව පරීක්ෂා කිරීමේදී වඩා හොඳ බලයක් ලබා ගැනීම සඳහා සමහර පරීක්ෂණ සැලසුම් කර ඇත. නිදසුනක් ලෙස සාමාන්‍ය භාවය පරීක්ෂා කිරීමේදී ඇන්ඩර්සන්-ඩාර්ලිං හෝ ෂැපිරෝ-විල්ක් පරීක්ෂණයට කේඑස් හෝ චි චතුරස්රයට වඩා වැඩි බලයක් ඇත්තේ ශුන්‍ය උපකල්පිත ව්‍යාප්තිය සාමාන්‍ය වූ විට ය.


7

ඔබ දුන් තර්කය මතයකි. සාමාන්‍ය තත්වයෙන් පරික්‍ෂා කිරීමේ වැදගත්කම වන්නේ දත්ත සාමාන්‍යයෙන් බැහැර නොවන බවට වග බලා ගැනීමයි. මගේ අනුමාන ක්‍රියාපටිපාටිය සඳහා පරාමිතික හා අසමමිතික පරීක්ෂණයකට එරෙහිව තීරණය කිරීම සඳහා මම සමහර විට එය භාවිතා කරමි. පරීක්ෂණය මධ්‍යස්ථ හා විශාල සාම්පල සඳහා ප්‍රයෝජනවත් විය හැකි යැයි මම සිතමි (මධ්‍යම සීමාවන් ප්‍රමේයය ක්‍රියාත්මක නොවන විට). මම විල්ක්-ෂැපිරෝ හෝ ඇන්ඩර්සන්-ඩාර්ලිං පරීක්ෂණ භාවිතා කිරීමට නැඹුරු වන නමුත් එස්ඒඑස් ධාවනය කිරීමෙන් මම ඒවා සියල්ලම ලබා ගන්නා අතර ඒවා සාමාන්‍යයෙන් හොඳින් එකඟ වේ. වෙනත් සටහනක මම සිතන්නේ QQ බිම් කොටස් වැනි චිත්‍රක ක්‍රියා පටිපාටි එක හා සමානව ක්‍රියාත්මක වන බවයි. විධිමත් පරීක්ෂණයක ඇති වාසිය නම් එය වෛෂයික වීමයි. කුඩා සාම්පල වලදී යෝග්‍යතා පරීක්ෂණවල මෙම යහපත්කමට ප්‍රායෝගිකව බලයක් නොමැති බව සත්‍යයකි. එය සාමාන්‍ය බෙදාහැරීමක කුඩා නියැදියක් අහම්බෙන් සාමාන්‍ය දෙයක් නොවන බව පෙනෙන්නට ඇති හෙයින් එය පරීක්ෂණයට භාජනය වේ. සාමාන්‍ය නොවන බෙදාහැරීම් බොහෝමයක් සාමාන්‍ය බෙදාහැරීම් වලින් වෙන්කර හඳුනා ගන්නා ඉහළ වක්‍රතාව සහ කර්ටෝසිස් කුඩා සාම්පලවල පහසුවෙන් දැකිය නොහැක.


3
එය නිසැකවම ඒ ආකාරයෙන් භාවිතා කළ හැකි වුවද, ඔබ QQ- බිම් කැබැල්ලකට වඩා වෛෂයික වනු ඇතැයි මම නොසිතමි. පරීක්ෂණ සමඟ ඇති විෂයානුබද්ධ කොටස වන්නේ ඔබේ දත්ත සාමාන්‍ය නොවන බව තීරණය කළ යුත්තේ කවදාද යන්නයි. විශාල නියැදියක් සමඟ p = 0.05 දී ප්‍රතික්ෂේප කිරීම ඉතා අධික විය හැකිය.
එරික්

4
පූර්ව පරීක්‍ෂණයට (මෙහි යෝජනා කර ඇති පරිදි) සමස්ත ක්‍රියාවලියේ පළමු වර්ගයේ දෝෂ අනුපාතය අවලංගු කළ හැකිය; එය තෝරාගත් කුමන පරීක්ෂණයක ප්‍රති results ල අර්ථ නිරූපණය කිරීමේදී පූර්ව පරීක්‍ෂණයක් සිදු කර ඇති බව සැලකිල්ලට ගත යුතුය. වඩාත් සාමාන්‍යයෙන්, යමෙකු සැබවින්ම සැලකිලිමත් වන ශුන්‍ය උපකල්පිතය පරීක්ෂා කිරීම සඳහා උපකල්පිත පරීක්ෂණ තබා ගත යුතුය, එනම් විචල්‍යයන් අතර සම්බන්ධයක් නොමැති බව. දත්ත හරියටම සාමාන්‍යය යන ශූන්‍ය උපකල්පනය මෙම ගණයට වැටෙන්නේ නැත.
අමුත්තා

1
(+1) මෙහි විශිෂ්ට උපදෙස් තිබේ. එරික්, මයිකල්ගේ අයිතිය තේරුම් ගන්නා තෙක් "වෛෂයික" භාවිතය මා ද පසුබට විය: එකම දත්තයන් මත එකම පරීක්‍ෂණයක් නිවැරදිව සිදුකරන පුද්ගලයින් දෙදෙනෙකුට සෑම විටම එකම p- අගය ලැබෙනු ඇත, නමුත් ඔවුන් එකම QQ කුමන්ත්‍රණය වෙනස් ලෙස අර්ථ නිරූපණය කළ හැකිය. අමුත්තා: පළමු වර්ගයේ දෝෂය පිළිබඳ අනතුරු ඇඟවීමේ සටහනට ස්තූතියි. නමුත් දත්ත බෙදා හැරීම ගැන අප සැලකිලිමත් නොවිය යුත්තේ ඇයි? බොහෝ විට එය සිත්ගන්නාසුළු හා වටිනා තොරතුරු වේ. මගේ පරීක්ෂණ ඒවා ගැන කරන උපකල්පනවලට අනුකූලද යන්න දත්ත දැන ගැනීමට මට අවශ්‍යය!
whuber

1
මම තරයේ එකඟ නොවෙමි. දෙදෙනාම එකම QQ- බිම් කොටස ලබා ගන්නා අතර p- අගයට සමාන වේ. P- අගය අර්ථ නිරූපණය කිරීම සඳහා ඔබේ පරීක්ෂණය විශේෂයෙන් සංවේදී වන නියැදි ප්‍රමාණය සහ සාමාන්‍යභාවය උල්ලං lations නය කිරීම් සැලකිල්ලට ගත යුතුය. එබැවින් ඔබේ p- අගය සමඟ කුමක් කළ යුතුද යන්න තීරණය කිරීම ආත්මීය ය. ඔබ p- අගයට වැඩි කැමැත්තක් දැක්වීමට හේතුව, දත්ත පරිපූර්ණ සාමාන්‍ය බෙදාහැරීමක් අනුගමනය කළ හැකි යැයි ඔබ විශ්වාස කිරීමයි - එසේ නොමැතිනම් නියැදි ප්‍රමාණය සමඟ p- අගය කෙතරම් ඉක්මණින් වැටේ ද යන්න ප්‍රශ්නයකි. හොඳ සාම්පල ප්‍රමාණයක් ලබා දී ඇති QQ- බිම් කොටස බොහෝ සෙයින් සමාන වන අතර තවත් සාම්පල සමඟ ස්ථාවරව පවතී.
එරික්

1
එරික්, පරීක්ෂණ ප්‍රති results ල සහ ග්‍රැෆික්ස් සඳහා අර්ථ නිරූපණය අවශ්‍ය බව මම එකඟ වෙමි. නමුත් පරීක්ෂණ ප්‍රති result ලය අංකයක් වන අතර ඒ පිළිබඳව කිසිදු ආරවුලක් ඇති නොවේ. කෙසේ වෙතත්, QQ කුමන්ත්‍රණය බහුවිධ විස්තරයන් පිළිගනී. සෑම එකක්ම වෛෂයිකව නිවැරදි වුවද, අවධානය යොමු කළ යුතු දේ තෝරා ගැනීමකි ... තේරීමක්. “ආත්මීය” යන්නෙහි තේරුම එයයි: ප්‍රති result ලය රඳා පවතින්නේ ක්‍රියා පටිපාටිය පමණක් නොව විශ්ලේෂකයා මත ය. නිදසුනක් ලෙස, පාලක ප්‍රස්ථාර සහ “වාස්තවිකතාව” වැදගත් වන රජයේ රෙගුලාසි තරම් වෙනස් සැකසුම් වලදී, නිර්ණායක පදනම් වී ඇත්තේ සංඛ්‍යාත්මක පරීක්ෂණ මත වන අතර කිසි විටෙකත් චිත්‍රක ප්‍රති .ල නොලැබේ .
whuber

5

විශ්ලේෂණයට වැදගත් "යමක්" ඉහළ p- අගයන් මගින් සහාය දක්වන පරීක්ෂණ මම සිතන්නේ වැරදි ලෙස ය. අනෙක් අය පෙන්වා දුන් පරිදි, විශාල දත්ත කට්ටල සඳහා, 0.05 ට අඩු p- අගයක් සහතික කෙරේ. එබැවින්, පරීක්ෂණය අත්‍යවශ්‍යයෙන්ම කුඩා හා නොපැහැදිලි දත්ත කට්ටල සඳහා "ප්‍රතිලාභ" සහ සාක්ෂි නොමැතිකම සඳහා "ප්‍රතිලාභ". Qq බිම් කැබලි වැනි දෙයක් වඩාත් ප්‍රයෝජනවත් වේ. සෑම විටම මෙවැනි දේ තීරණය කිරීමට දෘ numbers අංකවලට ඇති ආශාව (ඔව් / නැත සාමාන්‍ය / සාමාන්‍ය නොවේ) ආකෘති නිර්මාණය අර්ධ වශයෙන් කලාවක් බවත් උපකල්පන ඇත්ත වශයෙන්ම අනුබල දෙන ආකාරයත් මග හැරේ.


2
සාමාන්‍ය සාම්පලයට වඩා අඩු විශාල සාම්පලයකට අඩු p අගයක් ඇති අතර සාමාන්‍ය සාම්පලයට වඩා කුඩා නොවන නියැදියක් බොහෝ විට සිදු නොවනු ඇත. විශාල p- අගයන් ප්‍රයෝජනවත් යැයි මම නොසිතමි. නැවතත්, සාක්ෂි නොමැති වීමෙන් ඔවුන් විපාක ලබයි. මට දත්ත ලක්ෂ ගණනක් සහිත නියැදියක් තිබිය හැකි අතර, එය සෑම විටම පාහේ මෙම පරීක්ෂණ යටතේ සාමාන්‍ය උපකල්පනය ප්‍රතික්ෂේප කරනු ඇති අතර කුඩා නියැදියක් එසේ නොකරනු ඇත. එමනිසා, ඒවා ප්‍රයෝජනවත් නොවන බව මට පෙනේ. මගේ චින්තනය දෝෂ සහිත නම් කරුණාකර මෙම කරුණ පිළිබඳ යම් අඩුකිරීමේ තර්කනයක් භාවිතා කර එය පෙන්වන්න.
wvguy8258

මෙය කිසිසේත්ම ප්‍රශ්නයට පිළිතුරු සපයන්නේ නැත.
හෙලෝ වර්ල්ඩ්

-2

මා සඳහන් කර නැති සාමාන්‍ය පරීක්ෂාවේ එක් හොඳ භාවිතයක් වන්නේ z- ලකුණු භාවිතා කිරීම හරිද යන්න තීරණය කිරීමයි. ඔබ ජනගහනයකින් අහඹු නියැදියක් තෝරා ගත් බව කියමු, ජනගහනයෙන් එක් අහඹු පුද්ගලයකු තෝරා ගැනීමේ සම්භාවිතාව සොයා ගැනීමට සහ 80 හෝ ඊට වැඩි අගයක් ලබා ගැනීමට ඔබ කැමති වේ. මෙය කළ හැක්කේ බෙදා හැරීම සාමාන්‍ය නම් පමණි, z අගය භාවිතා කිරීම සඳහා, ජනගහනය බෙදා හැරීම සාමාන්‍ය යැයි උපකල්පනය කරයි.

ඒත් එක්කම මම හිතන්නේ මේකත් විවාදාත්මකයි කියලා මට පේනවා ...


කුමක් වල වටිනාකම? මධ්යන්ය, එකතුව, විචලනය, තනි නිරීක්ෂණයක්? බෙදාහැරීමේ උපකල්පිත සාමාන්‍යය මත රඳා පවතින්නේ අන්තිමයා පමණි.
whuber

මම අදහස් කළේ තනි පුද්ගලයෙක්
හොටකා

2
ස්තූතියි. ඔබේ පිළිතුර කෙතරම් අපැහැදිලි වුවත්, ඔබ යොමු කරන්නේ කුමන ක්‍රියා පටිපාටිදැයි පැවසීම දුෂ්කර වන අතර ඔබේ නිගමන වලංගු දැයි තක්සේරු කළ නොහැක.
whuber

2
මෙම භාවිතයේ ඇති ගැටළුව අනෙක් භාවිතයන් හා සමාන වේ: පරීක්ෂණය නියැදි ප්‍රමාණය මත රඳා පවතී, එබැවින් එය අත්‍යවශ්‍යයෙන්ම නිෂ් .ල ය. ඔබට z ලකුණු භාවිතා කළ හැකිදැයි එය ඔබට නොකියයි.
පීටර් ෆ්ලොම්
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.