සහසම්බන්ධිත අනුකෘතිය සහ සහසංයුජ අනුකෘතිය මත ප්රධාන සංරචක විශ්ලේෂණය (පීසීඒ) සිදු කිරීම අතර ඇති ප්රධාන වෙනස්කම් මොනවාද? ඔවුන් එකම ප්රති results ල ලබා දෙනවාද?
සහසම්බන්ධිත අනුකෘතිය සහ සහසංයුජ අනුකෘතිය මත ප්රධාන සංරචක විශ්ලේෂණය (පීසීඒ) සිදු කිරීම අතර ඇති ප්රධාන වෙනස්කම් මොනවාද? ඔවුන් එකම ප්රති results ල ලබා දෙනවාද?
Answers:
විචල්ය පරිමාණයන් සමාන වන විට සහ විචල්යයන් විවිධ පරිමාණයන්හි ඇති විට සහසම්බන්ධිත අනුකෘතිය භාවිතා කිරීමට ඔබ නැඹුරු වේ.
සහසම්බන්ධිත අනුකෘතිය භාවිතා කිරීම එක් එක් විචල්යයන් ප්රමිතිකරණයට සමාන වේ (අර්ථය 0 සහ සම්මත අපගමනය 1). පොදුවේ ගත් කල, ප්රමිතිකරණයෙන් හා රහිතව PCA විවිධ ප්රති .ල ලබා දෙනු ඇත. විශේෂයෙන් කොරපොතු වෙනස් වන විට.
උදාහරණයක් ලෙස, මෙම R heptathlon
දත්ත කට්ටලය දෙස බලන්න . සමහර විචල්යයන්ගේ සාමාන්ය අගය 1.8 ක් පමණ (උස පැනීම) වන අතර අනෙක් විචල්යයන් (මීටර 800 ධාවනය) 120 ක් පමණ වේ.
library(HSAUR)
heptathlon[,-8] # look at heptathlon data (excluding 'score' variable)
මෙම ප්රතිදානයන්:
hurdles highjump shot run200m longjump javelin run800m
Joyner-Kersee (USA) 12.69 1.86 15.80 22.56 7.27 45.66 128.51
John (GDR) 12.85 1.80 16.23 23.65 6.71 42.56 126.12
Behmer (GDR) 13.20 1.83 14.20 23.10 6.68 44.54 124.20
Sablovskaite (URS) 13.61 1.80 15.23 23.92 6.25 42.78 132.24
Choubenkova (URS) 13.51 1.74 14.76 23.93 6.32 47.46 127.90
...
දැන් අපි පීසීඒ සහසංයුජතාව සහ සහසම්බන්ධය මත කරමු:
# scale=T bases the PCA on the correlation matrix
hep.PC.cor = prcomp(heptathlon[,-8], scale=TRUE)
hep.PC.cov = prcomp(heptathlon[,-8], scale=FALSE)
biplot(hep.PC.cov)
biplot(hep.PC.cor)
සහසංයුජතාව පිළිබඳ PCA ආධිපත්යය දරන්නේ run800m
සහ javelin
: PC1 බොහෝ දුරට සමාන වේ run800m
(සහ විචල්යතාවයෙන් පැහැදිලි කරයි ) සහ PC2 බොහෝ දුරට සමාන වේ javelin
(එකට ඔවුන් පැහැදිලි කරයි ). සහසම්බන්ධය පිළිබඳ PCA වඩා තොරතුරු සහගත වන අතර දත්ත හා විචල්යයන් අතර සම්බන්ධතාවයේ යම් ව්යුහයක් හෙළි කරයි (නමුත් පැහැදිලි කරන ලද විචල්යයන් සහ දක්වා පහත වැටෙන බව සලකන්න ).
සහසංයුජ හෝ සහසම්බන්ධිත අනුකෘතිය භාවිතා කරන්නේද යන්න නොසලකා බාහිර පුද්ගලයින් ( මෙම දත්ත කට්ටලයේ) පිටස්තරයින් බව සලකන්න .
බහුපාර්ශවීය විශ්ලේෂණයන් හඳුන්වා දෙමින් බර්නාඩ් ෆ්ලූරි සිය විශිෂ්ට ග්රන්ථයේ මෙය ප්රධාන සංරචකවල දේපල විරෝධී ක්රියාවක් ලෙස විස්තර කළේය. සහසම්බන්ධය හෝ සහසම්බන්ධය අතර තෝරා ගැනීමට වඩා එය ඇත්තෙන්ම නරක ය. ඔබ ඒකක වෙනස් කළහොත් (උදා: එක්සත් ජනපද විලාසිතාවේ ගැලුම්, අඟල් ආදිය සහ යුරෝපා සංගම් විලාසිතාවේ ලීටර්, සෙන්ටිමීටර) ඔබට දත්තවල සැලකිය යුතු වෙනස් ප්රක්ෂේපණයක් ලැබෙනු ඇත.
සහසම්බන්ධිත අනුකෘති ස්වයංක්රීයව භාවිතා කිරීමට එරෙහි තර්කය නම්, එය ඔබේ දත්ත ප්රමිතිකරණය කිරීමේ තරමක් ම්ලේච්ඡ ක්රමයකි. එම හෙප්තතලෝන් දත්ත සමඟ ඉතා පැහැදිලිව පෙනෙන කෝවරියන්ස් න්යාසය ස්වයංක්රීයව භාවිතා කිරීමේ ගැටළුව නම්, ඉහළම විචල්යතාවයෙන් යුත් විචල්යයන් පළමු ප්රධාන සංරචකය (දේපල උපරිම කරන විචල්යතාව) ආධිපත්යය දරනු ඇත.
එබැවින් භාවිතා කිරීමට ඇති “හොඳම” ක්රමය පදනම් වී ඇත්තේ ආත්මීය තේරීමක්, ප්රවේශමෙන් සිතා බැලීම සහ යම් අත්දැකීම් මත ය.
UNTRANSFORMED (RAW) දත්ත: ඔබට අමු, පරිවර්තනය නොකළ දත්ත සඳහා පුළුල් ලෙස වෙනස් වන පරිමාණයන් සහිත විචල්යයන් තිබේ නම්, එනම්, දිනකට කැලරි ප්රමාණය, ජාන ප්රකාශනය, ug / dl, ng / dl ඒකකවල ELISA / Luminex, ඇණවුම් කිහිපයක් මත පදනම්ව ප්රෝටීන් ප්රකාශනයේ විශාලත්වය, පසුව සහසම්බන්ධය PCA වෙත ආදානයක් ලෙස භාවිතා කරන්න. කෙසේ වෙතත්, ඔබගේ සියලු දත්ත පදනම් වී ඇත්තේ සමාන පරාසයකින් හා පරිමාණයකින් එකම වේදිකාවක සිට ජාන ප්රකාශනය මත නම්, හෝ ඔබ ලොග් කොටස් වත්කම් ප්රතිලාභ සමඟ වැඩ කරන්නේ නම්, සහසම්බන්ධය භාවිතා කිරීමෙන් විශාල තොරතුරු ප්රමාණයක් ඉවතට යනු ඇත.
VDW ලකුණු භාවිතා කිරීම ජාන විද්යාවේ ඉතා ජනප්රිය වන අතර එහිදී බොහෝ විචල්යයන් VDW ලකුණු බවට පරිවර්තනය වන අතර පසුව විශ්ලේෂණයට ඇතුළත් වේ. VDW ලකුණු භාවිතා කිරීමේ වාසිය නම්, ස්කයිනස් සහ පිටස්තර බලපෑම් දත්ත වලින් ඉවත් කර ඇති අතර, ඉලක්කය සාමාන්ය තත්වයේ ප්රතිවිරෝධතා යටතේ විශ්ලේෂණයක් සිදු කිරීම නම් එය භාවිතා කළ හැකිය - තවද සෑම විචල්යයක්ම කිසිදු ප්රමිතියකින් තොරව බෙදා හැරිය යුතුය. හෝ පිටස්තරයින්.
පොදු පිළිතුරක් නම්, විචල්යයන් එකම පරිමාණයෙන් පවතින විට සහසංයුජතාව භාවිතා වන බව යෝජනා කිරීම සහ ඒවායේ පරිමාණයන් වෙනස් වන විට සහසම්බන්ධය. කෙසේ වෙතත්, මෙය සත්ය වන්නේ විචල්යයන්ගේ පරිමාණය සාධකයක් නොවන විට පමණි. එසේ නොමැති නම්, කිසිවෙකු කවදා හෝ සහසම්බන්ධිත PCA කරන්නේ ඇයි? සෑම විටම සහසම්බන්ධතා PCA සිදු කිරීම වඩා ආරක්ෂිත වේ.
ඔබේ විචල්යයන්ට මීටර සහ කිලෝග්රෑම් වැනි විවිධ මිනුම් ඒකක ඇති බව සිතන්න. මෙම අවස්ථාවේදී ඔබ මීටර හෝ සෙන්ටිමීටර භාවිතා කරන්නේද යන්න ගැටළුවක් නොවිය යුතුය, එබැවින් සහසම්බන්ධිත අනුකෘතිය භාවිතා කළ යුතු යැයි ඔබට තර්ක කළ හැකිය.
දැන් විවිධ ප්රාන්තවල ජනගහනය සලකා බලන්න. මිනුම් ඒකක සමාන වේ - මිනිසුන්ගේ ගණන් (අංකය). දැන්, පරිමාණයන් වෙනස් විය හැකිය: DC සතුව 600K සහ CA - 38M පුද්ගලයින් සිටී. අප මෙහි සහසම්බන්ධිත අනුකෘතිය භාවිතා කළ යුතුද? එය රඳා පවතියි. සමහර යෙදුම් වලදී අපට අවශ්ය වන්නේ රාජ්යයේ ප්රමාණය අනුව සකස් කිරීමයි. සහසංයුජ අනුකෘතිය භාවිතා කිරීම රාජ්යයේ ප්රමාණයට හේතු වන සාධක ගොඩනැගීම සඳහා එක් ක්රමයකි.
එබැවින් මගේ පිළිතුර නම් මුල් විචල්යයේ විචල්යතාවය වැදගත් වන විට සහසංයුජ අනුකෘතිය භාවිතා කිරීම සහ එය නොමැති විට සහසම්බන්ධය භාවිතා කිරීමයි.
මෙම විකල්පයන් උපරිම සම්භාවිතාවයේ ප්රධාන සංරචක විශ්ලේෂණ ආකෘතිය (එම්එල්පීසීඒ) [1,2] අනුව සාකච්ඡා කිරීම මට පෞද්ගලිකව ඉතා වටිනවා. එම්එල්පීසීඒ හි එක් පරිමාණයක් (හෝ භ්රමණය) අදාළ වේ, එනම් මනින ලද විචල්යයන්හි මිනුම් දෝෂ ස්වාධීන වන අතර සම්මත සාමාන්ය බෙදාහැරීම අනුව බෙදා හරිනු ලැබේ. මෙම පරිමාණය උපරිම සම්භාවිතා පරිමාණය (MALS) ලෙසද හැඳින්වේ [3]. සමහර අවස්ථාවලදී, PCA ආකෘතිය සහ MALS පරිමාණය / භ්රමණය නිර්වචනය කරන පරාමිතිය එකට තක්සේරු කළ හැකිය [4].
සහසම්බන්ධය මත පදනම් වූ සහ සහසංයුජතාව මත පදනම් වූ පීසීඒ අර්ථ නිරූපණය කිරීම සඳහා යමෙකුට මෙසේ තර්ක කළ හැකිය:
දැනටමත් ඉහත අවධාරණය කර ඇති පරිදි, අවසාන තේරීම රඳා පවතින්නේ ඔබ කරන උපකල්පන මත ය. ඊට අමතරව, ඕනෑම විශේෂිත ආකෘතියක උපයෝගීතාව ඔබේ විශ්ලේෂණයේ සන්දර්භය සහ අරමුණ මත රඳා පවතී. ජෝර්ජ් ඊපී බොක්ස් උපුටා දැක්වීමට: "සියලුම මාදිලි වැරදියි, නමුත් සමහර ඒවා ප්රයෝජනවත් වේ".
[1] වෙන්ට්සෙල්, පීඩී, ඇන්ඩ rew ස්, ඩීටී, හැමිල්ටන්, ඩීසී, ෆේබර්, කේ., සහ කොවල්ස්කි, බීආර් (1997). උපරිම සම්භාවිතාව ප්රධාන සංරචක විශ්ලේෂණය. රසායන විද්යාව පිළිබඳ ජර්නලය, 11 (4), 339-366.
[2] වෙන්ට්සෙල්, පීඩී, සහ ලොන්ස්, එම්ටී (1999). සහසම්බන්ධිත මිනුම් දෝෂ සහිත උපරිම සම්භාවිතාව ප්රධාන සංරචක විශ්ලේෂණය: න්යායාත්මක හා ප්රායෝගික සලකා බැලීම්. රසායන විද්යාව සහ බුද්ධිමත් රසායනාගාර පද්ධති, 45 (1-2), 65-85.
[3] හොෆ්ස්ලූට්, එච්.සී., වෙරෝඩන්, පා.ම., වෙස්ටර්හුයිස්, ජේ.ඒ, සහ ස්මිල්ඩ්, ඒ.කේ (2006). උපරිම සම්භාවිතාව පරිමාණය (MALS). රසායන විද්යාව පිළිබඳ ජර්නලය, 20 (3‐4), 120-127.
[4] නාරාසිම්න්, එස්., සහ ෂා, එස්එල් (2008). PCA භාවිතා කරමින් is ෝෂාකාරී දත්ත වලින් ආදර්ශ හඳුනා ගැනීම සහ දෝෂ සහසංයුජ අනුකෘතිය. පාලන ඉංජිනේරු පුහුණුව, 16 (1), 146-155.
[5] ටිපින්, එම්ඊ, සහ බිෂොප්, සීඑම් (1999). සම්භාවිතා ප්රධාන සංරචක විශ්ලේෂණය. රාජකීය සංඛ්යාන සංගමයේ ජර්නලය: බී කාණ්ඩය (සංඛ්යාන ක්රමවේදය), 61 (3), 611-622.
සෘජු හා සරල: කොරපොතු සමාන නම් cov-PCA, එසේ නොවේ නම්, corr-PCA භාවිතා කරන්න; එසේ නොමැති නම්, එසේ නොකිරීමට ඔබට ආරක්ෂාවක් තිබේ නම් හොඳයි. සැකයක් ඇත්නම්, විචල්යතාවන්ගේ (ANOVA) සමානාත්මතාවය සඳහා F- පරීක්ෂණයක් භාවිතා කරන්න. එය එෆ් පරීක්ෂණයෙන් අසමත් වුවහොත්, කෝර් භාවිතා කරන්න; එසේ නොමැතිනම් cov භාවිතා කරන්න.
පරිමාණය මත පදනම් වූ තර්ක (එකම භෞතික ඒකකවල ප්රකාශිත විචල්යයන් සඳහා) තරමක් දුර්වල බව පෙනේ. සම්මත අපගමනය 0.001 සහ 0.1 අතර වෙනස් වන (මානයන් රහිත) විචල්ය සමූහයක් ගැන සිතන්න. 1 හි සම්මත අගය හා සසඳන විට, මේ දෙකම 'කුඩා' හා සංසන්දනාත්මක මට්ටම්වල උච්චාවචනයන් ලෙස පෙනේ. කෙසේ වෙතත්, ඔබ ඒවා ඩෙසිබල් වලින් ප්රකාශ කරන විට, මෙය පිළිවෙලින් -10 හා 0 dB ට එරෙහිව -60 dB පරාසයක් ලබා දෙයි. එවිට මෙය බොහෝ විට 'විශාල පරාසයක්' ලෙස වර්ගීකරණය කරනු ඇත - විශේෂයෙන් ඔබ සම්මත අපගමනය 0 ට ආසන්න නම්, එනම් us ණ අනන්තය dB.
මගේ යෝජනාව වනුයේ සහසම්බන්ධතාවයක් සහ සහසම්බන්ධතා මත පදනම් වූ පීසීඒ එකක් කිරීමයි. දෙදෙනාම එකම (හෝ බොහෝ සමාන, මෙයින් අදහස් කරන්නේ කුමක් වුවත්) පළාත් සභා ලබා දෙන්නේ නම්, ඔබට අර්ථවත් පිළිතුරක් ලැබී ඇති බව ඔබට සහතික විය හැකිය. ඔවුන් පුළුල් ලෙස විවිධ පළාත් සභා ලබා දෙන්නේ නම් PCA භාවිතා නොකරන්න, මන්ද එක් ගැටලුවකට වෙනස් පිළිතුරු දෙකක් ප්රශ්න විසඳීමට සංවේදී ක්රමයක් නොවන බැවිනි.