අඛණ්ඩ හා වර්ගීකරණ විචල්‍යයන්ගේ මිශ්‍රණයක් අඩංගු දත්ත කට්ටල සඳහා ප්‍රධාන සංරචක විශ්ලේෂණය යෙදිය හැකිද?


164

අඛණ්ඩ හා වර්ගීකරණ දත්ත ඇති දත්ත කට්ටලයක් මා සතුව ඇත. මම PCA භාවිතා කරමින් විශ්ලේෂණය කරමින් සිටින අතර විශ්ලේෂණයේ කොටසක් ලෙස වර්ගීකරණ විචල්‍යයන් ඇතුළත් කිරීම සුදුසු දැයි මම කල්පනා කරමි. මගේ අවබෝධය නම් PCA යෙදිය හැක්කේ අඛණ්ඩ විචල්‍යයන්ට පමණි. ඒක හරිද? වර්ගීකරණ දත්ත සඳහා එය භාවිතා කළ නොහැකි නම්, ඒවායේ විශ්ලේෂණය සඳහා පවතින විකල්ප මොනවාද?



ResearchGate පිළිබඳ සාකච්ඡාවක් ඇත: researchgate.net/post/Should_I_use_PCA_with_categorical_data
GoingMyWay

Answers:


93

ද්විමය දත්ත සඳහා යොදන ලද PCA මඟින් බහු ලිපි හුවමාරු විශ්ලේෂණයකින් ලබාගත් ප්‍රති results ල ලබා ගත හැකි වුවද (සාධක ලකුණු සහ සමාන අගයන් රේඛීයව සම්බන්ධ වේ), මිශ්‍ර දත්ත වර්ග සමඟ කටයුතු කිරීමට වඩාත් සුදුසු ක්‍රමවේදයන් ඇත, එනම් මිශ්‍ර දත්ත සඳහා බහු සාධක සාධක විශ්ලේෂණය මෙම FactoMineR ආර් පැකේජය ( AFDM()). ඔබේ විචල්‍යයන් විස්තරාත්මක ගුණාංගවල ව්‍යුහාත්මක උප කුලක ලෙස සැලකිය හැකි නම්, බහු සාධක විශ්ලේෂණය ( MFA()) ද විකල්පයකි.

වර්ගීකරණ විචල්‍යයන් සමඟ ඇති අභියෝගය වන්නේ සාධක කාණ්ඩ අවකාශයේ විචල්‍ය කාණ්ඩ සහ පුද්ගලයින් අතර දුර නිරූපණය කිරීමට සුදුසු ක්‍රමයක් සොයා ගැනීමයි. මෙම ගැටළුව මඟහරවා ගැනීම සඳහා, ඔබට එක් එක් විචල්‍යයේ රේඛීය නොවන පරිවර්තනයක් සොයා ගත හැකිය - එය නාමික, සාමාන්‍ය, බහුපද හෝ සංඛ්‍යාත්මක වේවා - ප්‍රශස්ත පරිමාණයෙන්. R හි ප්‍රශස්ත පරිමාණය සඳහා වන Gifi ක්‍රම වලින් මෙය මනාව පැහැදිලි කර ඇත : පැකේජයේ හෝමල් , සහ ක්‍රියාත්මක කිරීම අනුරූප R පැකේජ හෝමල්වල ඇත.


2
chl, FADM වෙත යොමු කළ තැනැත්තාට ස්තූතියි. මම කල්පනා කරමින් සිටියේ: මම දත්ත කට්ටලයකට (obj <- FADM (x)) FADM යොදන විට, පරිවර්තනය කළ දත්ත කට්ටලයට පහසුවෙන් ප්‍රවේශ විය හැකිය: obj $ ind $ coord. කෙසේ වෙතත්, එකම පරිවර්තනය වෙනත් දත්ත කට්ටලයකට යෙදවීමට මට අවශ්‍ය නම්, මම එය කරන්නේ කෙසේද? (උදාහරණයක් ලෙස, මට දුම්රිය කට්ටලයක් තිබේ නම්, මෙම දුම්රිය කට්ටලයෙන් “ප්‍රධාන සංරචක” සොයාගනු ලැබුවහොත්, එම “ප්‍රධාන සංරචක” හරහා පරීක්ෂණ කට්ටලය දෙස බැලීමට අවශ්‍ය වේ). ප්‍රලේඛනය මේ පිළිබඳව සැබවින්ම පැහැදිලි නැති අතර, ශ්‍රිතය පදනම් කරගත් කඩදාසි ප්‍රංශ භාෂාවෙන් ඇත.
කැසැන්ඩ්‍රා

සම්බන්ධයෙන්:, Although a PCA applied on binary data would yield results comparable to those obtained from a Multiple Correspondence Analysisඅපට නාමික වර්ගීකරණ විචල්‍යයක් (එන් කාර්ඩිනලිටි සමඟ කියමු) (N-1) ව්‍යාජ ද්විමය එකතුවක් බවට පරිවර්තනය කර මෙම දත්ත මත PCA සිදු කළ නොහැකිද? (වඩාත් සුදුසු ශිල්පීය ක්‍රම ඇති බව මට වැටහේ)
ෂුබාර්බ්

31

ගූගල් සෙවුමක් "විවික්ත විචල්‍යයන් සඳහා pca" විසින් එස්. කොලෙනිකොව් (@ ස්ටාස්ක්) සහ ජී. ඇන්ජලීස් විසින් මෙම කදිම දළ විශ්ලේෂණය ලබා දෙයි . Chl පිළිතුරට එකතු කිරීම සඳහා, පළාත් සභා විශ්ලේෂණය යනු සැබවින්ම සහසංයුජ අනුකෘතියේ eigenvectors විශ්ලේෂණය කිරීමයි. එබැවින් ගැටළුව වන්නේ "නිවැරදි" සහසංයුජ අනුකෘතිය ගණනය කරන්නේ කෙසේද යන්නයි. ප්රවේශයන්ගෙන් එකක් වන්නේ බහු අවයවික සහසම්බන්ධය භාවිතා කිරීමයි .


මෙම link.It සඳහා (+1) ස්තුතියි (බලන්න, උදා: විෂමජාතීය සහසම්බන්ධය න්යාසය සලකා ද හැකි ය hetcor()සිට polycor ඇසුරුම්). වීසී අනුකෘතිය එස්ඩීපී නම්, එය කළ යුත්තේ - බොහෝ දුරට සාධක විශ්ලේෂණයේ ආත්මයෙනි. නාමික විචල්‍යයන් ව්‍යාජ කේතගත කළ හැක.
chl

@ ස්ටාස්ක්, කුඩෝස් :) මෙම කථාව ප්‍රයෝජනවත් බව මට පමණක් නොව, ගූගල් සෙවුමේ ඉහළින්ම නොසිටිනු ඇත. මෙම ප්‍රශ්නය වරින් වර මතු වේ, එබැවින් අපගේ ප්‍රජා බ්ලොග් අඩවිය සඳහා ඒ ගැන බ්ලොග් සටහනක් කිරීමට ඔබට අවශ්‍යද?
mpiktas

@ ස්ටාස්ක්, දළ විශ්ලේෂණයේ කතුවරුන් සඳහන් කිරීම සඳහා මම මෙම ලිපිය සංස්කරණය කළෙමි. මගේ ආරම්භක අභිප්‍රාය වූයේ ගූගල් හි සෙවීමෙන් හොඳ පිළිතුරු ලැබිය හැකි බව නිරූපණය කිරීමයි, එබැවින් මෙහි පැහැදිලිව විමසීමේ අවශ්‍යතාවයක් නොමැත. නමුත් අන්තර්ජාලයේ අස්ථාවරත්වය සැලකිල්ලට ගෙන කතුවරුන් උපුටා දැක්වීමට මෙය නිදහසට කරුණක් නොවේ.
mpiktas

1
@mpiktas, ස්තූතියි. මෙම කෘතියෙන් නිපදවන ආර්ථික විද්‍යා ists යින් ඉලක්ක කරගත් සැබෑ ලිපියක් තිබුණි: dx.doi.org/10.1111/j.1475-4991.2008.00309.x , කතුවරුන් අපෙන් ඉල්ලා සිටියේ එතරම් ප්‍රමාණයක් කපා හරින ලෙසයි. තොරතුරු, සහ ප්‍රකාශිත එක උපුටා දක්වන්න.
StasK

9

ලින්ටින් ඇන්ඩ් කූයිජ්, 2012 “ CATPCA සමඟ රේඛීය නොවන ප්‍රධාන සංරචක විශ්ලේෂණය: නිබන්ධනයක් ”, පෞරුෂත්ව ඇගයීම් පිළිබඳ ජර්නලය ; 94 (1).

සාරාංශය

මෙම ලිපිය රේඛීය නොවන ප්‍රධාන සංරචක විශ්ලේෂණය (NLPCA) සඳහා නිබන්ධනයක් ලෙස සකසා ඇති අතර, රොර්ෂාච් ඉන්ක්බ්ලොට් පරීක්ෂණය මගින් පෞරුෂත්වය තක්සේරු කිරීම පිළිබඳ සත්‍ය දත්ත විශ්ලේෂණය කිරීමේ ක්‍රියාවලිය හරහා පා er කයාට ක්‍රමානුකූලව මග පෙන්වනු ලැබේ. එන්එල්පීසීඒ යනු රේඛීය පීසීඒ සඳහා වඩාත් නම්‍යශීලී විකල්පයක් වන අතර එමඟින් විවිධ මිනුම් මට්ටම් සමඟ රේඛීය නොවන සම්බන්ධිත විචල්‍යයන් විශ්ලේෂණය කළ හැකිය. සංඛ්‍යාත්මක දත්ත සමඟ ඒකාබද්ධව නාමික (ගුණාත්මක) සහ සාමාන්‍ය (උදා: ලිකර්ට් වර්ගයේ) දත්ත විශ්ලේෂණය කිරීමට මෙම ක්‍රමය විශේෂයෙන් ගැලපේ. SPSS හි කාණ්ඩ මොඩියුලයේ CATPCA වැඩසටහන විශ්ලේෂණයන්හි භාවිතා වේ, නමුත් ක්‍රම විස්තරය පහසුවෙන් වෙනත් මෘදුකාංග පැකේජ වලට සාමාන්‍යකරණය කළ හැකිය.


4

යමෙකුගේ පෝස්ට් එකකට අදහස් දැක්වීමේ වරප්‍රසාදය මට තවම ලැබී නැත, එබැවින් මම මගේ අදහස වෙනම පිළිතුරක් ලෙස එක් කරමි, එබැවින් කරුණාකර මා සමඟ ඉවසන්න.

Ar මාටින් එෆ් අදහස් දැක්වූ දෙය දිගටම කරගෙන යමින් මෑතකදී මට රේඛීය නොවන පීසීඒ හමු විය. අඛණ්ඩ විචල්‍යයක් ඕඩිනල් විචල්‍යයක ව්‍යාප්තියට දත්ත ස්පාර්සර් ලබා ගන්නා විට හැකි විකල්පයක් ලෙස මම රේඛීය නොවන පීසීඒ ගැන සොයා බැලුවෙමි (විචල්‍යයේ සුළු ඇලිලේ සංඛ්‍යාතය පහළට හා පහළට යන විට ජාන විද්‍යාවේ එය බොහෝ වාරයක් සිදු වේ. අඛණ්ඩ විචල්‍යයක ව්‍යාප්තිය සාධාරණීකරණය කළ නොහැකි ඉතා අඩු සංඛ්‍යාවක් සමඟින්, සාමාන්‍ය විචල්‍යයක් හෝ වර්ගීකරණ විචල්‍යයක් බවට පත් කිරීමෙන් බෙදාහැරීමේ උපකල්පනයන් ලිහිල් කළ යුතුය.) රේඛීය නොවන PCA හට මෙම කොන්දේසි දෙකම හැසිරවිය හැකි නමුත් පසුව ජාන විද්‍යා පී ulty යේ සංඛ්‍යානමය මාස්ටර්වරුන් සමඟ සාකච්ඡා කිරීම, සම්මුති ඇමතුම වූයේ රේඛීය නොවන පීසීඒ බොහෝ විට භාවිතා නොකරන අතර එම පීසීඒ වල හැසිරීම තවමත් පුළුල් ලෙස පරීක්‍ෂා කර නොමැති බවය (ඒවා යොමු දක්වන්නේ ජාන විද්‍යාත්මක ක්ෂේත්‍රයට පමණක් බැවින් කරුණාකර එය ලුණු ධාන්ය සමඟ ගන්න). ඇත්ත වශයෙන්ම එය සිත් ඇදගන්නා සුළු විකල්පයකි. මම සාකච්ඡා සඳහා ශත 2 ක් (වාසනාවකට අදාළ) එකතු කර ඇතැයි සිතමි.


ඔබේ පිළිතුර සාදරයෙන් පිළිගනිමු, මන්දර්. ඔබ යොමු කරන්නේ CATPCA ක්‍රමය හෝ වෙනත් රේඛීය නොවන PCA මගින් රේඛීය නොවන PCA වෙතය (එසේ නම් කුමන ක්‍රමයද?). ද්විමය විචල්‍යයන් සඳහා, CATPCA යනු නිෂ් less ල හෝ සුළු කාරණයක් බව සලකන්න. මන්දයත් ද්වි පරමාණුක පරිමාණය ...
ttnphns

ඔබට @ttnphns. ද්විමය විචල්‍යය සම්බන්ධයෙන් ද්විමය විචල්‍යයන් පිළිබඳ ඔබේ අදහසට මම එකඟ වෙමි, ඕනෑම උපකල්පනයක් වැදගත් නොවේ. එසේ නොමැතිනම් මම ඇත්ත වශයෙන්ම "රේඛීය නොවන පීසීඒ හැඳින්වීම" [සබැඳිය] ( openaccess.leidenuniv.nl/bitstream/handle/1887/12386/… ) වෙතින් පොත් පරිච්ඡේදයක් ගැන සඳහන් කළෙමි . එය ප්‍රධාන වශයෙන් CATPCA සහ SAS වෙතින් ලබාගත් PRINQUAL පැකේජ වෙත යොමු වේ.
මැන්ඩර්

2

එවැනි ගැටළු සඳහා මෑතකදී සංවර්ධනය කරන ලද ප්‍රවේශයක් ඇත: සාමාන්‍යකරණය කළ අඩු ශ්‍රේණියේ ආකෘති .

මෙම තාක්ෂණය භාවිතා කරන එක් පත්‍රිකාවක් දත්ත රාමුවක් මත PCA ලෙසද හැඳින්වේ .


PCA මේ ආකාරයට ඉදිරිපත් කළ හැකිය:

nmM

nkX^kmY^k

X^,Y^argminX,YMXYF2

ජීඑල්ආර්එම් වෙතින් 'සාමාන්‍යකරණය' යන්න වෙනස් කිරීම වෙනත් දෙයකට සහ නියාමනය කිරීමේ යෙදුමක් එක් කිරීම.F2


මෙය නව අදහසට වඩා ප්‍රතිනිර්මාණය කිරීමක් සේ පෙනේ. Gifi සඳහා සොයන්න!
kjetil b halvorsen

ඔබ හරියටම නිවැරදි නැත, GLRM සාමාන්‍යකරණය කිරීමක් බව පෙනේ (ඇත්ත වශයෙන්ම මා සම්බන්ධ කළ කඩදාසි gifi ඇසුරුම් පත්‍රය උපුටා දක්වයි).
ජකුබ් බාර්ට්සුක්

2

PCAmixdata#Rstats පැකේජය :

ප්‍රමාණාත්මක හා ගුණාත්මක විචල්‍යයන්ගේ මිශ්‍රණයක් සඳහා ප්‍රධාන සංරචක විශ්ලේෂණය, විකලාංග භ්‍රමණය සහ බහු සාධක විශ්ලේෂණය ක්‍රියාත්මක කරයි.

විග්නෙට් හි උදාහරණය අඛණ්ඩ හා වර්ගීකරණ ප්‍රතිදානය සඳහා ප්‍රති results ල පෙන්වයි

රූප විස්තරය මෙහි ඇතුළත් කරන්න

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.