ප්‍රධාන සංරචක විශ්ලේෂණය, ඊජෙන්වෙක්ටර් සහ අයිජන් අගය පිළිබඳ හැඟීමක් ඇති කිරීම


1036

අද රටා හඳුනාගැනීමේ පන්තියේදී මගේ මහාචාර්යවරයා PCA, eigenvectors සහ eigenvalues ​​ගැන කතා කළේය.

මම එහි ගණිතය තේරුම් ගත්තා. Iigenvalues ​​ආදිය සොයා ගැනීමට මාගෙන් ඉල්ලා සිටියහොත් මම එය යන්ත්‍රයක් මෙන් නිවැරදිව කරන්නෙමි. නමුත් මම කළේ නැහැ තේරුම් එය. මට එහි අරමුණ ලැබුණේ නැහැ. මට ඒ ගැන හැඟීමක් ඇති වුණේ නැහැ.

පහත දැක්වෙන උපුටා දැක්වීම මම තරයේ විශ්වාස කරමි:

ඔබේ ආච්චිට එය පැහැදිලි කළ හැකි නම් මිස ඔබට යමක් තේරෙන්නේ නැත. - ඇල්බට් අයින්ස්ටයින්

හොඳයි, මට මෙම සංකල්ප ගිහියෙකුට හෝ අත්තම්මාට පැහැදිලි කළ නොහැක.

  1. PCA, eigenvectors සහ eigenvalues ​​ඇයි? කුමක් වී අවශ්යතාව මෙම සංකල්ප සඳහා ද?
  2. ගිහියෙකුට ඔබ මේවා පැහැදිලි කරන්නේ කෙසේද?

98
හොඳ ප්රශ්නයක්. මම උපුටා දැක්වීම සමඟ එකඟ වෙමි. සංඛ්‍යාලේඛන හා ගණිතය පිළිබඳ බොහෝ බුද්ධිමත් අය සිටින බවත්, ඔවුන්ගේ කාර්යයන් පිළිබඳව ගැඹුරින් අවබෝධ කර ගත හැකි බවත්, නමුත් ඔවුන් වැඩ කරන්නේ කුමක් දැයි ගැඹුරින් තේරුම් නොගන්නා බවත් මම විශ්වාස කරමි. නැතහොත් ඔවුන් එසේ කළත් එය අන් අයට පැහැදිලි කිරීමට අපොහොසත් වේ. මම සරල ඉංග්‍රීසියෙන් පිළිතුරු සැපයීමට මගේ මාර්ගයෙන් පිටතට ගොස් ඉංග්‍රීසි පිළිතුරු සැලසුම් කරන ලෙස ඉල්ලා ප්‍රශ්න අසමි.
නීල් මැක්ගුගන්

7
මෙය ජූලි මාසයේදී ගණිත වෙබ් අඩවියෙන් විමසන ලද නමුත් එය එසේ නොවූ අතර එයට බොහෝ පිළිතුරු නොලැබුණි (පුදුමයක් නොවේ, එහි විවිධ අවධානය යොමු කර ඇති නිසා). math.stackexchange.com/questions/1146/…
whuber

7
පාරිසරික දත්ත විශ්ලේෂණය කිරීමේදී Zuur et al විසින් කරන ලද පැහැදිලි කිරීමකට සමානව, ඔවුන් ඔබේ අත උඩිස් ප්‍රොජෙක්ටරයක් ​​මත ප්‍රක්ෂේපණය කිරීම ගැන කතා කරයි. බිත්තියේ ප්‍රක්ෂේපණය අතක් පෙනිය යුතු යැයි ඔබ සිතන දෙයට සමාන වන පරිදි ඔබ ඔබේ අත කරකවමින් සිටී.
රෝමන් ලුස්ට්‍රික්

13
මෙම ප්‍රශ්නය මා හොඳ කඩදාසියකට යොමු කරයි. එය විශිෂ්ට උපුටා දැක්වීමක් යැයි මා සිතුවත් එය අයින්ස්ටයින්ගෙන් නොවේ. මෙය පොදු වැරදි බෙදාහැරීමක් වන අතර, බොහෝ දුරට මුල් උපුටා දැක්වීම මෙය බොහෝ විට අර්නස්ට් රදෆර්ඩ්ගේ "ඔබ ඔබේ භෞතික විද්‍යාව බාර්මයිඩ් කෙනෙකුට පැහැදිලි කළ නොහැකි නම් එය හොඳ භෞතික විද්‍යාවක් නොවේ" යැයි පැවසූ අය විය හැකිය. මෙම ත්‍රෙඩ් එක ආරම්භ කිරීම ගැන එකම ස්තූතියි.
gavaletz

25
ප්‍රින්ස්ටන් යූපී 2011 හි අවසාන උපුටා දැක්විය හැකි ඇලිස් කැලප්‍රයිස්, මෙහි උපුටා දැක්වීම "බොහෝ විට අයින්ස්ටයින් විසින් නොවේ" යනුවෙන් සලකුණු කරයි. පිටුව 482 බලන්න.
නික් කොක්ස්

Answers:


1417

විශාල පවුල් රාත්‍රී භෝජන සංග්‍රහයක් ගැන සිතන්න, එහිදී සෑම කෙනෙක්ම ඔබෙන් PCA ගැන විමසීමට පටන් ගනී. මුලින්ම ඔබ එය ඔබේ ආච්චිට පැහැදිලි කරන්න; එවිට ඔබට ආච්චි; ඉන්පසු ඔබේ මවට; ඉන්පසු ඔබේ කලත්‍රයාට; අවසාන වශයෙන්, ඔබේ දියණියට (ගණිත ian යෙකු වන). සෑම අවස්ථාවකම ඊළඟ පුද්ගලයා ගිහියෙකුට වඩා අඩුය. සංවාදය ඉදිරියට යා හැකි ආකාරය මෙන්න.

ලොකු ආච්චි: ඔබ "පී-සී-අයි" ඉගෙන ගන්නා බව මට ආරංචි විය. මම කල්පනා කරනවා ඒ මොකක්ද කියලා ...

ඔබ: ආ , එය සමහර දත්ත සාරාංශ කිරීමේ ක්‍රමයක් පමණයි. බලන්න, අපි මේසය මත වයින් බෝතල් කිහිපයක් සිටගෙන සිටිමු. සෑම වයින් වර්ගයක්ම එහි වර්ණයෙන්, එය කෙතරම් ශක්තිමත්ද, කොපමණ වයසකින්ද යන්න අපට විස්තර කළ හැකිය ( මෙතැනින් ලබාගත් වයින් ගුණාංග පිළිබඳ මෙම ඉතා හොඳ දෘශ්‍යකරණය බලන්න ). අපගේ බඳුනක් යට වත් ඇති එක් එක් වයින්වල විවිධ ලක්ෂණ පිළිබඳ සම්පූර්ණ ලැයිස්තුවක් අපට රචනා කළ හැකිය. නමුත් ඒවායින් බොහොමයක් අදාළ ගුණාංග මනින අතර අතිරික්ත වනු ඇත. එසේ නම්, එක් එක් වයින් අඩු ලක්ෂණ සහිතව සාරාංශ කිරීමට අපට හැකි විය යුතුය! PCA කරන්නේ මෙයයි.

ආච්චි: මෙය සිත්ගන්නා සුළුයි! ඉතින් මෙම පීසීඒ කාරණය අතිරික්ත ලක්ෂණ මොනවාදැයි පරීක්ෂා කර ඒවා ඉවතලයිද?

ඔබ: විශිෂ්ට ප්‍රශ්නය, අත්තම්මා! නැත, පීසීඒ සමහර ලක්ෂණ තෝරාගෙන අනෙක් ඒවා ඉවතලන්නේ නැත. ඒ වෙනුවට, එය අපගේ වයින් ලැයිස්තුව මනාව සාරාංශගත කරන නව ලක්ෂණ කිහිපයක් සාදයි. ඇත්ත වශයෙන්ම මෙම නව ලක්ෂණ ගොඩනඟා ඇත්තේ පැරණි ඒවා භාවිතා කරමිනි; උදාහරණයක් ලෙස, නව ලක්‍ෂණයක් වයින් යුගයේ us ණ වයින් ආම්ලිකතා මට්ටම හෝ ඒ හා සමාන වෙනත් සංයෝජනයක් ලෙස ගණනය කළ හැකිය (අපි ඒවා රේඛීය සංයෝජන ලෙස හඳුන්වමු ).

ඇත්ත වශයෙන්ම, PCA විසින් හැකි හොඳම ලක්ෂණ සොයා ගනී, ඒවා වයින් ලැයිස්තුව සාරාංශගත කළ හැකි මෙන්ම හැකි පමණින් (සියලු සිතිය හැකි රේඛීය සංයෝජන අතර). එය එතරම් ප්‍රයෝජනවත් වන්නේ මේ නිසා ය.

මව: හ්ම්ම්, මෙය නිසැකවම හොඳයි, නමුත් මට තේරෙන බව මට විශ්වාස නැත. මෙම නව PCA ලක්ෂණ වයින් ලැයිස්තුව "සාරාංශගත" කරන බව ඔබ පැවසූ විට ඔබ ඇත්තටම අදහස් කරන්නේ කුමක්ද?

ඔබ: මෙම ප්‍රශ්නයට වෙනස් පිළිතුරු දෙකක් මට දිය හැකි යැයි මම සිතමි. පළමු පිළිතුර නම්, ඔබ වයින් අතර දැඩි ලෙස වෙනස් වන වයින් ගුණාංග (ලක්ෂණ) සොයමින් සිටින බවයි. ඇත්ත වශයෙන්ම, ඔබ බොහෝ වයින් සඳහා සමාන දේපලක් ඉදිරිපත් කරනු ඇතැයි සිතන්න. මෙය එතරම් ප්‍රයෝජනවත් නොවනු ඇත, එසේ නොවේ ද? වයින් බොහෝ වෙනස් ය, නමුත් ඔබේ නව දේපල ඒවා සියල්ලම එක හා සමානයි! මෙය නිසැකවම නරක සාරාංශයක් වනු ඇත. ඒ වෙනුවට, PCA විසින් හැකි තරම් වයින් හරහා විචලනය පෙන්වන ගුණාංග සොයයි.

දෙවන පිළිතුර නම්, මුල් වයින් ලක්ෂණ පුරෝකථනය කිරීමට හෝ "ප්‍රතිනිර්මාණය කිරීමට" ඉඩ සලසන ගුණාංග ඔබ සොයන බවයි. නැවතත්, ඔබ මුල් ලක්ෂණ සමඟ කිසිදු සම්බන්ධයක් නැති දේපලක් සමඟ පැමිණෙනු ඇතැයි සිතන්න; ඔබ මෙම නව දේපල පමණක් භාවිතා කරන්නේ නම්, මුල් දේ නැවත සකස් කිරීමට ඔබට හැකියාවක් නැත! මෙය නැවතත් නරක සාරාංශයක් වනු ඇත. එබැවින් PCA විසින් මුල් ලක්ෂණ මෙන්ම හැකි තරම් ප්‍රතිනිර්මාණය කිරීමට ඉඩ සලසන ගුණාංග සොයයි.

පුදුමයට කරුණක් නම්, මෙම අරමුණු දෙක සමාන වන අතර PCA හට එක් ගලකින් කුරුල්ලන් දෙදෙනෙකු මරා දැමිය හැකිය.

කලත්‍රයා: නමුත් සොඳුරිය, පීසීඒ හි මෙම "ඉලක්ක" දෙක එකිනෙකට වෙනස් ය! ඔවුන් සමාන වන්නේ ඇයි?

ඔබ: හ්ම්ම්. සමහර විට මම කුඩා චිත්‍රයක් සෑදිය යුතුයි (තුවායක් ගෙන ලියන්න පටන් ගන්නවා) . අපි වයින් ලක්ෂණ දෙකක් තෝරා ගනිමු, සමහර විට වයින් අන්ධකාරය සහ මධ්‍යසාර අන්තර්ගතය - ඒවා එකිනෙකට සම්බන්ධ දැයි මම නොදනිමි, නමුත් ඒවා යැයි සිතමු. විවිධ වයින්වල විසිරුම් බිම් කැබැල්ලක පෙනුම මෙයයි:

PCA ආදර්ශමත් දත්ත

මෙම "වයින් වලාකුළෙහි" සෑම තිතක්ම එක් විශේෂිත වයින් පෙන්වයි. ගුණාංග දෙක ( මෙම රූපයේ සහ ) සහසම්බන්ධ වී ඇති බව ඔබට පෙනේ . මෙම වයින් වලාකුළෙහි කේන්ද්‍රය හරහා රේඛාවක් ඇඳීමෙන් සහ සියලු රේඛා මෙම රේඛාවට ප්‍රක්ෂේපණය කිරීමෙන් නව දේපලක් ගොඩනගා ගත හැකිය. මෙම නව දේපල රේඛීය සංයෝජනයකින් ලබා දෙනු ඇත , එහිදී සෑම පේළියක්ම සහ හි යම් නිශ්චිත අගයන්ට අනුරූප වේ .xyw1x+w2yw1w2

දැන් මෙහි ඉතා පරිස්සමින් බලන්න - මෙම ප්‍රක්ෂේපණ විවිධ රේඛා සඳහා පෙනෙන්නේ කෙසේද (රතු තිත් යනු නිල් තිත් වල ප්‍රක්ෂේපණයකි):

PCA සජීවිකරණය: විචලනය සහ ප්‍රතිනිර්මාණය කිරීමේ දෝෂයකි

මා කලින් කී පරිදි, PCA විසින් "හොඳම" යනු කුමක්ද යන්න පිළිබඳ විවිධ නිර්ණායක දෙකක් අනුව "හොඳම" රේඛාව සොයා ගනු ඇත. පළමුව, මෙම රේඛාව ඔස්සේ අගයන්හි විචලනය උපරිම විය යුතුය. රේඛාව භ්‍රමණය වන විට රතු තිත් වල “පැතිරීම” (අපි එය “විචල්‍යතාව” ලෙස හඳුන්වන්නෙමු) කෙරෙහි අවධානය යොමු කරන්න; එය උපරිමයට පැමිණි විට ඔබට දැකිය හැකිද? දෙවනුව, අපි නව ලක්ෂණ වලින් (රතු තිතක පිහිටීම) මුල් ලක්ෂණ දෙක (නිල් තිතක පිහිටීම) ප්‍රතිනිර්මාණය කළහොත්, ප්‍රතිනිර්මාණය කිරීමේ දෝෂය සම්බන්ධ වන්නේ රතු රේඛාවේ දිග අනුව ය. රේඛාව භ්‍රමණය වන විට මෙම රතු රේඛාවල දිග වෙනස් වන ආකාරය නිරීක්ෂණය කරන්න; මුළු දිග අවම මට්ටමට ළඟා වූ විට ඔබට දැකිය හැකිද?

ඔබ මෙම සජීවිකරණය දෙස යම් කාලයක් බලා සිටියහොත්, "උපරිම විචලනය" සහ "අවම දෝෂය" එකවරම ළඟා වන බව ඔබට පෙනෙනු ඇත, එනම් වයින් වලාකුළෙහි දෙපස මා සලකුණු කළ මැජෙන්ටා කිනිතුල්ලන් වෙත රේඛාව යොමු කරන විට . මෙම රේඛාව PCA විසින් ඉදිකරන නව වයින් දේපල වලට අනුරූප වේ.

මාර්ගය වන විට, PCA යනු "ප්‍රධාන සංරචක විශ්ලේෂණය" යන්නයි. මෙම නව දේපල "පළමු ප්‍රධාන සංරචකය" ලෙස හැඳින්වේ. “දේපල” හෝ “ලක්ෂණය” යැයි පැවසීම වෙනුවට අපි සාමාන්‍යයෙන් කියන්නේ “විශේෂාංගය” හෝ “විචල්‍යය” යන්නයි.

දියණිය: හරිම ලස්සනයි තාත්තේ! ඉලක්ක දෙක එකම ප්‍රති result ලයක් ලබා දෙන්නේ මන්දැයි මට පෙනේ යැයි මම සිතමි: එය අත්‍යවශ්‍යයෙන්ම පයිතගරස් ප්‍රමේයය නිසා නොවේ ද? කෙසේ වෙතත්, PCA කෙසේ හෝ eigenvectors සහ eigenvalues ​​හා සම්බන්ධ බව මම අසා ඇත්තෙමි; ඔවුන් මේ පින්තූරයේ කොහෙද?

ඔබ: දීප්තිමත් නිරීක්ෂණ. ගණිතමය වශයෙන්, රතු තිත් පැතිරීම මනිනු ලබන්නේ වයින් වලාකුළෙහි කේන්ද්‍රයේ සිට සෑම රතු තිතකටම සාමාන්‍ය වර්ග දුර ලෙස ය; ඔබ දන්නා පරිදි එය විචලනය ලෙස හැඳින්වේ . අනෙක් අතට, සම්පූර්ණ ප්‍රතිනිර්මාණය කිරීමේ දෝෂය අනුරූප රතු රේඛාවල සාමාන්‍ය වර්ග දිග ලෙස මනිනු ලැබේ. නමුත් රතු රේඛා සහ කළු රේඛාව අතර කෝණය සෑම විටම වන බැවින්, මෙම ප්‍රමාණ දෙකේ එකතුව වයින් වලාකුළෙහි කේන්ද්‍රය සහ එක් එක් නිල් තිත අතර සාමාන්‍ය වර්ග දුරට සමාන වේ; මෙය හරියටම පයිතගරස් ප්‍රමේයයයි. ඇත්ත වශයෙන්ම මෙම සාමාන්‍ය දුර කළු රේඛාවේ දිශානතිය මත රඳා නොපවතී, එබැවින් ඉහළ විචල්‍යතාව අඩු දෝෂය අඩු කරයි (ඒවායේ එකතුව නියත බැවින්). මෙම අත් රැලි සහිත තර්කය නිවැරදිව කළ හැකිය (90මෙහි බලන්න ).

මාර්ගය වන විට, කළු රේඛාව d න සැරයටියක් බවත් සෑම රතු රේඛාවක්ම වසන්තයක් බවත් ඔබට සිතාගත හැකිය. වසන්තයේ ශක්තිය එහි වර්ග දිගට සමානුපාතික වේ (මෙය භෞතික විද්‍යාවේ හූක්ගේ නියමය ලෙස හැඳින්වේ), එබැවින් සැරයටිය මෙම වර්ග දුරවල එකතුව අවම කිරීම වැනි දිශානතියට පත්වේ. යම් දුස්ස්රාවී iction ර්ෂණයක් තිබියදී එය පෙනෙන්නේ කෙසේද යන්න මම අනුකරණය කළෙමි:

PCA සජීවිකරණය: පෙන්ඩුලම්

Eigenvectors සහ eigenvalues ​​සම්බන්ධයෙන්. සහසංයුජ අනුකෘතිය යනු කුමක්දැයි ඔබ දන්නවා ; මගේ උදාහරණයේ එය by විසින් ලබා දෙනමෙයින් අදහස් කරන්නේ විචල්‍යයේ විචල්‍යතාව වන අතර විචල්‍යයේ විචලනය වන අතර ඒවා අතර වේ. එය හතරැස් සමමිතික අනුකෘතියක් බැවින්, එහි විකිරණශීලීන් විසින් ලබා දෙන නව විකලාංග ඛණ්ඩාංක පද්ධතියක් තෝරා ගැනීමෙන් එය විකර්ණය කළ හැකිය (අහම්බෙන් මෙය වර්ණාවලි ප්‍රමේයය ලෙස හැඳින්වේ2×2

(1.070.630.630.64).
x1.07y0.640.63( 1.52 0 0 0.19 ) , 1.52); අනුරූප ඊජන් අගයන් පසුව විකර්ණ මත පිහිටා ඇත. මෙම නව ඛණ්ඩාංක පද්ධතිය තුළ, සහසංයුජ අනුකෘතිය විකර්ණ වන අතර එය එසේ ය: එනම් ලක්ෂ්‍ය අතර සහසම්බන්ධය දැන් ශුන්‍ය වේ. ඕනෑම ප්‍රක්ෂේපණයක විචල්‍යතාවය ලබා දෙන්නේ සාමාන්‍ය අගයන් වල සාමාන්‍ය බරකින් බව පැහැදිලිය (මම මෙහි සටහන් කරන්නේ රූපසටහන පමණි). එහි වශයෙන්, අපි පළමු ඛණ්ඩාංක අක්ෂය මත ප්‍රක්ෂේපණය සරලව ගතහොත් උපරිම විචල්‍යතාව ( ) ලබා ගත හැකිය. එය අනුගමනය කරන්නේ පළමු ප්‍රධාන සං component ටකයේ දිශාව ලබා දෙන්නේ සහසංයුජ අනුකෘතියේ පළමු ඊජෙන්වෙක්ටර් විසිනි. ( වැඩි විස්තර මෙතැනින්. )
(1.52000.19),
1.52

භ්‍රමණය වන රූපයේ ද ඔබට මෙය දැකිය හැකිය: කළු පැහැයට විකලාංග අළු රේඛාවක් ඇත; එකට එකතු වී භ්‍රමණය වන ඛණ්ඩාංක රාමුවක් සාදයි. මෙම භ්‍රමණය වන රාමුව තුළ නිල් පැහැති තිත් එකිනෙකට සම්බන්ධ නොවන විට සටහන් කිරීමට උත්සාහ කරන්න. පිළිතුර, නැවතත්, මැජෙන්ටා කිනිතුල්ලන් වෙත කළු රේඛාව යොමු වූ විට එය හරියටම සිදු වේ. මම ඒවා සොයාගත්තේ කෙසේදැයි දැන් මට ඔබට පැවසිය හැකිය: ඒවා සහසංයුජ අනුකෘතියේ පළමු ඊජෙන්වෙක්ටරයේ දිශාව සලකුණු කරයි, මේ අවස්ථාවේ දී (0.81,0.58) සමාන වේ .


ජනප්‍රිය ඉල්ලීමකට අනුව, ඉහත සජීවිකරණ නිෂ්පාදනය කිරීම සඳහා මම මැට්ලැබ් කේතය බෙදා ගත්තෙමි .


94
+1 ලස්සන කතා සහ නිදර්ශන. ...then to your mother; then to your wife; finally, to your daughter (who is a mathematician)...මම දිගටම: රාත්‍රී ආහාරයෙන් පසු - ඔබටම. මෙන්න ඔබ හදිසියේම හිර වී ඇත ...
ttnphns

75
මෙම පිළිතුරු සඳහා ඔබ කරන නිදර්ශන වලට මම අතිශයින්ම ඇලුම් කරමි.
සෙවනැල්ල

67
මම සාමාන්‍යයෙන් ක්‍රොස් වලිඩේටඩ් හරහා දේවල් කියවීම සඳහා ගවේෂණය කරමි, නමුත් මට කිසි විටෙක ගිණුමක් නිර්මාණය කිරීමට හේතුවක් නොතිබුණි ... ප්‍රධාන වශයෙන් මෙහි ඇති ප්‍රශ්න මගේ විශේෂ ise තාවයෙන් බැහැර වන අතර මට කිසිඳු පිළිතුරක් දිය නොහැක. මම සාමාන්‍යයෙන් සිටින්නේ StackOverflow හි පමණක් වන අතර මම දැන් වසරක් පමණ StackExchange ජාලයේ සිටිමි. කෙසේ වෙතත්, මම අද තීරණය කළේ මූලික වශයෙන් ඔබගේ තනතුර ඉහළ නැංවීම සඳහා ගිණුමක් නිර්මාණය කිරීමට පමණි. මෙය මම මෙතෙක් කියවා ඇති PCA හි හොඳම ප්‍රදර්ශනය විය හැකි අතර මම බොහෝ දේ කියවා ඇත්තෙමි. මෙම අපූරු පෝස්ටයට ස්තූතියි - විශිෂ්ට කතන්දර, ග්‍රැෆික්ස් සහ එය කියවීම එතරම් පහසුය! +1
rayryeng

15
මා සඳහා සටහන: මගේ පිළිතුරට දැනට උඩුකුරු 100 ක් ඇත, ජේ.ඩී.ලෝන්ග්ගේ උඩුකුරු 220 ක් ඇත; අපි නිරන්තර වර්ධනයක් උපකල්පනය කළහොත්, මගේ වසරකට උඩු යටිකුරු 100 ක් ඇති අතර ඔහුට වසරකට උඩුකුරු 40 ක් ඇත. එසේත් නැතිනම් වසර 55 ක් ගණනය කළ හොත් එය 2014 ජනවාරි මාසයේදී ඉහළට 100 ක් [රන් ලාංඡනයක් ලැබුණි]. මෙයින් අදහස් කරන්නේ 2018 වසර අවසානයේදී මම වසර 2.5--3 කින් අල්ලා ගන්නා බවයි. අපි බලමු :-)
අමීබා

3
මා සඳහා සටහන: මගේ ඇස්තමේන්තුව යාවත්කාලීන කළ යුතුය. මසකට පසු මෙම පිළිතුරට ජේ.ඩී.ලොංගේ 5 ට එදිරිව 5 ක් ලැබුණි. මෙයින් ඇඟවෙන්නේ මම දැන් සිට වසරකට අඩු කාලයක් තුළදී අල්ලා ගත හැකි බවයි. සිත්ගන්නා කරුණ නම්, 5 / මාසය මගේ ඉහත ඇස්තමේන්තුව 55 / වසරට ඉතා ආසන්න නමුත් 18 / මාසය වසරකට 100 ට වඩා දෙගුණයකටත් වඩා වැඩිය. මගේ පිළිතුර වෙනස් නොවූ හෙයින්, දෙවන ස්ථානයට පත්වීම ඉහළ නැංවීම වේගවත් කළ බව පෙනේ (දෘශ්‍යතාව වැඩි වීම නිසා විය හැක).
amoeba

391

ලින්ඩ්සේ අයි ස්මිත් විසින් රචිත “ප්‍රධාන සංරචක විශ්ලේෂණය පිළිබඳ නිබන්ධනයක්” අත් පිටපත මට පීසීඒ ලබා ගැනීමට උදව් විය. මම හිතන්නේ එය තවමත් ඔබේ ආච්චිට පැහැදිලි කිරීමට නොහැකි තරම් සංකීර්ණ නමුත් එය නරක නැත. අයිජන් ගණනය කිරීම සඳහා ඔබ පළමු බිටු කිහිපයක් මඟ හැරිය යුතුය. 3 වන පරිච්ඡේදයේ උදාහරණයට ගොස් ප්‍රස්ථාර දෙස බලන්න.

PCA එදිරිව OLS රේඛීය ප්‍රතිවර්තනය තේරුම් ගැනීමට මට සෙල්ලම් උදාහරණ කිහිපයක් හරහා වැඩ කළ උදාහරණ කිහිපයක් තිබේ. මම ඒවා හාරා ඒවා පළ කිරීමට උත්සාහ කරමි.

සංස්කරණය කරන්න: සාමාන්‍ය අවම චතුරස්රයන් (ඕඑල්එස්) සහ පීසීඒ අතර වෙනස ගැන ඔබ ඇත්ත වශයෙන්ම විමසුවේ නැත, නමුත් මම මගේ සටහන් හාරා ඇති බැවින් මම ඒ ගැන බ්ලොග් සටහනක් තැබුවෙමි . ඉතා කෙටි අනුවාදය වන්නේ y ~ x හි OLS යනු ස්වාධීන අක්ෂයට ලම්බකව දෝෂ අවම කිරීමයි (කහ රේඛා දෝෂ දෙකකට උදාහරණ වේ):

alt පෙළ

ඔබ x ~ y නැවත ප්‍රතිවර්තනය කරන්නේ නම් (පළමු උදාහරණයේ y ~ x ට වඩා වෙනස්ව) එය මෙවැනි දෝෂ අවම කරයි:

alt පෙළ

සහ PCA effectively ලදායී ලෙස ආකෘතියට දෝෂ විකලාංග අවම කරයි,

alt පෙළ

වැදගත්ම දෙය නම්, අනෙක් අය පවසා ඇති පරිදි, ඔබ සතුව සම්පූර්ණ විචල්‍ය විචල්‍යයන් ඇති අවස්ථාවක, මෙම විචල්‍යයන්ගේ රේඛීය සංයෝජන වඩාත්ම වැදගත් වන්නේ කුමක්දැයි සොයා ගැනීමට PCA ඔබට උදව් කරයි. ඉහත උදාහරණ හුදෙක් සරල අවස්ථාවක පළමු ප්‍රධාන අංගය කෙබඳුදැයි බැලීමට උපකාරී වේ.

මගේ බ්ලොග් සටහනේ ඉහත ප්‍රස්ථාර නිර්මාණය කිරීම සහ පළමු ප්‍රධාන අංගය ගණනය කිරීම සඳහා මට R කේතය ඇත. PCA වටා ඔබේ ප්‍රතිභාව ගොඩනඟා ගැනීම සඳහා සෙල්ලම් කිරීම වටී. මම එය ප්‍රතිනිෂ්පාදනය කරන කේතයක් ලියන තුරු යමක් අයිති කර නොගනී . 


10
ලින්ඩ්සේ අයි ස්මිත් අත් පිටපතට හොඳ ඇමතුමක් - අද එය කියවන්න; ඉතා ප්‍රයෝජනවත්.
ස්ථාවර

8
එසේ නම්, පීසීඒ ලක්ෂ්‍යයේ සිට සුදුසු රේඛාව දක්වා විකලාංග දුර ප්‍රශස්තිකරණය කරන්නේ නම් එය අවම අවම වර්ග වලට සමානද?
මාකින්

5
Ar මාසින් - මෙය නිවැරදි ය. ඔබට නැවත වැකිය පීසීඒ හොඳම නිලය සොයා ලෙස හැකි ඇස්තමේන්තුව ( 1 m පි දුන් මුල්) පි විචල්යයන් ( x i jm1mpp ), වෛෂයික ක්රියාකාරිත්වයට Σ n i = 1 Σ පි j = 1 ( x i j - x i j ) 2 . පළාත් සභා ගණන තෝරා ගැනීම අනාවැකි වල ශ්‍රේණිය තෝරා ගැනීමට සමාන වේ. x^iji=1,,nj=1,,pi=1nj=1p(xijx^ij)2
සම්භාවිතාවය

3
ස්මිත් හි කුඩා ගණිත දෝෂයක්: "න්‍යාසයක සියලුම ඊජෙන්වෙක්ටර්ස් ලම්බකව පවතී ... ඔබට කොපමණ මානයන් තිබුණත්" සමමිතික න්‍යාසයන්ට පමණක් අදාළ වේ, මෙන්න ඒවා සමඟ අංශක 45 ක් දුරින් . ස්මිත් මීට පෙර සහසංයුජ න්‍යාසයේ සමමිතිය සටහන් කරයි, නමුත් එයින් ගම්‍ය නොවේ - සමමිතිය මඟින් nලම්බක ඊජෙන්වෙක්ටර් සහතික කරයි . ඇත්ත වශයෙන්ම, සෑම තාත්වික n x nන්‍යාසයකම සැබෑ සමාන අගයන් (උදා: {0,1}, {- 1,0}}) නොමැති අතර ඒවායින් සියල්ලටම nස්වාධීන ඊජෙන්වෙක්ටර් නොමැත (උදා: {1,1}, {0 , 1}})! සමමිතිය වැදගත්!
සිල්වර්ෆිෂ්

8
ගණිත ian යෙකු වන ඊජෙන්වෙක්ටර්වරුන් ලෙස, මෙම ලින්ඩ්සේ ස්මිත් අත් පිටපත කියවන විට මට බිය විය යුතුය. "... එහි ප්‍රති ing ලයක් ලෙස ඇති දෛශිකය මුල් පිටපතෙහි පූර්ණ සංඛ්‍යාවක් වේ ..." - නිඛිලය සඳහන් කිරීමේ තේරුම කුමක්ද? න්‍යාසය A හි ඊජෙන්වෙක්ටර් යනු ඕනෑම දෛශික X ය, එනම් AX යනු X හි ගුණනයකි . පූර්ණ සංඛ්‍යාවක් නොව බහු ගුණයකි! පූර්ණ සංඛ්‍යාවක් නොවන බහු ගුණයක් ද හරි! ජීස් ඇයි කිසිවක් නැති තැන අනවශ්‍ය ව්‍යාකූලත්වයක් ඇති කරන්නේ ඇයි?
දිමිත්‍රි සයිට්සෙව්

146

පළමුව (2) කරමු. PCA දත්ත වලට ඉලිප්සොයිඩ් ගැලපේ. ඉලිප්සොයිඩ් යනු සුරුට්ටු, පෑන්කේක් සහ බිත්තර වැනි විකෘති ගෝලාකාර හැඩතල බහුමානීය සාමාන්‍යකරණයකි. සුරුට්ටුවේ හෝ බිත්තරයේ අක්ෂය හෝ පෑන්කේක් තලය වැනි ඒවායේ ප්‍රධාන (අර්ධ) අක්ෂවල දිශාවන් සහ දිග අනුව මේ සියල්ල පිළිවෙලට විස්තර කෙරේ. ඉලිප්සොයිඩ් හැරී ඇති ආකාරය කුමක් වුවත්, ඊජෙන්වෙක්ටර්ස් එම ප්‍රධාන දිශාවලට යොමු වන අතර ඊජන් අගයන් ඔබට දිග ලබා දෙයි. කුඩාම අයිජන් අගයන් අවම විචල්‍යතාවයක් ඇති සිහින්ම දිශාවන්ට අනුරූප වේ, එබැවින් ඒවා නොසලකා හැරීම (ඒවා පැතලි ලෙස කඩා වැටේ) සාපේක්ෂව සුළු තොරතුරු නැති වේ: එය PCA ය.

(1) සරල කිරීම හැරුණු විට (ඉහළ), අපට සුළු විස්තරයක්, දෘශ්‍යකරණයක් සහ තීක්ෂ්ණ බුද්ධියක් අවශ්‍ය වේ. මානයන් අඩු කිරීමට හැකිවීම හොඳ දෙයකි: එය දත්ත විස්තර කිරීම පහසු කරවන අතර, ඒවා තුනක් හෝ ඊට අඩු කිරීමට අප වාසනාවන්ත නම්, අපට පින්තූරයක් ඇඳීමට ඉඩ දෙයි. සමහර විට අපට පින්තූරයේ ඛණ්ඩාංක මගින් නිරූපණය කෙරෙන දත්තවල සංයෝජන අර්ථ නිරූපණය කිරීමට ප්‍රයෝජනවත් ක්‍රම සොයා ගත හැකි අතර එමඟින් විචල්‍යයන්ගේ ඒකාබද්ධ හැසිරීම පිළිබඳ අවබෝධයක් ලබා ගත හැකිය.


රූපයේ දැක්වෙන්නේ ලක්ෂ බැගින් වූ වලාකුළු වන අතර, එක් එක් වලාකුළෙන් 50% ක් අඩංගු ඉලිප්සොයිඩ් සහ ප්‍රධාන දිශාවන් සමඟ පෙලගැසී ඇති අක්ෂ. පළමු පේළියේ වලාකුළු වල ප්‍රධාන වශයෙන් එක් ප්‍රධාන අංගයක් ඇති අතර එය සියලු විචල්‍යතාවයන්ගෙන් 95% කින් සමන්විත වේ: මේවා සුරුට්ටු හැඩයන් ය. දෙවන පේළියේ වලාකුළු වල ප්‍රධාන වශයෙන් ප්‍රධාන සංරචක දෙකක් ඇත, එකක් අනෙක් ප්‍රමාණය මෙන් දෙගුණයක් පමණ වන අතර සියලු විචල්‍යතාවයන්ගෙන් 95% ක් සමන්විත වේ: මේවා පෑන්කේක් හැඩයන් ය. තෙවන පේළියේ ප්‍රධාන කොටස් තුනම සැලකිය යුතු ය: මේවා බිත්තර හැඩයන් ය.200

සංඛ්යා

පොකුරු හෝ ටෙන්ඩ්‍රිල් හෝ පිටස්තරයින් ප්‍රදර්ශනය නොකිරීමේ අර්ථයෙන් “සුසංයෝගී” වන ඕනෑම ත්‍රිමාණ ලක්ෂ්‍ය වලාකුළක් මෙයින් එකක් මෙන් පෙනෙනු ඇත. ඕනෑම ත්‍රිමාණ ලක්ෂ්‍ය වලාකුළක් - සියලු ලක්ෂ්‍යයන් සමපාත නොවේ - මෙම සංඛ්‍යා වලින් එකක් තවදුරටත් පොකුරු කිරීම හෝ රටා හඳුනා ගැනීම සඳහා පිටත්වීමේ ආරම්භක ලක්ෂ්‍යයක් ලෙස විස්තර කළ හැකිය .

එවැනි වින්‍යාසයන් මෙනෙහි කිරීමෙන් ඔබ වර්ධනය කරන ප්‍රතිභානය එම මානයන් දෘශ්‍යමාන කිරීම දුෂ්කර හෝ කළ නොහැකි වුවද ඉහළ මානයන් සඳහා යොදා ගත හැකිය.


2
මෙයට එකතු කිරීම සඳහා, ඔබට (ආසන්න) සමාන අර්ධ අර්ධයන් ඇති විට (එනම් ඉලිප්සොයිඩ් වල (ආසන්න) වටකුරු පෙත්තක් ඇති විට), එයින් පෙන්නුම් කරන්නේ එම අක්ෂවලට අනුරූප වන දත්ත කොටස් දෙකෙහි (ආසන්න) පරායත්තතාවයක් ඇති බවයි; කෙනෙකුට ඉලිප්සයක් සඳහා ප්‍රධාන අක්ෂ ගැන කතා කළ හැකි නමුත් කව වලට ඇත්තේ එක් අරයක් පමණි. :)
ජේඑම් සංඛ්‍යාලේඛන ian යෙක් නොවේ

6
මම මෙහි වඩාත් ප්‍රවේශම් වන්නෙමි, ජේ. එම්. පළමුව, පැහැදිලි කිරීම සඳහා, "ආසන්න පරායත්තතාවයෙන්" ඔබ අදහස් කළ යුත්තේ "ආසන්න වශයෙන් ස්වාධීන" යන්නයි. බහුකාර්ය විචල්‍යතාවයක් සඳහා මෙය සත්‍යයක් වනු ඇත, නමුත් බොහෝ අවස්ථාවන්හීදී PCA සිදු කරනු ලබන්නේ සාමාන්‍ය නොවන ලෙස පෙනෙන දත්ත සමඟ ය. ඇත්ත වශයෙන්ම, සමහර පීසීඒ ගණනය කිරීම් අනුගමනය කරන පොකුරු විශ්ලේෂණයන් සාමාන්‍ය නොවන සාමාන්‍ය ස්වරූපයක් තක්සේරු කිරීමට එක් ක්‍රමයක් ලෙස සැලකිය හැකිය. ගණිතමය වශයෙන්, කව කරන්න ප්රධාන අක්ෂ ඇති, නමුත් ඔවුන් හුදෙක් අනන්ය ලෙස නිශ්චය නොමැත: ඔබ ඔවුන්ගේ ප්රධාන අක්ෂ ලෙස සූර්යයා ඕනෑම ප්රලම්බ යුගල තෝරා ගත හැකිය.
whuber

1
ඔව්, කණගාටුයි, "රවුමක ප්‍රධාන අක්ෂයන් අවිනිශ්චිතයි" එය තැබීමට වඩා හොඳ ක්‍රමයක් වනු ඇතැයි මම සිතමි.
ජේඑම් සංඛ්‍යාලේඛන ian යෙක් නොවේ

2
ඉතා හොඳ අර්ථකථනයක්! එය වඩා හොඳින් තේරුම් ගැනීමට උත්සාහ කිරීම .. PCA ගණිතයේ කෙනෙකුට "PCA දත්ත වලට ඉලිප්සොයිඩ් වලට ගැලපේ" යනුවෙන් දැකිය හැක්කේ කොතැනින්ද?
කොචෙඩ්

4
Oc කොචෙඩ් ඉලිප්සොයිඩ් යනු චතුරස්රාකාර ස්වරූපයේ සමෝච්ඡයකි. සහසංයුජ අනුකෘතිය යනු චතුරස්රාකාර ආකාරයකි. PCA එහි අක්ෂ සහ ඒවායේ දිග හඳුනා ගනී.
whuber

110

හ්ම්, මෙන්න PCA පිළිබඳ සම්පූර්ණයෙන්ම ගණිතමය නොවන පියවරක් සඳහා ...

ඔබ සයිඩර් සාප්පුවක් විවෘත කර ඇතැයි සිතන්න. ඔබට සයිඩර් වර්ග 50 ක් ඇති අතර ඒවා රාක්ක මතට වෙන් කරන්නේ කෙසේදැයි සොයා බැලීමට ඔබට අවශ්‍යය, එවිට සමාන රසකාරක සයිඩර් එකම රාක්කයේ තබා ඇත. සයිඩර්හි විවිධ රුචි අරුචිකම් රාශියක් ඇත - මිහිරි බව, තිත්තකම, තිත්තකම, යීස්ට් බව, fruit ලදායිතාව, පැහැදිලිකම, විකාරය යනාදිය. එබැවින් බෝතල් වර්ගීකරණය කිරීමට ඔබ කළ යුත්තේ ප්‍රශ්න දෙකකට පිළිතුරු ය:

1) සයිඩර් කණ්ඩායම් හඳුනා ගැනීම සඳහා වඩාත්ම වැදගත් ගුණාංග මොනවාද? උදා: මිහිරි බව මත පදනම්ව වර්ගීකරණය කිරීමෙන් පලතුරු මත පදනම්ව වර්ගීකරණයට වඩා ඔබේ සයිඩර් සමාන රසකාරක කාණ්ඩවලට පොකුරු කිරීම පහසු වේද?

2) අපගේ විචල්ය ලැයිස්තුවෙන් සමහරක් සංයෝජනය කිරීමෙන් අඩු කළ හැකිද? උදා: ඇත්ත වශයෙන්ම විචල්‍යයක් තිබේද, එය “යීස්ට් බව සහ පැහැදිලිකම සහ විකාරය” යන සංයෝජනය වන අතර ප්‍රභේද වර්ගීකරණය සඳහා හොඳ පරිමාණයක් කරයිද?

PCA කරන්නේ මෙයයි. ප්‍රධාන සංරචක යනු දත්ත කට්ටලයක විචලනය ප්‍රයෝජනවත් ලෙස පැහැදිලි කරන විචල්‍යයන්ය - මේ අවස්ථාවේ දී, කණ්ඩායම් අතර ප්‍රයෝජනවත් ලෙස වෙනස් වේ. සෑම ප්‍රධාන අංගයක්ම ඔබේ මුල් පැහැදිලි කිරීමේ විචල්‍යයන්ගෙන් එකක් හෝ ඔබේ මුල් පැහැදිලි කිරීමේ විචල්‍යයන්ගේ එකතුවකි.


4
Eigenvectors & eigenvalues ​​ගැන කුමක් කිව හැකිද?
ςας

3
හරි: එක් එක් ප්‍රධාන සංරචක හා සම්බන්ධ ඊජන් අගය මඟින් එය පැහැදිලි කරන දත්ත කට්ටලයේ කොතරම් වෙනස්කමක් ඔබට කියයිද (මගේ උදාහරණයේ දී, එය ඔබේ බෝතල් කණ්ඩායම් වශයෙන් වෙන් කරන්නේ කෙතරම් පැහැදිලිවද). ඒවා සාමාන්‍යයෙන් දත්ත කාණ්ඩයේ සමස්ත විචලනයේ ප්‍රතිශතයක් ලෙස ප්‍රකාශ වේ. අයිජෙන්වෙක්ටර් සම්බන්ධයෙන් ගත් කල, නියපොතු කියූ පරිදි යන්ත්‍රයක් වැනි විශ්ලේෂණයක ප්‍රති output ලය මම අනුගමනය කරමි;) මගේ හිසෙහි, ඒවා සම්බන්ධ වන්නේ ඔබ වින්ස්ගේ ජංගම දුරකථනය එහි 'හොඳම' දිශානතියට භ්‍රමණය කරන ආකාරය හා සම්බන්ධ වන නමුත් මෙය එසේ නොවිය හැකිය ඔවුන් ගැන සිතීමට නිවැරදි මාර්ගය.
ෆ්‍රෙයා හැරිසන්

17
Eigenvectors යනු මුල් විචල්‍යයන්ගේ රේඛීය සංයෝජන පමණි (සරල හෝ භ්‍රමණය වන සාධක අවකාශයේ); එක් එක් සාධක අක්ෂයට විචල්‍යයන් දායක වන ආකාරය ඔවුන් විස්තර කළේය. මූලික වශයෙන්, ඊසීඑන් අගය මගින් ප්‍රකාශිත පරිදි උපරිම විචල්‍යතාවයේ දිශාවන්ට (මුල් විචල්‍ය අවකාශයේ) යොමු වන නව අක්ෂයන් තැනීමේ ක්‍රමයක් ලෙස PCA ගැන සිතන්න, සහ මෙම නව අවකාශය තුළ විචල්‍ය දායකත්වයන් බර කිරන හෝ රේඛීයව පරිවර්තනය වන්නේ කෙසේද.
chl

මෙම ගැටලුවේ සහසංයුජ අනුකෘතිය කෙබඳු වනු ඇත්ද? විචල්‍යයන් (මිහිරි බව, තිත්තකම, තිත්තකම, යීස්ට් බව, fruit ලදායිතාවය, පැහැදිලිකම, විකාරය ආදිය) ගැන එය අපට පවසන්නේ කුමක්ද?
JustCurious

1
සංඛ්‍යාලේඛන
ians යින්

99

දත්ත ලක්ෂ්‍යයන්ට සරල රේඛා ගැලපීම PCA හි අරමුණ බව පවසමින් මම “ගිහියන්ගේ නියමයන්ට” පිළිතුරු දෙමි (සරල රේඛාවක් යනු කුමක්දැයි සියලු දෙනා දනිති). අපි මෙම සරල රේඛා "ප්‍රධාන සංරචක" ලෙස හඳුන්වමු. විචල්යයන් ඇති තරම් ප්රධාන සංරචක තිබේ. පළමු ප්‍රධාන අංගය වන්නේ දත්ත වලට ඔබට ගැලපෙන හොඳම සරල රේඛාවයි. දෙවන ප්‍රධාන සංරචකය පළමු ප්‍රධාන සංරචකයේ ඇති දෝෂයන්ට ගැලපෙන හොඳම සරල රේඛාවයි. තෙවන ප්‍රධාන සංරචකය පළමු හා දෙවන ප්‍රධාන සංරචක ආදියෙහි දෝෂ වලට ඔබට ගැලපෙන හොඳම සරල රේඛාව වේ.

"හොඳම" හෝ "දෝෂ" යන්නෙන් ඔබ අදහස් කරන්නේ කුමක්දැයි යමෙකු ඇසුවොත්, මෙය ඔබට කියනුයේ ඔවුන් "ගිහියෙකු" නොවන බවයි, එබැවින් සිරස් දෝෂ වැනි තවත් තාක්ෂණික තොරතුරු වෙත යා හැකිය, දෝෂය ඇති තැන නොදන්න x- හෝ y- දිශාව, මානයන් 2 ක් හෝ 3 කට වඩා වැඩි ය.

Eigenvectors සහ eigenvalues ​​සඳහා සංකල්ප අවශ්‍ය නොවේ, ඒ වෙනුවට ඒවා දැනටමත් පැවති ගණිතමය සංකල්ප විය. ඔබ PCA හි ගණිතමය ගැටළුව විසඳන විට, එය අවසන් වන්නේ සහසංයුජ අනුකෘතියේ eigenvalues ​​සහ eigenvectors සොයා ගැනීමට සමාන වේ.


9
+1, මෙය සැබවින්ම “ගිහියන්ගේ නියමයන්” අනුව වන අතර, ඔබට අවශ්‍ය නම් එය ඉතා තදින් ව්‍යුත්පන්න කළ හැකි බව මම දනිමි !
gung - මොනිකා නැවත

3
මෙතෙක් ලබා දී ඇති හොඳම පිළිතුර, මම කියමි. මම PCA ගොඩක් පාවිච්චි කරනවා.
a11msp

3
වාව් - මෙය සැබවින්ම විශිෂ්ට හා සරල පැහැදිලි කිරීමකි! ඔබට ස්තුතියි!
නික්

54

පීසීඒ පිළිබඳ මගේම පැහැදිලි කිරීමක් / සාක්ෂියක් මට ඔබට ලබා දිය හැකිය, එය සැබවින්ම සරල හා අලංකාර යැයි මා සිතන අතර රේඛීය වීජ ගණිතය පිළිබඳ මූලික දැනුම හැර වෙනත් කිසිවක් අවශ්‍ය නොවේ. එය ඉතා පහසුවෙන් එළියට ආවේ, මට සරල ප්‍රවේශ කළ හැකි භාෂාවෙන් ලිවීමට අවශ්‍ය වූ බැවිනි.

Mnn

βββi=1Mxiμ2μ0xi=xiμi=1Mxi2

දැන් රේඛාව තේරීම. අපට ඕනෑම රේඛාවක් සමීකරණය තෘප්තිමත් කරන ලක්ෂ්‍ය සමූහයක් ලෙස විස්තර කළ හැකිය , සමහර දෛශික සඳහා . අපි යම් දෛශික විකලාංගයකින් වෙත රේඛාව ගෙන ගියහොත්, රේඛාවේ ඇති සියලුම ප්‍රක්ෂේපණ මගින් ද ගෙන යනු ඇත , එබැවින් ප්‍රක්ෂේපනවල මධ්‍යන්‍යය මගින් ගෙන යනු ඇත , එබැවින් ප්‍රක්ෂේපනවල විචලනය නොවෙනස්ව පවතිනු ඇත. ඒ කියන්නේ අපට රේඛාව තමාට සමාන්තරව ගෙන යා හැකි අතර මෙම රේඛාවේ ප්‍රක්ෂේපනවල විචලනය වෙනස් නොකරන්න. පහසුව සඳහා නැවතත් අපි ශුන්‍ය ලක්ෂ්‍යය හරහා ගමන් කරන රේඛාවලට පමණක් සීමා වෙමු (මෙයින් අදහස් කරන්නේ විසින් විස්තර කරන ලද රේඛා ).x=αv+wv,wγvγγx=αv

හරි, දැන් අපි දෛශික හිතන්න අපි සඳහා ගවේශනය කිරීම හෝ, මාර්ගය සඳහා හැකි අපේක්ෂකයා බව රේඛාවක් දිශාව විස්තර. රේඛාවේ ප්‍රක්ෂේපනවල විචලනය ගණනය කිරීමට අපට අවශ්‍යය . අපට අවශ්‍ය වන්නේ ප්‍රක්ෂේපණ ලකුණු සහ ඒවායේ මධ්‍යන්‍යයයි. රේඛීය වීජ ගණිතය අප මෙම සරල නඩුවේ ප්රක්ෂේපනය බව දැන මත වේ . මෙතැන් සිට අපි ඒකක දෛශික වලට පමණක් සීමා කරමු . ඒ කියන්නේ ලක්ෂ්‍යයේ ප්‍රක්ෂේපණයේ දිග මත සරලව ලෙස ලිවිය හැකිය .vαvxiαvxi,v/v2vxivxi,v

පෙර පිළිතුරු කිහිපයකදී යමෙකු පැවසුවේ PCA විසින් තෝරාගත් රේඛාවෙන් ඇති දුර ප්‍රමාණය අවම කරන බවයි. අපට දැන් එය සත්‍යයක් ලෙස පෙනේ, මන්ද ප්‍රක්ෂේපණ වර්ගවල එකතුව සහ තෝරාගත් රේඛාවෙන් ඇති දුර ප්‍රමාණයන් ස්ථානයේ සිට ඇති දුර ප්‍රමාණයට සමාන වේ . ප්‍රක්ෂේපන වර්ගවල එකතුව උපරිම කිරීමෙන්, අපි දුර ප්‍රමාණයන්හි ප්‍රමාණය අවම කර ගනිමු, නමුත් මෙය කල්පනාකාරීව බැහැර කිරීමකි, දැන් සාධනය වෙත.0

ප්‍රක්ෂේපනවල මධ්‍යන්‍යය සම්බන්ධයෙන් ගත් කල, යනු අපගේ අවකාශයේ යම් විකලාංග පදනමක කොටසක් බවත්, එම පදනමේ සෑම දෛශිකයක් මතම අපගේ දත්ත ලක්ෂ්‍යයන් ප්‍රක්ෂේපණය කළහොත් ඒවායේ එකතුව අවලංගු වන බවත් අපි නිරීක්ෂණය කරමු. දෛශික යනු නව විකලාංග පදනමේ දත්ත ලක්ෂ්‍ය ලිවීම හා සමානයි). දෛශික මත ඇති සියලුම ප්රක්ෂේපන එකතුව එසේ (ඉඩ ගේ එකතුව කතා හා) පදනම (එහෙනම් අපි ඇමතුමක් එය අනෙකුත් වාහකයන් මත ප්රක්ෂේපණ එකතුව එය දත්ත ලක්ෂ්ය තේරුම නිසා), 0 වේ. නමුත් කිරීමට ප්රලම්බ වේ ! ඒ කියන්නේ .vvSvSoSvSoSo=Sv=0

එබැවින් අපගේ ප්‍රක්ෂේපනවල මධ්‍යන්‍යය වේ. 0හොඳයි, එය පහසුය, මන්ද එයින් අදහස් වන්නේ විචලනය යනු ප්‍රක්ෂේපනවල දිග වර්ගවල එකතුවක් හෝ සංකේත වලින්

i=1M(xiv)2=i=1MvTxiTxiv=vT(i=1MxiTxi)v.

හොඳයි, හදිසියේම සහසංයුජ අනුකෘතිය එළියට ආවා. අපි එය හුදෙක් මගින් . අප දැන් ඒකකයක් දෛශික සොයන අදහස් නොසලකා සමහර අර්ධ ධනාත්මක නිශ්චිත න්යාසය සඳහා, .XvvTXvX

දැන්, අපි න්‍යාසයේ eigenvectors සහ eigenvalues ​​ගෙන ඒවා පිළිවෙලින් සහ , . අගයන් අනුපිටපත් නොකරන්නේ නම්, ඊජෙන්වෙක්ටර්ස් විකලාංග පදනමක් සාදයි. ඔවුන් එසේ කරන්නේ නම්, අපි ඊජෙන්වෙක්ටර්ස් විකලාංග පදනමක් ලෙස තෝරා ගනිමු.Xe1,e2,,enλ1,,λnλ1λ2,λ3λ

දැන් eigenvector සඳහා ගණනය කරමු . අපටvTXvei

eiTXei=eiT(λiei)=λi(ei2)2=λi.

ඉතා හොඳයි, මෙය අපට සඳහා ලබා . දැන් අපි අත්තනෝමතික දෛශිකයක් ගනිමු . ඊජෙන්වෙක්ටර්ස් විකලාංග පදනමක් සාදන බැවින්, අපට ලිවිය හැකි අතර අපට . එහෙනම් අපි දකුණු ආසියාතික සමාජ .λ1e1vv=i=1neiv,eii=1nv,ei2=1βi=v,ei

දැන් අපි ගණනය කරමු . අපි හි රේඛීය සංයෝජනයක් ලෙස නැවත :vTXvvei

(i=1nβiei)TX(i=1nβiei)=(i=1nβiei)(i=1nλiβiei)=i=1nλi(βi)2(ei2)2.

අවසාන සමීකරණය පැමිණෙන්නේ යුගල වශයෙන් විකලාංග ලෙස තෝරාගෙන ඇති ඊජෙන්වෙක්ටර් ය, එබැවින් ඒවායේ තිත් නිෂ්පාදන ශුන්‍ය වේ. දැන්, සියලු ඊජෙන්වෙක්ටර් ද ඒකක දිගින් යුක්ත බැවින් අපට , එහිදී සියල්ල ධනාත්මක වන අතර, එකතුව .vTXv=i=1nλiβi2βi21

එහි අර්ථය වන්නේ ප්‍රක්ෂේපණයේ විචල්‍යතාවය ඊජන් අගයන්හි බර තැබූ මධ්‍යන්‍යයක් බවයි. නිසැකවම, එය සෑම විටම අඩු අගයක් ගනී විශාලතම ඊජන් අගය, එබැවින් එය අපගේ පළමු PCA දෛශිකය තෝරා ගැනීම විය යුතුය.

දැන් අපට තවත් දෛශිකයක් අවශ්‍ය යැයි සිතමු. අප එය තෝරා ගත යුත්තේ අභ්‍යවකාශ විකලාංගයේ සිට දැනටමත් තෝරාගෙන ඇති ස්ථානයට ය, එයින් අදහස් වන්නේ . ප්‍රතිසම අනුමාන කිරීමෙන් අපි නිගමනය කරන්නේ, ප්‍රක්ෂේපණය කළ හැකි හොඳම දෛශිකය බවයි. සහ එසේ ය ...lin(e2,e3,,en)e2

මාර්ගය වන විට, එය පැහැදිලිය, රඳවාගෙන ඇති විචලනය මගින් ප්‍රකාශ කළ හැක්කේ මන්ද යන්න දැන් පැහැදිලි විය යුතුය .i=1kλi/i=1nλi

අප කෑදර දෛශික තෝරා ගැනීම සාධාරණීකරණය කළ යුතුය. අපට ප්‍රක්ෂේපණය කිරීම සඳහා දෛශික තෝරා ගැනීමට අවශ්‍ය වූ විට , පළමුව හොඳම දෛශිකය තෝරා ගැනීම හොඳම අදහස නොවිය හැකිය, පසුව ඉතිරිව ඇති දේවලින් හොඳම දේ යනාදිය. මෙම අවස්ථාවේ දී එය යුක්ති සහගත බවත් කිසිදු වෙනසක් නැති බවත් තර්ක කිරීමට මම කැමතියි. අපි කිරීමට බලාපොරොත්තු වන දෛශිකය දැක්වීමට . එසේම, දෛශික යුගල වශයෙන් විකලාංග යැයි උපකල්පනය කරමු. අප දැනටමත් දන්නා පරිදි, එම දෛශිකවල ප්‍රක්ෂේපනවල සම්පූර්ණ විචලනය එහිදීkkv1,,vk

j=1ki=1nλiβij2=i=1nλiγi
γi=j=1kβij2.

දැන්, ඇතුළත් පදනමින් . ඉතිරි පදනම as ලෙස . බව අපට පෙනෙනවා . නිසා , අපි , සහ ඒ නිසා සියල්ලටම .eiv1,,vku1,,unkei=j=1kβijvj+j=1nkθjei,ujei2=1j=1kβij2+j=1nkθj2=1γi1i

දැන් අපට ඇත්තේ එක් දෛශිකයකට සමාන නඩුවකි, ප්‍රක්ෂේපනවල සම්පූර්ණ විචලනය සමඟ සහ . මෙම තවත් බර තැබූ අදහස් වන අතර, වඩා කිසිදු නිසැකව ම මත ප්රක්ෂේපණය කිරීමට අනුරූප විශාලතම eigenvalues අනුරූප eigenvectors.i=1nλiγiγi1i=1nγi=ki=1kλik


2
+1 ඉතා හොඳ පිළිතුරක්! තවම එය සම්පූර්ණයෙන් කියවා නැත, නමුත් ඔබේ පිළිතුර මා සොයන ආකාරයේ ය. සියලු පියවර පැහැදිලි කර ඇත =)
jjepsuomi

9
මූලික රේඛීය වීජ ගණිතය දන්නා ගිහියෙකු මට පෙන්වන්න, මම ඔබට ගණිත උපාධි අපේක්ෂකයෙකු පෙන්වන්නම්.
probisislogic

රේඛීය වීජ ගණිතය අප මෙම සරල නඩුවේ ප්රක්ෂේපනය බව දැන මත වේ α v x i , v /v 2xiαvxi,v/v2 (5 වන ඡේදය). එය නොවිය යුතුද? ? වෙනත් වචන වලින් කිවහොත්, පරිමාණ ප්‍රක්ෂේපණය? xi,v/v
ඇන්ටෝනි පරෙල්ලාඩා

1
මම හිතන්නේ මෙය මම මෙතෙක් දැක ඇති PCA සඳහා හොඳම පැහැදිලි කිරීම බවයි. ඔබට ස්තුතියි.
නිමිට්ස් 14

1
එය මගේ ප්‍රියතම පැහැදිලි කිරීම වන අතර එය ඊජෙන්වෙක්ටර්ස් විචල්‍යතාව උපරිම කිරීමට හේතුව ද පෙන්වයි .
රොම්වෙල්

48

හරි, මම මෙය උත්සාහ කර බලන්නම්. මාස කිහිපයකට පෙර මම සංඛ්‍යාලේඛන නොවන කෙනෙකුට පැහැදිලි කළ හැකි අවබෝධාත්මක පැහැදිලි කිරීමක් සොයා ගැනීම සඳහා හොඳ සාහිත්‍ය ප්‍රමාණයක් හාරා බැලුවෙමි. ලැග්‍රැන්ජ් ගුණක භාවිතා කරන ව්‍යුත්පන්නයන් වඩාත් බුද්ධිමත් බව මට පෙනී ගියේය.

අපට ඉහළ මානයන් සහිත දත්ත ඇති බව කියමු - කෘමියෙකු මත කරන ලද මිනුම් 30 ක් කියන්න. මෙම මානයන්හි දෝෂ වල විවිධ ප්‍රවේණි සහ තරමක් වෙනස් භෞතික ලක්ෂණ ඇත, නමුත් එවැනි ඉහළ මානයන් සහිත දත්ත සමඟ කුමන කණ්ඩායමට අයත් වන්නේ කුමන කෘමීන්දැයි කීමට අපහසුය.

PCA යනු මානය අඩු කිරීමේ තාක්‍ෂණයකි:

  1. මුල් විචල්යයන්ගේ රේඛීය සංයෝජන ගැනීම.
  2. සෑම රේඛීය සංයෝජනයක්ම එයට හැකි දත්තවල වඩාත්ම විචලනය පැහැදිලි කරයි.
  3. සෑම රේඛීය සංයෝජනයක්ම අනෙක් ඒවා සමඟ සම්බන්ධ නොවේ

හෝ, ගණිතමය වශයෙන්:

  1. සඳහා (jth සංරචකය සඳහා රේඛීය සංයෝජනය)Yj=ajx
  2. සඳහා , (පළමු සංරචක වැඩි විචලනය පැහැදිලි)V ( Y k ) < V ( Y j )k>jV(Yk)<V(Yj)
  3. akaj=0 (විකලාංග)

මෙම අවහිරතා සපුරාලන රේඛීය සංයෝජන සොයා ගැනීම අපව සමාන අගයන් කරා යොමු කරයි. මන්ද?

සම්පූර්ණ ව්‍යුත්පන්නය සඳහා බහු දත්ත දත්ත විශ්ලේෂණය සඳහා හැඳින්වීමක් (පිටුව 50) පරීක්ෂා කර බැලීමට මම නිර්දේශ කරමි , නමුත් මූලික අදහස වන්නේ අනුක්‍රමික ප්‍රශස්තිකරණ ගැටලු (විචල්‍යතාව උපරිම කිරීම) සීමා කර ඇති අතර එමඟින් සංගුණක සඳහා a'a = 1 (නඩුව වැළැක්වීම සඳහා) විචලනය අසීමිත විය හැකි විට) සහ සංගුණක විකලාංග බව සහතික කිරීමට සීමා වේ.

මෙය ලැග්‍රැන්ජ් ගුණක සමඟ ප්‍රශස්තිකරණයට තුඩු දෙන අතර එමඟින් ඊජන් අගයන් භාවිතා කරන්නේ ඇයිද යන්න අනාවරණය වේ. මට එය ටයිප් කිරීමට කම්මැලි ය (සමාවෙන්න!) නමුත්, මෙම පී.ඩී.එෆ් .

මම මෙය කිසි විටෙකත් මගේ ආච්චිට පැහැදිලි කිරීමට උත්සාහ නොකරමි, නමුත් මානයන් අඩු කිරීමේ ක්‍රම ගැන සාමාන්‍යයෙන් කතා කිරීමට සිදුවුවහොත්, මම මෙම සුළු ප්‍රක්ෂේපණ උදාහරණයට (පීසීඒ නොවේ) පෙන්වා දෙමි. ඔබට ඉතා සංකීර්ණ කැල්ඩර් ජංගම දුරකථනයක් ඇතැයි සිතමු. 3-d අවකාශයේ සමහර කරුණු එකිනෙකට සමීප වේ, අනෙක් ඒවා එසේ නොවේ. අපි මෙම ජංගම දුරකථනය සිවිලිමෙන් එල්ලා එය මත එක් කෝණයකින් ආලෝකය විහිදුවන්නේ නම්, අපට අඩු මානයන් සහිත තලයකට (2-d බිත්තියක්) ප්‍රක්ෂේපණයක් ලැබේ. දැන්, මෙම ජංගම දුරකථනය ප්‍රධාන වශයෙන් එක් දිශාවකට පුළුල් නමුත් අනෙක් දිශාවට කෙට්ටු නම්, ප්‍රයෝජනවත් ලෙස වෙනස් වන ප්‍රක්ෂේපණ ලබා ගැනීම සඳහා අපට එය කරකැවිය හැකිය. බුද්ධිමත්ව, බිත්තියක් මත ප්‍රක්ෂේපණය කරන ලද එක් මානයක කෙට්ටු හැඩයක් අඩු ප්‍රයෝජනවත් නොවේ - සියලු සෙවනැලි අතිච්ඡාදනය වන අතර අපට වැඩි තොරතුරු ලබා නොදේ. කෙසේ වෙතත්, අපි එය භ්‍රමණය කරන්නේ නම් ආලෝකය පුළුල් පැත්තෙන් බබළයි, අඩු කළ මානයන් පිළිබඳ වඩා හොඳ චිත්‍රයක් අපට ලැබේ - ලකුණු වඩාත් ව්‍යාප්ත වේ. මෙය බොහෝ විට අපට අවශ්‍ය දෙයයි. මම හිතන්නේ මගේ ආච්චිට එය තේරුම් ගත හැකිය :-)


6
ඒක හරිම

2
එය ටිකක් ගණිතය, නමුත් යමක් තේරුම් ගැනීමට ඇති හොඳම ක්‍රමය එය ව්‍යුත්පන්න කිරීමයි.
වින්ස්

29
ඔබට සුවිශේෂී ලෙස උගත් ආච්චි කෙනෙක් සිටී :-).
whuber

7
3-d ව්‍යුහයක් මත ආලෝකය විහිදුවමින් පැහැදිලි කිරීමට මම කැමතියි
නීල් මැක්ගුගන්

(+1) සියල්ලම විශිෂ්ට පිළිතුරු නමුත් මම ද දෙන පිළිතුර මෙයයි.
ඩිජිඕ

39

තාක්‍ෂණික නොවන වීමට උත්සාහ කිරීම ... ඔබට බහුකාර්ය දත්ත, බහුමානීය වලාකුළු ලක්ෂ්‍යයක් ඇතැයි සිතන්න. ඔබ සැබවින්ම (අ) වලාකුළ කේන්ද්‍රගත කරන අයගේ සහසංයුජ අනුකෘතිය ගණනය කරන විට, එනම් මූලාරම්භය බහුමාන මධ්යන්ය ලෙස තබන්න, ඛණ්ඩාංක පද්ධති අක්ෂයන් දැන් වලාකුළෙහි මධ්යයේ හරස් වේ, (ආ) වලාකුළෙහි හැඩය පිළිබඳ තොරතුරු සංකේතනය කරන්න. සහ විචල්‍ය-සහසංයුජ ඇතුළත් කිරීම් මගින් එය අභ්‍යවකාශයට නැඹුරු වන්නේ කෙසේද යන්න. එබැවින්, සමස්තයක් ලෙස දත්තවල හැඩය පිළිබඳ වැදගත් තොරතුරු බොහොමයක් සහසංයුජ අනුකෘතියේ ගබඩා කර ඇත.

එවිට ඔබ එම මාට්‍රික්ස් හි ඊජන්-දිරාපත්වීම සිදු කර ඊජන් අගයන් ලැයිස්තුව සහ ඊට අනුරූප ඊජෙන්වෙක්ටර් ගණන ලබා ගන්න. දැන්, 1 වන ප්‍රධාන සංරචකය නව, ගුප්ත විචල්‍යය වන අතර එය අක්ෂය සම්භවය හරහා ගමන් කරන අතර වලාකුළෙහි උපරිම විචල්‍යතාවයේ (thickness ණකම) දිශාවට නැඹුරු වේ. මෙම අක්ෂය දිගේ විචලනය, එනම් එහි ඇති සියලුම ලක්ෂ්‍යවල ඛණ්ඩාංකවල විචලනය වේමුල් අක්ෂයට (විචල්‍යයන්ට) යොමු කර ඇති අභ්‍යවකාශයේ අක්ෂයේ දිශානතිය 1 වන ඊජෙන්වෙක්ටර් විසින් අර්ථ දක්වා ඇත: එහි ඇතුළත් කිරීම් වන්නේ එය සහ එම මුල් අක්ෂ අතර ඇති කොසයින් ය. 1 වන සංරචකයේ දත්ත ලක්ෂ්‍යවල ඉහත සඳහන් ඛණ්ඩාංක 1 වන ප්‍රධාන සංරචක අගයන් හෝ සංරචක ලකුණු වේ; ඒවා ගණනය කරනු ලබන්නේ (කේන්ද්‍රගත) දත්ත අනුකෘතියේ සහ ඊජෙන්වෙක්ටරයේ නිෂ්පාදනයක් ලෙස ය.

"පසු" 1 වන පී. සං component ටකය මනිනු ලැබුවේ, එය ගණනය කළ සියලු විචල්‍යතාවයන් සමඟ වලාකුළෙන් "ඉවත් කර" ඇති අතර වලාකුළෙහි මානයන් එකකින් පහත වැටේ. ඊළඟට, සෑම දෙයක්ම දෙවන ඊජන් අගය හා දෙවන ඊජෙන්වෙක්ටර් සමඟ පුනරාවර්තනය වේ - 2 වන පී. සංරචකය පටිගත කර ඇති අතර පසුව "ඉවත් කරනු ලැබේ". ආදිය.

එබැවින්, නැවත වරක්: ඊජෙන්වෙක්ටර්ස් යනු ප්‍රධාන සංරචක සඳහා දිශා කොසයින් වන අතර, ඊජන් අගය යනු ප්‍රධාන සංරචකවල විශාලත්වය (විචලනය) වේ. සියලු සමාන අගයන්ගේ එකතුව විචල්‍ය-සහසංයුජ අනුකෘතියේ විකර්ණ මත ඇති විචල්‍යයන්ගේ එකතුවට සමාන වේ. ඔබ එහි ඇති “දිශානත” තොරතුරු වලට එකතු කිරීම සඳහා අයිජන් අගයයන්හි ගබඩා කර ඇති “විශාල” තොරතුරු ඊජෙන්වෙක්ටර් වෙත මාරු කළහොත් ඔබට ප්‍රධාන සංරචක පැටවීම් ලෙස හැඳින්වේ ; මෙම පැටවීම් - ඒවා තොරතුරු වර්ග දෙකම ගෙන යන නිසා - මුල් විචල්‍යයන් සහ ප්‍රධාන සංරචක අතර සහසම්බන්ධතා වේ.

පසුකාලීන ප්‍රා.ලේ. මට විශේෂයෙන් දෙවරක් අවධාරණය කිරීමට අවශ්‍ය වන්නේ ඊජෙන්වෙක්ටර් සහ පැටවීම් අතර පාරිභාෂිත වෙනසයි . බොහෝ අය සහ සමහර පැකේජ (සමහරක් ඇතුළුව R) මෙම වචන දෙක එකිනෙකට වෙනස් ලෙස භාවිතා කරයි. වස්තූන් සහ ඒවායේ අර්ථයන් වෙනස් බැවින් එය නරක පුරුද්දකි. ඊජෙන්වෙක්ටර් යනු පීසීඒ වලට සමාන වන විකලාංග “භ්‍රමණය” කෝණය වන කෝසයින දිශාවයි. භ්‍රමණය වන දත්තවල විචල්‍යතාවය හෝ විශාලත්වය පිළිබඳ තොරතුරු සමඟ පැටවීම eigenvectors වේ. පැටවීම යනු සංරචක සහ විචල්‍යයන් අතර සංගම් සංගුණක වන අතර ඒවා විචල්‍යයන් අතර ගණනය කරන ලද සංගම් සංගුණක සමඟ කෙලින්ම සැසඳිය හැකිය - සහසංයුජ, සහසම්බන්ධතා හෝ වෙනත් පරිමාණ නිෂ්පාදන, ඔබ ඔබේ PCA පදනම් කරගත්. සංරචක මගින් විචල්‍යයන් පුරෝකථනය කිරීමේදී ප්‍රතිගාමී සංගුණකවලට සේවය කිරීම සම්බන්ධයෙන් ඊජෙන්වෙක්ටර් සහ පැටවීම් යන දෙකම සමාන වේ (අනෙක් අතට නොවේ!1). Eigenvectors යනු අමු සංරචක ලකුණු අනුව විචල්‍යයන් පුරෝකථනය කිරීමේ සංගුණක වේ. පරිමාණයන් (සාමාන්‍යකරණය කරන ලද) සංරචක ලකුණු මඟින් විචල්‍යයන් පුරෝකථනය කිරීමේ සංගුණකය පැටවීම වේ (පුදුමයක් නොවේ: පැටවීම් මඟින් විචල්‍යතාව පිළිබඳ තොරතුරු වේගවත් කර ඇති අතර, එම නිසා භාවිතා කරන සංරචක එයින් අහිමි විය යුතුය). ඊජෙන්වෙක්ටර් සහ පැටවීම් මිශ්‍ර නොකිරීමට තවත් එක් හේතුවක් නම්, පීසීඒ හැරුණු විට වෙනත් මානයන් අඩු කිරීමේ තාක්ෂණයන් - සමහර සාධක සාධක විශ්ලේෂණය වැනි - සෘජුවම පැටවීම් ගණනය කිරීම, ඊජෙන්වෙක්ටර් මඟ හැරීම. ඊජෙන්වෙක්ටර්ස් යනු අයිජන්-වියෝජනය හෝ ඒකීය අගය වියෝජනයෙහි ප්‍රති product ලයකි; සාධක විශ්ලේෂණයේ සමහර ආකාර මෙම විසංයෝජනයන් භාවිතා නොකරන අතර වෙනත් ආකාරයකින් පැටවීම් වෙත පැමිණේ. අවසාන වශයෙන්, එය සංරචක හෝ සාධක අර්ථ නිරූපණය කරන (ඔබට ඒවා අර්ථ නිරූපණය කිරීමට අවශ්‍ය නම්) පැටවීම මිස ඊජෙන්වෙක්ටර් නොවේ. පැටවීම යනු විචල්‍යයකට සංරචක දායක වීමකි: PCA හි (හෝ සාධක විශ්ලේෂණය) සංරචකය / සාධකය විචල්‍යයට පටවනු ලැබේ, අනෙක් අතට නොවේ. විස්තීර්ණ PCA ප්‍රති results ලයකදී, උදාමෙතන හෝ මෙතන .

Eigenvectors එදිරිව පැටවීම ගැනද බලන්න .


1 පීසීඒ හි ඊජෙන්වෙක්ටර් න්‍යාසය විකලාංග හා එහි ප්‍රතිලෝමය එහි පාරදෘශ්‍ය බැවින්, විචල්‍යයන් මගින් සං components ටක නැවත අනාවැකි කීමට එම සංගුණක ද එම ඊජෙන්වෙක්ටර් යැයි අපි කියමු. පැටවීම සඳහා එය එසේ නොවේ.


@amoeba, මම අවධාරනය නොකරන අතර ඔබ පුරුදු වී ඇති ඕනෑම පාරිභාෂිතයක් භාවිතා කළ හැකිය. "පැටවීම" සහ "ඊජෙන්වෙක්ටර්ස්" යන වචන වෙන් වෙන්ව තබා ගැනීම වඩා හොඳ යැයි මා සිතන්නේ මන්දැයි මම පැහැදිලිව පැහැදිලි කළෙමි. මම හර්මන් වැනි සම්භාව්‍ය සම්ප්‍රදායන් අනුගමනය කරමි. නූතන සාධක විශ්ලේෂණය, මම සම්ප්‍රදාය නිවැරදිව මතක තබා ගන්නේ නම් පමණි.
ttnphns

(ඉදිරියට) කෙසේ වෙතත්, "පැටවීම" යන වචනය සැබවින්ම සැක සහිත වුවත්, වෙනස් ලෙස විශ්ලේෂණය වැනි වෙනත් බහුකාර්ය විශ්ලේෂණයන්හි "ඊජෙන්වෙක්ටර්" සමඟ නොගැලපෙන බව ඔබම දන්නවා. නැවත වරක්, මා තැබූ පරිදි, PCA පැටවීමේදී 1) විචල්‍යතාවයේ විශාලත්වය පිළිබඳ තොරතුරු ඇතුළත් කරන්න; 2) සහසංයුජ / සහසම්බන්ධතා ද, එබැවින් ඒවා අර්ථ නිරූපණය සඳහා ද යොදා ගනී. Eigenvector අගයන් - එසේ නොවේ.
ttnphns

2
+1 මම PCA සහ වෙනත් ආශ්‍රිත ගැටළු පිළිබඳ ඔබගේ ලිපි කියවා ඇති අතර බොහෝ දේ ඉගෙන ගතිමි.
ඇන්ටෝනි පරෙල්ලාඩා

31

හරි, මුළුමනින්ම ගණිත නොවන පිළිතුරක්:

ඔබට විෂයයන් සමූහයක් මත විචල්‍යතා පොකුරක් තිබේ නම් සහ එම විෂයයන්හි විචල්‍යයන් කුඩා සංඛ්‍යාවක් දක්වා අඩු කිරීමට ඔබට අවශ්‍ය නම්, හැකි තරම් සුළු තොරතුරු අහිමි වන අතර, මෙය කිරීමට PCA එක මෙවලමකි.

එය බොහෝ විට සමාන ප්‍රති results ල ලබා දුන්නද, සාධක විශ්ලේෂණයට වඩා වෙනස් වේ, එමඟින් FA ගුප්ත විචල්‍යයන් හා සම්බන්ධ යැයි විශ්වාස කෙරෙන නිරීක්ෂණය කරන ලද විචල්‍යයන් විශාල සංඛ්‍යාවක ගුප්ත විචල්‍යයන් කුඩා සංඛ්‍යාවක් නැවත ලබා ගැනීමට උත්සාහ කරයි.


හේයි පීටර්! ඔබව මෙහි දැකීම සතුටක්. මෙය ඇත්තෙන්ම හොඳ, සරල, ගණිත පිළිතුරක් නොවේ.
ජේ ඩී ලෝන්ග්

3
වෙනත් කිසිවෙකු සාකච්ඡා නොකරන බවක් පෙනෙන සහ සමහර පුද්ගලයින්ගේ පැහැදිලි කිරීම් සමඟ මිශ්‍ර වී ඇති FA ගැන සඳහන් කිරීම සඳහා +1.
gung - මොනිකා නැවත

පීසීඒ සහ එෆ්ඒ හි අරමුණු වල කිසිදු වෙනසක් නැති බව පෙනේ - දෙකම භ්‍රමණය කිරීම අරමුණු කර ගන්නා අතර එවිට ඔබට වඩාත් වැදගත් සාධක (ගුප්ත දෛශික, හෝ ඊජෙන්ඩිමෙන්ෂන් හෝ ඒකීය දෛශික හෝ ඕනෑම දෙයක්) දැක ගත හැකිය. නමුත් FA යනු ඇල්ගොරිතමයක් නොව ඊට අනුරූපව නිර්වචනය කර ඇති අරමුණු සහිත (එකිනෙකාට සහ SVD සහ PCA වලට) අදාළ තාක්‍ෂණික ක්‍රමවේදයන්ගෙන් යුත් පවුලකි (එනම් විවිධාකාර හා අන්‍යෝන්‍ය වශයෙන් නොගැලපෙන බව පැවසීම, එබැවින් විවිධ ප්‍රභේදයන් විවිධ දේ 'ප්‍රශස්තිකරණය' කරයි).
ඩේවිඩ් එම්.ඩබ්ලිව් පවර්ස්

සාධක විශ්ලේෂණය කළ හැකි බොහෝ ක්‍රමවලින් එකක් වන්නේ PCA යැයි පැවසීම නිවැරදි ද?
abalter

මෙම ප්‍රදේශයේ පාරිභාෂිතය කුප්‍රකට ලෙස නොගැලපේ.
පීටර් ෆ්ලොම්

31

මෙම ත්‍රෙඩ් එකේ ජේ. ඩී. ලෝන්ග්ගේ විශිෂ්ට පෝස්ට් එකෙන් පසුව, මම සරල උදාහරණයක් සෙව්වෙමි, සහ පීසීඒ නිෂ්පාදනය කිරීමට අවශ්‍ය ආර් කේතය නැවත මුල් දත්ත වෙත යන්න. එය මට පළමු වරට ජ්‍යාමිතික බුද්ධියක් ලබා දුන් අතර, මට ලැබුණු දේ බෙදා ගැනීමට මට අවශ්‍යය. දත්ත කට්ටලය සහ කේතය කෙලින්ම පිටපත් කර R ආකාරයෙන් ගිතුබ් වෙත ඇලවිය හැකිය.

මම මෙහි අර්ධ සන්නායක මත මාර්ගගතව සොයාගත් දත්ත කට්ටලයක් භාවිතා කළ අතර , කුමන්ත්‍රණය පහසු කිරීම සඳහා මා එය “පරමාණුක ක්‍රමාංකය” සහ “ද්‍රවාංකය” යන මානයන් දෙකකට සීමා කළෙමි.


අවවාදයක් ලෙස අදහස ගණනය කිරීමේ ක්‍රියාවලිය තනිකරම නිදර්ශනය කරයි: PCA භාවිතා කරනුයේ විචල්‍යයන් දෙකකට වඩා ව්‍යුත්පන්න වූ ප්‍රධාන සංරචක කිහිපයකට අඩු කිරීමට හෝ බහු ලක්ෂණ වලදී සහසම්බන්ධතාව හඳුනා ගැනීමට ය. එබැවින් විචල්‍යයන් දෙකක දී එය එතරම් යෙදුමක් සොයා නොගනු ඇති අතර, ඇමීබා විසින් පෙන්වා දී ඇති පරිදි සහසම්බන්ධිත අනුකෘතියේ ඊජන්එවේටර් ගණනය කිරීමේ අවශ්‍යතාවයක් ද නොමැත.


තවද, එක් එක් කරුණු සොයා ගැනීමේ කාර්යය පහසු කිරීම සඳහා මම නිරීක්ෂණ 44 සිට 15 දක්වා කපා දැමුවෙමි. අවසාන ප්‍රති result ලය වූයේ ඇටසැකිලි දත්ත රාමුවක් ( dat1):

compounds   atomic.no      melting.point
AIN         10             498.0
AIP         14             625.0
AIAs        23             1011.5
...         ...            ... 

"සංයෝග" තීරුව අර්ධ සන්නායකයේ රසායනික ව්යවස්ථාව පෙන්නුම් කරන අතර පේළි නාමයේ කාර්යභාරය ඉටු කරයි.

මෙය පහත පරිදි ප්‍රතිනිෂ්පාදනය කළ හැකිය (ආර් කොන්සෝලය මත පිටපත් කර ඇලවීමට සූදානම්):

dat              <- read.csv(url("http://rinterested.github.io/datasets/semiconductors"))
colnames(dat)[2] <- "atomic.no"
dat1             <- subset(dat[1:15,1:3])
row.names(dat1)  <- dat1$compounds
dat1             <- dat1[,-1]

පසුව දත්ත පරිමාණයට ලක් කරන ලදී:

X <- apply(dat1, 2, function(x) (x - mean(x)) / sd(x))
# This centers data points around the mean and standardizes by dividing by SD.
# It is the equivalent to `X <- scale(dat1, center = T, scale = T)`  

රේඛීය වීජ ගණිත පියවර අනුගමනය කළේ:

C <- cov(X)                                           # Covariance matrix (centered data)

[at_nomelt_pat_no10.296melt_p0.2961]

සහසම්බන්ධතා ශ්‍රිතය cor(dat1)පරිමාණයෙන් තොර දත්තවල ශ්‍රිතයට cov(X)සමාන නොවන ප්‍රතිදානය ලබා දෙයි .

lambda        <- eigen(C)$values                      # Eigenvalues
lambda_matrix <- diag(2)*eigen(C)$values              # Eigenvalues matrix

[λPC1λPC21.296422000.7035783]

e_vectors     <- eigen(C)$vectors                     # Eigenvectors

12[PC1PC21111]

[0.7,0.7][0.7,0.7]

e_vectors[,1] = - e_vectors[,1]; colnames(e_vectors) <- c("PC1","PC2")

1.29642170.703578364.8%eigen(C)$values[1]/sum(eigen(C)$values) * 10065%35.2%

රූප විස්තරය මෙහි ඇතුළත් කරන්න

මෙම සෙල්ලම් දත්ත කට්ටලයේ කුඩා ප්‍රමාණයට අනුව අපි ඊජෙන්වෙක්ටර් දෙකම ඇතුළත් කරන්නෙමු, එක් ඊජෙන්වෙක්ටර් එකක් බැහැර කිරීමෙන් මානයන් අඩු වනු ඇති බව වටහා ගැනීම - පීසීඒ පිටුපස ඇති අදහස.

මෙම ලකුණු සංඛ්යාව න්යාසය මේ අනුකෘතිය ගුණ තීරණය කරන ලදි පරිමාණ දත්ත ( Xවිසින්) eigenvectors (හෝ "භමණය") අනුකෘතිය :

score_matrix <-  X %*% e_vectors    
# Identical to the often found operation: t(t(e_vectors) %*% t(X))

X[0.7,0.7]TPC1[0.7,0.7]TPC2

රූප විස්තරය මෙහි ඇතුළත් කරන්න

[0.7,0.7]

රූප විස්තරය මෙහි ඇතුළත් කරන්න

1

> apply(e_vectors, 2, function(x) sum(x^2))
PC1 PC2 
  1   1 

( පැටවීම් ) යනු ඊජන් අගයන් මගින් පරිමාණය කරන ලද ඊජන්එවේටර් ය (පහත දැක්වෙන R ශ්‍රිතයන්හි ව්‍යාකූල පාරිභාෂිතය තිබියදීත්). එහි ප්‍රති ing ලයක් වශයෙන්, පැටවීම් ගණනය කළ හැක්කේ:

> e_vectors          %*% lambda_matrix
          [,1]      [,2]
[1,] 0.9167086  0.497505
[2,] 0.9167086 -0.497505

> prcomp(X)$rotation %*% diag(princomp(covmat = C)$sd^2)
                   [,1]      [,2]
atomic.no     0.9167086  0.497505
melting.point 0.9167086 -0.497505

භ්‍රමණය වූ දත්ත වලාකුළට (ලකුණු කුමන්ත්‍රණය) එක් එක් සංරචක (PC) සමඟ සමාන අගයන්ට සමාන විචල්‍යතාවයක් ඇති බව සැලකිල්ලට ගැනීම සිත්ගන්නා කරුණකි:

> apply(score_matrix, 2, function(x) var(x))
       PC1        PC2 
53829.7896   110.8414 
> lambda
[1] 53829.7896   110.8414

සාදන ලද කාර්යයන් උපයෝගී කර ගනිමින් ප්‍රති results ල නැවත නැවත කළ හැකිය:

# For the SCORE MATRIX:
  prcomp(X)$x
# or...
  princomp(X)$scores # The signs of the PC 1 column will be reversed.

# and for EIGENVECTOR MATRIX:
  prcomp(X)$rotation
# or...
  princomp(X)$loadings

# and for EIGENVALUES:
  prcomp(X)$sdev^2
# or...
  princomp(covmat = C)$sd^2

UΣVTprcomp()

svd_scaled_dat <-svd(scale(dat1))
eigen_vectors <- svd_scaled_dat$v
eigen_values <- (svd_scaled_dat$d/sqrt(nrow(dat1) - 1))^2
scores<-scale(dat1) %*% eigen_vectors

ප්‍රති result ලය පහත දැක්වේ, පළමුව, තනි ලක්ෂ්‍යයේ සිට පළමු ඊජෙන්වෙක්ටර් දක්වා ඇති දුර, සහ දෙවන කුමන්ත්‍රණයක දී, විකලාංග දුර දෙවන ඊජන්වෙක්ටර් වෙත:

රූප විස්තරය මෙහි ඇතුළත් කරන්න

ඒ වෙනුවට අපි ලකුණු අනුකෘතියේ (පීසී 1 සහ පීසී 2) අගයන් සැලසුම් කළෙමු නම් - තවදුරටත් “ද්‍රවාංකය” සහ “පරමාණුක.නෝ” නොවේ, නමුත් ඇත්ත වශයෙන්ම ලක්ෂ්‍යයේ පදනමේ වෙනසක් ඊජන්එවේටර් සමඟ සම්බන්ධීකරණයේ පදනම ලෙස වෙනස් වුවහොත් මෙම දුර ප්‍රමාණය වනු ඇත. සංරක්ෂණය කර ඇති නමුත් ස්වාභාවිකවම xy අක්ෂයට ලම්බක වනු ඇත:

රූප විස්තරය මෙහි ඇතුළත් කරන්න

උපක්‍රමය දැන් මුල් දත්ත නැවත ලබා ගැනීමයි . ඊජෙන්වෙක්ටර්ස් විසින් සරල අනුකෘති ගුණ කිරීමකින් ලකුණු පරිවර්තනය කර ඇත. දත්ත ලක්ෂ්‍යවල පිහිටීමෙහි කැපී පෙනෙන වෙනසක් ඇති කරමින් ඊජෙන්වෙක්ටර් වල අනුකෘතියේ ප්‍රතිලෝමයෙන් ගුණ කිරීමෙන් දත්ත නැවත භ්‍රමණය විය . නිදසුනක් ලෙස, වම් ඉහළ චතුරස්රයේ (වම් බිම් කොටසෙහි කළු කවය, පහළ) රෝස පැහැති තිතෙහි වෙනසක් සැලකිල්ලට ගෙන, වම් පහළ චතුරස්රයේ ආරම්භක ස්ථානයට ආපසු යන්න (දකුණු බිම් කොටසෙහි කළු කවය, පහළ).

දැන් අපි අවසානයේදී මෙම "භ්‍රමණය වූ" අනුකෘතියේ මුල් දත්ත ප්‍රතිෂ් ored ාපනය කළෙමු:

රූප විස්තරය මෙහි ඇතුළත් කරන්න

පීසීඒ හි දත්ත භ්‍රමණය කිරීමේ ඛණ්ඩාංක වෙනස් කිරීමෙන් ඔබ්බට, ප්‍රති results ල අර්ථ නිරූපණය කළ යුතු අතර, මෙම ක්‍රියාවලියට සම්බන්ධ වීමට නැඹුරු වන අතර biplot, ඒ මත නව ඊජෙන්වෙක්ටර් ඛණ්ඩාංක සම්බන්ධයෙන් දත්ත ලක්ෂ්‍ය සැලසුම් කර ඇති අතර මුල් විචල්‍යයන් දැන් අධිප්‍රමාණය වී ඇත. දෛශික. ඉහත භ්‍රමණ ප්‍රස්ථාරවල දෙවන පේළියේ ("xy අක්ෂය = ඊජෙන්වෙක්ටර් සමඟ ලකුණු") (ඊළඟට ඇති බිම් කැබලි වල වමට), සහ biplot(සිට ) දක්වා වූ බිම් අතර ඇති ස්ථානවල සමානතාව සටහන් කිරීම සිත්ගන්නා කරුණකි . දකුණේ):

රූප විස්තරය මෙහි ඇතුළත් කරන්න

මුල් විචල්‍යයන් රතු ඊතල ලෙස අධිස්ථාපනය කිරීමෙන් PC1දෛශිකයක් ලෙස දිශාවට (හෝ ධනාත්මක සහසම්බන්ධයක් සහිතව) අර්ථ දැක්වීමට මාර්ගයක් atomic noසහ melting point; සහ eigenvectors වල අගයන්ට අනුරූප PC2වන atomic noනමුත් negative ණාත්මක ලෙස සහසම්බන්ධිත melting pointඅගයන් වැඩි කරන සං component ටකයක් ලෙස:

PCA$rotation
                    PC1        PC2
atomic.no     0.7071068  0.7071068
melting.point 0.7071068 -0.7071068

වික්ටර් පවෙල් විසින් කරන ලද මෙම අන්තර්ක්‍රියාකාරී නිබන්ධනය දත්ත වලාකුළු වෙනස් කරන විට ඊජෙන්වෙයාර්වල සිදුවන වෙනස්කම් පිළිබඳව ක්ෂණික ප්‍රතිපෝෂණයක් ලබා දෙයි.


1
උත්සාහය සඳහා සහ විශේෂයෙන් සජීවිකරණය සඳහා +1! නමුත් විචල්යයන් දෙකක සහසම්බන්ධිත අනුකෘතිය පිළිබඳ PCA ටිකක් විශේෂ අවස්ථාවක් බව මතක තබා ගත යුතුය, මන්ද විචල්යයන් දෙකක සියලු සහසම්බන්ධිත අනුකෘති වලට සමාන ඊජෙන්වෙක්ටර් ඇත : ඒවායින් එකක් සැමවිටම [0.7 0.7] (0.7 වර්ග 1 / වර්ග වේ) (2)). මෙය සහසංයුජ න්‍යාසයන් සඳහා හෝ ඉහළ මානයන්හි සහසම්බන්ධිත න්‍යාසයන් සඳහා නොවේ.
amoeba

31

2-D හි ගණිතය කිරීම පහසුය.

සෑම අනුකෘතියක්ම රේඛීය පරිවර්තනයකට අනුරූප වේ. රේඛීය පරිණාමනයන් දෘශ්‍යමාන කළ හැක්කේ යානයේ අමතක නොවන රූපයක් ගෙන රේඛීය පරිණාමනය මගින් එම රූපය විකෘති වන ආකාරය දැකීමෙන් ය:

රේඛීය පරිවර්තනයන් (පින්තූරය: ෆ්ලැනිගන් සහ කස්ඩාන් )

  • mona lisa eigenvectorsshear
  • ×1
  • පීසීඒ පාපන්දු
    1=23%[1]+46%[2]+39%[3]

f(ax+by)=af(x)+bf(y)+abxyසිත්ගන්නාසුලු අවකාශයකින්. උදාහරණයක් ලෙස :

මුහුණු

සංඛ්‍යාලේඛන ians යින්ට වඩාත් හුරුපුරුදු PCA තවත් උදාහරණයකි. ෆ්‍රෙයා වැනි තවත් සමහර පිළිතුරු PCA හි සැබෑ ලෝක යෙදුම් ලබා දෙයි .

similar how?x42.8%[x]57.2%[y]


2
භ්‍රමණය රේඛීය වන අතර ජ්‍යාමිතික නොවන දත්ත සඳහා සිදුවන්නේ කුමක්ද යන්න විස්තර කිරීමට පහසු ක්‍රමයක් වීම ඇත්තෙන්ම අහඹු සිදුවීමකි. අහඹු සිදුවීම කාටිසියානු / යුක්ලීඩියානු අවකාශයේ සහ මධ්‍යම සීමාවන් ප්‍රමේයයේ / ගවුසියානුවන්ගේ චතුරස්රාකාර ස්වභාවය හා සම්බන්ධ වේ. වි. සිග්මාස් විකලාංග මානයන් මෙන් චතුරස්රාකාරව එකතු කරයි, අපගේ ND භ්‍රමණ / විකලාංග පාරිභාෂිතය ආරම්භ වන්නේ 2D සහ 3D අවකාශය හා සැසඳීමෙනි.
ඩේවිඩ් එම්.ඩබ්ලිව් පවර්ස්

Av ඩේවිඩ්එම්ඩබ්පවර්ස් සිත්ගන්නා සුළුය. මම සිතන්නේ රේඛීය-වීජ ගණිත දෘෂ්ටි කෝණයකින් භ්‍රමණය වීම ගැන ය.
සමාවයවික

16

පීසීඒ විශාල වශයෙන් භාවිතා කර ඇති අයෙකුගෙන් (එය කිහිප දෙනෙකුට ද පැහැදිලි කිරීමට උත්සාහ කර ඇත) මෙන්න මගේ ස්නායු විද්‍යා ක්ෂේත්‍රයේ උදාහරණයක්.

අපි පුද්ගලයෙකුගේ හිස්කබලෙන් පටිගත කරන විට ඉලෙක්ට්‍රෝඩ 64 ක් සමඟ එය කරන්නෙමු. එබැවින්, හිස්කබලේ දී ඇති වෝල්ටීයතාව නිරූපණය කරන ලැයිස්තුවක අංක 64 ක් ඇත. දැන් අපි මයික්‍රො තත්පර නිරවද්‍යතාවයෙන් පටිගත කර ඇති හෙයින්, අපට පැය 1 ක අත්හදා බැලීමක් තිබේ නම් (බොහෝ විට ඒවා පැය 4 කි) එවිට එය අපට 1e6 * 60 ^ 2 == 3,600,000,000 කාල ලක්ෂ්‍යයන් ලබා දෙයි. 3,600,000,000 x 64 න්‍යාසයක් ඇත. PCA හි ප්‍රධාන උපකල්පනයක් වන්නේ ඔබේ විචල්‍යයන් සහසම්බන්ධ වී ඇති හෙයින්, මෙම හාස්‍යජනක දත්ත ප්‍රමාණය පත්‍රිකා කළ හැකි ප්‍රමාණයකට අඩු කිරීම හොඳ තාක්‍ෂණයකි. දැනටමත් බොහෝ වාර ගණනක් පවසා ඇති පරිදි, විචල්‍යයන් (තීරු) මගින් පැහැදිලි කරන ලද විචල්‍යතා ප්‍රමාණය නිරූපණය කරයි. මෙම අවස්ථාවෙහිදී, ඊජන් අගයක් නිරූපණය කරන්නේ නිශ්චිත ඉලෙක්ට්‍රෝඩයක් මගින් දායක වන නිශ්චිත වේලාවක වෝල්ටීයතාවයේ විචලනයයි. ඉතින් දැන් අපට කියන්න පුළුවන්, "අනේ, හොඳින් ඉලෙක්ට්රෝඩයක්xකාලයාගේ ඇවෑමෙන් yවැඩිදුර විශ්ලේෂණය සඳහා අප අවධානය යොමු කළ යුත්තේ වඩාත් වෙනස්වීම සිදුවන්නේ එතැනිනි ". මෙය උපකාරී වේ යැයි සිතමු. එම ප්‍රතිගාමී බිම් වලට ආදරය කිරීම!


14

මෙයට පිළිතුරු දීමට මම නරක පුද්ගලයෙක් විය හැකිය, මන්ද මම සංකල්පය මට පැහැදිලි කර ඇති මිථ්‍යාදෘෂ්ටික ආච්චි වන අතර තවත් බොහෝ දේ නොවේ, නමුත් මෙහි යන්නේ:

ඔබට ජනගහනයක් ඇතැයි සිතමු. ජනගහනයෙන් විශාල කොටසක් හෘදයාබාධවලින් මිය යති. ඔබ උත්සාහ කරන්නේ හෘදයාබාධ ඇතිවීමට හේතුව කුමක්ද යන්නයි.

ඔබට දත්ත කොටස් දෙකක් තිබේ: උස සහ බර.

බර හා හෘදයාබාධ අතර යම් සම්බන්ධතාවයක් ඇති බව දැන් පැහැදිලිය, නමුත් සහසම්බන්ධය සැබවින්ම ශක්තිමත් නොවේ. සමහර හෘදයාබාධ ඇති සමහර බර අය සිටින නමුත් සමහරු එසේ නොකරති.

දැන්, ඔබ පීසීඒ එකක් කරන අතර, එය බරින් බෙදූ බර (ශරීර ස්කන්ධය) හෘදයාබාධ පිළිබඳ පුරෝකථනය කරන්නෙකු වන අතර පසුව බර හෝ උස වේ. මන්ද, බලන්න, “යථාර්ථය” යනු එයයි හෘදයාබාධ ඇති කරන ශරීර ස්කන්ධය.

අත්යවශ්යයෙන්ම, ඔබ PCA කරන්නේ ඔබ දේවල් රාශියක් මනින නිසා සහ ඒවා ඇත්ත වශයෙන්ම ප්රධාන සංරචකද යන්න හෝ ඔබ මනින්නේ නැති ගැඹුරු යටින් පවතින සංරචකයක් තිබේදැයි ඔබ නොදනී.

[කරුණාකර මෙය සම්පූර්ණයෙන්ම පදනම් විරහිත නම් සංස්කරණය කිරීමට නිදහස් වන්න. මට මෙයට වඩා ගැඹුරින් සංකල්පය තේරෙන්නේ නැත].


1
සංඛ්‍යාලේඛන වෙබ් අඩවියට සාදරයෙන් පිළිගනිමු @ ජොයෙල්! ඔබට අවස්ථාවක් ලැබුනේ නම්, අපගේ යෝජිත බෙදා හරින ලද ස්ටැක්එක්ස්චේන්ජ් දත්ත විශ්ලේෂණ ව්‍යාපෘතිය පිළිබඳ සාකච්ඡාවට ද ඔබට දායක විය හැකිය: stats.stackexchange.com/questions/2512/… .
ෂේන්

9
විශිෂ්ට උදාහරණය, ​​නමුත් තාක්‍ෂණිකව PCA හට ශරීර ස්කන්ධ පැහැදිලි කිරීම සොයාගත නොහැකි බැවින් එයට රේඛීය පැහැදිලි කිරීම් පමණක් සොයාගත හැකිය, එය මුල් විචල්‍යයන්ගේ බර එකතුවකි. කෙසේ වෙතත්, ඔබ ඔබේ ආදාන විචල්‍යයන්ගේ ල logs ු-සටහන් ගත්තොත්, අනුපාතය වෙනසක් බවට පත්වන අතර එය නිවැරදි පැහැදිලි කිරීමක් නම්, PCA හට එය සොයාගත හැකිය.
ඩේවිඩ් එම්.ඩබ්ලිව් පවර්ස්

12

මෙම පිළිතුර ගණිතමය නොවන ගණිතමය අර්ථකථනයක් ලබා දෙයි:

පීසීඒ ඔබට ඉහළ මාන ලක්ෂ්‍ය වලාකුළක් තුළ විකලාංග දෛශික කට්ටලයක් ලබා දෙනු ඇත. දෛශිකවල අනුපිළිවෙල තීරණය වන්නේ සියලු කරුණු දෛශික මතට ප්‍රක්ෂේපණය කිරීමෙන් පසුව ය.

වෙනත් වචන වලින්: පළමු ප්‍රධාන සංරචක දෛශිකය සියලු ලක්ෂ්‍ය දෛශිකයට ප්‍රක්ෂේපණය කිරීමෙන් පසු ලක්ෂ්‍ය වලාකුළු ගැන ඔබට වඩාත් කියනු ඇත. මෙය ඇත්ත වශයෙන්ම අර්ථවත් අර්ථකථනයකි.

මෙම ඉලිප්සොයිඩ් දෙස බලන්න (ත්‍රිමාණ ආකෘතියක් සඳහා සබැඳිය අනුගමනය කරන්න) :

රූප විස්තරය මෙහි ඇතුළත් කරන්න

ඔබට ඉලිප්සොයිඩ් ලක්ෂ්‍යවල ලක්ෂ්‍ය ප්‍රක්ෂේපණය වන ඒක මාන උප අවකාශයක් සාදන එක් දෛශිකයක් තෝරා ගැනීමට සිදුවුවහොත්. මුල් කට්ටලය පිළිබඳ වැඩි තොරතුරු මානයන් 3 කින් ගෙන එන බැවින් ඔබ තෝරා ගන්නේ කුමන එකද?

මම හිතන්නේ රතු එක දිගම අක්ෂය දිගේ. මෙය සැබවින්ම ගණනය කරන ලද 1 වන ප්‍රධාන අංගයයි! ඊළඟට කුමන - මම ඊළඟ දිගම අක්ෂය දිගේ නිල් පැහැය තෝරා ගනිමි.

සාමාන්යයෙන් ඔබ ඉහළ මාන අවකාශය සිට ලකුණු මාලාවක් දෙකක මාන තලය මතට හෝ තත්වයෙන් අවශ්ය ත්රිමාණ අවකාශය .

රූප විස්තරය මෙහි ඇතුළත් කරන්න


http://www.joyofdata.de/blog/illustration-of-principal-component-analysis-pca/


11

අත්තම්මා සඳහා එකක් මෙන්න:

අපේ නගරයේ උතුරු හා දකුණට යන වීදි ඇත, සමහරක් නැගෙනහිර හා බටහිර දෙසටද, සමහරක් වයඹ සහ ගිනිකොන දෙසටද, සමහරක් NE සිට SW දක්වාද ඇත. දිනක් පිරිමි ළමයෙක් සියළුම වීදිවල ඇති සියලුම ගමනාගමනය මනින විට, වඩාත් තදබදය විකර්ණව ගමන් කරන බව ඔහු සොයා ගනී, වයඹ සිට ගිනිකොන දෙසට, දෙවන විශාලතම මෙම ඊසාන දෙසින් නිරිත දෙසින් ගමන් කරන අතර අනෙක් සියල්ල තරමක් කුඩා වේ. එබැවින් ඔහු විශාල චතුරස්රයක් ඇදගෙන විශාල රේඛාවක් වමේ සිට දකුණට තබා එය NW සිට SE දක්වා යැයි කියමින් මැදින් සිරස් අතට ඉහළට හා පහළට තවත් රේඛාවක් අඳින්නේය. ඔහු පවසන්නේ ගමනාගමනය සඳහා වඩාත් ජනාකීර්ණ දෙවන දිශාව එය බවයි (NE සිට SW). ඉතිරි කොටස කුඩා බැවින් එය නොසලකා හැරිය හැකිය.

වම් දකුණු රේඛාව පළමු eigenvector වන අතර ඉහළ පහළ රේඛාව දෙවන eigenvector වේ. වමට සහ දකුණට යන මුළු මෝටර් රථ සංඛ්‍යාව පළමු අයිජන් අගය වන අතර ඉහළට සහ පහළට යන අය දෙවන අයිජන් අගය වේ.


1
පරීක්ෂණය යටතේ මෙම ප්‍රතිසමය බිඳ වැටෙන බව පෙනේ. විශාලතම හා දෙවන විශාලතම ගමනාගමන දිශාව විකලාංග නොවේ නම් කුමක් කළ යුතුද? එවැනි අවස්ථාවකදී PCA තේරුම් ගැනීමට ඔබගේ ප්‍රතිසමතාව අපට උපකාර කරන්නේ කෙසේද?
whuber

මම හිතන්නේ ආච්චිට විකලාංග යන්නෙන් අදහස් කරන්නේ කුමක්ද? ඔව්, එහි යම් යම් අඩුපාඩුකම් ඇති නමුත් එය ආරම්භයකි. මම හිතන්නේ මෙතන පිළිතුරු ගොඩක් තිබීම සතුටක්.
බජාබොබ්

2
"ආච්චි" තනතුරක් තේරුම් ගත්තත් නැතත්, එය සාධාරණව පැහැදිලි හා නිවැරදි විය යුතුය. ඔබේ ප්‍රතිසමයන් එම අරමුණු වලින් එකක්වත් ඉටු වූ බවක් නොපෙනේ. එයට හේතුව මට සමානකම් තේරෙන්නේ නැති නිසා විය හැකිය: මට එය PCA හෝ කරන දේ සමඟ සම්බන්ධ කළ නොහැක. අනෙක් පා readers කයින් මා තරම් අද්භූත නොවීමට නම් ප්‍රතිසම ක්‍රියා කරන ආකාරය ඔබට පැහැදිලි කළ හැකිය.
whuber

ඒවා විකලාංග නොවන නිසා ඔබට ICA හෝ FA අවශ්‍ය වන්නේ PCA නොවේ. ආබාධිත නෞකාව කෝණයකින් පෙන්වන විට අත්තම්මා ස්ටාර් ට්‍රේක් (ඔව් ඇය එම පරම්පරාව) දෙස බලා සිටියේ නම් - පීසීඒ විසින් පරිමාණයට සහ දර්ශනයට (මන්දාකිණි තලය හෝ නැවේ අක්ෂ) අදාළ යොමු තලය නැවත ලබා ගැනීමට නැඹුරු වනු ඇත.
ඩේවිඩ් එම්.ඩබ්ලිව් පවර්ස්

-1. මෙම ප්‍රතිසමය ක්‍රියාත්මක නොවන බවට මම huhuber සමඟ එකඟ වෙමි. මෙහි දත්ත විය යුත්තේ කුමක් ද, මෙම “ඊජෙන්වෙක්ටර්ස්” මොනවාද? මට එය කිසිසේත් තේරෙන්නේ නැත.
amoeba

11

පීසීඒ පිළිබඳ අවබෝධාත්මක අවබෝධයක් ලබා දීම සඳහා බොහෝ උදාහරණ ලබා දී ඇතත්, එම කාරණය ආරම්භයේදීම ග්‍රහණය කර ගැනීම වඩාත් අපහසු කරවයි, අවම වශයෙන් එය මට විය.

"විවිධ විෂය ක්ෂේත්‍රයන්ගෙන් මේ සියලු වෙනස් උදාහරණ පොදු වූ PCA පිළිබඳ එක් දෙයක් කුමක්ද?"

ගණිතය ඔබට පහසුම කොටස බව පෙනෙන හෙයින් ගණිත සමාන්තරයන් කිහිපයක් මට සිතාමතාම තේරුම් ගැනීමට උපකාරී විය, නමුත් මෙය ඔබේ ආච්චිට පැහැදිලි කිරීමට උපකාරී නොවේ ...

නියාමනය කිරීමේ ගැටලුවක් ගැන සිතන්න, ලබා ගැනීමට උත්සාහ කරන්න

||XBY||=0

YY

YYXkBYXBkSVSVT

AA


10

මෙන්න ගණිත පිළිතුරකි: පළමු ප්‍රධාන අංගය වන්නේ දත්තවල දිගම මානයයි. එය දෙස බලා විමසන්න: දත්ත පුළුල්ම ස්ථානය කොහිද? පළමු සංරචකය එයයි. ඊළඟ සංරචකය වන්නේ සිරස් අතට ය. එබැවින් දත්ත සුරුට්ටුවක දිග හා පළල ඇත. එය දිගටි ආකාරයේ ඕනෑම දෙයකට අර්ථවත් කරයි.


6
අවාසනාවට, මෙම පිළිතුරේ නිරවද්‍යතාවය රඳා පවතින්නේ “දිගම” යන නොපැහැදිලි ප්‍රකාශනය අර්ථ නිරූපණය කරන්නේ කෙසේද යන්න මතය. විෂ්කම්භය වැනි බොහෝ ස්වාභාවික හා අදාළ අර්ථ නිරූපණයන් වැරදිය.
whuber

PCA ඇත්ත වශයෙන්ම මානය / ප්‍රමාණය මැනීම සඳහා විවිධ ආකාරයේ ස්වාභාවික ක්‍රම සමඟ හොඳින් ක්‍රියා කරයි. ඕනෑම දිශාවකට "මානය" මැනීම සඳහා ඔබට කෝවරියන්ස් න්‍යාසය ආදේශ කළ යුතුය (න්‍යාසය ධනාත්මක අර්ථ දැක්වීමක් හෝ සමමිතික විය යුතුය.) මෙය හරියට ක්වික්සෝර්ට් විවිධ ඇණවුම් ක්‍රියාකරු සඳහා ක්‍රියා කරයි, නමුත් ඔබට වෙනස් ප්‍රති results ල ලැබෙනු ඇත. විවිධ ඇණවුම් ක්‍රියාකරුවන් සඳහා.
ජේම්ස් එල්

10

ප්‍රධාන සංරචක මා තේරුම් ගන්නා ආකාරය මෙයයි: කුමන්ත්‍රණ සම්බන්ධතාවයට විවිධ විචල්‍යයන් සහිත දත්ත (උස, බර, වයස, උෂ්ණත්වය, තරංග ආයාමය, ප්‍රතිශතයේ පැවැත්ම යනාදිය) මානයන් තුනකින් ඉදිරිපත් කළ හැකිය.

දැන් ඔබට කෙසේ හෝ "ත්‍රිමාණ දත්ත" පිළිබඳ අවබෝධයක් ලබා ගැනීමට අවශ්‍ය නම්, මෙම ත්‍රිමාණ දත්තවල කුමන 2D ගුවන් යානා (හරස්කඩ) දී ඇති විචල්‍යයන් සඳහා වඩාත්ම තොරතුරු අඩංගු දැයි දැන ගැනීමට ඔබට අවශ්‍ය විය හැකිය. මෙම 2D ගුවන් යානා එක් එක් විචල්‍යයේ සමානුපාතිකයක් අඩංගු ප්‍රධාන සංරචක වේ.

මුල් විචල්‍යයන්ගෙන් සංයුක්ත ලක්ෂණ සහිතව ප්‍රධාන සංරචක විචල්‍යයන් ලෙස සිතන්න (මෙම නව විචල්‍යය අර්ධ බර, අර්ධ උස, අර්ධ වයස යනාදිය ලෙස හැඳින්විය හැක). ඔබ එක් ප්‍රධාන අංගයක් (X) තවත් (Y) ට එරෙහිව සැලසුම් කරන විට, ඔබ කරන්නේ මුල් විචල්‍යයන් අතර සහසම්බන්ධතා ජ්‍යාමිතිකව විස්තර කළ හැකි 2D සිතියමක් තැනීමයි. දැන් ප්‍රයෝජනවත් කොටස: එක් එක් විෂය (නිරීක්ෂණ) සංසන්දනය කිරීම එක් එක් විචල්‍යයේ අගයන් සමඟ සම්බන්ධ වී ඇති හෙයින්, විෂයයන් (නිරීක්ෂණ) මෙම XY සිතියමේ කොතැනක හෝ දක්නට ලැබේ. ඒවායේ පිහිටීම පදනම් වී ඇත්තේ එක් එක් යටින් පවතින විචල්‍යයේ සාපේක්ෂ දායකත්වය මත ය (එනම් එක් නිරීක්ෂණයක් වයස සහ උෂ්ණත්වය කෙරෙහි දැඩි ලෙස බලපානු ඇති අතර තවත් එකක් උස හා බරට වඩා බලපානු ඇත).


9

මම ගණිතමය නොවන ප්‍රතිචාරයක් සහ වඩාත් සවිස්තරාත්මක කුරුල්ලන්ගේ දෘෂ්ටියක් දෙවන කොටසේ දී ගණිතය හරහා ගණිතය ලබා දෙන්නෙමි.


ගණිතය නොවන:

ගණිත නොවන පැහැදිලි කිරීම නම්, ඔබේ දත්ත වඩාත්ම විචලනය වන්නේ කුමන දිශාවලට දැයි බැලීමට ඉඩ දීමෙන් PCA ඉහළ මානයන් සඳහා දත්ත උපකාරී වේ. මෙම දිශාවන් ප්‍රධාන සංරචක වේ. ඔබට මෙම තොරතුරු ලැබුණු පසු, සමහර අවස්ථාවලදී, ප්‍රධාන සංරචක අර්ථවත් විචල්‍යයන් ලෙස භාවිතා කිරීමට තීරණය කළ හැකි අතර, ප්‍රධාන සංරචක වඩාත් විචල්‍යතාවයෙන් ( පැහැදිලි කිරීමේ බලය ) පමණක් තබා ගැනීමෙන් ඔබේ දත්තවල මානයන් විශාල වශයෙන් අඩු කරන්න .

උදාහරණයක් ලෙස, ඔබ ප්‍රශ්න 30 ක් සහිත දේශපාලන ඡන්ද විමසීමක් ලබා දෙයි යැයි සිතමු, සෑම කෙනෙකුම 5 සිට 1 දක්වා ( දැඩි ලෙස එකඟ නොවන්නේ ) ප්‍රතිචාරයක් ලබා දිය හැකිය ( තදින්ම එකඟ වන්න ). ඔබට ටොන් ගණනක් ප්‍රතිචාර ලැබෙන අතර දැන් ඔබට 30-මාන දත්ත ඇති අතර ඔබට එයින් හිස් හෝ වලිග සෑදිය නොහැක. මංමුලා සහගත ලෙස ඔබ සිතන්නේ PCA ධාවනය කර ඔබේ විචල්‍යතාවයෙන් 90% ක් එක් දිශාවකින් එන බවත්, එම දිශාව ඔබේ කිසිදු අක්ෂයකට අනුරූප නොවන බවත්ය. දත්ත තවදුරටත් පරීක්ෂා කිරීමෙන් පසුව ඔබ නිගමනය කරන්නේ මෙම නව දෙමුහුන් අක්ෂය දේශපාලන වාම-දකුණ වර්ණාවලියට එනම් ප්‍රජාතන්ත්‍රවාදී / ජනරජ වර්ණාවලියට අනුරූප වන බවයි. තවද දත්තවල වඩාත් සියුම් අංශ දෙස බලන්න.


ගණිතය:

එය සමහර විට විශාලනය කිරීමට සහ අර්ථය පිළිබඳ යම් ආලෝකයක් හෙළි කිරීමට ගණිතමය අභිප්‍රේරණය දෙස බැලීමට උපකාරී වේ.

ඔබේ ඛණ්ඩාංක අක්ෂය වෙනස් කිරීමෙන් විකර්ණ න්‍යාසයන් බවට පරිවර්තනය කළ හැකි විශේෂ මෙට්‍රික් පවුලක් ඇත . ස්වාභාවිකවම, ඒවා විකර්ණ කළ හැකි මෙට්‍රික්ස් ලෙස හැඳින්වෙන අතර අලංකාර ලෙස ප්‍රමාණවත්ය, මෙය කිරීමට අවශ්‍ය නව ඛණ්ඩාංක අක්ෂය ඇත්ත වශයෙන්ම ඊජෙන්වෙක්ටර් වේ.

එය දුටුවේ covariance න්යාසය සමමිතික හා සෑම විටම වනු ඇත diagonalizeable ! මෙම අවස්ථාවෙහිදී, ඊජෙන්වෙක්ටර්ස් ප්‍රධාන සංරචක ලෙස හැඳින්වෙන අතර , ඔබ ඊජෙන්වෙක්ටර් ඛණ්ඩාංකවල සහසංයුජ අනුකෘතිය ලියන විට, විකර්ණ ඇතුළත් කිරීම් (ඉතිරිව ඇති එකම) ඔබේ ඊජෙන්වෙක්ටර්වල දිශාවේ විචල්‍යතාවයට අනුරූප වේ. වඩාත්ම විචල්‍යතාව ඇති දිශාවන් මොනවාදැයි දැන ගැනීමට මෙය අපට ඉඩ දෙයි. මෙම ඛණ්ඩාංකවල සහසංයුජ අනුකෘතිය විකර්ණ බැවින්, ඔබේ විචල්‍යයන් අතර ඇති සහසම්බන්ධය ඔබ දක්ෂ ලෙස ඉවත් කර ඇත.

ප්‍රායෝගික යෙදීම්වල බහුලව දක්නට ලැබෙන පරිදි, අපගේ විචල්‍යයන් සාමාන්‍යයෙන් බෙදා හරිනු ඇතැයි අපි උපකල්පනය කරමු. එබැවින් සරලම පින්තූරය බැලීමට අපගේ ඛණ්ඩාංක වෙනස් කිරීමට උත්සාහ කිරීම ස්වාභාවිකය. ඔබේ ප්‍රධාන සංරචක සහ ඒවායේ සමාන අගයන් (විචල්‍යතාව) දැන ගැනීමෙන් ඔබට අවශ්‍ය නම් ඔබේ දත්තවල මානයන් අඩු කර ගත හැකි අතර ඔබේ දත්තවල විචලනය පවතින්නේ කොතැනද යන්න පිළිබඳ ඉක්මන් පොදු සාරාංශයක් ද ඇත.

නමුත් දවස අවසානයේ, මේ සියල්ල ෙයෝග්යතාව මූල විකර්ණ මැට්ට්රිස් සිටින බව අප පැමිණෙන්නේ මාර්ගය වඩා පොදු ඥාති සහෝදරයන්, ඔවුන්ගේ messier සාපේක්ෂව කටයුතු කිරීමට පහසු වේ.


2
ඔබගේ දායකත්වය වෙනුවෙන් ස්තුතියි. කෙසේ වෙතත්, එය PCA හි අනවශ්‍ය ලෙස පටු අර්ථ නිරූපණයකට ආමන්ත්‍රණය කරන බව පෙනේ. (1) පීසීඒ ඉතා ඉහළ ගෝස්සියානු නොවන දත්ත කට්ටල සඳහා ly ලදායී ලෙස යොදාගෙන ඇත. (2) පීසීඒ විධිමත් පරාමිතික ක්‍රියා පටිපාටියක් නොවේ; එය ආත්මයේ ගවේෂණාත්මක යැයි සිතීම වඩා හොඳය. (3) ඕනෑම ආකාරයක බහුකාර්ය ව්‍යාප්තියක් හෝ දත්තයක සියලුම සහසංයුජ න්‍යාසයන් විකර්ණ කළ හැකි ය. ගවුසියානිටි (සාමාන්‍ය) හෝ පරිහානියට පත් නොවන අවශ්‍යතා ද නොවේ. (අනුකෘතියේ සමමිතිය සහ සැබෑ සංරචක තිබීම
විකර්ණකරණය

මම පිළිගත යුතුයි, මට අමතක වීම ගැන ලැජ්ජයි, නමුත් සහසංයුජ මෙට්‍රික්ස් පොදුවේ විකර්ණය කළ හැකි වීම පිළිබඳ හොඳ කරුණක්. එය පිළිබිඹු කිරීම සඳහා මම සංස්කරණය කිරීමට යන්නෙමි. (2) කාරණය විස්තරාත්මකව විස්තර කළ හැකිද? පරාමිතික හෝ පරාමිතික නොවන ක්‍රියා පටිපාටි අතර වෙනස මට හුරු නැත.
ක්‍රිස්ටියන් බුවනෝ

8

මම PCA සලකන්නේ ජ්‍යාමිතික මෙවලමක් ලෙසයි. ඔබට 3-අවකාශයේ ලකුණු පොකුරක් ලබා දී ඇති අතර ඒවා සියල්ලම සරල රේඛාවකින් යුක්ත වන අතර, එම රේඛාවේ සමීකරණය හඳුනා ගැනීමට ඔබට අවශ්‍ය නම්, ඔබ එය PCA හරහා ලබා ගනී (පළමු සංරචකය ගන්න). ඔබට 3-අවකාශයේ ලකුණු පොකුරක් ඇති අතර ඒවා බොහෝ දුරට තලීය වන අතර එම තලයේ සමීකරණය සොයා ගැනීමට අවශ්‍ය නම් එය PCA හරහා කරන්න (අවම වශයෙන් සැලකිය යුතු සංරචක දෛශිකයක් ගන්න, එය යානයට සාමාන්‍ය විය යුතුය).


8

ඇයි ඊජන් අගයන් / ඊජෙන්වෙක්ටර්?

පීසීඒ කරන විට, එක් එක් පදනම් දෛශිකයේ ප්‍රක්ෂේපිත විචල්‍යතාව උපරිම කිරීමෙන් විකලාංග පදනමක් ගණනය කිරීමට ඔබට අවශ්‍යය.

පෙර පදනම් දෛශිකයන් ගණනය කිරීමෙන් පසුව, ඔබට අවශ්‍ය වන්නේ ඊළඟ එක:

  • විකලාංග පෙර සිට
  • සම්මත 1
  • ප්‍රක්ෂේපිත විචල්‍යතාව උපරිම කිරීම, එනම් උපරිම සහසංයුජ ප්‍රමිතිය සමඟ

මෙය සීමිත ප්‍රශස්තිකරණ ගැටළුවක් වන අතර, ලැග්‍රැන්ජ් ගුණකය (මෙහි ජ්‍යාමිතික ප්‍රතිභානය සඳහා, විකිපීඩියා පිටුව බලන්න) ඔබට පවසන්නේ පරමාර්ථයේ (ප්‍රක්ෂේපිත විචල්‍යතාව) සහ අවහිරතා (ඒකක ප්‍රමිතිය) ප්‍රශස්ත මට්ටමේ “සමාන්තර” විය යුතු බවයි.

මෙය ඊලඟ පදනම් දෛශිකය සහසංයුජ අනුකෘතියේ eigenvector විය යුතු යැයි කීමට සමාන වේ. සෑම පියවරකදීම හොඳම තේරීම වන්නේ ඉතිරි අය අතර විශාලතම සමාන අගයක් ඇති එකක් තෝරා ගැනීමයි.


5
නිසැකවම නැත වූ layman කිරීමට පැහැදිලි කිරීමක් - ප්රලම්බ පදනම වාහකයන්? ප්‍රක්ෂේපණ විචල්‍යතාව උපරිම කිරීම? සීමිත ප්‍රශස්තිකරණ ගැටලුවක්? ලැග්‍රන්ජ් ගුණකය? මේවා අතිශයින්ම “ප්‍රභාෂිත” පද වේ. මෙයින් අදහස් කරන දේ තේරුම් ගත් ගිහියෙකුට පෙන්වන්න, මම ඔබට ගණිත
සම්භාවිතා

7

මූලික වශයෙන් PCA විසින් නව විචල්‍යයන් සොයා ගන්නා අතර එය මුල් විචල්‍යයන්ගේ රේඛීය සංයෝජන වන අතර නව අවකාශයේ දත්ත වලට අඩු මානයන් ඇත. කෝණයක තබා ඇති පැතලි තහඩුවක මතුපිට මානයන් 3 කින් යුත් දත්ත කට්ටලයක් ගැන සිතන්න. මුල් x, y, z අක්ෂයන්හි දත්ත නිරූපණය කිරීම සඳහා ඔබට මාන 3 ක් අවශ්‍ය වේ, නමුත් නිවැරදි රේඛීය පරිවර්තනය සමඟ ඔබට අවශ්‍ය වන්නේ 2 ක් පමණි.

මූලික වශයෙන් @ ජොයෙල් පැවසූ දේ, නමුත් ආදාන විචල්‍යයන්ගේ රේඛීය සංයෝජන පමණි.


7

කලකට පෙර මම මෙම PCA ඇල්ගොරිතම තේරුම් ගැනීමට උත්සාහ කළ අතර මට අවශ්‍ය වූයේ ඊජන් දෛශික සහ ඊජන් අගයන් පිළිබඳ සටහනක් තැබීමට ය. EV වල අරමුණ විශාල ප්‍රමාණයේ ආකෘතියක් ඉතා කුඩා ප්‍රමාණයේ ආකෘතියක් බවට පරිවර්තනය කිරීම බව එම ලේඛනයේ සඳහන් විය.

නිදසුනක් ලෙස, පළමුව සම්පූර්ණ ප්‍රමාණයේ පාලම ඉදිකර ඒ මත අත්හදා බැලීම් හා පරීක්ෂණ සිදු කරනවා වෙනුවට, ඉතා කුඩා ප්‍රමාණයේ පාලමක් නිර්මාණය කිරීම සඳහා EV භාවිතා කළ හැකි අතර එහිදී සියලු සාධක / ප්‍රමාණ එකම ආන්තිකයකින් අඩු වන අතර එපමනක් නොව පරීක්ෂණවල සත්‍ය ප්‍රති result ල සහ ඒ මත සිදුකරන ආතතිය ආශ්‍රිත පරීක්ෂණ මුල් ආකෘතියට අවශ්‍ය පරිදි ගණනය කර විශාල කර ගත හැකිය. එක්තරා ආකාරයකින් EVs මුල් පිටුවේ සාරාංශ නිර්මාණය කිරීමට උපකාරී වේ .

මට නම්, මෙම පැහැදිලි කිරීම මා කිරීමට උත්සාහ කරන දෙයට ගැඹුරු අර්ථයක් ඇත! එය ඔබටත් උපකාරී වේ යැයි සිතමු!


-1. සමහර විට මම ප්‍රතිසමතාව සම්පූර්ණයෙන් අගය නොකළ නමුත් එය මට නොමඟ යවන සුළුය. PCA ඇත්ත වශයෙන්ම (එක්තරා ආකාරයකින්) “විශාල” ආකෘතියක් “කුඩා” ආකෘතියක් බවට පරිවර්තනය කිරීමට ඉඩ දෙයි, නමුත් එය එසේ කරන්නේ දත්ත කට්ටලයේ මානයන් අඩු කිරීමෙනි. නමුත් විශාල පාලමට වඩා පහත් මානයන්ගෙන් යුත් කුඩා පාලම කෙසේද? ඔවුන් දෙදෙනාම ත්‍රිමාණ ය, එසේ නොවේ ද?
amoeba

@amoeba: මෙම සාරය මා කියවූ කඩදාසියකින් ඉවතට, මේවා හරියටම මගේ වචන නොවේ. මම මෙම මාතෘකාව දීර් time කාලයක සිට අධ්‍යයනය කර නැති අතර මට හෝඩුවාවක් අහිමි වී ඇත.
රොර්ෂාච්

7

නත්තලට ඔබ දුන් ඩිජිටල් කැමරාව මත අත්තම්මා ඇගේ පළමු ඡායාරූප සහ චිත්‍රපට ලබාගෙන ඇතැයි සිතන්න, අවාසනාවකට ඇය ඡායාරූප සඳහා බොත්තම මතට තල්ලු වන විට ඇයගේ දකුණු අත පහතට වැටෙන අතර චිත්‍රපට අතරතුරද ඇය තරමක් කම්පා වේ. මිනිසුන්, ගස්, වැට, ගොඩනැගිලි, දොරවල්, ගෘහ භාණ්ඩ ආදිය කෙළින්ම ඉහළට හා පහළට නොව සිරස් අතට නොපවතින බවත්, බිම, බිම, මුහුද, ක්ෂිතිජය හොඳින් තිරස් නොවන බවත් ඇය දුටුවාය. චිත්රපට ද තරමක් අවුල් සහගත ය. ඇය ඔබට ඒවා නිවැරදි කිරීමට උදව් කළ හැකිදැයි විමසයි, නිවාඩු දින ඡායාරූප 3000 ක් සහ වීඩියෝ 100 ක් පමණ නිවසේ සහ වෙරළ තීරයේ (ඇය ඕස්ට්‍රේලියානු), තෑගි විවෘත කරමින්, රට තුළ ඇවිදීම. ඇයට මෙම ඡායාරූප මෘදුකාංගය ලැබී ඇති අතර එය ඇය පවසන දේ කිරීමට ඔබට ඉඩ සලසයි. ඔබ ඇයට කියනවා ඒ සඳහා දින කිහිපයක් ගත වන අතර කෙසේ හෝ වීඩියෝ වැඩ නොකරනු ඇත, නමුත් PCA සහ ICA යනුවෙන් හැඳින්වෙන ශිල්පීය ක්‍රම ඔබ දන්නවා. ඔබේ පර්යේෂණයට ඇත්ත වශයෙන්ම සම්බන්ධ වන්නේ ස්වාභාවික මානයන් තුළට මේ ආකාරයේ දත්ත භ්‍රමණය වීම පමණක් බවත්, මෙම ශිල්පීය ක්‍රම මගින් දත්තවල වැදගත්ම දිශාවන්, මෙම අවස්ථාවේ ඡායාරූපය සොයාගෙන භ්‍රමණය වන බවත් වඩාත් වැදගත් එක තිරස් වන බවත්, දෙවැන්න සිරස් අතට ඇත (තවද එය චිත්‍රපටවල කාලය ද මානයක් වුවද අපට හොඳින් සිතාගත නොහැකි තවත් මානයන් සඳහා ඉදිරියට යා හැකිය).

-

තාක්ෂණික පසෙකින්. ඇත්ත වශයෙන්ම, ඇය වෙනුවෙන් ඔබේ ආචාර්ය උපාධිය උපයා ගත හැකි අතර, බෙල් සහ සෙජ්නොව්ස්කි (1997) විසින් දාරවලට අනුරූප රූපවල ස්වාධීන සංරචක පිළිබඳව වැදගත් ලිපියක් ඇත. මෙය PCA හා සම්බන්ධ කිරීම සඳහා: ICA විසින් PCA හෝ SVD මානයන් සහ ආරම්භක ඇස්තමේන්තු අඩු කිරීමේ පළමු පියවර ලෙස භාවිතා කරයි, නමුත් පසුව PCA වැනි දෙවන ඇණවුම් දෝෂ (SSE) පමණක් නොව ඉහළ පෙළේ දෝෂ ද සැලකිල්ලට ගන්නා ඒවා වැඩි දියුණු කරයි - එය සත්‍ය නම් බොහෝ ඇල්ගොරිතම 3 වන හෝ 4 වන ස්ථාන වලට සීමා වුවද ICA, සියලු ඉහළ ඇණවුම්. පහත් ඇණවුමේ PCA සංරචක තිරස් හා සිරස් මගින් දැඩි ලෙස බලපායි. චිත්‍රපට සඳහා කැමරා චලිතය සමඟ කටයුතු කිරීමෙන් PCA / ICA භාවිතා කළ හැකිය. 2D ඡායාරූප සහ 2½D චිත්‍රපට සඳහා මෙය සාක්ෂාත් කර ගැනීම සඳහා ඔබට නිරූපණ උපක්‍රම කිහිපයක් අවශ්‍ය වේ.

ඔබට අත්තම්මාට පැහැදිලි කළ හැකි තවත් යෙදුමක් වන්නේ අයිජන්ෆේස් - ඉහළ පෙළේ ඊජෙන්වෙක්ටර්ස් වලට 'මූලික හැඟීම් 7' (ඒ එක් එක් පුද්ගලයාගේ සාමාන්‍ය මුහුණත සහ එම සාමාන්‍යය කිරීම සඳහා 'පරිමාණ භ්‍රමණය' හෝ රේඛීය සංයෝජනය) ආසන්න වශයෙන් දැක්විය හැකිය, නමුත් බොහෝ විට අපට එම සංරචක හමු වේ ලිංගිකත්වය සහ ජාතිය සම්බන්ධ වන අතර සමහරුන් පුද්ගලයන් හෝ පුද්ගල ලක්ෂණ (කණ්නාඩි, රැවුල ආදිය) වෙන්කර හඳුනාගත හැකිය. ඔබට කිසියම් පුද්ගලයකුගේ ඡායාරූප කිහිපයක් සහ බොහෝ හැඟීම් / ප්‍රකාශන තිබේ නම් මෙය සිදු වේ, නමුත් උදාසීන ප්‍රකාශන සහිත බොහෝ මුහුණු ඇත්නම් ඔබට වෙනස් නැඹුරුවක් ලැබේ. පීසීඒ වෙනුවට අයිසීඒ භාවිතා කිරීම මූලික හැඟීම් සඳහා බොහෝ සෙයින් උපකාරී වන බවක් නොපෙනේ, නමුත් බාර්ට්ලට් සහ සෙජ්නොවිකි (1997) පෙන්නුම් කළේ මුහුණු හඳුනා ගැනීම සඳහා එය ප්‍රයෝජනවත් අංග සොයා ගත් බවයි.


1
උදාහරණ හා ප්‍රතිසම මගින් සන්නිවේදනය කිරීමට දරන උත්සාහය මම අගය කරමි. රූප භාවිතා කිරීම අවාසනාවන්ත ය, ඉහළ සම්භාවිතාවක් ඇති බැවින් අත්තම්මාට "භ්‍රමණය" පිළිබඳ හැඟීම රූපයක අක්ෂය භ්‍රමණය කිරීම සමඟ එතරම් සම්බන්ධයක් නැති බව තේරුම් නොගනු ඇත , එසේම ඔබ "මානය" භාවිතා කරන බව ඇය තේරුම් ගැනීමට ඉඩ නොදේ. "වියුක්ත අර්ථයකින් ගත් විට ඡායාරූපවල මානයන් මිලියන දෙකක් ඇති අතර ඒවා දෙකක් පමණක් නොවේ.
whuber

ඔව්, වෙනත් පිළිතුරු වල ඇති පින්තූර මෙන් ඔබ එය ලක්ෂ්‍ය වලාකුළක් ලෙස නිරූපණය කළ යුතුය. යම් ආකාරයක දාර හඳුනා ගැනීම සහ / හෝ එළිපත්ත සමඟ පෙර සැකසීම මා සඳහන් කළ “උපක්‍රම” වල කොටසක් විය හැකිය. නමුත් සංකීර්ණ ඡායාරූපයක් මත ක්‍රියාත්මක වීමට ආචාර්ය උපාධිය සඳහා වටිනා උපක්‍රම අවශ්‍ය වේ.
ඩේවිඩ් එම්.ඩබ්ලිව් පවර්ස්

ස්ටීරියෝ රූප ක්‍රමාංකනය කිරීමේදී මෙම භ්‍රමණයන් සොයා ගැනීමට මම ඇත්ත වශයෙන්ම PCA (හොඳින් SVD) භාවිතා කර ඇත්තෙමි! එය අනිවාර්යයෙන්ම භ්‍රමණය වීමේ එකම හැඟීමයි.
ඩේවිඩ් එම්.ඩබ්ලිව් පවර්ස්

2

Eigenvector යනු එකම ආදාන දෛශිකයට සමාන්තරව පරිණාමනය වන දෛශිකයක් බව මතක තබා ගන්න. මේ අනුව ඉහළ ඊජන් අගයක් සහිත ඊජෙන්වෙක්ටරයක් ​​යනු ඊජන්එවේටරය දත්ත වලට ඉහළ 'සමාන්තරතාවයක්' ඇති බවයි, එයින් අදහස් කරන්නේ ඔබට මෙම දෛශිකය සමඟ පමණක් දත්ත නිරූපණය කළ හැකි අතර නව නිරූපණයේ අඩු දෝෂයක් අපේක්ෂා කළ හැකි බවයි. ඔබ අඩු ඊජන් අගයන් සහිත අතිරේක ඊජෙන්වෙක්ටර්ස් තෝරා ගන්නේ නම්, ඔබට දත්ත පිළිබඳ වැඩි විස්තර නිරූපණය කිරීමට හැකි වනු ඇත්තේ ඔබ වෙනත් 'සමාන්තරයන්' නියෝජනය කරන බැවිනි - අඩු ඊජන් අගයන් නිසා පළමු එක තරම් ප්‍රකට නොවේ.


2

මම හිතන්නේ සෑම කෙනෙක්ම PCA පැහැදිලි කිරීම වැරදි අන්තයේ සිට ආරම්භ කරයි: eigenvectors වෙතින්. මගේ පිළිතුර ආරම්භ වන්නේ නියම ස්ථානයේ ය: ඛණ්ඩාංක පද්ධතිය. වැරදි සම්බන්ධීකරණ පද්ධතියක් වන සැබෑ ගැටළුව විසඳීම සඳහා භාවිතා කරන ගණිතමය මෙවලම වන්නේ ඊජෙන්වෙක්ටර්ස් සහ පොදුවේ අයිජන්ප්‍රොබ්ලම් ය. මම පැහැදිලි කරන්නම්.

අපි රේඛාවකින් පටන් ගනිමු. රේඛාවක් යනු කුමක්ද? එය ඒක මාන වස්තුවකි. එබැවින්, එක් ස්ථානයක සිට තවත් ස්ථානයකට ගමන් කිරීමට ඔබට අවශ්‍ය වන්නේ එක් මානයක් පමණි. ගුවන් යානයක ඔබ රේඛාවක් ඕනෑම ලක්ෂ්‍යයක් සම්බන්ධ කළත්. එයට හේතුව රේඛාවකට සාපේක්ෂව ඛණ්ඩාංක පද්ධතිය අත්තනෝමතික ලෙස තෝරා ගැනීමයි. ඛණ්ඩාංක පද්ධතිය, රේඛාවේ අභ්‍යන්තර ඒක මාන ස්වභාවය පිළිබිඹු නොකරයි. මම සෑම විටම මගේ කාටේෂියානු ඛණ්ඩාංක පද්ධතියේ මූලාරම්භය රේඛාව මත තබා එහි x- අක්ෂය රේඛාවෙහි ඇති පරිදි එය හරවා ගත්තා නම්, මට තවදුරටත් y- අක්ෂය අවශ්‍ය නොවනු ඇත! රේඛාවක් යනු එක් මානයක වස්තුවක් වන නිසා මගේ සියලු ලක්ෂ්‍ය එක් අක්ෂයක පවතී.

PCA පැහැදිලි කිරීම් ආරම්භ කළ යුත්තේ එතැනිනි. අයිජන් ගැටළුව යනු මා විස්තර කළ භ්‍රමණය කරන මෙවලමක් වන අතර විචල්‍යයන්ගේ අර්ථ නිරූපණය මඟින් මූලාරම්භය රේඛාවට දමයි. PCA දත්තවල සත්‍ය මානයන් හෙළි කිරීමට උපකාරී වන අතර විචල්‍යයන් අතර සම්බන්ධතා රේඛීය වේ.


1

PCA මූලික වශයෙන් ඉහළ මානයන්ගෙන් යුත් අවකාශයක් අඩු මාන අවකාශයකට ප්‍රක්ෂේපණය කරන අතරම හැකි තරම් තොරතුරු ආරක්ෂා කරයි.

මම බ්ලොග් සටහනක් ලිව්වා, එහිදී මම ත්‍රිමාණ-තේ පෝච්චියක ප්‍රක්ෂේපණය හරහා PCA පැහැදිලි කරමි ...

රූප විස්තරය මෙහි ඇතුළත් කරන්න

... හැකි තරම් තොරතුරු ආරක්ෂා කරමින් 2D ගුවන් යානයකට:

රූප විස්තරය මෙහි ඇතුළත් කරන්න

විස්තර සහ සම්පූර්ණ R- කේතය මෙම ලිපියෙන් සොයාගත හැකිය:
http://blog.ephorie.de/intuition-for-principal-component-analysis-pca


1
පින්තූර තිබියදීත්, වර්තමානයේ මෙය පිළිතුරකට වඩා අදහස් දැක්වීමකි. සබැඳියේ ඇති තොරතුරු වල සාරාංශයක් ලබා දීමෙන් ඔබට එය පුළුල් කළ හැකිද? SE ජාලයේ තනතුරු වලට තනිවම සිටීමට හැකි විය යුතුය.
gung - මොනිකා නැවත

@gung: සාධාරණ ප්රමාණවත් - කතාබහක තාක් දුරට තොරතුරු රැකෙන පීසීඒ මූලික වශයෙන් (මෙම නඩුවේ 3D-තේ පෝච්චියට) අඩු මාන අවකාශය මතට (මෙම නඩුවේ 2D-තලය) ඉහළ මාන අවකාශය ප්රක්ෂේපණය බව ය හැකි. පිළිතුරෙන් එය වෙනස් කරයි.
vonjd

එය නිසැකවම සත්‍යයකි (සහ මෙම ත්‍රෙඩ් එකේ දැනට පවතින වෙනත් බොහෝ පිළිතුරු වල පැහැදිලි කර ඇත), නමුත් සාමාන්‍යයෙන් එස්ඊ ක්‍රමයේ පළ කර ඇති පිළිතුරු වලට වැඩි යමක් තිබිය යුතු අතර, උදා: සබැඳිය අක්‍රිය වුවහොත් ඔවුන්ට තනිවම සිටීමට හැකි විය යුතුය.
gung - මොනිකා නැවත

1
තේ පෝච්චියේ උදාහරණය සිත්ගන්නා සුළුය. ඔබ කියන්නේ පීසීඒ යනු 'තොරතුරු' තරම් සංරක්‍ෂණය කරමින් අඩු මානයන් සඳහා වූ ප්‍රක්ෂේපණයක් බවයි. නමුත් .... තොරතුරු යනු කුමක්ද? පීසීඒ සම්බන්ධයෙන් ගත් කල මෙයින් අදහස් කරන්නේ සම්පූර්ණ විචලනය හැකි තරම් ඉහළ මට්ටමක තබා ගැනීමයි. තේ-පොට් උදාහරණය විශේෂිත තලයක ප්‍රක්ෂේපණයක් භාවිතා කිරීමෙන් තොරතුරු “වඩාත්ම සුරක්‍ෂිත” බව ප්‍රකාශ කිරීම හා සමාන ය, නමුත් මෙය PCA විසින් මෙය කරන්නේ කෙසේද යන්නත්, එය “තොරතුරු” හොඳම “තේරීම” ද යන්නත් පැහැදිලි නොකරයි. උදාහරණයක් ලෙස, LDA යනු තොරතුරු සංරක්ෂණය කිරීමට අදහස් කරන ප්‍රක්ෂේපණයකි, නමුත් එය PCA හා සමාන නොවේ.
සෙක්ස්ටස් එම්පිරිකස්

ඔබේ තේ පෝච්චිය පීසීඒ වලට වඩා වටකුරු / වටකුරු (අඩු උස) නම් බොහෝ “තොරතුරු” ආරක්ෂා කර ගැනීම සඳහා වෙනස් මංසන්ධියක් තෝරා ගනු ඇත.
සෙක්ස්ටස් එම්පිරිකස්

-4

මෙම විශ්ලේෂණයන්හි ප්‍රමාද වී ඇත්තේ I කාණ්ඩයේ දත්ත II කාණ්ඩයට වඩා වෙනස් යැයි ඇඟවීම සහ වෙනස සඳහා ප්‍රධාන වශයෙන් දායක වන සාධකය විය හැකි සංරචකය සොයා ගැනීමට යමෙක් උත්සාහ කරයි.

විවිධ කට්ටල 2 ක් සඳහා සමාන ඉලිප්සොයිඩ් ඇති කරන PCA විශ්ලේෂණයක් සිදු කිරීමෙන් පසුව ඔබට කියනුයේ ඔබ විසින් මනින ලද ඕනෑම පරාමිතියකින් මෙම කට්ටල දෙක වෙනස් නොවන බවයි.


3
මම හිතන්නේ ඔයා මනෝවා ගැන හිතනවද කියලා. ඔබ සීපීඒට් පීසීඒ දෙකක් ධාවනය කළේ නම්, ඔබ පෙන්වන්නේ සහසම්බන්ධතා ව්‍යුහය සමාන බව පමණි.
gung - මොනිකා නැවත

3
-1. @ ගුන්ග් විසින් දක්වා ඇති හේතුව නිසා මෙය සම්පූර්ණයෙන්ම නොමඟ යවන පිළිතුරකි. එසේම, එය PCA යනු කුමක්ද යන්න පැහැදිලි කිරීමට උත්සාහ නොකරයි.
amoeba
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.