දත්ත න්යාසය ඉඩ විය n × පි ප්රමාණය, එහිදී n සාම්පල හා සංඛ්යාව වේ පි විචල්ය සංඛ්යාව වේ. එය කේන්ද්රගත වී ඇතැයි අපි සිතමු , එනම් තීරු මාධ්යයන් අඩු කර ඇති අතර දැන් එය බිංදුවට සමාන වේ.Xn×pnp
එවිට covariance න්යාසය සී මගින් ලබා දෙන C = X ⊤ X / ( n - 1 ) . එය සමමිතික අනුකෘතියක් වන අතර එය විකර්ණකරණය කළ හැකිය: C = V L V ⊤ , මෙහි V යනු ඊජෙන්වෙක්ටර් වල අනුකෘතියකි (සෑම තීරුවක්ම ඊජෙන්වෙක්ටර් වේ) සහ L යනු විකර්ණ මත අඩු වන අනුපිළිවෙලෙහි eigenvalues λ i සහිත විකර්ණ අනුකෘතියකි. . ඊජෙන්වෙක්ටර්ස් ප්රධාන අක්ෂ හෝ ප්රධාන දිශාවන් ලෙස හැඳින්වේp×pCC=X⊤X/(n−1)
C=VLV⊤,
VLλiදත්ත වල. ප්රධාන අක්ෂවල දත්ත ප්රක්ෂේපණය කිරීම
ප්රධාන සංරචක ලෙස හැඳින්වේ, එය
PC ලකුණු ලෙසද හැඳින්වේ ; මේවා නව, පරිණාමිත, විචල්යයන් ලෙස දැකිය හැකිය. මෙම
ප්රධාන අංගයක් -th මගින් ලබා දෙන
j ක -th තීරුව
X V . නව පළාත් සභා අවකාශයේ
i -th දත්ත ලක්ෂ්යයේ ඛණ්ඩාංක
X V හි
i -th පේළිය මඟින් දෙනු ලැබේ .
jjXViiXV
අපි දැන් හි ඒකීය අගය වියෝජනය සිදු කරන්නේ නම් , අපි X = U S V dec වියෝජනය ලබා ගනිමු , එහිදී U ඒකීය අනුකෘතියක් වන අතර S යනු ඒකීය අගයන්හි විකර්ණ අනුකෘතිය s i . මෙතැන් සිට කෙනෙකුට පහසුවෙන් දැක ගත හැකිය C = V S U ⊤ U S V ⊤ / ( n - 1 ) = V S 2X
X=USV⊤,
USsiඑනම් නිවැරදි ඒකීය දෛශික
Vප්රධාන දිශාවන් වන අතර ඒකීය අගයන්
λi=s 2 i /(n-1)හරහා සහසංයුජ අනුකෘතියේ සමාන අගයන්ට සම්බන්ධ වේ. විදුහල්පති සංරචක විසින් ලබා දෙනු ලබන
XV=USV⊤V=US.
C=VSU⊤USV⊤/(n−1)=VS2n−1V⊤,
Vλමම= s2මම/ (n-1)X V = U S V.⊤V = U S.
සාරාංශ ගත කිරීමට:
- නම් , පසුව තීරු V ප්රධාන දිශාවන් / අක්ෂ.X = U S V.⊤වී
- තීරු ප්රධාන සංරචක වේ ("ලකුණු").යූ එස්
- ඒකීය අගයන් හරහා සහසංයුජ අනුකෘතියේ සමාන අගයන්ට සම්බන්ධ වේ . Eigenvalues λ i අදාළ පළාත් සභා වල විචල්යතාවයන් පෙන්වයි.λමම= s2මම/ (n-1)λමම
- ප්රමිතිගත ලකුණු ලබා දෙන්නේ col තීරු මගිනිහා පැටවීම තීරු විසින් ලබා දී ඇතVඑස්/ √n−1−−−−−√U . උදා: බලන්නමෙතනහාමෙහි"පැටවීම" ප්රධාන දිශාවන් සමඟ පටලවා නොගත යුත්තේ ඇයි සඳහා.VS/n−1−−−−−√
- ඉහත සඳහන් කරුණු නිවැරදි වන්නේ කේන්ද්රගත වුවහොත් පමණි . Xසහසංයුජ අනුකෘතිය ට සමාන වන්නේ එවිට පමණි .X⊤X/(n−1)
- ඉහත නිවැරදි වන්නේ පේළි වල සාම්පල සහ තීරු වල විචල්යයන් සහිත සඳහා පමණි . විචල්යයන් පේළි හා සාම්පල තීරුවල තිබේ නම්, U සහ V හුවමාරු අර්ථ නිරූපණයන්.XUV
- සහසම්බන්ධිත අනුකෘතියක් මත (සහසංයුජ අනුකෘතියක් වෙනුවට) PCA සිදු කිරීමට යමෙකුට අවශ්ය නම්, තීරු කේන්ද්රගත වූවා පමණක් නොව, ප්රමිතිගත කළ යුතුය, එනම් ඒවායේ සම්මත අපගමනයන් මගින් බෙදනු ලැබේ.X
- සිට දත්ත dimensionality අඩු කිරීමට කිරීමට k < p , තේරීම් k පළමු තීරු U , සහ K × k ක ඉහළ වම් කොටස එස් . ඔවුන්ගේ නිෂ්පාදනය U k S k යනු පළමු k PC අඩංගු අත්යවශ්ය n × k න්යාසයයි .pk<pkUk×kSUkSkn×kk
- පළමු පළාත් සභා අනුරූපී අක්ෂ මගින් තවදුරටත් ගුණ කිරීමෙන් V ⊤ k අස්වැන්න X k = U ⊤ k S ⊤ k V ⊤ k න්යාසය මුල් n × p ප්රමාණය ඇති නමුත් පහළ ශ්රේණියේ ( k ශ්රේණියේ ) වේ. මෙම න්යාසයෙන් X k සපයන හා ප්රතිසංස්කරණ පළමු සිට මුල් දත්ත k පරිගණක. එය අවම ප්රතිසංස්කරණ දෝෂයක් ඇත, මගේ පිළිතුර මෙතැනින් බලන්න .kV⊤kXk=U⊤kS⊤kV⊤kn×pkXkk
- දැඩි කතා, වේ n × n විශාලත්වය සහ V වේ පි × පි ප්රමාණය. කෙසේ වෙතත්, n > p නම් U හි අවසාන n - p තීරු අත්තනෝමතික වේ (සහ S හි අනුරූප පේළි නියත ශුන්ය වේ); එක් එහෙයින් භාවිතා කළ යුතු ආර්ථිකය ප්රමාණය (හෝ තුනී ) නැවත එම SVD U ක n × පි ද පලක් තීරු පහත වැටේ, ප්රමාණය. විශාල n ≫ p සඳහා න්යාසය යූUn×nVp×pn>pn−pUSUn×pn≫pUඑසේ නොමැතිනම් අනවශ්ය ලෙස විශාල වනු ඇත. හි ප්රතිවිරුද්ධ තත්වයකට ද මෙය අදාළ වේ .n≪p
වැඩිදුර සබැඳි