SVD සහ PCA අතර සම්බන්ධතාවය. PCA සිදු කිරීම සඳහා SVD භාවිතා කරන්නේ කෙසේද?

392

ප්‍රධාන සංරචක විශ්ලේෂණය (පීසීඒ) සාමාන්‍යයෙන් විස්තර කරනු ලබන්නේ සහසංයුජ අනුකෘතියේ අයිජන්-වියෝජනයෙනි. කෙසේ වෙතත්, දත්ත න්‍යාසයේ ඒකීය අගය වියෝජනය (SVD) හරහා ද එය සිදු කළ හැකිය . එය ක්‍රියාත්මක වන්නේ කෙසේද? මෙම ප්‍රවේශයන් දෙක අතර ඇති සම්බන්ධය කුමක්ද? SVD සහ PCA අතර සම්බන්ධතාවය කුමක්ද? $\mathbf X$

නැතහොත් වෙනත් වචන වලින් කිවහොත්, මානයන් අඩු කිරීම සිදු කිරීම සඳහා දත්ත අනුකෘතියේ SVD භාවිතා කරන්නේ කෙසේද?

— ඇමීබා
source

මම නිතර අසන පැන විලාසිතාවේ ප්‍රශ්නය මගේම පිළිතුරක් සමඟ ලියා තැබුවෙමි, මන්ද එය නිතර නිතර විවිධ ස්වරූපයෙන් අසනු ලබන නමුත් කැනොනිකල් නූල් නොමැති බැවින් අනුපිටපත් වැසීම දුෂ්කර ය. කරුණාකර මෙටා ත්‍රෙඩ් එකේ මෙටා අදහස් දක්වන්න .

— amoeba

stats.stackexchange.com/questions/177102/…

— kjetil b halvorsen

පීසීඒ තවත් SVD මත පදනම් වූ ශිල්පීය ක්‍රම කිහිපයක් ලෙස සලකනු ලබන මෙහි වැඩිදුර සබැඳි සහිත විශිෂ්ට හා සවිස්තරාත්මක ඇමීබා පිළිතුරට අමතරව මෙය පරීක්ෂා කිරීමට මම නිර්දේශ කරමි . එහි සාකච්ඡා තෑගි වීජ ගණිතය පාහේ පමණක් සුළු වෙනසක් සමග amoeba ගේ සමාන එහි කතාව, පීසීඒ විස්තර වන්නේ, svd විසංයෝජනය ගැන ගිය

[හෝ

X / \sqrt{n}

$\mathbf X/\sqrt{n}$

] වෙනුවට

- සහසංයුජ අනුකෘතියේ eigendecomposition හරහා සිදු කරන ලද PCA හා සම්බන්ධ වන බැවින් එය පහසුය.

X / \sqrt{n - 1}

$\mathbf X/\sqrt{n-1}$

X

$\bf X$

— ttnphns

PCA යනු SVD හි විශේෂ අවස්ථාවකි. PCA සඳහා දත්ත සාමාන්‍යකරණය කළ, එකම ඒකකයක් අවශ්‍ය වේ. PCA හි අනුකෘතිය nxn වේ.

— ඕර්වර් කෝර්වර්

R ඕර්වර්කෝර්වර්: ඔබ කතා කරන්නේ කුමන nxn න්‍යාසය ගැනද?

— Cbhihe

Answers:

460

දත්ත න්යාසය ඉඩ විය ප්රමාණය, එහිදී සාම්පල හා සංඛ්යාව වේ විචල්ය සංඛ්යාව වේ. එය කේන්ද්‍රගත වී ඇතැයි අපි සිතමු , එනම් තීරු මාධ්‍යයන් අඩු කර ඇති අතර දැන් එය බිංදුවට සමාන වේ. $\mathbf X$ $n \times p$ $n$ $p$

එවිට covariance න්යාසය මගින් ලබා දෙන . එය සමමිතික අනුකෘතියක් වන අතර එය කළ හැකිය: මෙහි යනු වල අනුකෘතියකි (සෑම වේ) සහ යනු විකර්ණ මත අඩු වන අනුපිළිවෙලෙහි eigenvalues සහිත විකර්ණ අනුකෘතියකි. . ඊජෙන්වෙක්ටර්ස් ප්‍රධාන අක්ෂ හෝ ප්‍රධාන දිශාවන් ලෙස හැඳින්වේ $p \times p$ $\mathbf C$ $\mathbf C = \mathbf X^\top \mathbf X/(n-1)$

C = V එල් V^{⊤},

$\mathbf C = \mathbf V \mathbf L \mathbf V^\top,$

V

$\mathbf V$

L

$\mathbf L$

λ_{i}

$\lambda_i$ දත්ත වල. ප්‍රධාන අක්ෂවල දත්ත ප්‍රක්ෂේපණය කිරීම ප්‍රධාන සංරචක ලෙස හැඳින්වේ, එය PC ලකුණු ලෙසද හැඳින්වේ ; මේවා නව, පරිණාමිත, විචල්‍යයන් ලෙස දැකිය හැකිය. මෙම

ප්රධාන අංගයක් -th මගින් ලබා දෙන

ක -th තීරුව

. නව පළාත් සභා අවකාශයේ

-th දත්ත ලක්ෂ්‍යයේ ඛණ්ඩාංක

හි

-th පේළිය මඟින් දෙනු ලැබේ .

j

$j$

j

$j$

X V

$\mathbf {XV}$

i

$i$

i

$i$

X V

$\mathbf{XV}$

අපි දැන් හි ඒකීය අගය වියෝජනය සිදු කරන්නේ නම් , අපි වියෝජනය ලබා එහිදී ඒකීය අනුකෘතියක් වන අතර යනු ඒකීය අගයන්හි විකර්ණ අනුකෘතිය . මෙතැන් සිට කෙනෙකුට පහසුවෙන් දැක ගත හැකිය $\mathbf X$

x = යූ එස් {වී}^{⊤},

$\mathbf X = \mathbf U \mathbf S \mathbf V^\top,$

U

$\mathbf U$

S

$\mathbf S$

s_{i}

$s_i$

එනම් නිවැරදි ඒකීය දෛශික

ප්‍රධාන දිශාවන් වන අතර ඒකීය අගයන්

හරහා සහසංයුජ අනුකෘතියේ සමාන අගයන්ට සම්බන්ධ වේ. විදුහල්පති සංරචක විසින් ලබා දෙනු ලබන

සී = වී එස් {යූ}^{⊤} යූ එස් {වී}^{⊤} / (n - 1) = වී \frac{{එස්}^{2}}{n - 1} {වී}^{⊤},

$\mathbf C = \mathbf V \mathbf S \mathbf U^\top \mathbf U \mathbf S \mathbf V^\top /(n-1) = \mathbf V \frac{\mathbf S^2}{n-1}\mathbf V^\top,$

V

$\mathbf V$

λ_{i} = s_{i}^{2} / (n - 1)

$\lambda_i = s_i^2/(n-1)$

X V = U S V^{⊤} V = U S

$\mathbf X \mathbf V = \mathbf U \mathbf S \mathbf V^\top \mathbf V = \mathbf U \mathbf S$

සාරාංශ ගත කිරීමට:

නම් , පසුව තීරු ප්රධාන දිශාවන් / අක්ෂ. $\mathbf X = \mathbf U \mathbf S \mathbf V^\top$ $\mathbf V$
තීරු ප්‍රධාන සංරචක වේ ("ලකුණු"). $\mathbf {US}$
ඒකීය අගයන් හරහා සහසංයුජ අනුකෘතියේ සමාන අගයන්ට සම්බන්ධ වේ . Eigenvalues අදාළ පළාත් සභා වල විචල්‍යතාවයන් පෙන්වයි. $\lambda_i = s_i^2/(n-1)$ $\lambda_i$
ප්‍රමිතිගත ලකුණු ලබා දෙන්නේ තීරු මගිනිහා පැටවීම තීරු විසින් ලබා දී ඇත $\sqrt{n-1}\mathbf U$ . උදා: බලන්නමෙතනහාමෙහි"පැටවීම" ප්රධාන දිශාවන් සමඟ පටලවා නොගත යුත්තේ ඇයි සඳහා. $\mathbf V \mathbf S/\sqrt{n-1}$
ඉහත සඳහන් කරුණු නිවැරදි වන්නේ කේන්ද්‍රගත වුවහොත් පමණි . $\mathbf X$ අනුකෘතිය ට සමාන වන්නේ එවිට පමණි . $\mathbf X^\top \mathbf X/(n-1)$
ඉහත නිවැරදි වන්නේ පේළි වල සාම්පල සහ තීරු වල විචල්‍යයන් සහිත සඳහා පමණි . විචල්යයන් පේළි හා සාම්පල තීරුවල තිබේ නම්, සහ හුවමාරු අර්ථ නිරූපණයන්. $\mathbf X$ $\mathbf U$ $\mathbf V$
සහසම්බන්ධිත අනුකෘතියක් මත (සහසංයුජ අනුකෘතියක් වෙනුවට) PCA සිදු කිරීමට යමෙකුට අවශ්‍ය නම්, තීරු කේන්ද්‍රගත වූවා පමණක් නොව, ප්‍රමිතිගත කළ යුතුය, එනම් ඒවායේ සම්මත අපගමනයන් මගින් බෙදනු ලැබේ. $\mathbf X$
සිට දත්ත dimensionality අඩු කිරීමට කිරීමට , තේරීම් පළමු තීරු , සහ ක ඉහළ වම් කොටස . ඔවුන්ගේ නිෂ්පාදනය යනු පළමු PC අඩංගු අත්‍යවශ්‍ය න්‍යාසයයි . $p$ $k<p$ $k$ $\mathbf U$ $k\times k$ $\mathbf S$ $\mathbf U_k \mathbf S_k$ $n \times k$ $k$
පළමු පළාත් සභා අනුරූපී අක්ෂ මගින් තවදුරටත් ගුණ කිරීමෙන් අස්වැන්න න්‍යාසය මුල් ප්‍රමාණය ඇති නමුත් පහළ ශ්‍රේණියේ ( ශ්‍රේණියේ ) වේ. මෙම න්යාසයෙන් සපයන හා ප්රතිසංස්කරණ පළමු සිට මුල් දත්ත පරිගණක. එය අවම ප්‍රතිසංස්කරණ දෝෂයක් ඇත, මගේ පිළිතුර මෙතැනින් බලන්න . $k$ $\mathbf V_k^\top$ $\mathbf X_k = \mathbf U_k^\vphantom \top \mathbf S_k^\vphantom \top \mathbf V_k^\top$ $n \times p$ $k$ $\mathbf X_k$ $k$
දැඩි කතා, වේ විශාලත්වය සහ වේ ප්රමාණය. කෙසේ වෙතත්, නම් හි අවසාන තීරු අත්තනෝමතික වේ (සහ අනුරූප පේළි නියත ශුන්‍ය වේ); එක් එහෙයින් භාවිතා කළ යුතු ආර්ථිකය ප්රමාණය (හෝ තුනී ) නැවත එම SVD ක ද පලක් තීරු පහත වැටේ, ප්රමාණය. විශාල සඳහා න්‍යාසය $\mathbf U$ $n\times n$ $\mathbf V$ $p \times p$ $n>p$ $n-p$ $\mathbf U$ $\mathbf S$ $\mathbf U$ $n\times p$ $n\gg p$ $\mathbf U$ එසේ නොමැතිනම් අනවශ්‍ය ලෙස විශාල වනු ඇත. හි ප්‍රතිවිරුද්ධ තත්වයකට ද මෙය අදාළ වේ . $n\ll p$

වැඩිදුර සබැඳි

SVD සහ PCA අතර ඇති බුද්ධිමය සම්බන්ධතාවය කුමක්ද - ගණිතයේ ඉතා ජනප්‍රිය හා සමාන නූලක්.
SVD මගින් දත්තවල PCA දත්ත ඇයි? - SVD හරහා PCA සිදු කිරීමෙන් ලැබෙන ප්‍රතිලාභ මොනවාද යන්න පිළිබඳ සාකච්ඡාවක් [කෙටි පිළිතුර: සංඛ්‍යාත්මක ස්ථායිතාව].
පීසීඒ සහ ලිපි හුවමාරු විශ්ලේෂණය බිප්ලොට් - පීසීඒ හා සම්බන්ධ සමහර සංයුක්ත තාක්‍ෂණික සන්දර්භය තුළ, සියල්ලම එස්වීඩී මත පදනම් වේ.
PCA වලට වඩා SVD වල වාසියක් තිබේද? - PCA වෙනුවට SVD භාවිතා කිරීමෙන් යම් ප්‍රයෝජනයක් ඇත්දැයි අසන ප්‍රශ්නයක් [කෙටි පිළිතුර: වැරදි ප්‍රශ්නයක්].
ප්‍රධාන සංරචක විශ්ලේෂණය, ඊජෙන්වෙක්ටර්ස් සහ අයිජන් අගයයන් පිළිබඳ හැඟීමක් ඇති කිරීම - පීසීඒ පිළිබඳ තාක්‍ෂණික නොවන පැහැදිලි කිරීමක් ලබා දෙන මගේ පිළිතුර. අවධානය යොමු කිරීම සඳහා, මම මෙහි එක් රූපයක් ප්‍රතිනිෂ්පාදනය කරමි:

— ඇමීබා
source

ප්‍රශ්නෝත්තර දෙකටම +1. බෙදා ගැනීමට ස්තූතියි. මට එක ප්‍රශ්නයක් තිබේ: දත්ත න්‍යාසය මුලින් කේන්ද්‍රගත වී ඇතැයි ඔබ සිතිය යුත්තේ ඇයි?

— ඇන්ටොයින්

@Antoine, covariance න්යාසය නිර්වචනය කිරීමයි සමාන

, කෝණික වරහන් සාමාන්ය අගය දැක්වීමට එහිදී. සියලු නම්

එක් අනුකෘතියක පේළි ලෙස එකමත ඇත

, පසුව මෙම ප්රකාශනය සමාන වේ

කේන්ද්‍රගත වී ඇත්නම් එය සරල කරයි

⟨ (x_{i} - \bar{x}) (x_{i} - \bar{x})^{⊤} ⟩

$\langle (\mathbf x_i - \bar{\mathbf x})(\mathbf x_i - \bar{\mathbf x})^\top \rangle$

x_{i}

$\mathbf x_i$

X

$\mathbf X$

(X - \bar{X}) (X - \bar{X})^{⊤} / (n - 1)

$(\mathbf X - \bar{\mathbf X})(\mathbf X - \bar{\mathbf X})^\top/(n-1)$

X

$\mathbf X$

. විචලනය ගැන සිතන්න; එය සමාන ය

. නමුත්

(එනම් දත්ත කේන්ද්‍රගත වී තිබේ නම්), එය හුදෙක්

හි සාමාන්‍ය අගයයි.

X X^{⊤} / (n - 1)

$\mathbf X \mathbf X^\top/(n-1)$

⟨ (x_{i} - \bar{x})^{2} ⟩

$\langle (x_i-\bar x)^2 \rangle$

\bar{x} = 0

$\bar x=0$

x_{i}^{2}

$x_i^2$

— amoeba

SVD විසින් PCA සඳහා කේත සාම්පලයක්: stackoverflow.com/questions/3181593/…

— සුභවාදී

@amoeba ඔව්, නමුත් ඇයි එය භාවිතා කරන්නේ? එසේම,

සඳහා එකම හරය භාවිතා කළ හැකිද? ප්රශ්නය මම එහිදී සූත්ර දකින වේ

සහ ඔවුන් භාවිතා කරන ආකාරය, තේරුම් ගැනීමට උත්සාහ?

S

$S$

λ_{i} = s_{i}^{2}

$\lambda_i = s_i^2$

— ඩිම්ස්

@sera ඔබේ න්‍යාසය මාරු කර ඔබගේ ගැටලුවෙන් මිදෙන්න. ඔබ ව්‍යාකූල වනු ඇත්තේ වෙනත් ආකාරයකින් පමණි.

— amoeba

මම ඇමයිබාගේ පිළිතුර සමඟ පයිතන් සහ නැම්පි ස්නිපටයක් ලියා ඇති අතර එය යමෙකුට ප්‍රයෝජනවත් වේ නම් මම එය මෙහි තබමි. අදහස් බොහෝ දුරට ගනු ලබන්නේ @ ඇමීබාගේ පිළිතුරෙනි.

import numpy as np
from numpy import linalg as la
np.random.seed(42)


def flip_signs(A, B):
    """
    utility function for resolving the sign ambiguity in SVD
    http://stats.stackexchange.com/q/34396/115202
    """
    signs = np.sign(A) * np.sign(B)
    return A, B * signs


# Let the data matrix X be of n x p size,
# where n is the number of samples and p is the number of variables
n, p = 5, 3
X = np.random.rand(n, p)
# Let us assume that it is centered
X -= np.mean(X, axis=0)

# the p x p covariance matrix
C = np.cov(X, rowvar=False)
print "C = \n", C
# C is a symmetric matrix and so it can be diagonalized:
l, principal_axes = la.eig(C)
# sort results wrt. eigenvalues
idx = l.argsort()[::-1]
l, principal_axes = l[idx], principal_axes[:, idx]
# the eigenvalues in decreasing order
print "l = \n", l
# a matrix of eigenvectors (each column is an eigenvector)
print "V = \n", principal_axes
# projections of X on the principal axes are called principal components
principal_components = X.dot(principal_axes)
print "Y = \n", principal_components

# we now perform singular value decomposition of X
# "economy size" (or "thin") SVD
U, s, Vt = la.svd(X, full_matrices=False)
V = Vt.T
S = np.diag(s)

# 1) then columns of V are principal directions/axes.
assert np.allclose(*flip_signs(V, principal_axes))

# 2) columns of US are principal components
assert np.allclose(*flip_signs(U.dot(S), principal_components))

# 3) singular values are related to the eigenvalues of covariance matrix
assert np.allclose((s ** 2) / (n - 1), l)

# 8) dimensionality reduction
k = 2
PC_k = principal_components[:, 0:k]
US_k = U[:, 0:k].dot(S[0:k, 0:k])
assert np.allclose(*flip_signs(PC_k, US_k))

# 10) we used "economy size" (or "thin") SVD
assert U.shape == (n, p)
assert S.shape == (p, p)
assert V.shape == (p, p)

— user115202
source

මට PCA සමඟ ආරම්භ කිරීමට ඉඩ දෙන්න. ඔබට d සංඛ්‍යා (හෝ මාන) වලින් සමන්විත දත්ත ලක්ෂ්‍ය n ඇති බව සිතමු. ඔබ මෙම දත්ත මධ්යස්ථානය නම් (මධ්යන්ය දත්ත පෙන්නුම් අඩු එක් එක් දත්ත දෛශික සිට ) ඔබ න්යාසය කිරීමට දත්ත ගොඩගසන්න හැකි $\mu$ $x_i$

X = (\begin{array}{ccccc} x_{1}^{T} - μ^{T} \\ x_{2}^{T} - μ^{T} \\ ⋮ \\ x_{n}^{T} - μ^{T} \end{array}) .

$X = \left( \begin{array}{ccccc} && x_1^T - \mu^T && \\ \hline && x_2^T - \mu^T && \\ \hline && \vdots && \\ \hline && x_n^T - \mu^T && \end{array} \right)\,.$

සහසංයුජ අනුකෘතිය

S = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - μ) (x_{i} - μ)^{T} = \frac{1}{n - 1} X^{T} X

$S = \frac{1}{n-1} \sum_{i=1}^n (x_i-\mu)(x_i-\mu)^T = \frac{1}{n-1} X^T X$

$S$

S = V Λ V^{T} = \sum_{i = 1}^{r} λ_{i} v_{i} v_{i}^{T},

$S = V \Lambda V^T = \sum_{i = 1}^r \lambda_i v_i v_i^T \,,$

$v_i$ $i$ $\lambda_i$ $i$ $S$ $i$

අහඹු ලෙස ජනනය කරන ලද ගෝස්සියානු දත්ත කට්ටලයක PCA

$A = \left( \begin{array}{cc}1&2\\0&1\end{array} \right)$ $u_i$ $v_i$

2x2 උදාහරණයක් සඳහා SVD

$A$ $\mathbb S$ $u_i$ $v_i$

$X$ $A = X$

X = \sum_{i = 1}^{r} σ_{i} u_{i} v_{j}^{T},

$X = \sum_{i=1}^r \sigma_i u_i v_j^T\,,$

$\{ u_i \}$ $\{ v_i \}$ $S$ $v_i$

u_{i} = \frac{1}{\sqrt{(n - 1) λ_{i}}} X v_{i},

$u_i = \frac{1}{\sqrt{(n-1)\lambda_i}} Xv_i\,,$

$\sigma_i$

σ_{i}^{2} = (n - 1) λ_{i} .

$\sigma_i^2 = (n-1) \lambda_i\,.$

$u_i$ $X$ $u_i$ $X$ $i$ $v_i$ $X$

මෙම දීර් article ලිපියෙන් මම PCA සහ SVD අතර සම්බන්ධතාවයේ තවත් විස්තර සහ ප්‍රතිලාභ වෙත යන්නෙමි .

— ඇන්ඩ්‍රේ පී
source

ඔබේ පිළිතුරු දුන් ඇන්ඩ්‍රේට ස්තූතියි. කුඩා යතුරු ලියනය නිවැරදි කිරීම දෙකක් පමණි: 1. අවසාන ඡේදයේ ඔබ වම සහ දකුණ ව්‍යාකූල කරයි. 2. X සඳහා (ප්‍රාග්ධන) සූත්‍රයේ, ඔබ භාවිතා කරන්නේ v_i වෙනුවට v_j ය.

— ඇලොන්