如何通俗易懂地講解什么是 PCA(主成分分析)?
你手邊有眼鏡盒,紙箱子,筆記本電腦,或者隨便什么長方體的東西嗎?要描述它的尺寸我們需要知道三個數(shù)據(jù),長寬高(或者長寬厚),對吧
現(xiàn)在,假如是個筆記本電腦,你想買個包能裝下它,你最關心的數(shù)據(jù)是什么呢?長和寬對不對?如果一個書包不是太淺或者太窄,就能裝下那個電腦,電腦的厚度在這個問題上會被忽略掉
電腦的長就是這個秩為3的矩陣的第一個主成分,寬就是第二個,厚是第三個,在上述問題里,為了不讓賣電腦包的小姐姐覺得你傻,你沒有問她那我電腦2厘米厚這個包能不能裝下,你就只想保留兩個主成分,也就是把維度降到二。
現(xiàn)在我們來推廣一下,假如你想買個包來裝一個不規(guī)則的物體,比如,啊好難想,比如一把羽毛球拍。羽毛球拍也是一個3D立體的物體,也可以用長寬厚來描述,在裝包的過程中你關心的也必然只是長和寬,也就是說你還是想降維。但是羽毛球拍的形狀并不是一個簡單的長方體,找到它的長寬厚這三個主成分需要把它向一個長方體,或者說一個三維直角坐標系投影———你需要量最長的長和最寬位置的寬。投影完事兒后,球拍優(yōu)美的弧線就都被抽象掉啦,就剩一個長寬厚的架子,相互垂直,這個過程就是所謂的奇異值分解(singular value decomposition),抽象出來的那個架子就是中間的奇異值矩陣,主對角線以外的元素(那些圓弧)都是0,然后你把最小的奇異值去除掉,也就是厚度,你就實現(xiàn)了一次降維,可以就拿兩個數(shù)跟賣包小姐姐愉快的交流了!
最后說一點奇異值這個名字。singularity 是奇點的意思,你可以想象是質(zhì)量無窮大,怎么也消不掉的點。對于任何3D的物體而言,永遠都有長寬高,所以永遠都有3個奇點。如果一個奇點沒了,一個維度就會垮掉,比如沒有了厚度,它就變成2D的了。你之所以想對羽毛球拍降維,是因為第三個維度微不足道,前兩個維度可以很好的近似它:
試問,一個小朋友畫羽毛球拍簡筆畫時,是不是往往不畫厚度
最后多句嘴,從奇點這個名字你就能看出來,徹底消滅掉一個物體的維度有多么難,二向箔賽高!
掃描二維碼推送至手機訪問。
版權聲明:本文由財神資訊-領先的體育資訊互動媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。