-
只給 Feature x ,從中找到最具代表性的 Feature (Dimension reduction)
- 只給 Featurex ,從中判斷類別 (Clustering)
• Principal component analysis (PCA)
• T-Distributed Stochastic Neighbor Embedding (t-SNE)
• K-means
• Hierarchical clustering
Dimension reduction 降低為度
目的是把高維的點投影到低維的空間上去,並且希望低維空間裡面能夠保持住高維空間點的大部分性質,這裡的性質是點和點之間的關係.
從高維到低維的過程之中,只允許做linear transforms
variance 盡量大,因為讓降維後的資料不要重疊在一起.還可以保持分布狀態
-
實務上我們經常遇到資料有非常多的 features,有些 features 可能高度相關,有什麼方法能夠把高度相關的 features 去除?
-
PCA 透過計算 eigen-value, eigen-vector,可以將原本的features 降維至特定的維度
-
原本 Data 有 100 個 features,透過 PCA,可以將這 100 個features 降成 2 個 feautres
-
新 features 為舊 features 的線性組合
-
簡單可解釋性比較高
有新的點可以直接投影下去
允許 non-linear transforms
算 P(x|x1) =
算 Q(z|x1)=
Goal:minimize KL-divergence of P and Q
觀察所有倆兩樣板的資料,有新的點加入的時候,不知道如果投影下去
附近的點放在一起
What is similar ?
Euclidean distance
cosin distance
- 定義有幾個群
- 隨機選K個點當作是群的資料中心
- 看過所有的資料點,並找出資料點離哪一個資料中心最近,我們用這個當作每個點是屬於哪一個群的依據
- 一旦我們決定每個點屬於哪一個群之後,我們可以計算點當中群中心應該在哪裡
- 重複第三步,因為群中心已經變過了
- 直到收斂,群中心不在變更
Agglomerative (bottom-up)
• Start with each data point as a cluster
• Merge two closest clusters until only one cluster left
Divisive (top-down) 依靠 K-means
• Start with one cluster
• Each step split a cluster until each cluster contains one data point
-
不需指定分群的數量
-
每筆資料視為獨立一群
-
計算每兩群之間的距離
-
將最近的兩群合併成一群
-
重複 2,3 直到所有資料合併為同一群為止
-
計算距離的方式有
○ 'complete': cluster 中,最遠兩點的距離
○ 'single': cluster 中,最近兩點的距離
○ 'average': cluster 中,所有點的距離平均
Clustering: unsupervisor learning algorithm
Classification:supervisor learning algorithm