ramen12345’s diary

理系大学生の日記

主成分分析

www.slideshare.net

以下上記のスライドシェアの抜粋

 

ざっくりと

教師なし学習の一つ

・データの分散が大きいところを見つける

・分散が大きいところが大事、小さいところはあまり気にしない

 

ざっくりとアルゴリズム

  1. 全データの重心を求める(平均値)
  2. 重心からデータの分散が最大となる方向を見つける
  3. 新しいデータ表現軸として1で求めた方向を基底にする
  4. 上記で撮った軸と直行する方向に対して分散が最大となる方向を探す
  5. 2から3をもとのデータの次元分だけ繰り返す

ざっくりとどう役立つのか

  • データの特徴を抽出するのに役立つ
     データのばらつきが大きい部分に着目することで、よりデータを識別しやすくする
  • データの次元を圧縮するのに役立つ
     データのばらつきが少ない部分はデータに共通するパターンなので、あまり意味をなさない。→無視する
  • 多次元特徴量の可視化に役立つ
     多次元データは人間には識別不可能→データのばらつきが大きいところを見ることでデータの関係性を判断する