2014-05-01から1ヶ月間の記事一覧

高次元データの外れ値検出

高次元データの外れ値検出についてのメモ. 高次元データと次元の呪い 次元が大きくなるほど,点の間の距離は均一になっていく. 例として,2000個の点の各座標を一様乱数で発生させて,次元を変えながら点の間の距離の平均値,最大値,最小値,平均値±1σ,…

dplyrでcolwise

R

dplyrを使って,plyrのcolwiseのような処理をしたい.このようなときはHadley Wickham氏がgithubで公開しているdplyrパッケージのsummarise_each関数を使用すればよい. > library(devtools) > install_github("hadley/dplyr", ref = "colwise") > library(d…