データマイニング

caretで独自アルゴリズムの実行

caretパッケージは,機械学習のモデル構築・評価を統一したフレームワークで実行するための機能を提供している.caretのバージョン6.0.29では150個のアルゴリズムが利用できる. > library(caret) > packageVersion("caret") [1] ‘6.0.29’ > head(modelLooku…

高次元データの外れ値検出

高次元データの外れ値検出についてのメモ. 高次元データと次元の呪い 次元が大きくなるほど,点の間の距離は均一になっていく. 例として,2000個の点の各座標を一様乱数で発生させて,次元を変えながら点の間の距離の平均値,最大値,最小値,平均値±1σ,…

冗長性が低く重要度の高いパターンの抽出(1)

パターンマイニングはデータマイニングを代表する手法の一つで,特にアソシエーションルールを適用した「ビールとおむつ」などの例が有名です. 最近は,Rなどのデータ分析ツールでもAprioriやEclat(頻出パターンマイニング), CSPADE(系列パターンマイニング…

頻出アイテムセット間のJaccard係数の計算

Jaccard係数(Jaccard index, Jaccard similarity coefficent)は,2つの集合間の類似性を表す指標.パターンマイニングでは,2つの頻出パターンの共起を表す指標として用いられ,両方のパターンが現れるトランザクション数に対して,少なくとも一方のパターン…

C++で統計解析

先月開催されたJapan.R 2013の懇親会で,「C++で統計解析を行うための良いライブラリは?」という話がありました.統計解析と一口に言っても結構広いので,ここでは以下の4つのカテゴリ 記述統計量(最大値,最小値,平均値,分散等) 統計的検定(t検定,χ2乗…

連続値データの離散化(R Advent Calendar 2013)

これは,R Advent Calendar 2013の8日目の記事です.2013年を振り返ってみると,Tokyo.Rの"シリーズ前処理"をたったの2回で途絶えさせてしまったことは大いに反省すべき点の一つです(^^;シリーズ前処理を途絶えさせたことは,2013年における痛恨の極みの一つ…

Rで系列パターンマイニング

頻出パターンマイニング(Frequent pattern mining)は,頻出するアイテムの組み合わせを抽出する一連の手法を指します.頻出パターンマイニングの代表例として相関ルールのマイニングがありますが,この手法を用いるとPOSデータからビールとおむつを一緒に購入す…