C++

冗長性が低く重要度の高いパターンの抽出(1)

パターンマイニングはデータマイニングを代表する手法の一つで,特にアソシエーションルールを適用した「ビールとおむつ」などの例が有名です. 最近は,Rなどのデータ分析ツールでもAprioriやEclat(頻出パターンマイニング), CSPADE(系列パターンマイニング…

頻出アイテムセット間のJaccard係数の計算

Jaccard係数(Jaccard index, Jaccard similarity coefficent)は,2つの集合間の類似性を表す指標.パターンマイニングでは,2つの頻出パターンの共起を表す指標として用いられ,両方のパターンが現れるトランザクション数に対して,少なくとも一方のパターン…

Rcppによるbigmemoryの拡張

R C++

RのbigmemoryパッケージはC++で実装されているため,ユーザが新たな機能を開発して追加することが可能です.Rcpp Galleryの"Using bigmemory with Rcpp"(各列の合計値を算出する例)をそのまま実行してみます.BigColSums.cpp #include <Rcpp.h> // [[Rcpp::depends</rcpp.h>…

C++で統計解析

先月開催されたJapan.R 2013の懇親会で,「C++で統計解析を行うための良いライブラリは?」という話がありました.統計解析と一口に言っても結構広いので,ここでは以下の4つのカテゴリ 記述統計量(最大値,最小値,平均値,分散等) 統計的検定(t検定,χ2乗…

Eclipse CDTでC++0x/C++11を使うための設定

C++

以下のように設定する. C/C++ Build -> Settings -> Tool Settings -> GCC C++ Compiler -> Miscellaneous -> Other Flags"-std=c++0x"を追加する C/C++ General -> Paths and Symbols -> Symbols -> GNU C++"Add..."を押して,Nameに"__GXX_EXPERIMENTAL_C…