2014-01-01から1年間の記事一覧

Juliaによる機械学習の予測モデル構築・評価

これは,Julia Advent Calendar 2014 14日目の記事です.MLBaseパッケージを用いて機械学習の予測モデルを構築し,評価する方法について説明します. 以下では,Julia0.3.2,MLBase0.5.1,DecisionTree0.3.4,RDatasets0.1.1を使用しています. Juliaで使用…

mlrパッケージによる予測モデルの構築・評価

これは,R Advent Calendar 2014 6日目の記事です. 本記事では,Rで機械学習の予測モデルの構築・評価を統一的なフレームワークで実行するmlrパッケージについて入門的な説明を行います. mlrパッケージとは mlrパッケージは,Michael Lang氏によって開発さ…

Javaで分散処理

Javaで分散処理する必要が生じたので、調査のメモ。今回は、以下のページを参考にCORBA+RMIで分散処理をしてみることにする。OSはUbuntu14.04。クラウドで再注目の「分散コンピューティング」の常識上記のリンク先の説明を読むと、Java SE 5以前は、クライア…

doParallel関数に直接ワーカープロセス数を指定するとゾンビプロセスが残る件

次から次へと迫り来る原稿の嵐に追われている休みの昼下がり、何気なく目を向けたTLにこんなつぶやきが。並列化した残骸のRScrpt.exeどうやって処分したらいいの…#メモリを圧迫し続けています— Hadleyに憑依されてるテラモナギ (@teramonagi) 2014, 9月 22 …

Juliaで並列計算

Juliaでの並列計算に関する調査メモ。 Juliaでの並列計算の概要 Juliaでのマルチプロセッシング環境は、メッセージパッシングに基づいている。MPIなどの通常のメッセージパッシングは、プロセス間でデータや命令などを相互にやりとりする。しかし、Juliaのメ…

R2DOCXによるレポート作成

RでMicrosoft Wordのレポートを作成するには,いくつかの方法がある.Markdown+Pandocを使った方法,R2wdパッケージを用いた方法などである.ここでは,David Gohel氏によるR2DOCXパッケージを用いたレポート作成について取り上げる. インストール R2DOCXパ…

caretで独自アルゴリズムの実行

caretパッケージは,機械学習のモデル構築・評価を統一したフレームワークで実行するための機能を提供している.caretのバージョン6.0.29では150個のアルゴリズムが利用できる. > library(caret) > packageVersion("caret") [1] ‘6.0.29’ > head(modelLooku…

高次元データの外れ値検出

高次元データの外れ値検出についてのメモ. 高次元データと次元の呪い 次元が大きくなるほど,点の間の距離は均一になっていく. 例として,2000個の点の各座標を一様乱数で発生させて,次元を変えながら点の間の距離の平均値,最大値,最小値,平均値±1σ,…

dplyrでcolwise

R

dplyrを使って,plyrのcolwiseのような処理をしたい.このようなときはHadley Wickham氏がgithubで公開しているdplyrパッケージのsummarise_each関数を使用すればよい. > library(devtools) > install_github("hadley/dplyr", ref = "colwise") > library(d…

冗長性が低く重要度の高いパターンの抽出(1)

パターンマイニングはデータマイニングを代表する手法の一つで,特にアソシエーションルールを適用した「ビールとおむつ」などの例が有名です. 最近は,Rなどのデータ分析ツールでもAprioriやEclat(頻出パターンマイニング), CSPADE(系列パターンマイニング…

頻出アイテムセット間のJaccard係数の計算

Jaccard係数(Jaccard index, Jaccard similarity coefficent)は,2つの集合間の類似性を表す指標.パターンマイニングでは,2つの頻出パターンの共起を表す指標として用いられ,両方のパターンが現れるトランザクション数に対して,少なくとも一方のパターン…

knitr+LaTeXでPDFを作成するmakefile

R

以前,TokyoRで「RでReproducible Research」というタイトルの発表を行いました.Reproducible Researchとは再現性のある研究のことで,そのためには処理に再現性が担保されている必要があります.RでReproducible Researchを実現する上で,動的なレポート生…

Rcppによるbigmemoryの拡張

R C++

RのbigmemoryパッケージはC++で実装されているため,ユーザが新たな機能を開発して追加することが可能です.Rcpp Galleryの"Using bigmemory with Rcpp"(各列の合計値を算出する例)をそのまま実行してみます.BigColSums.cpp #include <Rcpp.h> // [[Rcpp::depends</rcpp.h>…

C++で統計解析

先月開催されたJapan.R 2013の懇親会で,「C++で統計解析を行うための良いライブラリは?」という話がありました.統計解析と一口に言っても結構広いので,ここでは以下の4つのカテゴリ 記述統計量(最大値,最小値,平均値,分散等) 統計的検定(t検定,χ2乗…

Million Song Dataset

あけましておめでとうございます.今年もよろしくお願いいたします.Rでbigmemoryやffなどを使用して大規模なデータを扱うときのサンプルデータとして,Data Expo 2009のフライトデータが用いられることが多いようです.しかし,このデータのサイズは約12GB…