R

新米探偵、データ分析に挑む(R Advent Calendar 2015)

これは,R Advent Calendar 2015の5日目の記事です.今日は,Japan.Rとともに,立川は統計数理研究所では2015年度統計数理研究所共同研究集会「データ解析環境Rの整備と利用」が行なわれました. この研究集会での発表の詳細については別途ご報告する可能性…

ソースファイルからの関数定義の抽出

R

TL上で,Rのソースファイルから関数定義を抽出できないかが話題になっていたので,暫定案のご提示. 以下では,対処案を示すことを優先しているため,最小限の解説しかしていない. ソースコードは,githubに上げたので適宜参照のこと. source関数を読み解…

みんなのR (ご恵贈お礼)

「みんなのR」をご恵贈いただきました.ありがとうございます!! (現在,写真が撮れないので後で追加予定・・・)みんなのR -データ分析と統計解析の新しい教科書-作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志出版社/メーカー: マイナビ…

tuneRF関数の挙動の検証

RのrandomForestパッケージのtuneRF関数が遅いというお話があったので,調べてみた. tuneRF関数は,ランダムフォレストを用いて予測モデルを構築する際に使用する特徴量の個数を貪欲的な方法により求める. tuneRF関数だけでなく,Rで機械学習のアルゴリズ…

mlrパッケージによる予測モデルの構築・評価

これは,R Advent Calendar 2014 6日目の記事です. 本記事では,Rで機械学習の予測モデルの構築・評価を統一的なフレームワークで実行するmlrパッケージについて入門的な説明を行います. mlrパッケージとは mlrパッケージは,Michael Lang氏によって開発さ…

doParallel関数に直接ワーカープロセス数を指定するとゾンビプロセスが残る件

次から次へと迫り来る原稿の嵐に追われている休みの昼下がり、何気なく目を向けたTLにこんなつぶやきが。並列化した残骸のRScrpt.exeどうやって処分したらいいの…#メモリを圧迫し続けています— Hadleyに憑依されてるテラモナギ (@teramonagi) 2014, 9月 22 …

R2DOCXによるレポート作成

RでMicrosoft Wordのレポートを作成するには,いくつかの方法がある.Markdown+Pandocを使った方法,R2wdパッケージを用いた方法などである.ここでは,David Gohel氏によるR2DOCXパッケージを用いたレポート作成について取り上げる. インストール R2DOCXパ…

caretで独自アルゴリズムの実行

caretパッケージは,機械学習のモデル構築・評価を統一したフレームワークで実行するための機能を提供している.caretのバージョン6.0.29では150個のアルゴリズムが利用できる. > library(caret) > packageVersion("caret") [1] ‘6.0.29’ > head(modelLooku…

dplyrでcolwise

R

dplyrを使って,plyrのcolwiseのような処理をしたい.このようなときはHadley Wickham氏がgithubで公開しているdplyrパッケージのsummarise_each関数を使用すればよい. > library(devtools) > install_github("hadley/dplyr", ref = "colwise") > library(d…

knitr+LaTeXでPDFを作成するmakefile

R

以前,TokyoRで「RでReproducible Research」というタイトルの発表を行いました.Reproducible Researchとは再現性のある研究のことで,そのためには処理に再現性が担保されている必要があります.RでReproducible Researchを実現する上で,動的なレポート生…

Rcppによるbigmemoryの拡張

R C++

RのbigmemoryパッケージはC++で実装されているため,ユーザが新たな機能を開発して追加することが可能です.Rcpp Galleryの"Using bigmemory with Rcpp"(各列の合計値を算出する例)をそのまま実行してみます.BigColSums.cpp #include <Rcpp.h> // [[Rcpp::depends</rcpp.h>…

連続値データの離散化(R Advent Calendar 2013)

これは,R Advent Calendar 2013の8日目の記事です.2013年を振り返ってみると,Tokyo.Rの"シリーズ前処理"をたったの2回で途絶えさせてしまったことは大いに反省すべき点の一つです(^^;シリーズ前処理を途絶えさせたことは,2013年における痛恨の極みの一つ…

Rhpcパッケージを試す

R HPC

統計数理研究所で行われているRユーザ会で,中間先生と中野先生が開発中のRhpcパッケージのお話を聞きました.Rhpcは,snowやRmpiなどの既存の並列計算パッケージの問題点を解決して,スーパーコンピュータなどの大規模クラスター上で効率的に並列計算を行う…

変数のメモリアドレスを調べる

R

Rで変数のメモリアドレスを調べるためには,Hadley Wickham先生が開発しているpryrパッケージを使用するのが便利. # install_github関数を使用するためにdevtoolsパッケージのインストール install.packages("devtools") library(devtools) # pryrパッケー…

R言語上級ハンドブック

R言語上級ハンドブックを一通り読了しました.R言語上級ハンドブック作者: 荒引健,石田基広,高橋康介,二階堂愛,林真広出版社/メーカー: シーアンドアール研究所発売日: 2013/09/25メディア: 単行本(ソフトカバー)この商品を含むブログ (9件) を見る本書は…

モザイクプロットと分割表(R Advent Calendar 2012)

これは,R Advent Calendar 2012の12日目担当分の記事です.去年のAdvent Calendar以来, なんと実質1年ぶりの記事の更新ということで, この1年,何をやっていたんだろうなあと思ってしまう今日この頃です. 来年はもっともっと頑張ります,はい.さてさて…

不均衡データのクラス分類(R Advent Calendar 2011)

これは,R Advent Calendar 2011の担当分の記事です.機械学習やデータマイニングの実務への適用が脚光を浴びている今日この頃ですが,現実の問題に機械学習を適用する際は,パラメータのチューニング方法など様々な観点から検討を行う必要があります.今回…

Rで系列パターンマイニング

頻出パターンマイニング(Frequent pattern mining)は,頻出するアイテムの組み合わせを抽出する一連の手法を指します.頻出パターンマイニングの代表例として相関ルールのマイニングがありますが,この手法を用いるとPOSデータからビールとおむつを一緒に購入す…