詳解Apache Spark

技術評論社から近々刊行される「詳解Apache Spark」をご恵贈いただきました.ありがとうございます!詳解 Apache Spark作者: 下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門出版社/メーカー: 技術評論社発売日: 2016/04/29メディア: 大型本…

JuliaOptで数理最適化 (Julia Advent Calendar)

これは,Julia Advent Calendar 20日目の記事です.この記事では,JuliaOptについて取り上げてみようと思います. JuliaOptとは JuliaOptとは,Juliaで数理最適化を実行するためのパッケージを集めたプロジェクトです*1. JuliaOpt: Optimization packages f…

新米探偵、データ分析に挑む(R Advent Calendar 2015)

これは,R Advent Calendar 2015の5日目の記事です.今日は,Japan.Rとともに,立川は統計数理研究所では2015年度統計数理研究所共同研究集会「データ解析環境Rの整備と利用」が行なわれました. この研究集会での発表の詳細については別途ご報告する可能性…

データサイエンティスト養成読本機械学習入門編の振り返りと補足

9月10日,技術評論社より「データサイエンティスト養成読本 機械学習入門編」が発売され,おかげさまで約1ヶ月後には増刷が決定しました. お読みいただいた方々に深くお礼申し上げます.データサイエンティスト養成読本 機械学習入門編 (Software Design pl…

岩波データサイエンスVol.1(ご恵贈お礼)

岩波データサイエンス Vol.1 をご恵贈いただきました.ありがとうございます!岩波データサイエンス Vol.1作者: 岩波データサイエンス刊行委員会出版社/メーカー: 岩波書店発売日: 2015/10/08メディア: 単行本(ソフトカバー)この商品を含むブログ (10件) …

ソースファイルからの関数定義の抽出

R

TL上で,Rのソースファイルから関数定義を抽出できないかが話題になっていたので,暫定案のご提示. 以下では,対処案を示すことを優先しているため,最小限の解説しかしていない. ソースコードは,githubに上げたので適宜参照のこと. source関数を読み解…

みんなのR (ご恵贈お礼)

「みんなのR」をご恵贈いただきました.ありがとうございます!! (現在,写真が撮れないので後で追加予定・・・)みんなのR -データ分析と統計解析の新しい教科書-作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志出版社/メーカー: マイナビ…

tuneRF関数の挙動の検証

RのrandomForestパッケージのtuneRF関数が遅いというお話があったので,調べてみた. tuneRF関数は,ランダムフォレストを用いて予測モデルを構築する際に使用する特徴量の個数を貪欲的な方法により求める. tuneRF関数だけでなく,Rで機械学習のアルゴリズ…

Juliaによる機械学習の予測モデル構築・評価

これは,Julia Advent Calendar 2014 14日目の記事です.MLBaseパッケージを用いて機械学習の予測モデルを構築し,評価する方法について説明します. 以下では,Julia0.3.2,MLBase0.5.1,DecisionTree0.3.4,RDatasets0.1.1を使用しています. Juliaで使用…

mlrパッケージによる予測モデルの構築・評価

これは,R Advent Calendar 2014 6日目の記事です. 本記事では,Rで機械学習の予測モデルの構築・評価を統一的なフレームワークで実行するmlrパッケージについて入門的な説明を行います. mlrパッケージとは mlrパッケージは,Michael Lang氏によって開発さ…

Javaで分散処理

Javaで分散処理する必要が生じたので、調査のメモ。今回は、以下のページを参考にCORBA+RMIで分散処理をしてみることにする。OSはUbuntu14.04。クラウドで再注目の「分散コンピューティング」の常識上記のリンク先の説明を読むと、Java SE 5以前は、クライア…

doParallel関数に直接ワーカープロセス数を指定するとゾンビプロセスが残る件

次から次へと迫り来る原稿の嵐に追われている休みの昼下がり、何気なく目を向けたTLにこんなつぶやきが。並列化した残骸のRScrpt.exeどうやって処分したらいいの…#メモリを圧迫し続けています— Hadleyに憑依されてるテラモナギ (@teramonagi) 2014, 9月 22 …

Juliaで並列計算

Juliaでの並列計算に関する調査メモ。 Juliaでの並列計算の概要 Juliaでのマルチプロセッシング環境は、メッセージパッシングに基づいている。MPIなどの通常のメッセージパッシングは、プロセス間でデータや命令などを相互にやりとりする。しかし、Juliaのメ…

R2DOCXによるレポート作成

RでMicrosoft Wordのレポートを作成するには,いくつかの方法がある.Markdown+Pandocを使った方法,R2wdパッケージを用いた方法などである.ここでは,David Gohel氏によるR2DOCXパッケージを用いたレポート作成について取り上げる. インストール R2DOCXパ…

caretで独自アルゴリズムの実行

caretパッケージは,機械学習のモデル構築・評価を統一したフレームワークで実行するための機能を提供している.caretのバージョン6.0.29では150個のアルゴリズムが利用できる. > library(caret) > packageVersion("caret") [1] ‘6.0.29’ > head(modelLooku…

高次元データの外れ値検出

高次元データの外れ値検出についてのメモ. 高次元データと次元の呪い 次元が大きくなるほど,点の間の距離は均一になっていく. 例として,2000個の点の各座標を一様乱数で発生させて,次元を変えながら点の間の距離の平均値,最大値,最小値,平均値±1σ,…

dplyrでcolwise

R

dplyrを使って,plyrのcolwiseのような処理をしたい.このようなときはHadley Wickham氏がgithubで公開しているdplyrパッケージのsummarise_each関数を使用すればよい. > library(devtools) > install_github("hadley/dplyr", ref = "colwise") > library(d…

冗長性が低く重要度の高いパターンの抽出(1)

パターンマイニングはデータマイニングを代表する手法の一つで,特にアソシエーションルールを適用した「ビールとおむつ」などの例が有名です. 最近は,Rなどのデータ分析ツールでもAprioriやEclat(頻出パターンマイニング), CSPADE(系列パターンマイニング…

頻出アイテムセット間のJaccard係数の計算

Jaccard係数(Jaccard index, Jaccard similarity coefficent)は,2つの集合間の類似性を表す指標.パターンマイニングでは,2つの頻出パターンの共起を表す指標として用いられ,両方のパターンが現れるトランザクション数に対して,少なくとも一方のパターン…

knitr+LaTeXでPDFを作成するmakefile

R

以前,TokyoRで「RでReproducible Research」というタイトルの発表を行いました.Reproducible Researchとは再現性のある研究のことで,そのためには処理に再現性が担保されている必要があります.RでReproducible Researchを実現する上で,動的なレポート生…

Rcppによるbigmemoryの拡張

R C++

RのbigmemoryパッケージはC++で実装されているため,ユーザが新たな機能を開発して追加することが可能です.Rcpp Galleryの"Using bigmemory with Rcpp"(各列の合計値を算出する例)をそのまま実行してみます.BigColSums.cpp #include <Rcpp.h> // [[Rcpp::depends</rcpp.h>…

C++で統計解析

先月開催されたJapan.R 2013の懇親会で,「C++で統計解析を行うための良いライブラリは?」という話がありました.統計解析と一口に言っても結構広いので,ここでは以下の4つのカテゴリ 記述統計量(最大値,最小値,平均値,分散等) 統計的検定(t検定,χ2乗…

Million Song Dataset

あけましておめでとうございます.今年もよろしくお願いいたします.Rでbigmemoryやffなどを使用して大規模なデータを扱うときのサンプルデータとして,Data Expo 2009のフライトデータが用いられることが多いようです.しかし,このデータのサイズは約12GB…

米国フライトデータの元データの取得

Data Expo 2009でコンテストの題材とされた米国のフライトデータは,R界隈でも大規模データセットの例として頻繁に使用されます.上記のData Expo 2009のページで配布されているデータは,コンテストのために必要なデータ項目だけが抽出されています.元デー…

NOAA気象データセットの加工

NOAA気象データセットは,米国の国立気候データセンター(National Climatic Data Center; NCDC)が公開しているデータセットです.1900年から最新までのデータが公開されています.このデータセットに対して,以下のようなスクリプトを用いてCSV形式に変換し…

ウェブページのファイルの一括ダウンロード

サンプルデータの取得などで,ウェブページにリストアップされているファイルを一括ダウンロードしたいことがある.こんなときは,wgetコマンドを用いて,以下の2つの操作 再帰的にファイルを取得する回数を1回に指定 ファイルの拡張子の指定 を行えばよい.…

最新のTexLiveをインストールする方法

リンクのページを参照して,最新のTexLiveをインストールする. texlive-backports PPAの追加 $ sudo add-apt-repository ppa:texlive-backports/ppa aptレポジトリのアップデート $ sudo apt-get update texliveのインストール $ sudo apt-get install texl…

mlpyライブラリのインストール

mlpyライブラリをインストールするには,GSL(GNU Scientific Library)の開発環境が必要. $ sudo apt-get install libgsl0-dev続いて,このサイトからmlpyのソースコードをダウンロードして以下を実行. $ sudo easy_install mlpy-3.5.0.tar.gz

連続値データの離散化(R Advent Calendar 2013)

これは,R Advent Calendar 2013の8日目の記事です.2013年を振り返ってみると,Tokyo.Rの"シリーズ前処理"をたったの2回で途絶えさせてしまったことは大いに反省すべき点の一つです(^^;シリーズ前処理を途絶えさせたことは,2013年における痛恨の極みの一つ…

Rhpcパッケージを試す

R HPC

統計数理研究所で行われているRユーザ会で,中間先生と中野先生が開発中のRhpcパッケージのお話を聞きました.Rhpcは,snowやRmpiなどの既存の並列計算パッケージの問題点を解決して,スーパーコンピュータなどの大規模クラスター上で効率的に並列計算を行う…