2013-01-01から1年間の記事一覧

米国フライトデータの元データの取得

Data Expo 2009でコンテストの題材とされた米国のフライトデータは,R界隈でも大規模データセットの例として頻繁に使用されます.上記のData Expo 2009のページで配布されているデータは,コンテストのために必要なデータ項目だけが抽出されています.元デー…

NOAA気象データセットの加工

NOAA気象データセットは,米国の国立気候データセンター(National Climatic Data Center; NCDC)が公開しているデータセットです.1900年から最新までのデータが公開されています.このデータセットに対して,以下のようなスクリプトを用いてCSV形式に変換し…

ウェブページのファイルの一括ダウンロード

サンプルデータの取得などで,ウェブページにリストアップされているファイルを一括ダウンロードしたいことがある.こんなときは,wgetコマンドを用いて,以下の2つの操作 再帰的にファイルを取得する回数を1回に指定 ファイルの拡張子の指定 を行えばよい.…

最新のTexLiveをインストールする方法

リンクのページを参照して,最新のTexLiveをインストールする. texlive-backports PPAの追加 $ sudo add-apt-repository ppa:texlive-backports/ppa aptレポジトリのアップデート $ sudo apt-get update texliveのインストール $ sudo apt-get install texl…

mlpyライブラリのインストール

mlpyライブラリをインストールするには,GSL(GNU Scientific Library)の開発環境が必要. $ sudo apt-get install libgsl0-dev続いて,このサイトからmlpyのソースコードをダウンロードして以下を実行. $ sudo easy_install mlpy-3.5.0.tar.gz

連続値データの離散化(R Advent Calendar 2013)

これは,R Advent Calendar 2013の8日目の記事です.2013年を振り返ってみると,Tokyo.Rの"シリーズ前処理"をたったの2回で途絶えさせてしまったことは大いに反省すべき点の一つです(^^;シリーズ前処理を途絶えさせたことは,2013年における痛恨の極みの一つ…

Rhpcパッケージを試す

R HPC

統計数理研究所で行われているRユーザ会で,中間先生と中野先生が開発中のRhpcパッケージのお話を聞きました.Rhpcは,snowやRmpiなどの既存の並列計算パッケージの問題点を解決して,スーパーコンピュータなどの大規模クラスター上で効率的に並列計算を行う…

Applied Predictive Modeling

Max KuhnとKjell Johnsonによる"Applied Predictive Modeling"が届きました.一通りパラパラ読んだ段階ですが,現時点での感想を記しておきます.Applied Predictive Modeling作者: Max Kuhn,Kjell Johnson出版社/メーカー: Springer発売日: 2018/04/27メデ…

変数のメモリアドレスを調べる

R

Rで変数のメモリアドレスを調べるためには,Hadley Wickham先生が開発しているpryrパッケージを使用するのが便利. # install_github関数を使用するためにdevtoolsパッケージのインストール install.packages("devtools") library(devtools) # pryrパッケー…

R言語上級ハンドブック

R言語上級ハンドブックを一通り読了しました.R言語上級ハンドブック作者: 荒引健,石田基広,高橋康介,二階堂愛,林真広出版社/メーカー: シーアンドアール研究所発売日: 2013/09/25メディア: 単行本(ソフトカバー)この商品を含むブログ (9件) を見る本書は…