2013-12-01から1ヶ月間の記事一覧

米国フライトデータの元データの取得

Data Expo 2009でコンテストの題材とされた米国のフライトデータは,R界隈でも大規模データセットの例として頻繁に使用されます.上記のData Expo 2009のページで配布されているデータは,コンテストのために必要なデータ項目だけが抽出されています.元デー…

NOAA気象データセットの加工

NOAA気象データセットは,米国の国立気候データセンター(National Climatic Data Center; NCDC)が公開しているデータセットです.1900年から最新までのデータが公開されています.このデータセットに対して,以下のようなスクリプトを用いてCSV形式に変換し…

ウェブページのファイルの一括ダウンロード

サンプルデータの取得などで,ウェブページにリストアップされているファイルを一括ダウンロードしたいことがある.こんなときは,wgetコマンドを用いて,以下の2つの操作 再帰的にファイルを取得する回数を1回に指定 ファイルの拡張子の指定 を行えばよい.…

最新のTexLiveをインストールする方法

リンクのページを参照して,最新のTexLiveをインストールする. texlive-backports PPAの追加 $ sudo add-apt-repository ppa:texlive-backports/ppa aptレポジトリのアップデート $ sudo apt-get update texliveのインストール $ sudo apt-get install texl…

mlpyライブラリのインストール

mlpyライブラリをインストールするには,GSL(GNU Scientific Library)の開発環境が必要. $ sudo apt-get install libgsl0-dev続いて,このサイトからmlpyのソースコードをダウンロードして以下を実行. $ sudo easy_install mlpy-3.5.0.tar.gz

連続値データの離散化(R Advent Calendar 2013)

これは,R Advent Calendar 2013の8日目の記事です.2013年を振り返ってみると,Tokyo.Rの"シリーズ前処理"をたったの2回で途絶えさせてしまったことは大いに反省すべき点の一つです(^^;シリーズ前処理を途絶えさせたことは,2013年における痛恨の極みの一つ…