”R”で実践する統計分析|序:R(アール)とは?【外部寄稿】

  • f
  • t
  • p
  • h
  • l
eyecatch_withR_statistics

Rの分析手法や使い方を連載形式でご紹介します(※外部寄稿)

本連載は、Yuu.Kimy氏にご寄稿頂いて、Rでの分析手法やその使い方について紹介していきます。初回である今記事は「Rの概要」について説明します。

「R(アール)」とは?

数年前程から、「ビッグデータ」や「データ活用」といったキーワードがにわかに注目されてきたのは周知の通りですが、その流れの中で、統計解析言語である「R」にも注目が集まってきました。Rは、他の言語と異なり、統計解析/データ解析に特化したプログラム言語及び分析環境です。

基本統計量(平均、分散、標準偏差等)は勿論のこと、様々なデータマイニング手法で分析することが出来、優れた分析環境を提供してくれます。例えば、「回帰分析」は、標準で搭載されていますし、「k-means」といったクラスタリングや「決定木」、「SVM(サポートベクトルマシン)」や「時系列分析」など、挙げていけばキリがない程の沢山の分析手法を利用することが出来ます。しかも、分析作業そのものにおいては、ほんの数行のRコードを書けば、実行できます。

また、データの視覚化(ヴィジュアル化)の機能にも優れており、様々なグラフを描くことが出来るのも魅力の一つです。よく使われる「棒グラフ」や「折れ線グラフ」は当然描けますし、散布図やヒストグラムや箱ひげ図も描けてしまいます。Excelでは描くのが難しいグラフをRコードを数行実行さえすれば描けるのです。(それ以上のコードが必要な場合もありますが..)

 

 

# 上記のグラフは、Rのデモ機能のグラフから抜粋しています。

そして、何より、Rは、全て「無料」です。何故なら、オープンソースとして公開されているからです。開発コミュニティも活発で、現在も、各種多様なパッケージが公開され続けています。
# 「パッケージ」とは、R環境の機能を拡張したり、使い易くするためのライブラリを意味します。

上記のような背景もあり、最近では、Rのハンズオンセミナーや勉強会が開催されるなど、人気が急上昇しています。

Rのインストール

今回は、まずRの環境を整えておきたいと思います。Rは、基本的に、Windows、Mac、Linuxのどの環境でもインストールすることができます。ここでは、Windowsを利用していると仮定して、インストール作業を進めていきたいと思います。Macも、インストールは作業はWindowsと同じです。

# Linuxサーバについては、少し段階を踏んで、インストールをする必要があります。こちらは、別途書く機会を見つけたいと思います。

最初に、Windows用のインストーラをダウンロードします。下記のサイト(九州大学 大学院システム情報科学研究院 金子 邦彦 研究室 Web ページ)が参考になるかと思います。

http://www.kkaneko.com/rinkou/r/rinstall.html

# 現在(2014.06.30時点)の最新版は、R3.1.0となります。

インストーラをダウンロードしたら、後は、実行するだけです。簡単ですね。

インストーラを実行後、「言語の選択」ダイアログが表示されますので、「日本語」を指定するのを忘れずに。また、現時点で、Windows Vistaを使用されている方は、あまりいないと思われますが、VistaにRをインストールした場合、上手く動作しない場合があるので、注意が必要です。

http://www.okada.jp.org/RWiki/?R%20%A4%CE%A5%A4%A5%F3%A5%B9%A5%C8%A1%BC%A5%EB#h4666b84

Rの実行

インストールが完了したら、後は、メニューから「R」を実行するだけです。問題無くインストール出来ていたら、以下のようなコマンド画面が表示される筈です。

# 筆者の環境では、R3.0.2を利用しています。

Rの操作

次にRの操作の基本を説明していきます。基本的に、Rは、コマンドベースで分析を実行していきます。ですから、普段から、プログラムやスクリプトを書かれている方であれば、馴染み易いかと思います。次回以降、実際にRを操作していくので、今回は、簡単な紹介に留めておきます。

①デモ画面を参照する場合
例えば、上記で紹介したようなデモ画面を参照するには、
>demo(graphics)
と入力し、実行してください。
リターンキーをクリックする度に、デモのグラフが表示されるかと思います

http://itbc-world.com/home/rfm/r%E3%82%92%E4%BD%BF%E3%81%8A%E3%81%86/demo%E3%82%92%E8%A9%A6%E3%81%97%E3%81%A6%E3%81%BF%E3%82%8B/

②Rを終了する場合
画面右の「×」ボタンのクリックでも良いですが、コマンドに慣れるため、以下で試してみます。
>q()
ワークスペースを保存しますか?といった旨のダイアログが表示されると思いますので、今回は「いいえ」を選択します。

さて、Rの環境は、無事に整ったことを確認できましたでしょうか?

次回からはRによる回帰分析の実践について書いていきます。次回もお付き合い頂けたら幸いです。

【参考】RStudio

R環境は、既にインストールされたわけですが、もう少し見易く、使い易くしたい、という方がいらっしゃるかもしれません。その際は、Rの統合開発環境である「RStudio」を導入しましょう。RStudioは、Javaという言語に対するEclipseという統合開発環境(IDE)に該当します。

以下のサイトからインストーラをダウンロードし、実行してください。Windowsであれば、「RStudio 0.98.953 – Windows XP/Vista/7/8」のリンクをクリックし、インストーラをダウンロードします。
http://www.rstudio.com/products/rstudio/download/

インストール完了後、起動し、以下の画面が表示されましたでしょうか?

基本的に、画面の中に4つのウィンドウが表示されており、左下がコマンド入力画面(及び結果の出力画面)になります。新しくパッケージをインストールしたり、パッケージをR環境に読み込んだり、ファイルのデータを読み込んだり、といったRでの操作性を向上させてくれますので、余力のある方は、是非、インストールすることをおススメします。

 

【当記事は、ギックスの分析ツールアドバイザーであるYuu.Kimy氏にご寄稿頂きました。】

Yuu.Kimy
ギックス分析ツールアドバイザー。普段は、某IT企業にてデータ活用の検討/リサーチ、基盤まわりに従事。最近の関心事は、Rの{Shiny}パッケージのWebアプリ作成、Pythonによるデータ分析、機械学習等々。週末は、家事と子どもの担当をこなす(?)家庭にやさしいエンジニア(の端くれ)。
【個人ブログ】http://yuu-kimy-note.hatenablog.com/

  • f
  • t
  • p
  • h
  • l