ブルーバックス初!待望のR入門書が発売!RとExcelを改めて比べてみた

近頃、ビジネスシーンでも話題の「データ分析」。手近なExcelでも多彩な分析が可能だが、ビッグデータを含めた複雑な分析となると、何かとあたまが痛いのも本音。そんな本格志向のビジネスパーソンも納得の機能を備えた、無料の統計プログラムがあるのをご存じだろうか? 理系研究者の間で長年、愛用され、いまではプロのデータサイエンティストから金融アナリストまで幅広い分野の人々に注目されている「R」の世界を解説する(文・深澤祐援)。
(RとExcelの違いについては、Excelはなぜ研究に向かないのか?Rに転換した方がいい理由でも詳しく解説している。)

「データ分析」大変ですよね…

データ分析の話題、よく耳にする機会ありませんか。

あなたが何らかのビジネスに関わっていることを前提としましょう。

ビジネスには常に商品と、それを必要とする顧客が存在しています。同時に、商品と顧客に関するデータが発生します。

ビジネスが大きくなっていくとどうなるでしょうか。当然扱うデータもどんどん増えていき、その規模も大きくなっていきます。ビジネスを成長させていくためには、顧客や商品に関するデータから傾向をつかみ、それを生かしていくことが必要です。

そこで登場するのがデータ分析です。何かしらのビジネスに関わっているかぎり、データ分析のスキルを持っていることは大きなアドバンテージになります。

さて、あなたがデータ分析しようと思ったとき、どんなツールを使うでしょうか。すぐに思いつく手段はおそらくExcelではないでしょうか。

Excelは定番ソフトですし、とても簡単に使えて、それでいて数値計算に限らずさまざまな用途に使うことができる非常に便利なツールであることについては、誰もが頷くところでしょう。しかしExcelは万能なツールではありません。以下に挙げる三つの課題が存在しています。

(1)大規模データへの対応

大きなデータを扱っているときや、たくさんのシートにまたがって使っているときなど、データ数が一定以上になると、Excelは挙動が一気に不安定になりますよね。Excelでは、一定規模以上のデータに対する分析は難しいと感じている人もいるのではないでしょうか。

(2)再現性の乏しさ

また、分析を実施した際の手順は基本的に残りません。手順をシート内のどこかにメモしているかもしれませんが、その手順を実行するのは、マクロを使わない限りは一回ごとに手動です。ミスをした場合には、もう一度やり直さなければなりません。

(3)限られた分析アルゴリズム

Excelがデフォルトで備えている分析用のツール(アルゴリズムといいます)は、回帰分析や各種検定、相関分析がメジャーなところでしょう。もしあなたが実行しようとしている分析がExcelですぐにできるのであれば、もちろん問題ありません。

しかし、たとえば「自社webサイトの訪問者数という時系列データに関する分析をしてレポート出して」というオーダーが来たとしましょう。全体のトレンドや、季節による影響がないかどうかなどの分析もしなければなりません。こうなると、Excelですぐに実行するのは難しくなります。

Excelの分析ツールだけでは対応できない場面や、標準で備わっている以外の分析方法を実行したい場合には、数式やVBAを駆使して自分でその分析方法を実装する必要があります。しかし、それは簡単にできることではありません。

あなたが実施したい分析において、もしこのように

・大規模なデータを扱い
・分析手順が保存できて
・ある程度複雑な分析をしたい

という三つの観点が必要とされているのであれば、Excel以外のツールにも目を向けてみませんか。本記事ではその選択肢の一つとして、「R」というツールを紹介したいと思います。

データ分析最強ソフト「R」の実力

Rは、統計分析に特化したプログラミング言語です。プログラミング言語、というくくりではありますが、統計分析に特化したシンプルな作りになっています。

取っ付きやすさの大きな要因になっているのは、データフレーム、という考え方です。データフレームは列と行という表形式になっていて、Excelで扱うデータ形式と似ているため、Excelに慣れ親しんでいる人であれば、少し使ってみるだけでRに対する違和感はすぐに消えることでしょう。

しかもRは決してマイナーなツールではありません。研究者やデータサイエンティストの間では、分析のツールとして非常にポピュラーです。またRはオープンソースであり、世界中のユーザによって日夜開発が進められ、日々進化しています。

そういうとプロの分析者が使うツールだと思われがちですが、実際にはExcel以上に簡単に、かつExcelだけでは対処が難しい問題を解決できます。フリーのツールなので導入もスムーズです。

さきほどExcelに対してあげた三つの問題点である

・データ量が膨大になると動作が不安定
・一度やった分析を保存できない
・すぐに実行できる分析ツールが限られている

について、Rだとどのように対応しているのかみていきます。

(1)大規模データでも軽快に動く

Excelで扱うことができるデータ量ですが、Excel2013では最大行数は1,048,576行、最大列数は16,384列となっています。ただし、実際にはこれ以下の数十万件レベルで動作が不安定になります。

対してRで扱うことができるデータ数は、1000万行程度×400列であれば、PCのスペックにも依存しますが、たいていは動作も軽快です。Excelでは動作が不安定だったデータ量でも、Rならば動作は常に快適です。

(2)分析手順が残るので、やり直しも簡単

Excelの場合は分析手順は基本的に残らないので、自分で記録を取っておく必要があります。手順の実行は基本的に手動です。

対してRはプログラミング言語なので、当然処理の過程がコードとして全て残ります。どこか間違っていても、そこを修正してまたボタン一つで全ての処理をやってくれる。グラフを描く過程もコードにできます。

(3)最新の分析ツール(アルゴリズム)が使える

Excelはマイクロソフトの製品なので、バージョンアップもマイクロソフト次第です。

対してRはオープンソース。全世界から有志が開発に参加しているので、日々改修が行われています。学会で発表された最新のアルゴリズムも、すぐにパッケージがリリースされ、そのパッケージをインストールしさえすればすぐに使えるようになっています。

来月の売上予測も簡単にできる

たとえば以下のようなデータがあったとします。1949年1月から1960年12月までの、ある飛行機の搭乗者数(人数)です。なお、これはRに組み込まれているサンプルデータで、コマンド一つで呼び出せます。

[図1]飛行機搭乗者数のグラフ

ここではARIMAという、時系列予測の中では基礎的なものですが、強力なアルゴリズムで予測をしてみます。

[図2]飛行機搭乗者数(1959年までのデータで1960年以降を予測)のグラフ

さて、このような形で予測ができました。1959年までの実測値を使ってモデルを学習させ、1960年以降の実測値を予測した結果です。青色の点線を赤色の実測値に重ねていますが、両者に大きな乖離はなく、おおむね予測が成功していることがわかります。

この分析を、Rならば3行で実行できます。

[図3]Rの実際のコード

データはRにすでに組み込まれているものをそのまま使えるので1行、次の1行は、読み込んだデータが時系列データということをRに認識させるための準備です。ARIMAの予測自体は1行で完了します(画面では見やすさのため改行表示していますが、プログラムコードとしては1行です)。

グラフの描画をする場合は、別にコードが必要になりますが、同程度の行数の簡単なコードでグラフも描画できます。また、データを理解するための手法も手軽に利用できます。たとえば全体のトレンドを抽出すると次のようなグラフになります。

[図4]飛行機搭乗者数(トレンド)

季節による一定の周期性があることも表現できます。

[図5]飛行機搭乗者数(季節の影響)

このグラフ化も、たった3行で実行できます。

[図6]Rでグラフ化した際のコード

しかもこれらの過程は全てコードとして残っています。データだけ変えて同じ分析をしたい、データを増やしたのでもう一度分析したい、そうした場合もすぐに対応可能です。

マーケティングでも威力を発揮

今回はRのサンプルデータを使いましたが、実際にこうした時系列のデータはたくさんあるのではないでしょうか。webサイトのPV数、店舗の来客数、株価などなど、例を挙げれば枚挙にいとまがありません。

また今回扱ったデータは200弱程度なので、もちろんExcelでも同様の分析を行うことが可能です。しかし、「これができるならもっと大きなデータに対しても同じことをやりたい!」と思ったときに確証が持てないですよね。

データ数が1万規模になると動作が重くなるかもしれないし、しかも分析の過程は再現可能な形で残っていませんから、同じ操作をやり直すにはイチから手動で実行しないといけません。

その過程でExcelが固まってしまったり、データの保存を忘れていたりしたら、分析自体を最初からやり直さないといけません。

繰り返しになりますが、Rならばこうした点に悩まされることはありません。データ分析に興味があって、Excelしか使えないのはもったいないです。この機会に「Rを使ってみる」という選択肢について少し検討してみてはいかがでしょうか。

「R」入門の近道、あります

本稿では、Rがいかに優れているかを、Excelとの対比で述べてきました。

しかし、いくらシンプルであるとはいえ、Excelを使い始めたときがそうだったように、最初はその使い方に一通り目を通してみる必要があるのも事実です。

インターネットで検索して情報を集めることも重要ですが、学び始めるにあたっては内容が体系だってまとまっている書籍から入ることをおすすめします。

ここでは、ブルーバックスの『統計ソフト「R」超入門』を紹介します。

プログラミング言語に対して苦手意識がある人も少なくないでしょう。しかし、この本の中では「Rコマンダー」というRの操作を補助するGUIツールをメインに使っています。統計理論をなぞりながらRの操作に慣れていきたい、という初学者におすすめできる内容になっています。

 

LabBase「ラボベース」は研究内容やスキルを登録しておくだけで、スカウトなどを通して企業とつながれます。さらに、研究生活の困りごとを解決したり、学生間や産学間の交流を促進する機能が追加される予定です。

研究内容に興味を持った企業と、スカウトやアピールを通してつながれるLabBaseの登録はこちら!

学術の関連記事
  • ぜんそく薬でアルツハイマー治療?米大学がマウスで実証
  • 「湿度が高いとインフルに感染しない」は確実か?常識くつがえす研究結果が発表される
  • べき則が現れる世界を紐解く!新しい統計手法「超一般化中心極限定理」とは?
  • アルコールに適量なし……「少量でも健康に影響あり」超大規模研究で明らかに
  • ネアンデルタール人の脳をミニチュアで再現する——最新の生命科学テクノロジーが明らかにする人類史の謎
  • 研究者の情熱を社会にひらく論文解説プラットフォーム「論文ナビ」
おすすめの記事