最終更新日:
同氏によると、データサイエンス専用には設計されていないExcelをデータ分析に使うことに否定的なデータサイエンティストが少なからずいます。Excelを使うことを「恥」と考えるデータサイエンティストもいるほどです。
しかしながら、以下のような状況ではExcelは非常に有用なデータ分析ツールとなります。
- 表形式に整理された少量のデータを使って、簡単な計算をしたい場合
- データをデータサイエンティストではない人も分析可能なようにシェアしたい場合
- 整理されたデータを素早くグラフ化したい場合
以上のようにExcelは多くのデータサイエンスにおける問題に対応していないものも、有用なユースケースが依然としてある以上、この伝統的なソフトウェアを恥じることなく使うべき、と同氏は主張しています。
ExcelはRやPythonと比べると極めて原始的なツールであることは否めませんが、その使い勝手の良さから、データサイエンティストではない人がデータ分析を手っ取り早く実行できるツールとして生き残り続けるのではないでしょうか。
なお、以下の記事本文はTyler Folkman氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。
データサイエンティストとしてExcelを使っても恥じるべきではない理由
データサイエンティストがMicrosoft Excelを見下すのはよくあることだ。Pythonのようなプログラミング言語と比較すると、Excelは石器時代のツールのように思われる。。拡張性がなく、結果を再現するのも難しく、VBAマクロを書き始めると、Pythonを使っているのと変わらなくなる。
以上のような風潮があっても、Excelは生き残っている。データ分析を助けるために何らかの表計算ソフトを使わないビジネスなど考えられない。Joe Reis氏(※訳註1)は、以下のように言った。
Excelは今でもビジネスの世界の主力である。第三次世界大戦後でも、ゴキブリとExcelは生き残るだろう。
生き残り
ビッグデータとSparkやSnowflakeのようなセクシーなツールがある世界で、なぜExcelは生き残ってきたのだろうかと疑問に思うことだろう。地味なスプレッドシートが完全に廃れていないのはなぜなのだろうか?
私が思うに、Excelがデータを見たり分析したりするための最もユーザフレンドリーな方法のひとつだからだ。Excelは、What You See Is What You Get(WYSIWYG)(※訳註2)タイプの製品である。データを表形式で表示した状態でExcelを始めると、編集や数式の追加、ピボットテーブルの作成などを心ゆくまで行える。これらの変更を行うと、表示される内容が自動的に更新される。こうしたExcelの仕様は信じられないほど強力で、より親しみやすいものにしてくれる。
また、Excelは基本的な分析を非常に簡単かつ直観的に実行可能にしてくれる。列の平均がほしい?AVERAGE式を使えばいい。データの散布図を作成したい?データをハイライトして、「散布図」をクリックするだけでいい。このような使い勝手の良さは、信じられないほどのメリットとなっている。Excelこそ、企業がプログラミング言語を知らないスタッフにデータ分析とデータの可視化をうながすことを可能とするツールなのだ。私の考えでは、Excelは企業がデータ駆動型の文化を持つために役立つ、現存する最高のツールのひとつでなのである。
ちなみにGUI以前に主流であったインターフェースであるCUI(character user interface)では、WYSIWYGの原則は成立していない。CUIでは、ユーザが入力した文字コマンドとその結果がコマンドラインで表示され、印刷結果の表示時にもコマンド入力が必要であった。
データサイエンティストはExcelを使うべきか?
前節で述べた論点については、誰もが同意できると思われる。Excelは、基本的なデータ処理や分析を簡単かつ直観的に行うための便利なツールなのだ。
しかし ― Excelは、データサイエンティストのためのツールでもあるべきなのだろうか?
それとも ―データサイエンティストは、Excelよりも高度になり過ぎているのだろうか?データサイエンスは、Excelのようなソフトウェアにとっては洗練され過ぎているのだろうか?すべての問題はPythonやRで実行されるべきなのだろうか?
私が主張したいのは、すべてのデータサイエンティストがExcelを基本的に使いこなすべきであり、ツールとして使うことを恥じるべきでもない、ということだ。
私が「恥」と言葉を使ったのは、データサイエンティストがExcelを嫌うのはあまりにも簡単だからだ。Excelは、明らかにすべての問題に対応できるツールではない。おそらくほとんどのデータサイエンスの問題にも対応していないだろう。しかし、だからといって、Excelが必要ないということにはならない。私は以下のような状況でExcelが非常に有用だと感じている。
- 少量の表形式のデータを持っていて、簡単な計算をしたい場合。例えば、数百本のYouTube動画の再生回数をスプレッドシートにまとめているとしよう。この場合、Excelを開いて基本的な統計を計算した方がはるかに簡単で速いのだ。
- データサイエンティストではない人たちが簡単に分析できるような状態で、結果を共有する必要がある場合。
- きれいな表形式のデータをとても速くグラフ化したい場合。
注記:上記のすべての例では、繰り返しが予想されない一時的なリクエストであるものとする。再現可能な処理を作成する必要が出てきたら、分析が単純なものであってもプログラミング言語に移行することを推奨する。そうすることで、必要に応じた分析プロセスの再現性とスケーリングが格段に容易になる。再現性とスケーリングが容易でないことは、Excelにあるふたつの大きな欠点だ。
学習して先に進もう
この短い記事を読んで、Excelがデータサイエンスのツールボックスの中にあることを納得して頂ければ幸いである。もしあなたがExcelをあまり使ったことがないのであれば、ぜひExcelでCSVを開いてその機能を試してみよう。始めるのはとても簡単だ。
Excelの使い始め方についてのヘルプが必要な場合は、Microsoft社の無料チュートリアルを参照しよう。
最後に、Excelは多くのデータサイエンスプロジェクトには適したツールではないことも覚えておこう。大規模なデータセット、より高度な分析/機械学習、あるいは再現性のある処理の作成が必要である場合は、Excelは使用しないこと。そんな時は、お好みのプログラミング言語に戻ろう。
分析と可視化をPythonで始めるのを助けてくれるリソースが必要な場合は、私が作成したオンライン講座をチェックしてみてください。
そんなわけで、(まだExcelを使っていないならば)データサイエンスのツールボックスにこのもうひとつのツールを追加して先に進もう!
原文
『Don’t Worry, Excel is Surprisingly Effective』
Tyler Folkman氏公式サイト『Learning With Data』
Tyler Folkman氏の投稿記事リンクページ
著者
Tyler Folkman
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん