こんにちは、AINOW編集部です。
初めて機械学習を勉強する方の中には「機械学習の回帰は難しそうだし、よく分からない」と思っている方も多いのではないでしょうか?
機械学習の回帰は、機械学習の代表的な分析手法である一方、その難易度の高さから少し取っ付きにくさを感じる方もいるかもしれません。
そこで今回は、機械学習の初学者や中級者に向けて「機械学習の回帰」の概要やメリット・デメリットなど詳しく解説していきます。
記事の後半では、機械学習の回帰を学べるコンテンツについても紹介していますので、ぜひ最後までご一読ください。
目次
機械学習における回帰とは
回帰とは
機械学習における回帰とは、「連続値を使い、ある数値から別の数値を予測すること」です。
例えば、過去の気温から明日の気温を予測することや企業における売り上げの予測などが回帰に当てはまります。
回帰の特徴は、「データがないところまで予測できる」ということです。それにより、過去のデータから今後の数値を予測することが可能になります。
回帰と分類の違い
回帰と分類の違いを一言で表すと、「連続値を使って別の数値を予測するか、非連続値つまり離散値を使って振り分けるか」です。
回帰が売り上げや降水確率など数量を扱う学習方法である一方、分類は「画像に写っているのが犬か猫か判定する」など、分析したいデータが属するカテゴリーやクラス、種類が何なのかを判定する手法になります。
ひとまずは、「回帰は数値を予測するもの、分類は振り分けるもの」と覚えておくと良いでしょう。
このように回帰と分類は分析方法のプロセスに違いがありますが、おおもとの学習手法はどちらも教師あり学習です。
▶機械学習においての分類とは?代表的なアルゴリズムやメリットも解説!>>
教師あり学習とは
前述の通り、回帰と分類は、機械学習における教師あり学習というグループに属しています。
この教師あり学習は、どういったものなのでしょうか。そもそも機械学習には、大きく分けて3つのグループが存在します。
この中で教師あり学習は、「学習データに正解を与えた状態で学習させる手法」です。この学習過程は、教師と生徒の関係に準えることが可能なため、「教師あり」学習と呼ばれます。
一方、教師なし学習は「学習データに正解を与えない状態で学習させる」、強化学習は「機械がとる戦略を学習しながら改善していく」手法です。
それぞれの学習手法については、他の記事で詳しく解説しているので、興味のある方はご一読ください。
▼機械学習の学習方法について詳しく知りたい方はこちら
代表的な機械学習の回帰の2種類
代表的な機械学習の回帰アルゴリズムは、以下の2種類です。
線形回帰
線形回帰とは、グラフ上でデータが分布しているとき、分布したデータの散らばりに最も近い直線のことです。機械学習においては、AIに学習させ直線を求めます。この直線のことを回帰直線と呼びます。
決定木
決定木とは、木の構造を用いて回帰を行うアルゴリズムのことです。決定木は分類と回帰のどちらも行えます。回帰を用いた決定木の場合は「回帰木」と呼ばれ、数値を予測することに使えます。
回帰を用いた決定木の場合、ある数値よりも上か下などに順々に2つに分かれていきます。データは木構造で分けていますが、連続した数値を予測するため、分類ではなく「回帰」となります。
決定木は、回帰の他に分類やクラスタリングなどにも使用できます。また決定木の派生にランダムフォレストがあります。
▶AIのアルゴリズムとは?|図を用いてわかりやすく解説!>>
▶機械学習の代表的なアルゴリズム12選|機械学習の学習手法まで紹介!>>
機械学習の単回帰と重回帰とは
回帰の種類には、単回帰と重回帰の2つがあります。その特徴は以下の通りです。
単回帰
単回帰は、1つの説明変数から1つの目的変数を予測するものであり、「Y=AX+B」で表すことが可能です。散布図からこの直線を決定することが一般的です。
その例として、気温のデータと暖かい飲み物の売り上げが挙げられます。
同事例は、気温のデータを説明変数として、暖かい飲み物の売り上げのデータを予測します。このときの暖かい飲み物の売り上げデータは目的変数といいます。
重回帰
重回帰は、複数の説明変数から1つの目的変数を予測するものです。
例えば、観光地の旅行者数という目的変数を導き出すのに、観光地のウェブサイトの訪問者数やその地域の物価、観光施設や名所の数といった複数の説明変数を使うといったことです。Y=A₁X₁+A₂X₂+A₃X₃+・・・+A₀といった式になります。
重回帰は、基本的には3次元以上の多次元となることがほとんどであり、グラフで表すことが困難です。
回帰のメリット
回帰のメリットは、以下のようになります。
統計的に根拠のある予測ができる
回帰は数値を用いた分析手法であるため、統計的に根拠がある予測が可能となります。
例えば、気温を予測する際、なんとなくこの予測が出てきたのではなく、過去にこういうデータがあるから、明日はこのような気温になるだろうといった説明ができるようになるため、その予測に信頼性が出てきます。
データが存在しないところまで予測できる
単回帰で例を挙げれば、直線式にデータを当てはめるためデータが存在しないところまで予測できます。
例えば、今週のデータを使って来週の雨の確率を予測してみるといったことです。
データをグラフで表示できる
先ほどの単回帰の例でも述べたように、回帰は式にデータを当てはめて予測します。これはどのような変化をするのか視覚的にも分かります。
単回帰で例を挙げれば、データは散布図に表されます。そこに最も近い直線を導き出します。その直線の傾き等を視覚的に見れば、どのような変化をするのかを把握できるのです。
回帰のデメリット
回帰のデメリットは、「数値を用いるため、読み取って扱えなければ予測できない」ということです。
回帰のメリットとして、単回帰はグラフで表せることを説明しました。
しかし、重回帰では多次元のグラフとなるため、基本的にグラフで表せないことがほとんどです。そのため、データを読み取って、そのデータを扱うことが必須となります。
そのため、回帰を行う際は統計学や線形代数などの数学の知識を勉強しておくとよいでしょう。
回帰を用いることが出来る代表的なPythonでのライブラリ
機械学習における代表的なPythonのライブラリとしてscikit-learnが挙げられます。
scikit-learnは、サンプルデータがあらかじめ付属しており、初学者でもすぐに機械学習を学び始められます。
また、scikit-learnには、アルゴリズム・チートシートというものがあります。このシートを活用すると、質問に答えるだけで最適なアルゴリズムを導き出すことが可能です。
▶機械学習ライブラリを一挙紹介!|初心者におすすめのライブラリ5選>>
機械学習の回帰を学ぶ方法
学習サイトで学ぶ
1つ目は、「学習サイトで学ぶ」ということです。
学習サイトを活用すると、段階を踏んで機械学習について学ぶことができます。また、無料から有料まで選択肢が広いことが特徴です。
おすすめの学習サイトとして「AI Academy」が挙げられます。AI Academyは、実際にAIを作りながら学べるので、分からない部分を効率的に学習できます。
もう1つ挙げるとすると、「Udemy」です。Udemyは、質の高いコンテンツを用意しており、多くのコンテンツがあるので、自分に合ったものが見つかるでしょう。
書籍で学ぶ
2つ目は「書籍で学ぶ」です。
書籍で学ぶ場合のメリットとして、専門家が書いた詳細な情報が学べることとメモを書き込めるといったことが挙げられます。
書籍は専門家が書いて、編集部の情報チェックが入ります。だから、信頼性が高いというメリットがあります。
また、紙の書籍の場合、メモを書き込めるので、どこで自分がわからなかったのかを後で確認することができます。電子書籍の場合、持ち運びやすいといったことがメリットとなります。
おすすめの本はこちら:「図解即戦力 機械学習&ディープラーニングのしくみと技術がこれ1冊でしっかりわかる教科書」
▶【2021年版】AI関連のおすすめ本15冊をランキング形式でご紹介>>
スクールで学ぶ
3つ目はスクールで学ぶといったことです。スクールで学ぶには、オンラインで学ぶといったことと対面で学ぶといったことがあります。
オンラインで学ぶスクールでは、動画配信で好きな時に学べます。また、対面で学ぶスクールでは、大学や専門学校などの教育機関もあります。
オンライン・オフラインどちらのスクールでも、エンジニアや専門家に直接質問できるといったメリットがあります。
おすすめのオンラインスクールは「AI ジョブカレ」です。このオンラインスクールはAIについて体系的に学ぶことができます。
入門者やあらためて学びたい人などによいでしょう。
▶AIを学べるスクールおすすめ5選|メリット・デメリット、選び方まで紹介>>
おわりに
本記事では、機械学習の回帰について解説しました。いかがだったでしょうか?
回帰と分類の違い、教師あり学習のグループであることを確認してみてください。ディープラーニングともかかわりがある分野ですので、初学者の方はぜひ理解してみてください。
みなさんの学びが進むことを願っています。