HOME/ AINOW編集部 /クラスタリングとは|概要からメリット・デメリット、活用事例まで紹介!
2021.09.13

クラスタリングとは|概要からメリット・デメリット、活用事例まで紹介!

クラスタリングは、顧客データの分析や商品のレコメンドシステムなど、社会に広く応用されている機械学習手法です。

分類アルゴリズムは、統計学やAIの分野で昔からさまざまなものが考案されてきましたが、クラスタリングはその最も成功した例の一つということができるでしょう。

しかし、読者の中にはクラスタリングについて詳しく知らない方もいるのではないでしょうか。

そこで今回は、機械学習の代表的な手法の一つである「クラスタリング」についての概要やメリット・デメリット、活用事例まで詳しく解説していきます。

▼機械学習について詳しく知らない方は、こちらの記事がおすすめです。

クラスタリング(Clustering)とは

クラスタリングとは、「データ同士の類似性によってデータをグループごとに分ける機械学習の手法」です。

その分類された各部分集合のことを「クラスタ」と言います。クラスタリングはクラスタ分析やクラスタ解析と呼ばれることもあります。

クラスタリングは、機械学習の手法の中でも「教師なし学習」に分類されます。各データに特徴を付与(ラベリング)する必要がないため、大量のビッグデータを自動で分類することが可能です。

今回はそんなクラスタリングについて、

  1. 分類とクラスタリングの違い
  2. 階層クラスタリング
  3. 非階層クラスタリング

上記3つの観点から解説していきます。

分類との違い

機械学習でよく耳にする「分類(classification)」と「クラスタリング(clustering)」は、どちらもデータ群を分類する手法であるため混同されることがあります。

クラスタリングは教師なし学習であるのに対して、分類(クラス分類)は教師あり学習です。

その違いは以下の図のように表すことができます。

 分類(教師あり学習)とクラスタリング(教師なし学習の違い)

このように、クラスタリングは特徴づけられていないデータをどのようにグルーピングしていくのかが問題になります。その方法は大きく分けて階層クラスタリングと非階層クラスタリングの2種類に大別されます。

階層クラスタリング

基本的な階層クラスタリングの方法では、適当な点に最も近接しているデータを順番にクラスタリグしていき、それを階層として一つの構造にまとめます。その構造は、端的に言ってしまえば樹形図となります。

では、実際に以下のA~Fのデータを用いて階層クラスタリングの方法を順に追っていきましょう。

階層クラスタリングの方法①

まず、最も近接しているAとBを一つのクラスタにまとめます。

階層クラスタリングの方法②

次に、AとBからなるクラスタ(赤)とC, D, E, Fの中から最も近接している2者を一つのクラスタにまとめます。ここでは、DとEをクラスタ(青)にします。

階層クラスタリングの方法③

続いて、クラスタ(赤)、クラスタ(青)、C、Fの中から最も近接している2者を一つのグループにまとめます。ここでは、クラスタ(赤)とCをクラスタ(緑)にまとめます。以下同様に、クラスタ(青)とFをクラスタ(黄)にまとめます。

階層クラスタリングの方法④

最終的に、すべてのクラスタを包摂するクラスタ(紫)を定めて分析を終了します。

階層クラスタリングの方法⑤

これらの構造を階層に表すと、以下のような樹形図になります。

階層クラスタリングの構造を表した樹形図

今回の例では「2者がどのくらい近接しているか」を厳密に定義せずに話を進めましたが、その「クラスタ間距離」を決める方法にはいくつかのバリエーションがあります。

群平均法

群平均法を表した図

群平均法は、クラスタを構成するサンプル間距離の平均をクラスタ間距離とする方法です。精度を狂わせる要因である外れ値や異常値に強く、分析が安定しています。そのため、クラスタ間距離を定める方法として、一般的に用いられる手法です。

最長距離法・最短距離法

最長距離法・最短距離法を表した図

あるいはシンプルに、各クラスタを構成するサンプルの中で最も遠いもの同士の距離をサンプル間距離とする手法を最長距離法と言います。また、最も近いもの同士の距離をサンプル間距離とする手法を最短距離法と言います。

これらの手法は計算量が少ない一方で各々にデメリットを抱えているため、実際に用いられることはあまり多くありません。

ウォード法

結合前のクラスタ内の全てのサンプルと重心間の距離についての2つのクラスタの和と、結合後のクラスタ内の分散との差が最小になるような、新たなクラスタを作る手法をウォード法と言います。この手法は、精度が優れている一方で計算量が非常に大きくなってしまいます。

非階層クラスタリング

非階層クラスタリングとは、その名の通り、データを階層的な構造(樹形図など)にまとめることなくクラスタに分類する方法です。

前述の階層クラスタリングでは、考えられる組み合わせをすべて計算しなくてはならないため、計算量が膨れ上がり、ビッグデータの解析には適していないとされています。

非階層クラスタリングでは、分類するクラスタの数をあらかじめ人為的に定めてから計算の分析を開始します。その最も代表的な手法として、k-means法が挙げられます。

k-means法

k-means法では、まずサンプルの集団に対してランダムにk個の重心点(核)を定めます。

k-means法の方法①

すべてのサンプルとk個の核との距離を計算し、各サンプルを最も近い核に分類します。

k-means法の方法②

次に、クラスターごとの重心点を求め、それを新たなk個の核にします。再びすべてのサンプルとk個の核との距離を計算し、各サンプルを最も近い核に分類します。

k-means法の方法③

このステップを重心点が移動しなくなるまで繰り返します。重心点が更新されなくなったとき、計算は終了です。

クラスタリングのメリットとデメリット

数ある機械学習の手法の中で、クラスタリングは古典的でありながら比較的安定した性能を持っています。以下では、クラスタリングのメリットとデメリットについて述べていきます。

階層クラスタリングと非階層クラスタリングの比較

階層クラスタリング 非階層クラスタリング
計算量 多い 少ない
クラスタ数 自由 事前に指定する必要がある
固有の問題 計算量が多い 初期値依存

先述のように、階層クラスタリングはクラスタ数を事前に決める必要がない一方で、計算量が膨大になってしまいます。したがって、階層クラスタリングはビッグデータの処理には不向きです。

非階層クラスタリングは計算量が少ない一方で、事前に人為的にクラスタ数を指定しなければなりません。

また、k-means法では最初の核(重心点)次第で結果が大きく変わってしまうことがあるため、安定した結果を得ることが難しくなります。この現象を「初期値依存」と呼びます。

次元の呪い

クラスタリングの問題点として挙げられるのは「次元の呪い」です。

次元(説明変数の数)の多いデータを対象に計算する場合、その計算量は次元の数に対して指数関数的に増加していきます。

膨大な次元に対して各データがそこまで分散していないデータ(各次元の相関関係が比較的強いデータ)、あるいはデータ量が少ないものをクラスタリングする場合、「次元の呪い」によって過学習が発生する可能性が高まります。

k最近傍法など、次元の呪いはクラスタリングだけでなく、他の様々な手法にもみられる代表的な問題です。これらの分析では計算の過程で次元数がどんどん増えていくため、過学習が発生しえます。また、ディープラーニングの分野でも同じ問題が指摘されています。

クラスタリングの活用事例

クラスタリングは、樹形図や色の塗分けなどで結果をわかりやすく可視化できるため、マーケティングや商品アピールなどの非技術的な分野でも広く用いられています。

会社や営業の戦略立案

例えば、顧客データを分析することで、属性の似た顧客の集団を分析できます。その集団ごとに戦略を立てて商品や情報をアピールすることで、より効率的なマーケティングが可能です。

あるいは、他社の顧客データと比較することで、自分の会社の顧客がどの集団(クラスタ)に属しているのかを判断できます。こうしたデータをもとに、会社のブランディングを強化できるでしょう。

画像分類・音声分類

画像データや音声データからなるビッグデータをクラスタリングすることで、似た傾向にあるデータを分類できます。

例えば、比較的類似したリズムや調性を持つ音楽を分類することで、「夜に聴く音楽」や「気分を上げたいときに聴く音楽」といった属性を持つクラスタを作り出すことが可能です。

まとめ

クラスタリング、特にk-means法のような非階層クラスタリングは、シンプルなアルゴリズムでありながら複雑な分類問題にも対応していて、実に鮮やかな手法であると言えます。

その一方で、「次元の呪い」に代表されるような典型的なAIの問題を抱えています。

こうしたクラスタリングの問題点を克服する試みは今なお続いており、最近では「DeepCluster」や「SeLa」のような新手法が注目を集めました。クラスタリングは今後ますますの発展が期待されています。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

シリコンバレーにおけるデータサイエンティストの仕事とは?

Pocとは

PoCとは?導入するメリット・デメリット、進め方をわかりやすく解説!

【江間有沙氏・特別インタビュー】AIを考えるとは、住みたい社会を考えること -AIと社会のこれから

DX銘柄2021の選出企業一覧|選ばれるポイントから取得の秘訣まで

DXセミナーについての解説記事アイキャッチ画像

≪2021年開催≫無料のDXセミナー/DX人材に必要なスキルや採用のポイントも紹介

「教師とAI、協調的な学習支援が必要に」コロナ禍を通じて変化する教育とは -第6回 人工知能学会誌コラボ

画像認識AIモデルを開発するカオピーズが第5回 AI・業務自動化 展【秋】に出展

先週のAI関連人気ツイートTOP20!【2021/10/18更新】

あなたにおすすめの記事

シリコンバレーにおけるデータサイエンティストの仕事とは?

Pocとは

PoCとは?導入するメリット・デメリット、進め方をわかりやすく解説!

【江間有沙氏・特別インタビュー】AIを考えるとは、住みたい社会を考えること -AIと社会のこれから

DX銘柄2021の選出企業一覧|選ばれるポイントから取得の秘訣まで

DXセミナーについての解説記事アイキャッチ画像

≪2021年開催≫無料のDXセミナー/DX人材に必要なスキルや採用のポイントも紹介

「教師とAI、協調的な学習支援が必要に」コロナ禍を通じて変化する教育とは -第6回 人工知能学会誌コラボ

画像認識AIモデルを開発するカオピーズが第5回 AI・業務自動化 展【秋】に出展

先週のAI関連人気ツイートTOP20!【2021/10/18更新】