機械学習を用いた画像処理の全て｜4種の処理手法・活用事例を解説

スマートフォンで写真加工技術が向上するなど、近年は画像処理が身近になってきています。そのため、機械学習の画像処理にはどのような処理方法があるのか、どのように活用されているのか、知りたい人も多いと思います。

ここでは、機械学習の概要から画像処理の処理方法、活用事例を解説します。

機械学習おさらい

機械学習は「ML（Machine Learning）」とも呼ばれるAIを支える技術の1つで、AIが自らデータを取得して学習することを指します。

具体的には、人間や動物が経験を通して自然に学習するように、コンピュータに学習させることを指します。機械学習によりデータを学習させることで、正解となるデータを認識できるようになります。

例えば、AIに犬の写真を大量に学習させることで、AIはその写真に写っているものが「犬」であると認識できるようになります。

画像処理で用いられる4つの手法

画像処理で用いられる手法を4つ紹介します。

前処理
水増し
画像生成
分類

それぞれについて解説します。

1.前処理

（出典：https://mountain-gorilla.co.jp/）

まず前処理について紹介します。

画像データの前処理とは、画像から意味のある特徴量を取り出すことです。生データを整形・加工して機械学習モデルに入力するデータを作成します。

2.水増し

（出典：https://lp-tech.net/articles/nCvfb?page=3）

コントラスト調整

1つはコントラスト調整です。

コントラストを強調、低減させた画像を作ります。強調するには、一定以下の低輝度の画素を0、一定以上の高輝度の画素を255にし、中間の輝度のものを調整します。

ガンマ変換

2つ目はガンマ変換です。

ディスプレイの表示などの際に使われる変換で、輝度値を変化させます。輝度値とは輝きの程度を表した指標です。

平滑化

3つ目は平滑化です。

（出典：https://hawk-tech-blog.com/python-opencv-thresholding-otsu/）

上の写真のように、画像を滑らかにします。平均化フィルタをかけるなどの方法があります。

ガウス分布に基づくノイズ

4つ目はガウス分布に基づくノイズです。

各画素にガウス分布に基づく生成値を足して、ノイズを付加します。

ガウス分布は正規分布とも呼ばれており、平均の周囲で左右対称な、平均の天においてもっとも大きい値を取る分布のことです。

Salt&Pepperノイズ

5つ目はSalt&Pepperノイズです。

塩と胡椒をかけたようなノイズをかけることです。インパルスノイズとも言われています。

反転

6つ目は反転です。

文字通り左右、上下の反転をさせることです。

正規化

7つ目は正規化です。

特徴量の値の範囲を一定の範囲内に収めるように変換する処理のことを指します。

特徴量とは、モデルが予測を行うために使うことができるデータの特性または属性のことです。よりわかりやすく言うと、データの中から予測・分類するための手掛かりとなる変数を指します。

回転

8つ目は回転です。

画像を回転させます。

サイズの変更｜拡大縮小

9つ目は拡大、縮小です。

画像の大きさを変えます。

3.画像生成

画像生成という手法もあります。

画像生成とは、絵画の生成や画像・映像などの自動加工を行う技術を指します。機械学習の手法の一つであるディープラーニングを利用して行われる技術としても知られています。

VAE（変分オートエンコーダ）、GAN（敵対的生成ネットワーク）などを使って生成します。

4.分類

（出典：https://mavic.ne.jp/ai-aipro/）

画像処理には分類という手法もあります。

分類は、画像に何が写っているか分類するイメージ分類、画像に写る特定の物体を検出する物体検出に使われてます。

機械学習においての分類とは？代表的なアルゴリズムやメリットも解説！>>

画像処理で使われる技術の紹介

画像処理には多くの技術が使われています。

物体識別
物体検出
セグメンテーション

以下でそれぞれ解説します。

物体識別

物体識別は物体認識とも言われており、画像に含まれている物体の情報を抽出する技術を指します。

ある物体と同一の物体が画像中に存在するか検証するときや、画像に映っている物体のカテゴリを言い当てるときなどに使われます。

物体検出

物体検出は画像中の対象物体の位置を検出する技術であり、物体認識とは異なりますが、対象となる物体の特徴を抽出するときにその物体の位置重要となることも多いので、併用されることがあります。

セグメンテーション

セグメンテーションとは、画像から注目している領域を切り取、写り込んでいる被写体がそれぞれ何かを識別することです。

画像全体や画像の一部の検出ではなく、ピクセル一つひとつに対して示す意味をラベル付けしていく手法、画像の中にある物体の領域を特定し、個体ごとに領域分割して物体の種類を認識する手法があります。

ピクセルとは、パソコンなどのディスプレイを構成する小さな点1つを表す単位のことです。

機械学習の画像処理にできること

画像処理とは、コンピュータが画像に何が写っているのかを判断、分析する技術です。機械学習によって高精度の画像処理が可能になります。

画像処理では、物体認識、物体検出をはじめ、顔認識や文字認識など、さまざまなことができます。

画像処理で用いられるPythonとは

画像分類や物体検出をするには、画像処理にPythonのライブラリを利用します。そこで、Pythonについて解説します。

Pythonはプログラミング言語の一つで、コードがシンプルであることなどから最も人気の言語となっています。

画像処理では大量のデータを処理する必要があります。データ分析のそれぞれの工程でライブラリというプログラムが用意されています。

そして、これらのデータを大量に処理するためのフレームワークがPythonには多く用意されているのです。

《初心者向け》機械学習をPythonで学ぼう｜できることやライブラリも紹介>>

機械学習を活用した画像認識モデル

機械学習を活用した画像認識モデルを紹介します。

ロジスティック回帰
ランダムフォレスト
ブースティング
SVM（サポートベクターマシン）

それぞれ解説します。

機械学習におけるモデルとは？｜モデルの種類や「よいモデル」とは何かについて>>

ロジスティック回帰

ロジスティック回帰とは、機械学習の中でも教師あり学習の分類タスクに用いられる、シンプルで最も一般的な線形クラス分類アルゴリズムの一つです。

ある事象が起こる確率を予測、分析したい時に用いられるもので、分類が曖昧なものを判別することが得意と言われています。データが各クラスに所属する確率を計算することで分類を行います。

シンプルなことから、分類機の中で最初に使われることが多くなっています。

機械学習の回帰とは？分類との違い・メリット・学習方法など解説！>>

ランダムフォレスト

ランダムフォレストは機械学習モデルの1つで、複数の決定木を使って各決定木の予測結果の多数決で結果を求める方法です。クラス分類、回帰、クラスタリングなどに利用できます。

決定木は、教師あり学習で回帰と分類の両方ができるアルゴリズムの1つです。この中で決定木はデータに対し条件を複数回設け、段階的に分類していきます。

ブースティング

ブースティングとは、複数のモデルを組み合わせて機械学習の予測精度を高めるアンサンブル学習の手法の1つです。

（出典：https://www.st-hakky-blog.com/entry/2017/08/07/163216）

以上の図のようにモデルを直列に組み合わせて、間違えた部分を集中的に学習します。ブースティングにはデータ重みづけの方法によって様々な手法があり、代表的なものはアダブーストや勾配ブースティングです。

SVM（サポートベクターマシン）

機械学習モデルの一種で、非常に強力なアルゴリズムです。教師あり学習で、分類と回帰を扱うことができますが、主に分類のタスクで使われます。

データの次元が大きくなっても識別精度が良く、最適化すべきパラメータが少ないというメリットがあります。

機械学習を活用した画像認識の事例

機械学習はさまざまな場面で活用が広がっています。ここでは画像認識の事例を紹介します。

物体認識｜製造業での不良品検品
顔認識｜入退館管理
文字認識｜契約書の処理
物体検出｜森林管理
画像キャプション生成

それぞれ解説します。

《AI事例25選》産業別にAIの活用事例をまとめました>>

物体認識｜製造業での不良品検品

（出典：https://service.cac.co.jp/hctech/industry/manufacturing)

まず物体認識の活用事例です。

キューピーなど、一部の食品製造業社では食品工場の製造ラインにて原材料の不良品検知にAIを活用しています。

工場の製造ラインに流れる食品を撮影した動画を学習してコンピュータが良品・不良品を見分けるルールを自ら学び、不良品を判別するアルゴリズムをディープラーニングや画像処理技術を用いて構築しています。

顔認識｜入退館管理

（出典：https://www.nec-solutioninnovators.co.jp/sl/kaoato/attendance.html）

顔認識も入退館管理など、さまざまな場面で活用されています。

顔認証は生体認証技術のひとつであり、こうした技術は、現在では企業のサービスだけでなく強固なセキュリティが求められる銀行、国家インフラまでに幅広く活用されるようになりました。

文字認識｜契約書の処理

AI OCR 基盤を使った読み取りテストの例。専門的な用語である手術名なども高い精度で文字認識できるという

（出典：https://xtech.nikkei.com/atcl/nxt/column/18/01433/102200004/）

文字認識の技術を活用することで、パッケージや広告物、各種発行物に関する校正・校閲や、契約書・申込書等の審査が行えます。これらの業務が減ることで、校正や検閲、書類の審査を行っていた人たちの負担を軽減できるでしょう。

負担が軽減されれば、それまでできなかった仕事をする時間も増え、より効率的に働けるようになります。

物体検出｜森林管理

（出典：https://club.informatix.co.jp/?p=14678）

物体検出は画像や動画から特定の物体を検出する技術です。この技術は森林管理にも活用されています。

土地被覆分類マップを自動生成し、異なる時期のものと比較して土地被覆の変化を抽出することは、目視では難しいとされています。土地被覆分類マップとは、その土地が森林、草に覆われているか、または何も生えていないのかを分類したものです。しかし、物体検出の技術により、このマップの作成が容易にできるようになりました。

面積推計も可能で、森林域変化のモニタリングでの活用も考えられています。