CNN（畳み込みネットワーク）とは？図や事例を用いながら分かりやすく解説！

2012年、カナダのトロント大学のヒントン教授がきっかけで、AIは春の時代を迎えました。その突破口を開いたのが、機械学習分野における「ディープラーニング」と呼ばれる技術です。

人の脳機能を模したモデルの構築により、機械翻訳や音声認識の精度は飛躍的に向上しました。その中でも、画像認識の分野は自動運転技術など多くの応用がなされている分野とも言えるかもしれません。

今回はディープラーニングにおける画像認識技術で多用されるCNNについて、紹介してみたいと思います。

▼ディープラーニングについて詳しく知らない方はこちら

AI専門ニュースメディア AINOW

ディープラーニングとは【初心者必読】-基礎知識からAIとの違い、導入プロセスまで...

https://ainow.ai/2019/08/06/174245/

AINOW編集部作成ディープラーニングって聞いたことがあるけど、しっかり理解している人は少ないのではないでしょうか？AIとか、機械学習とかいろんな単語が乱立していますし、分かりづらいですよね。実際にどんなことに活用できて、効果あるのかとか知らないですよ...

目次 [非表示]

CNNとは？
CNNの応用例
終わりに

CNNとは？

CNN（Convolutional Neural Network）とは、「畳み込み」という操作を加えたニューラルネットワーク構造のことを言います。CNN最大の特徴は、「局所的に特徴量を抽出する」ことです。

この特徴を理解しやすくするために、まずは「画像認識」について解説します。

画像認識とは

コンピュータにとっての画像は、ある画像についてさまざまな角度でどんな物体なのかを読み取れる人間とは違い、単なる数値データで表現されます。

図で示すように、「雪の結晶」をコンピュータが認識するときは、画像をピクセルごとに分割し、分割された数値の大きさにより画像の特徴を抽出しています。

普段僕らが目にしている鮮明な画像は、とても細かいピクセルで表現されているという訳です。

CNNが出てくるまでの問題点は、この画像認識における「特徴量の抽出」をいかに効率的に行えるか否かにあります。それを可能にしたのが、畳み込み層を含んだニューラルネットワーク構造、CNNになります。

▼画像認識について詳しくはこちら

AI専門ニュースメディア AINOW

画像認識とは - 機能・事例・仕組み・導入方法など徹底解説

https://ainow.ai/2019/07/11/173264/

近年、私たちの生活とAIは切っても切り離せない関係になりつつあります。そんなAIの得意分野の一つが「画像認識」です。画像認識とは、その名の通り画像からパターンを認識して「何が映っているか」を特定する技術を指します。2012年、画像認識はディープラーニング...

畳み込み層

画像認識をより精度が高くなるように,言い換えると思い通りに画像を認識させたい時はどうしたらいいのでしょうか？

例えば、画像識別により猫を正解として判別させたいのに、余分な背景画像などを入力として受け取らせると情報量としてはかなり膨大となり、なおかつ精度に関しても、余分な画像も識別しようとしてしまうので低くなるのはなんとなく想像できます。

この課題を解決するのが、CNNという、「畳み込み層」を取り入れたニューラルネットワーク構造です。

畳み込み層を図で解説します。

一連の流れを説明すると、

フィルター（またはカーネル）と呼ばれる比較的サイズの小さい格子上の数値データと、同じサイズの部分画像（ウィンドウ）を用意
このフィルターとウィンドウを計算させることで、ある一つの値が求められるため、それを格納し、ストライドで設定した分だけフィルターをずらし、再度計算させる
全ての入力に対して計算が終了したとき、計算により得られた数値の集合が、局所的に抽出された特徴量として弾き出される
この数値をニューラルネットワーク上で計算させることで、どんな特徴を持った画像なのかを判別させる

流れとしては以上のようになります。

畳み込み層をニューラルネットワークの入力層の前に置くことで、より特徴を持ちやすいデータを入力として受け取るということになります。

ニューラルネットワークについて詳しくはこちら>>

用語の説明をまとめます。

・畳み込み層
識別したい画像の局所的に特徴量を抽出する層のこと。フィルターの大きさや数値ごとで特徴量に違いが出る。・フィルター（カーネル）
識別したい画像よりも比較的にサイズの小さい格子上の数値データ。フィルターにおけるサイズの大きさや数値データの値により、畳み込み層における特徴の抽出が異なる。・ウィンドウ
識別したい画像において、フィルターの大きさに合わせた部分画像の数値データ。フィルターと直接計算することになる。・ストライド
ウィンドウを動かす操作の度合いをストライドという。例えばストライドが「2」なら、一回の計算ごとに2つずつ、ずらすことになる。