最終更新日:
2012年、カナダのトロント大学のヒントン教授がきっかけで、AIは春の時代を迎えました。その突破口を開いたのが、機械学習分野における「ディープラーニング」と呼ばれる技術です。
人の脳機能を模したモデルの構築により、機械翻訳や音声認識の精度は飛躍的に向上しました。その中でも、画像認識の分野は自動運転技術など多くの応用がなされている分野とも言えるかもしれません。
今回はディープラーニングにおける画像認識技術で多用されるCNNについて、紹介してみたいと思います。
▼ディープラーニングについて詳しく知らない方はこちら
CNNとは?
CNN(Convolutional Neural Network)とは、「畳み込み」という操作を加えたニューラルネットワーク構造のことを言います。CNN最大の特徴は、「局所的に特徴量を抽出する」ことです。
この特徴を理解しやすくするために、まずは「画像認識」について解説します。
画像認識とは
コンピュータにとっての画像は、ある画像についてさまざまな角度でどんな物体なのかを読み取れる人間とは違い、単なる数値データで表現されます。
図で示すように、「雪の結晶」をコンピュータが認識するときは、画像をピクセルごとに分割し、分割された数値の大きさにより画像の特徴を抽出しています。
普段僕らが目にしている鮮明な画像は、とても細かいピクセルで表現されているという訳です。
CNNが出てくるまでの問題点は、この画像認識における「特徴量の抽出」をいかに効率的に行えるか否かにあります。それを可能にしたのが、畳み込み層を含んだニューラルネットワーク構造、CNNになります。
▼画像認識について詳しくはこちら
畳み込み層
画像認識をより精度が高くなるように,言い換えると思い通りに画像を認識させたい時はどうしたらいいのでしょうか?
例えば、画像識別により猫を正解として判別させたいのに、余分な背景画像などを入力として受け取らせると情報量としてはかなり膨大となり、なおかつ精度に関しても、余分な画像も識別しようとしてしまうので低くなるのはなんとなく想像できます。
この課題を解決するのが、CNNという、「畳み込み層」を取り入れたニューラルネットワーク構造です。
畳み込み層を図で解説します。
一連の流れを説明すると、
|
流れとしては以上のようになります。
畳み込み層をニューラルネットワークの入力層の前に置くことで、より特徴を持ちやすいデータを入力として受け取るということになります。
用語の説明をまとめます。
・畳み込み層 識別したい画像の局所的に特徴量を抽出する層のこと。フィルターの大きさや数値ごとで特徴量に違いが出る。・フィルター(カーネル) 識別したい画像よりも比較的にサイズの小さい格子上の数値データ。フィルターにおけるサイズの大きさや数値データの値により、畳み込み層における特徴の抽出が異なる。・ウィンドウ 識別したい画像において、フィルターの大きさに合わせた部分画像の数値データ。フィルターと直接計算することになる。・ストライド ウィンドウを動かす操作の度合いをストライドという。例えばストライドが「2」なら、一回の計算ごとに2つずつ、ずらすことになる。 |
プーリング層
畳み込み層と同様に、識別したい画像の特徴量を抽出する手法があります。それが「プーリング層」です。
この作業は、ウィンドウ自体の数値データから特徴量を抽出する手法となります。プーリング層に関しても図で解説しています。今回の図ではMAXプーリングを説明しています。
MAXプーリングでは、ウィンドウを均等に区切ることでグループ化し、その中で一番高い数値を特徴量として抽出します。MAXプーリング以外にも平均値プーリングなどもあります。
CNNではプーリング層は、畳み込み層とセットで用いられ、活性化関数での計算やバイアスを加えて訓練されます。
CNNの応用例
最後に、CNNを利用した画像認識技術の応用例を3つ紹介します。
それぞれどんなものなのか解説していきます。
無人レジ店舗
最もわかりやすい例が、未来の無人コンビニと称される「AmazonGo」の仕組みです。
レジを通さずに買い物ができるAmazonGoですが、その仕組みは天井にあるカメラやマイク、センサーなどの機能です。この機能には、ディープラーニングによる画像認識技術が導入されています。
▶レジがない未来のコンビニ「Amazon Go」ついにオープン! 現地からレポート!>>
ドライブレコーダーを活用した物体検出
物体検出の技術の応用は、ドライブレコーダーにも応用されています。
例えば東京大学のベンチャー企業である「Urban X Technology」は、会社独自のスマホアプリがドライブレコーダーとしての機能を果たし、車を走らせることで道路の欠陥などを検出し、それをいち早く行政に報告され、舗装されるというサイクルを可能にしています。
この大きな流れが交通における安全性を支え、皆様の当たり前を守っているのも、物体検出のおかげなのかもしれませんね。
医療における画像診断
画像認識技術は医療の現場でも活躍しています。膨大なレントゲン写真のデータから病状を診断したり、認知症であるか否かを顔写真のみで判断するなど、画像認識の技術は医療の現場でも活躍の可能性を見出しています。
▶【医療AI】- 医療現場の現在から未来についてはこちらの記事で解説しています>>
参考:https://www.h.u-tokyo.ac.jp/press/__icsFiles/afieldfile/2021/01/26/release_20210126.pdf
終わりに
今回はCNNについてざっくり解説してみました。
「今までなんとなくみていた写真が数値データとしてコンピュータ上で表現されている」その認識だけでも大分CNNに関する理解が深まるのではないでしょうか。
画像認識技術の応用は、5年後・10年後には先行して活用される技術となると思われます。しっかりと理解しといて損はないかもしれませんね。
▶画像認識で機械が眼を持つ!? ディープラーニングの可能性と画像認識の事例5選>>
◇AINOWインターン生
◇Twitterでも発信しています。
◇AINOWでインターンをしながら、自分のブログも書いてライティングの勉強をしています。