最終更新日:

2010年代に入り、AIの活用に注目が集まっています。特に機械学習の要素技術であるディープラーニングは、今までにない精度で画像を認識することに成功し、さまざまな産業分野で活用が期待されています。
ディープラーニングは大量のデータを学習することで、自らデータの傾向などを学習し、時には人間を超える精度で認識、判断を行うことが可能です。今回は、画像認識とディープラーニングに焦点をあて、画像認識の可能性について解説していきます。
目次
そもそもディープラーニングとは
ディープラーニングは人の脳神経をモデルにして開発されたニューラルネットワークをベースに、大量の学習データから同じ物体に共通する特徴量を学習して、未知の画像も分類できるようにする技術です。
例えば、りんごとバナナの画像を大量に用意し、りんごの写真には「りんご」というラベルを、バナナの写真には「バナナ」というラベルを付けるとします。
すると、大量の画像を学習しながら、ディープラーニングのモデルが「りんごらしさ」や「バナナらしさ」を自ら発見し、新たな画像が「りんご」なのか、「バナナ」なのかを見分けることが可能になります。
今までのシステムあれば、りんごらしさとして「赤」や「丸い形」などの特徴(特徴量)を人間が指定する必要がありました。しかし、ディープラーニングは特徴量を自動検出できるという点で自律的で柔軟な判断ができるのが特徴です。
▼ディープラーニング に関してはこちら
ディープラーニングを生かした画像認識に集まる注目
ILSVRC 2012でディープラーニング を生かしたモデル「AlexNet」が優勝
画像認識の分野でディープラーニングが注目されたきっかけに、ILSVRC 2012があります。
ILSVRC (ImageNet Large Scale Visual Recognition Challenge)とは、AIによる画像認識大会で、出場したチームは自分たちで開発した画像認識システムで認識精度を競います。
2012年に初めてディープラーニング を活用したモデル「AlexNet」がトロント大学のチームによって活用されました。なんと、その認識精度はエラー率17%弱と、他のチームが26%ほどだったのに比べて高い精度で優勝しました。
従来使われていたサポートベクターマシンなどの手法から大きなブレイクスルーとなり、ディープラーニングは世界的に注目を集める技術となりました。
ディープラーニング による画像認識が始まる
ILSVRCにおけるAlexNetの優勝以降、ディープラーニング はあらゆる分野で活用されるようになりました。
特に活用が進んでいる領域が画像認識です。AIが人間の目のような働きができるようになったことで、ロボットに搭載したカメラの映像を通して自律的な行動が可能になります。
非構造化データにも対応できる
画像認識技術は動画のような非構造化データにも対応することができます。
※非構造化データ:エクセルなどのように表形式で構造化されたデータではなく、音声や動画のように構造化できないデータ。
例えば、防犯カメラにAIを搭載し、不審者がカメラに映ると管理者に知らせるシステムなどが実際に導入されています。
そのように、画像認識によってリアルタイムな分析が可能になったことで活用の幅が広がりました。
技術発展でスマートフォンやエッジデバイスでも処理可能に
画像認識はクラウドを離れ、スマートフォンやエッジデバイスでも利用できるようになっていて、これをエッジAIと呼びます
エッジAIならデータをクラウドに送って処理する必要がなくなり、クラウドAIに比べてよりリアルタイムに処理することができます。
エッジAIは工場での品質検査やスマホアプリなどあらゆる部分で活用されています。
ディープラーニング で画像認識ができる仕組み
大量の画像データをもとに学習

ディープラーニングを生かした画像認識には主にCNNという仕組みが使われています。
CNNは主に畳み込み層とプーリング層が交互に存在する形で成り立つモデルです。
CNNに画像データを入力すると、まずは畳み込み層で特徴量の検出が行われます。
そして、その特徴量の情報はプーリング層に送られ、情報を圧縮します。圧縮した情報は次の畳み込み層に送られ、その手順が何回か繰り返されます。
最後に、画像データを「猫or犬」という一次元の形で出力するための全結合層を経由したのちに、出力されます。
ディープラーニングについて詳しくはこちら▼
画像認識におけるディープラーニング モデルの変遷

AINOW編集部作成
CNNを核として、あらゆるモデルが開発され続けています。
まず、CNNのきっかけはネオコグニトロンです。ネオコグニトロンを起源にCNNの原型となるLeNetが開発されました。
こうして生まれたCNNが改良されてAlexNetとなり、VGG、GoogLeNetへと続きます。
そして、それらが改良されResNet(Residual Network)へとなります。
ILSVRCに出場するモデルでの画像認識では限られたカテゴリーでの分類でしたが、それを一般画像認識へと応用する取り組みが始まり、R-CNNが生まれました。
入力された画像から検出したい物体がある部分など切り出すべき関心領域(Region of Interest:ROI)を特定し矩形(バウンディング・ボックス)で切り出して分析することで、物体検知が可能になります。
▼草むらに潜むイモムシを物体検知(赤線がバウンディング・ボックス)

AINOW編集部作成
fast R-CNNでは、バウンディング・ボックスの設定と切り出した画像の画像認識を同時に行うことができます。そして、fast R-CNNのバウンディング・ボックスの切り出し方を工夫することで高速化したのが、faster R-CNNです。現在では、物体検知の技術はさらに進歩しYOLO(You only Look Once)やSSD(Single Shot Detector)などが主流になっています。
同時に、画像からROIをバウンディング・ボックスで切るのではなく、画素レベルで分析する手法も生まれました。
セマンティック・セグメンテーション は輪郭として物体を検出します。ただし、その方法では同じジャンルの物体を検出することはできても、複数の物体を分けて検出することはできません。
具体的に言うと、画像の中から「人」を検出することはできても、Aさん・Bさんのように人を分類して分析はできません。
そこで登場したのが、インスタンス・セグメンテーション です。インスタンス・セグメンテーション では同じジャンルの物体をそれぞれ分類しながら検出することができるようになりました。

AINOW編集部作成
業界別!画像認識の活用事例5選
農業分野
AI搭載ドローンで農薬散布を自動化

農業はあらゆる業界の中でも人手不足が激しい業界でもあります。
そこで、AI搭載ドローンを用いて農薬の散布を自動化する取り組みがあります。画像認識で害虫や虫食いの葉を特定すると空から舞い降りてピンポイントで農薬を散布。作業の省人化を実現できるだけでなく、農薬の節約や環境保全などのメリットがあります。
農業へのAI活用に関する記事はこちら▼
インフラ
河川のコンクリート護岸のひび割れをAIで検知

引用:https://www.yachiyo-eng.co.jp/
八千代エンジニヤリングは河川のコンクリート護岸をAIで検査する取り組みを始めました。
コンクリート護岸の多くが1960年代の高度経済成長期に設置されたもので、経年劣化から全体的な整備が課題でした。
しかし、日本国内には35462本もの河川があり全ての護岸を整備するには人手が足りません。そこで、導入されたのがAIです。
画像認識技術を使って護岸の検査を自動化することで、より効率的にひび割れや欠損を見つけられるようになりました。
医療
AIを生かした画像診断で疾患を検知

医療へのAI活用も進歩しています。
富士フイルムはAIを生かした画像診断に取り組んでいます。
AIなら人間以上に高精度な分析が可能なため、人間では気付けなかったような小さな疾患の発見や見落としの防止など医療の発展に大きな貢献をしてくれるのではないでしょうか。
医療へのAI活用に関する記事はこちら▼
空港
顔認証技術で出国ゲートを効率化

成田空港では出国ゲートにAIの顔認証システムを導入しています。
今までは出国ゲートにスタッフが立ち、顔写真との見比べや出国の押印をしていました。
そのため、一人ひとりの処理に時間がかかったことから常に長蛇の列が発生していたのが問題です。
そこで、顔認証システムで旅行者がカメラの前に数秒立つだけで手続きを完了できるようになったことからスムーズな手続きが可能になりました。
警備
AI搭載ロボットがドバイの街を警備

引用:http://www.afpbb.com/articles/-/3130339
ドバイではAI搭載ロボット「ロボコップ」が市内を警備しています。
機体に搭載されたカメラが画像認識で不審者を特定し、警察に通報します。また、感情分析機も搭載されており、前に立つ人の感情を分析できます。
警備へのAI活用に関する取材記事はこちら▼
まとめ
ディープラーニング による画像認識が活用されるようになったことで、機会が人間のように目を持てるようになりました。
それにより、画像データの自動分類や物体検知など今まではできなかったことが次々とできるようになっています。それに伴い、画像認識の活用範囲が産業から私生活、軍事まであらゆる分野に広まりつつあります。
そして、将来的にはどの分野でもAIが活用されているのが普通な社会になるのではないでしょうか。

慶應義塾大学商学部に在籍中
AINOWのWEBライターをやってます。
人工知能(AI)に関するまとめ記事やコラムを掲載します。
趣味はクラシック音楽鑑賞、旅行、お酒です。