HOME/ AINOW編集部 /AI音声認識ってなに?仕組みからおすすめサービスまで分かりやすく解説
2019.08.02

AI音声認識ってなに?仕組みからおすすめサービスまで分かりやすく解説

最終更新日:

AIが人の声を認識する「音声認識」の技術発展が進んでいます。

この「音声認識」は、人が発した声をAIが分析することで、その内容を推測することができます。

近年はこの音声認識を生かしたサービスが増加しており、仕事から日常まであらゆる面で活用することができます。

今回は、音声認識に関してどのようなサービスがあるのかご紹介したいと思います。

発達する音声認識技術 精度は人間レベル

徐々に活用が進む音声認識

音声認識はAIの技術を活用して音声を分析し、文字に変換したり機器を操作する技術です。。最近では、専用の機器がなくても、スピーカーやスマートフォンで音声認識の機能を搭載するケースも増えてきました。

活用の用途では、ビジネスシーンでは、今まで時間がかかっていた会議の議事録の作成や音声入力など、業務の中で活用する場面が増加しています。

2018年のGoogle I/Oでは、予約の受付対応を自動でで行うAI「Duplex」が発表されました。まるで人間のように対応するデモの様子は、大きく話題を集めました。

そして、2019年のLINE CONFERENCEではLINEが店舗の予約を自動で受け付ける「DUET」というサービスを発表し、話題になりました。LINEは日本語などアジア圏の言語領域で音声認識を活用した受付の自動化などに取り組んでいくとしています。

音声認識の精度は95%

音声認識の精度は時代を追うごとにますます高くなっています。

Microsoftは米国時間2017年8月21日、音声認識システムが、プロの速記者に匹敵するとされる5.1%の単語誤り率に達したと発表した。また、複数人が同時に話していたり、ノイズがあったりしても正しく分析できます。

今後も、予約の電話が全てAIが受け付けるようになるなど、日常の中でAIと会話をする機会も増えていくことが期待されます。

いちばん生活で活用しているものは……

音声認識技術が人々の生活の中でいちばん身近に見られるのは、「Google Home」や「Amazon Echo」をはじめとしたスマートスピーカーでしょう。

声での操作で音楽の再生が出来たり、天気予報を聞き出すことが出来ます。これは機器の中に組み込まれた音声認識技術によるものです。

国内ではLINEの参入があり、覇権争いが続いています。

▶関連記事|スマートスピーカー徹底比較!おすすめのスマートスピーカーは?>>

音声認識の仕組み

人の声を聴き取りそこから具体的なアクションを出すまでの仕組みには、大きく4つの段階があります。

音響分析

まずは受け取った音声データから音の強弱や音同士の間隔といったところから特長量を抽出し、ノイズを除去、アナログのデータからデジタルのデータに変換し、扱いやすいようにします。これを音響分析と呼びます。

音響モデル

音響分析によって扱いやすく加工されたデータは、過去で得られた膨大な音声のデータから得られるパターンと照らし合わせてどのようなものなのか判別します。

周波数や音素分布からデータの音が過去のデータのどれに近いかを見極め、正しい音素とマッチングさせます。

発音辞書

音響モデルにて編み出した音声の最小単位である音素を、次は膨大なデータベースと照らし合わせて単語にしていきます。

例えば「K-O-N-N-I-T-I-W-A」という音素の列は「KO-N-NI-TI-WA」の組み合わせとなり、「こんにちは」の単語が出来上がります。

言語モデル

発音辞書によって出来た単語を組み合わせて、文章にしていきます。

過去に単語と単語の繋がりにおいてどのようなパターンが多くみられるか、品詞と単語の繋がりの頻度はどうだったかを見極め、確率の高い文章を予測します。

音声認識のメリット3つ

アクセシビリティの高さ

声によって操作することが出来る音声認識技術では、利用のしやすさがひとつの武器となります。

先ほどあげたスマートスピーカーの例を考えてもらえれば分かりやすいかと思いますが、スクリーンのタッチや特定の操作なしに照明のオンオフの操作などができる利便性はかなり重要といえます。

業務効率上昇

音声認識技術を業務の一部として活用することで、さまざまな分野に関して効率化が望めます。

例えばコールセンターでは音声認識技術を顧客の応対につかうことで、相談の内容ごとの顧客の仕分け、応対の効率化を図っています。

ミスの減少

音声認識技術によって、今までミスの多かった作業のミス減少、精度向上が望めます。

文字などの入力作業などがその最たる例ですが、細かいミスの確認などの作業から人間が解放されることは、他の仕事の効率化にも繋がります。

代表的なのはスマートスピーカー

音声認識技術が活用される代表的なものに「Google Home」をはじめとするスマートスピーカーがあります。声だけで操作が可能で、音楽を再生したり、天気予報を聞き出すことができるのは、機器の中に組み込まれた音声認識技術が人の声を認識しているからです。

GoogleやAmazon,Appleをはじめ、国内でもLINEが参入し、覇権争いが続いています。また、ディスプレイを機能として取り付けたスマートスピーカーなども誕生しています。

【編集部推薦】おすすめ音声認識サービス8選

音声認識を活用したサービスはすでに多くあり、後に紹介する書きおこしや自動応答など、さまざまな形態に分岐して発展を遂げています。

今回は8つのサービスにフォーカスし、そのサービスがどんな人に対して有効なのかも含めて紹介していきます。

書き起こし

Smart 書記

https://smartshoki.jp/indexより引用

音声認識を活かして、会話の文字起こしを自動で行ってくれるサービスです。

複数話者の声ごとにわかりやすく、一覧にしてくれます。

また、会話を記録しながらリアルタイムで編集をすることができます。誤字や意図しない言葉など気になった部分はマークしておき、順に編集していきます。

そして、会話内容はクラウドを使って参加者全員に共有することもできます。

Google ドキュメント

https://apps.apple.com/jp/app/google より引用

仕事上で書類を作る際に、Google ドキュメントを使っているという人も多いのではないでしょうか。実はGoogle ドキュメントでは音声だけで文章を入力することができます。

使い方は非常に簡単で、パソコンのマイクをONにして音声を入れるだけです。

この音声認識機能を使えば、タイピングをすることなく声だけで書類を作ることができますので、これからの書類作りでは非常に重宝するのではないでしょうか。

自動応答

AmiAgent

https://www.advanced-media.co.jp/products/solution/aiより引用

AIを活かした自動対話サービスです。

独自開発した対話エンジン「AOI」をベースとして、顧客ごとに業務情報を学習させた後に提供しています。

また、UXも様々なキャラクターが用意され、ユーザーに対応してくれます。自由にカスタマイズすることができるため、企業のイメージに合わせてUXを作ることができます。

AI コンシェルジュ

https://unext-marketing.jp/より引用

企業のお問い合わせに対して自動で応答してくれるサービスです。

現在、コールセンター業界では人手不足が深刻化しています。また、人間による対応では業務時間内しか対応することができません。

しかし、この「AI コンシェルジュ」を導入すれば、24時間いつでもユーザーからの問い合わせに自動音声で対応することができるようになります。

Google Duplex

https://economictimes.indiatimes.com/magazines/panache/good-news-google-duplex-to-soon-debut-on-non-pixel-smartphones/articleshow/68734562.cmsより引用

Googleが開発した自動電話対応サービスです。

ホテルやレストランに対してGoogleアシスタントが自動で電話をかけて予約を取ってくれます。

予約を受ける側のレストランやホテルはGoogle Duplexと電話で会話をすることになります。

翻訳

AI翻訳

https://jpn.nec.com/nws/translation/より引用

外国語を翻訳することで、異邦人同士のコミュニケーションを円滑化するサービスです。

インバウンドが急増していることで、店舗や空港、ホテル などあらゆる場面で様々な言語によるコミュニケーションのニーズが増しています。

この「AI翻訳」は11もの言語に対応しており、専用端末やお客様が保有しているデバイスなど多様な場面でサービスを提供することができます。

開錠

My Voice

https://www.myvoice.ai/より引用

自分の声で自宅の鍵を開けることができます。

扉の前に立ちドア話しかけるだけで、AIが声の主を聞き分けて鍵を開けてくれます。

今までのように、鍵を持ち歩いてカバンから取り出す必要が無くなりますので、鍵を紛失する心配がありません。そして、両手がふさがっていても鍵を開けることができるようになるため、非常に便利なのではないでしょうか。

感情分析

Empath

https://webempath.com/jpn/より引用

人の声から話者の感情を分析することができるAIです。

従業員のメンタルヘルスケアやユーザーの満足度の分析などあらゆる用途に活用できることが期待されています。また、分析した感情と実際の行動を結びつけることで消費者行動を分析するマーケティングにも活かすことができま。

音声認識の今後の3つの課題

抽象的な質問に対しての返答

人間から投げかけられる問いは全てが具体的で返答に困らないわけではありません。

明確な答えを得るのが難しい質問に対しては、音声認識によるレスポンスが期待された返答をできない場合があります。

設定された言語以外に柔軟に対応しづらい

世界中の言語に対して認識を行うのが現在の課題のひとつです。

言語によってイントネーションの強弱やスピードなども違うため、その全てに柔軟に対応するのが困難になっています。

聞き取りにくい音声に対する対応

聞こえてきた音声に対して処理を行ってテキスト化などに到る音声認識技術ですが、その元である音声自体のクオリティが低いと認識にも問題が出てしまいます。

ノイズが入っている、音質が低い、音が小さすぎるなど、聞き取りにくい音声の条件はさまざまですから、意外にシビアな技術であるとも言えるかもしれません。

まとめ

音声認識を使えば、人の声からその内容を理解したり、その背後にある感情を分析できます。それらで得た情報を使えば、自動書記や対話、コールセンターそしてマーケティングなど活用できる幅は非常に広いです。

これらのサービスは現在業務で負担になっている部分を自動化することで、業務効率化に大きく貢献できるのではないでしょうか。

もし上記のような領域で業務を効率化したいと考えているならば、ぜひ音声認識サービスの活用を検討してみることをオススメします。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

社員とAIに必要なフィードバックの重要性

GPT-4は間もなく登場。それについて私たちが知っていること。

スマートチャネル時代の「ヒト」と「AI」のコミュニケーションとは|株式会社トゥモローネット

あなたにおすすめの記事

社員とAIに必要なフィードバックの重要性

GPT-4は間もなく登場。それについて私たちが知っていること。

スマートチャネル時代の「ヒト」と「AI」のコミュニケーションとは|株式会社トゥモローネット