最終更新日:
AIが人の声を認識する「音声認識」の技術発展が進んでいます。
この「音声認識」は、人が発した声をAIが分析することで、その内容を推測することができます。
近年はこの音声認識を生かしたサービスが増加しており、仕事から日常まであらゆる面で活用することができます。
今回は、音声認識に関してどのようなサービスがあるのかご紹介したいと思います。
目次
AIと音声を活用している分野
AIと音声を組み合わせた分野は主に4つあります。
以下でそれぞれ解説していきます。
①音声読み上げ
音声読み上げとは、文字情報(テキスト)を音声で読み上げる機能のことです。
この機能は開発した当初は機械的な音声して出力できませんでしたが、現在では人間が話してるように読み上げるソフトも開発されています。高齢者、文字を読むのが難しい方でも、文字ベースの情報を得られるようになります。
ニューラルネットワークによる機械学習によって機械的な音声ではなく、自然に読み上げることを実現しています。
音声読み上げソフト・サイトとは、文字情報を音声で読み上げる機能を搭載したソフト・サイトのことです。
近年、小さな文字を読むのが困難な方にも、正確かつ快適にWebサイトやページを利用してもらいたいという思いから、多くの企業が音声読み上げソフト・サイトを導入しはじめています。
当初は機械的にテキストを読み上げる単調なものばかりでしたが、現在では実際に人間が話しているかのように感じられる質の高い音声ソフト・サイトも登場しています。
②文字起こし
文字起こしとは、音声データをテキストデータとして文字に起こす機能のことです。
文字起こしは、会議の議事録やインタビューの音声をAIが認識してテキストとしてデータ化したり、動画制作において字幕を付けたりといったことに活用がされています。
この技術もAIによって、音声認識、分析が向上したことによって、実用化できる精度にまでなりました。
音声データとテキストがリンクしているので、文字検索で該当する部分の音声を探すことができます。長時間録音したものでも簡単に振り返ることができます。
③音声合成
音声合成とは、人間の声を真似た音声を人工的に生成する技術のことです。
音声合成も大量のデータの蓄積と計算能力の向上に伴い、技術が発達しました。人間は無意識の中で発声に特徴があるので、分析することで人間的な発声に近づきました。
例えば、自分の声の特徴を分析することで任意のテキストをAIに読ませると、まるで自分が読んでいるかのようになります。他にも生前の美空ひばりさんのレコーディング音声を深層学習技術により学習させ、美空ひばりさんの歌声を再現することもできました。
④音声認識
音声認識とは、人間の発した声を分析してテキストに変換する技術のことです。SiriやAlexaに使われている技術がまさに、音声認識です。
実は、音声認識技術は最近のものではなく約50年前にアメリカで研究が始められたと言われています。しかし、その当時は技術の精度が高くなく、世に広まることはありませんでした。
21世紀に入ってから、アルゴリズムの向上によりビッグデータからAIが認識する精度が上がり、カーナビやスマートスピーカーなどが広まり身近なものになっていきました。
まだ現代でも、標準語ではない方言の認識は精度が落ちてしまいますが、音声認識技術は開発がどんどん進んでおり、IoTも普及してきているので高いポテンシャルを秘めています。
AI音声認識の仕組み
人の声を聴き取りそこから具体的なアクションを出すまでの仕組みには、大きく4つの段階があります。
音響分析
まずは受け取った音声データから音の強弱や音同士の間隔といったところから特長量を抽出し、ノイズを除去、アナログのデータからデジタルのデータに変換し、扱いやすいようにします。これを音響分析と呼びます。
音響モデル
音響分析によって扱いやすく加工されたデータは、過去で得られた膨大な音声のデータから得られるパターンと照らし合わせてどのようなものなのか判別します。
周波数や音素分布からデータの音が過去のデータのどれに近いかを見極め、正しい音素とマッチングさせます。
発音辞書
音響モデルにて編み出した音声の最小単位である音素を、次は膨大なデータベースと照らし合わせて単語にしていきます。
例えば「K-O-N-N-I-T-I-W-A」という音素の列は「KO-N-NI-TI-WA」の組み合わせとなり、「こんにちは」の単語が出来上がります。
言語モデル
発音辞書によって出来た単語を組み合わせて、文章にしていきます。
過去に単語と単語の繋がりにおいてどのようなパターンが多くみられるか、品詞と単語の繋がりの頻度はどうだったかを見極め、確率の高い文章を予測します。
おすすめAI音声認識サービス8選
音声認識を活用したサービスはすでに多くあり、後に紹介する書きおこしや自動応答など、さまざまな形態に分岐して発展を遂げています。
今回は8つのサービスにフォーカスし、そのサービスがどんな人に対して有効なのかも含めて紹介していきます。
書き起こし
Smart 書記
音声認識を活かして、会話の文字起こしを自動で行ってくれるサービスです。
複数話者の声ごとにわかりやすく、一覧にしてくれます。
また、会話を記録しながらリアルタイムで編集をすることができます。誤字や意図しない言葉など気になった部分はマークしておき、順に編集していきます。
そして、会話内容はクラウドを使って参加者全員に共有することもできます。
Google ドキュメント
仕事上で書類を作る際に、Google ドキュメントを使っているという人も多いのではないでしょうか。実はGoogle ドキュメントでは音声だけで文章を入力することができます。
使い方は非常に簡単で、パソコンのマイクをONにして音声を入れるだけです。
この音声認識機能を使えば、タイピングをすることなく声だけで書類を作ることができますので、これからの書類作りでは非常に重宝するのではないでしょうか。
自動応答
AmiAgent
AIを活かした自動対話サービスです。
独自開発した対話エンジン「AOI」をベースとして、顧客ごとに業務情報を学習させた後に提供しています。
また、UXも様々なキャラクターが用意され、ユーザーに対応してくれます。自由にカスタマイズすることができるため、企業のイメージに合わせてUXを作ることができます。
AI コンシェルジュ
企業のお問い合わせに対して自動で応答してくれるサービスです。
現在、コールセンター業界では人手不足が深刻化しています。また、人間による対応では業務時間内しか対応することができません。
しかし、この「AI コンシェルジュ」を導入すれば、24時間いつでもユーザーからの問い合わせに自動音声で対応することができるようになります。
Google Duplex
Googleが開発した自動電話対応サービスです。
ホテルやレストランに対してGoogleアシスタントが自動で電話をかけて予約を取ってくれます。
予約を受ける側のレストランやホテルはGoogle Duplexと電話で会話をすることになります。
翻訳
AI翻訳
外国語を翻訳することで、異邦人同士のコミュニケーションを円滑化するサービスです。
インバウンドが急増していることで、店舗や空港、ホテル などあらゆる場面で様々な言語によるコミュニケーションのニーズが増しています。
この「AI翻訳」は11もの言語に対応しており、専用端末やお客様が保有しているデバイスなど多様な場面でサービスを提供することができます。
開錠
My Voice
自分の声で自宅の鍵を開けることができます。
扉の前に立ちドア話しかけるだけで、AIが声の主を聞き分けて鍵を開けてくれます。
今までのように、鍵を持ち歩いてカバンから取り出す必要が無くなりますので、鍵を紛失する心配がありません。そして、両手がふさがっていても鍵を開けることができるようになるため、非常に便利なのではないでしょうか。
感情分析
Empath
人の声から話者の感情を分析することができるAIです。
従業員のメンタルヘルスケアやユーザーの満足度の分析などあらゆる用途に活用できることが期待されています。また、分析した感情と実際の行動を結びつけることで消費者行動を分析するマーケティングにも活かすことができます。
AI音声認識のメリット3つ
アクセシビリティの高さ
声によって操作することが出来る音声認識技術では、利用のしやすさがひとつの武器となります。
先ほどあげたスマートスピーカーの例を考えてもらえれば分かりやすいかと思いますが、スクリーンのタッチや特定の操作なしに照明のオンオフの操作などができる利便性はかなり重要といえます。
業務効率上昇
音声認識技術を業務の一部として活用することで、さまざまな分野に関して効率化が望めます。
例えばコールセンターでは音声認識技術を顧客の応対につかうことで、相談の内容ごとの顧客の仕分け、応対の効率化を図っています。
ミスの減少
音声認識技術によって、今までミスの多かった作業のミス減少、精度向上が望めます。
文字などの入力作業などがその最たる例ですが、細かいミスの確認などの作業から人間が解放されることは、他の仕事の効率化にも繋がります。
代表的なのはスマートスピーカー
音声認識技術が活用される代表的なものに「Google Home」をはじめとするスマートスピーカーがあります。声だけで操作が可能で、音楽を再生したり、天気予報を聞き出すことができるのは、機器の中に組み込まれた音声認識技術が人の声を認識しているからです。
GoogleやAmazon,Appleをはじめ、国内でもLINEが参入し、覇権争いが続いています。また、ディスプレイを機能として取り付けたスマートスピーカーなども誕生しています。
AIを活用した音声認識の今後の3つの課題
抽象的な質問に対しての返答
人間から投げかけられる問いは全てが具体的で返答に困らないわけではありません。
明確な答えを得るのが難しい質問に対しては、音声認識によるレスポンスが期待された返答をできない場合があります。
設定された言語以外に柔軟に対応しづらい
世界中の言語に対して認識を行うのが現在の課題のひとつです。
言語によってイントネーションの強弱やスピードなども違うため、その全てに柔軟に対応するのが困難になっています。
聞き取りにくい音声に対する対応
聞こえてきた音声に対して処理を行ってテキスト化などに到る音声認識技術ですが、その元である音声自体のクオリティが低いと認識にも問題が出てしまいます。
ノイズが入っている、音質が低い、音が小さすぎるなど、聞き取りにくい音声の条件はさまざまですから、意外にシビアな技術であるとも言えるかもしれません。
まとめ
音声認識を使えば、人の声からその内容を理解したり、その背後にある感情を分析できます。それらで得た情報を使えば、自動書記や対話、コールセンターそしてマーケティングなど活用できる幅は非常に広いです。
これらのサービスは現在業務で負担になっている部分を自動化することで、業務効率化に大きく貢献できるのではないでしょうか。
もし上記のような領域で業務を効率化したいと考えているならば、ぜひ音声認識サービスの活用を検討してみることをオススメします。
AINOW編集部
CS専攻大学2年生・42Tokyo所属
情報発信を通して自分自身の知見も深めていきたいと思います