最終更新日:
おざけんです。今回はRakuten RapidAPIとのコラボコンテンツです。
AI・人工知能技術への注目度の高まりによって、多くの企業がAI・人工知能を使用した効率化を検討し、導入を初めています。そこで立役者となるのがAPIの存在です。今、機械学習の多くの機能はオープンソースとして公開され、APIを通じて世界中の方が利用できます。
APIとはアプリケーションプログラミングインターフェースの略です。自分のソフトウェアを一部公開することで、他のソフトウェアと機能を共有できます。つまりソフトウェアを一部Web上に公開することで、外部から利用できるようにするものです。
例えば、TwitterやFacebookのアカウントを利用してサービスにログインする機能では、Twitter、FacebookそれぞれのAPIを利用しています。機械学習においてはAPIを利用することで、自分のサービスで画像認識や音声認識などの機能を使うことができます。
特にAIにおいては、データを蓄積して学習させ、精度を上げていかなくてはなりません。しかし、スタートアップを始めとして多くの企業はデータ量の問題やデータサイエンティストを雇うハードルなどがあります、そのため、APIをサービスに組み込んで他社のソフトウェアを一部利用するケースが増えています。
今回は、8000種類以上のAPIを掲載するプラットフォーム「Rakuten RapidAPI」の中から、AI技術の中でも特に普及が進んでいるテキスト分析や、画像認識、音声認識の人気API TOP5を紹介します。
Rakuten RapidAPI
Rakuten RapidAPIは8,000以上のAPIと50万人以上の開発者が集まる世界最大級のAPIマーケットプレイスです。 Rakuten RapidAPIにより、アプリ開発者はAPIを通じて高度機能を容易にアプリへ組み込みできるようになります。8,000を超えるAPIの中から気になるAPIがあれば、同一環境上で即時テスト・接続が可能です。
世界中で最も利用されているMicrosoft、Sendgrid、Crunchbase、Skyscannerをはじめとする多様なAPIで、サービス向上をサポートをしています。
APIを紹介してくれたのはRakuten RapidAPIを手がける光富さんとJedさんです。
機械学習APIの移り変わり
まず最初に、機械学習APIについて、その移り変わりについて教えてくださいました。
Jedさん:機械学習関連APIが本格的に一般に認知されるようになったは2016年頃であると考えています。例えば、Microsoftが2016年4月に顔認識API Face V1.0をリリースして以降、さまざまなイベントで同技術の紹介を進めてきました。IBM Assistant APIに関しても初版がリリースされたのは2016年7月です。
それから2年が経過した現在、Rakuten RapidAPI基盤上で公開される8,000以上あるAPIのうち最も利用されているのがMicrosoft社の画像認識APIです。9位にはアイルランドAylien社のテキスト分析APIもランクインしています。
機械学習の浸透とともにRakuten RapidAPI上ではマイクロソフトやIBMのようなTech Giantのみならずスタートアップ企業も AI関連APIを公開するようになり、Aylienのように認知度を上げるAPIが増えてきています。
今後もこの競争の流れが継続するとともに、解析精度向上や機能の多様化が期待できます。
では、Rakuten RapidAPIで独自に算出された人気スコアをベースにテキスト分析や、画像認識、音声認識それぞれの人気APIをランキング形式で紹介します
テキスト分析
1位:Text Analysis API(Alylien)
自然言語処理やディープラーニンングを活用したテキスト分析関連のAPIを包括的に提供。自然言語処理に精通していないアプリ開発者でも気軽に扱えることからドキュメンテーション関連の処理自動化で広く利用される。高速処理によるパフォーマンスの高さも人気の理由の1つ。
<<主な機能>>
- 指定URL中の記事を解析し、言語を判定
- 指定URL中の記事を解析し、要点を抽出
- 指定URL中の記事を解析し、記事情報(Title,Authorなど)を分析
- 指定URL中の記事を解析し、特徴に応じた適切なTwitterハッシュタグをサジェスション
2位:Alchemy Text API(IBM)
機械学習を活用した自然言語処理API。対象のテキストから、キーワード、感情、コンセプト等を解析することが可能。ソーシャルネットワークや各種レビューサイトにおける対象商品の評判調査で活用される。さらには、トレンドのピックアップ、競合企業の各種情報のピックアップ等、幅広いシーンで活用される。
<<主な機能>>
- 対象のWebページ上のテキストから感情を解析
- 対象のWebページからauthorを分析
3位:Lexalytics(Lexalytics)
解析対象のテキストからエンティティ、テーマ、カテゴリ、意図、感情、サマリーを解析して抽出。カスタマイズ機能も充実。収集したデータのセキュリティやプライバシー保護も重視しており、ビジネスシーンでも活用が広がる。
<<主な機能>>
Lexalyticsの独自解析エンジンSemantriaを活用し対象のドキュメント上のテキストから感情解析
4位:BingSpellcheckAPI(Microsoft)
Microsoft社が提供するCognitive Servicesの1つ。スペルチェックに加え、周りの文章に合わせた補正も行う。例えば、「I give you an advise」を解析させると、この用法であれば動詞の「advise」ではなく名詞の「advice」が適切であると判断し「I give you an advice」と返す。
<<主な機能>>
- 対象のテキストのスペリング、大文字・小文字等をチェック
5位:MonkeyLearn
機械学習を活用したテキスト分析を通じて感情分析や分類等を処理するAPIを提供。日本語を含めた多様な言語にも対応。MS WORD, MS Excel, PDF等のバイナリデータからも解析が可能。
<<主な機能>>
- 対象のテキストを解析し分類
- 対象のPDF, MS WORDなどのバイナリファイルから特定のテキストを抽出
画像認識
1位:Microsoft Computer Vision(Microsoft)
マイクロソフト社が提供する画像認識API。Microsoft Azure, blog Storage, SQL Server databaseとの親和性が高い。各種ドキュメンテーション、チュートリアル、サンプルが充実しており、高い学習曲線が期待できることも人気の理由の1つ。レスポンスタイムも評判が良く、standard tier契約にて99.9%以上の可用性を保証。OCRも装備しており、医療機関、警備会社、金融機関等で記録管理用途でも使われる。
<<主な機能>>
- 対象の画像を解析し、認識した人間の性別、年齢等を分析、また画像中の状態を説明
- 対象の画像中の文字を認識し、デジタル化
2位:CloudSignt(CloudSight)
入力画像を解析し、対象オブジェクトを識別することを得意とする。ECサイトやSEOのインデックス作りなどで使われるケースが多い。例えば、ECサイトであれば画像をアップ後、CloudSignt APIによる商品説明の代替などで活用している。角度がずれた写真や光の薄い写真からも認識できるなど、強力な認識精度を誇り、複数画像ファイルの同時アップロードにも対応するなど、各種機能も充実。
<<主な機能>>
- CloudSightのリポジトリへ画像を登録し、IDとともに暫定的な解析情報を返却
- 上記で得たIDを使い、解析情報を取得
3位:AWS Rekognition(Amazon)
Amazon AWSのサービスの1つとして提供。対象の画像を解析し、物、人、テキスト、シーン、アクティビティを識別。人物比較機能が充実しており、解析対象の画像から有名人を抽出する機能なども提供。また、アップロードと同時に画像の向きを補正する等、細かな支援機能も提供している。
<<主な機能>>
- 予め登録した画像中の顔とリクエスト時に指定した画像中の顔を比較し一致度合いを解析
- リクエスト時に指定した顔と一致する顔を予め登録した顔のリストから抽出
4位:ClarifaiV2(Clarifai)
2013年の創業以来、画像・映像解析で注目を集めてきたClarifaiの画像・映像解析テクノロジーへアクセスするためのAPI。ユーザー向けのカスタマイズ機能が充実。学習機能を利用し、ClarifaiのAIへ個々のユーザー観点で精度向上を図ることも可能。
<<主な機能>>
- リクエスト時に指定した画像中のオブジェクトを指定したモデル特定(例えば、MODEL=FOODで指定しリクエストを投げた場合、指定した画像中にある食べ物が何であるか分析)
- 任意のモデルを作成し、APIを通じてClarifaiのAIへ学習させる
5位:Kairos API(Kairos AR)
画像解析APIの中でも特に呼び出しロジックを簡略化することを重視。そのため、開発者はビジネスロジックの組み上げに注力可能。API自体はAmazon AWS上で可用性を意識した構成で運用されており、稼働率の高さも開発者から人気を集める理由の1つとなっている。
<<主な機能>>
- 予め登録した画像中の顔とリクエスト時に指定した画像中の顔を比較し一致度合いを解析
- 対象画像中の顔から、年齢、人種、メガネ装着有無等を解析
音声認識
1位:IBMWatsonSTT(IBM)
高精度な音声認識機能を手軽に利用可能にするためのAPIを提供。複数の言語が同時に飛び交っているデータについてもそれぞれを解析することも可能。音声データから人を識別することも可能なため、コールセンターなどでの利用が進んでいる。医療機関や教育機関はもとより交通、エネルギー、金融、通信等幅広い業界で利用される。
<<主な機能>>
- リクエスト時に指定した音声ファイルを解析し、音声をテキストデータへ変換・解析精度を向上させるべく、任意の単語を解析エンジンに覚えさせる
2位:Speech2 Topics API(Yactraq Online)
音声認識技術、自然言語処理技術を組み合わせ、動画データからキーワード、トピック、感情等を抽出するAPIを提供。このような技術の利便性は理解しつつも予算面から二の足を踏んでいた開発者にも利用してもらうべく比較的な安価なプランを用意。
<<主な機能>>
音声認識、機械学習、自然言語処理を組み合わせることで下記のような機能を実現
- Youtubeなどの動画から感情を分析
- Youtubeなどの動画からテーマを分析
3位:Bing Speech API(Microsoft)
Microsoft社が提供するCognitive Servicesの1つ。音声を認識しテキスト化する機能に加え、テキストから音声データを生成する機能も提供。いずれも多様な言語に対応。(この記事の公開時点では日本語のサポートはテキストから音声データを生成する機能のみ)
<<主な機能>>
- 音声ファイルをテキストデータへ変換
(2018/10/3時点で日本語を含む32言語に対応)
4位:Speech API(sapiensapi)
雑音除去機能、音声データへ属性を付与する機能を提供。音声除去に関しては、車の走行音、レストランなどの公共施設における一般的な雑音、幼児の泣き声、鳥のさえずり、サイレン音等を除去し、対象の音声データのみを抽出できる。属性付与機能においては、対象の音声データに対して、言語、声主の年齢、性別、感情等の情報を分析し、属性付けを行う。
<<主な機能>>
- 音声データより声以外の雑音(自動車走行音、サイレンなど)を除く
- 音声データを解析し、声主の年齢、性別、感情等を分析
5位:Google Cloud Speech API(Google)
Googleが提供する人工ニューラルネットワークを活用した音声認識API。日本語を含む120もの言語をサポートし、音声から言語を解析しテキスト化する機能等を提供。固有名詞も数多く登録しており、固有名詞も含めた解析結果を出力。コールセンターにおける会話やりとりのデータ化等で広く使われる。
<<主な機能>>
- 対象の音声/動画ファイル中の音声をテキストデータ化
- 対象のURLで指定した音声/動画中の音声をテキストデータ化
(2018/10/3時点で日本語を含む120言語に対応)
今後の機械学習APIの展望は!?
さいごに今後の機械学習APIの流れについて伺いました。
光富さん:機械学習などAIに限らずAPIのトレンドとしては、セルフサービス化の流れが近年加速化しています。
APIをより多くの人に見つけてもらい、そして活用してもらうことを目的に各APIの機能、Swaggerによる仕様、バージョン情報、使用状況、パフォーマンス指標等を共通の形式でまとめたAPIポータルを導入する企業、もしくは導入を検討する企業が増えてきました。
これまではPrivate APIを対象にしたセルフサービスが一般的ではありましたが、Rakuten RapidAPIのようなPublic APIを対象にしたポータルの出現により、AIの技術を持っていない企業に関しても他社が開発したAI関連技術を自社アプリに取り込むということが可能になりました。
つまり、自社のAPI活用を前提としていたことで従来、既存技術やデータを俊敏に再利用して使うことを主目的とされていたAPIがデジタル領域への展開するためのドライバーとしても活用されるようになりました。
また、これまでは機械学習の専門家でないとAIを活用したアプリを開発することがなかなか難しかったものの、多様なAI関連APIが揃ってきたことで、その障壁は大きく下がりました。今後は、アプリ開発側としては技術深掘りする能力よりも、AIを活用したdisruptiveな技術並びに業種・業界問わず公開される機能やデータを適切に組み合せて目的・要件を実現させるアーキテクト的な観点がより重要になります。
楽天に関する話をしますと、楽天ではAIを専門とする研究部門を設立し、社内、社外向けアプリ問わずAI活用を進めています。一例を挙げますと、動画配信サービスの「Viki」ではAIを用いて動画を自動で機械翻訳しています。このような楽天のAI関連技術はAPIとして未だ公開されてはいませんが、将来的にはAPIを公開して開発者へ寄与する計画が立ち上がる可能性もあります。
■AI専門メディア AINOW編集長 ■カメラマン ■Twitterでも発信しています。@ozaken_AI ■AINOWのTwitterもぜひ! @ainow_AI ┃
AIが人間と共存していく社会を作りたい。活用の視点でAIの情報を発信します。