最終更新日： 2019年7月10日

Google AI部門の筆頭サイエンティストであるBlaise Agüera y Arcas氏が執筆したUS版Google公式ブログ記事では、10月10日に発表されたGoogle製最新スマホ「Pixel 3」と「Pixel 3 XL」に実装されたAIについて解説しています。

製品サイズによる制約からAIの機械学習のような高負荷な処理の実行が困難な従来のスマホでは処理すべきデータをサーバに送信して、サーバでAIによる画像認識等の処理を実行し、その結果を受信するクラウドAIモデルが採用されていました。このモデルの欠点はふたつあり、ひとつはデータの送受信に伴って電力が消費されてしまうこと、もうひとつはデータ通信が発生することによって個人情報が漏洩するリスクが生じることです。Pixel 3／3 XLでは、こうしたクラウドAIモデルに代わってオンデバイスAIモデルを採用しました。このAIモデルにおいては、処理データをサーバに送信することなくスマホ内部でAIによる処理が完結するのです。こうした特徴により、オンデバイスAIモデルはクラウドAIモデルの欠点を克服しました。さらに欠点の克服に留まらず、AIを活用した高度な画像処理技術も可能となりました。こうした画像処理技術は、トップショットやフォトブースモード、そしてPlaygroundといった最新のカメラ機能において使われています。

以上のようにしてAIを軸として再設計されたPixel 3／3 XLは、一部のアナリストからは「iPhoneキラー」という異名で呼ばれるほど完成度の高いものとなっています。それゆえ、PixelシリーズはiPhoneシリーズとともに今後とも注目すべきでしょう。

Blaise Agüera y Arcas
Google AI筆頭サイエンティスト

2018/10/16

先週、わたしたちはPixel 3とPixel 3 XLを発表しました。これらのスマホにはユーザに対して根本的に役に立つ体験を届けるために最良なGoogleのAI、ソフトウェア、そしてハードウェアが結集しました。そして、AIこそ新規かつ有益な機能を解き放ち、わたしたちの携帯電話と周囲の世界が相互作用する方法を劇的に変える構成要素となっているのです。

目次 [非表示]

それにしても、そもそもAIとは何？
オンデバイスAIによる利益

それにしても、そもそもAIとは何？

人工知能（Artificial intelligence：AI）とは、スマホのようなわたしたちが作っているデバイスが事例やユーザの行為から学習して多少なりとも賢くなることを可能とするテクノロジー全般のために使われる洒落た術語、ということができます。AIが可能とするのは、書き言葉や話し言葉を理解することから画像のなかからヒトやオブジェクトを認識することまでと多岐に及びます。こうしたAIは、機械学習モデルによって「訓練される」ことで作られます。機会学習とは、コンピュータが大量のデータからパターンを学習することを意味し、コンピュータは学習したパターンを活用して何らかの予測を生成します。わたしたちGoogleは、わたしたちの製品をより賢くするために学習用のデータを処理する安全かつ頑健なクラウド・インフラストラクチャーを構築してきました。今日では、AIはGmailにおけるスパムメールのフィルタリングからGoogle検索における回答に至るまでのほぼすべてのGoogle製品を支援しています。

クラウドを活用した機械学習モデルは、時間をかけてGoogle製品をより賢くしてきた安全な方法であった。
画像提供：Google

Pixel 3にベストなAI体験をもたらすためには、いくつかの根本的な再考が求められました。Pixel 3とは、データがスマホ内で処理されている時でも新たな有益かつ安全な体験を可能とするような複数のセンサーを駆動できるパワフルなコンピュータでもあります。こうしたパワフルなコンピュータはAIが制御している機能群とも言えますが、これらの機能はオフラインであっても使用可能でネットワーク接続を必要としていません。さらにユーザのデータはスマホ内部にのみ保持され、秘匿性が維持されます。Pixel 3を使えば、信頼性のあるクラウド上で機械学習とデータ処理が実行されていた伝統的なAI処理に関するアプローチを、ユーザが屋外を移動中であってもデバイス内にあるAIにアクセスすることによって代替できるのです。

オフライン時にも動作する高速なAI体験をもたらす。
画像提供：Google

オンデバイスAIによる利益

わたしたちは、クラウド上で実行されていた機械学習と演算能力のパワーを直接Pixel 3にもたらすために、AIの設計を小型化することに努めました。クラウドを使わずに処理をスマホ内で完結させるオンデバイスAIを使えば、新しい種類の体験が可能となります。そうした新しい体験にはカメラ撮影時のライティング処理の高速化、より効率的なバッテリー駆動、そしてユーザのデータをスマホ内部のみに保持するといったことが挙げられます。AIがもたらす新体験は、昨年リリースしたPixel 2においては自動音楽認識機能Now Playing※というかたちで実現しました。そして今年、オンデバイスAIが活用されたPixel 3のカメラとカメラアプリはユーザに新たなスーパーパワーを与えます。そのパワーを使えば、ユーザはよりシームレスに周囲の世界と相互作用できるようになるのです。

オンデバイスAIではサーバに情報を送信することなく動作することができ、バッテリー消費量もより少なくなった。
画像提供：Google

※Now Playingとは、Pixel 2とPixel 3に実装されている音楽認識機能のこと。同等の機能を実行するiOSアプリには、Shazamがある。同機能を使えば、スマホユーザの付近で流れている音楽の楽曲名を特定することができる。楽曲情報はロック画面に表示することができる。また、認識した楽曲の履歴も調べられる。

通話アプリの新機能であるコールスクリーンは、まずはアメリカで英語版がローンチされます。この新機能は、AIが知らない電話番号や認識できない電話番号からの通話であることを着信画面で通知してユーザを助けるものです。着信した時はいつでも、着信画面にある「Screen Call」ボタンを押下すると音声認識機能が起動して通話相手を応対し、その通話内容を画面に転記します（自動通話内容は「どちら様ですか」や「ご用件は」といったもの）。こうしてユーザは通話に応対すべきか、あるいは通話相手をスパムとしてマークして以後着信拒否するかを決めることができるのです※。こうしたことが実現するのも、通話における音声や通話内容の画面への転記といったすべてのことがスマホのなかだけで起こり、通話内容もユーザ以外には通知されないからです。

コールスクリーンはリアルタイムに通話相手の反応をテキストに転記するオンデバイス音声認識機能を活用しており、通話の音声やその内容を転記したテキストはスマホからどこかに送信されることはない。
画像提供：Google

コールスクリーンを使って実際に通話内容が画面に表示される様子は、以下のGoogle公式動画を視聴するとよくわかる。なお、コールスクリーンと似たような機能としてGoogle Duplexがある。この機能は、美容院の予約のような比較的定型的な電話を使った仕事をAIが代行するというもの。

今年リリースしたPixel 3のカメラは、ユーザが素晴らしい瞬間を捉えることを助け、オンデバイスAIがカメラ撮影画面に写った被写体を適切に捉えるのでユーザが見たいものをより良く見せます。新しい低電力消費の画像認識モデルは、デバイスから画像をクラウドに送信することをせずに顔の表情、オブジェクト、そしてテキストを認識できます。フォトブースモードでは、顔の表情や画質をリアルタイムに分析して画像を評価する機械学習モデルが活用されてます。この撮影モードを使えば笑顔や変顔が自動的に検出されるので、シャッターボタンを押すことなく面白いセルフィ―を撮影できるのです。フォトブースと同じ種類の画像分析技術が使われいるトップショットは、シャッターを押下した前後の画像を記録しているモーションフォトのなかから被写体を素直に映し出している素晴らしい画像を提案してくれます。HDR+設定が異なっていることでより写りのよい画像をおすすめしてもくれます※。

フォトブースモードとトップショットを実際に使っている様子は、以下のGoogle公式動画を視聴するとわかる。

Playgroundは画像に適したPlaymoji、ステッカー、そしてキャプションをおすすめするAIモデルを活用して知的なAR体験を生み出します。この機能を使えば、画像のなかに写っているユーザ自身のすがたにもとづいてユーザ自身を表現することが可能となります※。また、カメラ撮影モードを起動しなくても、画像認識機能が周囲の世界から情報を集め、ユーザに行動をうながします。というのも、Googleレンズが電話番号やウェブサイトのアドレスを認識して、通話やウェブサイトへのアクセスを提案するからです※。こうしたことがカメラで実現するのです。

Playgroundを実際に実際に使っている様子は、以下のGoogle公式動画を視聴するとわかる。同機能と類似したものはInstagramやSnapchatにも実装されているが、同機能では3Dモデルを用いたARオブジェクトが表示される点が類似機能と異なっている。

Google Lensを使ってテキスト情報を読み込んでいる様子は、以下のアニメ画像より確認できる。

Google Lensを使ってテキスト情報を読み込んでいる様子。
画像提供：Google[/caption]

さらに、Google Lensを活用すればカメラ画面に写っている被写体に関する情報を検索することなく知ることができる。というのも、同機能が被写体を画像認識して、その認識した情報にもとづいて画像に関する詳細情報を表示するからである。同機能で画像認識を実行している様子は、以下のGoogle公式動画を視聴するとわかる。

Pixel 3は始まりに過ぎません。わたしたちGoogleはAIドリブンな能力によってヒトビトを活気づけたいのです。先進的なオンデバイスAIを活用すれば、わたしたちはヒトビトに役立つ新しい体験を開発することができます。そして、こうした体験はユーザの携帯電話において高速かつ効率的に実行され、ユーザのプライバシーをも守るのです。

投稿カテゴリー：PIXEL、AI

原文
『Pixel 3 and on-device AI: Putting superpowers in your pocket』