最終更新日:
海外のAI系コンテンツに触れたい方におすすめ。
AINOWは翻訳記事だけではなく、海外記事の要約をまとめたコンテンツも配信していきます。
目次
海外記事要約まとめ
いかにしてPythonによるディープラーニングを使ってiPhone XのFace IDを実装したか。
著者 Norman Di Palo
著者のNorman Di Palo氏は、中世から存在するローマ大学の学生でAI企業のインターンとして働いてもいる。同氏がMediumに投稿した記事では、iPhone Xシリーズに実装されたFace IDをリバース・エンジニアリングした試みを解説している。
同氏によると、Face IDを使うと最初にユーザの顔を登録するのだが、この登録が短時間で終了することから大量の顔画像からユーザ固有の顔データを生成しているのではない、と推測される。というのも、ユーザ固有の顔データにもとづいてユーザを特定するようなアルゴリズムを実行する場合、多くの時間が必要となるはずだからである。それゆえ、使用が推測されるのはsiameseニューラルネットワークと呼ばれるディープラーニング・アルゴリズムである。このアルゴリズムは、データの特徴を特定の次元のデータに圧縮してから、データの特徴を増幅するものである。平たく言うと、データごとの違いを強調して区別しやすくするのだ。以上のように推測した同氏は、実際にsiameseライクなアルゴリズムとKinectを使ってFace IDライクな機能を実現した。
なお、同氏が開発したFace IDライクな顔認証システムのソースコード(開発言語はPython)は、こちらからダウンロードできる。
未来の仕事をデザインすること
著者 Sara Ortloff Khoury
著者のSara Ortloff Khoury氏は、Google UXデザインチームのディレクターを務めている。同氏がMediumに投稿した記事では、Googleが策定したAIサービス設計の3原則にもとづいて開発した求人サービスについて解説している。
Googleは、AIがヒトの仕事をより良くサポートするために「AIサービス設計の3原則」を策定した。その3原則とは以下の通りだ。
- AIはヒトが仕事において達成することを強化すべき
- AIはヒトが仕事において求めていることを予期すべき
- AIはバイヤス(偏見)を減らし機会を増やすべき
この3原則にもとづき、同氏はGoogle CloudデータをAIが活用する求人サービス「Cloud Talent Solution」を開発した。このサービスでは、求人担当者が履歴書に書かれているキーワードを検索するという仕事を頻繁に起こっていることに着目し、そうした反復的かつ単純な仕事をAIが実行するように設計されている。このように、AIとアプリが統合されることによって、既存のエンタープライズ向け製品は大きく変化する、と同氏は主張している。
Snips AIRのトークンセールについて
著者 Rand Hindi
著者のRand Hindi氏は、スマートスピーカー「Snips AIR」を開発するフランスのスタートアップSnipsのCEOを務めている。同氏がMediumに投稿した記事では、Snips AIRの販売を仮想通貨を用いて行うビジネスモデルについて解説している。
Snipsが開発したSnips AIRは、分散型のスマートスピーカーという特徴がある。Amazon EchoやGoogle Homeのような既存のスマートスピーカーは、企業がクーロズドに開発したスAIと企業が管理するクラウドデータを使って運用される。対して、Snips AIRはソースコードが公開され、クラウド上のデータを使うことなく、あらゆる処理がスマートスピーカー端末で完結する。このため、既存のスマートスピーカーに潜在的に生じているセキュリティ上の問題が起こりえないのだ。こうした分散型のビジネスモデルはSnips AIR開発の資金調達においても徹底されており、Snips社が発行する仮想通貨を用いて資金を調達している。さらには、Snips AIRの購入および同スピーカーで動作するアプリの購入にも仮想通貨が用いられる。製品が動作するエコシステム自体を仮想通貨で構築するので、Snips製品のコミュニティが大きくなればなるほど仮想通貨の価値が上がり、その結果としてSnipsのエコシステムが堅牢になる(と理論上は言える)。
以上のような仮想通貨を用いたスマートスピーカーのエコシステムの構築を通して同氏が目指しているのは、GoogleやAmazonといった巨大プラットフォーマーに中央集権的に管理されない分散化されたAIコミュニティの創設なのである。
ターゲットを適応的にリスケーリングしながら出力を精確に保つ
著者 Hado van Hasselt、Matteo Hessel
著者のHado van Hasselt氏とMatteo Hessel氏はDeepMind社の社員で、前者はリサーチサイエンティスト、後者はリサーチエンジニアを務めている。二人が執筆したDeepMind公式ブログ記事では、強化学習をマルチタスク化するPopArtという手法について解説されている。
従来の強化学習は、異なるルールのゲームを同時に学習することを苦手としていた。というのも、ゲームのルールが異なると(あるアクションに対して何ポイントの報酬を与えるかといった)報酬を与える尺度に違いが生じ、その結果として報酬が多いゲームにばかり適応してしまうという問題があった。こうした問題を解決するために、同社は異なるルールにおける強化学習を適切に比較できる技術「PopArt」を開発した。この技術を使うことで、例えば従来よりパックマンをプレイするAIのパフォーマンスが向上した。なお、パックマンはエサを食べる時と敵キャラクターを食べる時で著しくルールが異なるため、従来の強化学習ではプレイの向上に限界があった。
以上のような強化学習をマルチタスク化する技術は、AIが複雑な目的と報酬体系をもったタスクを遂行する際に生じる目的達成と報酬のトレードオフ(つまり、ある目的を達成するためには何らかの報酬を断念しなければならないような状況)を学習するうえで重要となる、と結論づけられている。
MicrosoftのAIと笑いが国立コメディーセンターに集う
著者 John Roach
著者のJohn Roach氏はテック系の記事を中心に執筆しているライターで、2016年よりMicrosoftのブログ記事を手がけており、AINOW翻訳記事『MicrosoftはAIを自動的に開発するAI機能を明らかにする』も執筆している。同氏がUS版Microsoftの公式AIブログに投稿した記事では、「笑い」にAIが活用された事例を紹介している。
ニューヨークにある国立コメディセンターでは、AIを活用した笑いに関する展示を体験できる。同センターに入場すると、入館者は笑いに関する質問に答えることになる。この質問の対する回答にもとづいて、AIが入館者の「笑いのツボ」を特定する。この笑いのツボに関する情報は、入館者が館内を滞在中に身に付けるバンドに埋め込まれたチップに保存され、このバンドと展示物が相互作用して展示がパーソナライズされることになる。入館者が最後に体験する展示物「Laugh Battle」では、入館者がモニターに向かって自分で選んだギャグを言うことになる。すると、AIがギャグを言っている時の入館者の表情を分析して、面白いかどうか判定するのだ。顔の表情の分析には、Microsoftが提供しているAzure Cognitive Servicesに実装されているFace APIが活用されている。このAPIは、10万枚以上の画像を学習データとして幸福や悲しみといった8つの感情を認識するように訓練された。
以上のような展示に関して、MicrosoftのAIマーケティング部門においてヴァイス・プレジデントを務めるMitra Azizirad氏は「わたしたちは、すべてのヒトビトに楽しみをもたらすようにしてAIを文化と社会に根付かせようとしているのです」とコメントしている。
Special Thanks (翻訳協力):吉本幸記