【CCSE 2018 抜粋レポート】サイバー、メルカリ、スタートトゥディなどの企業研究を紹介!

おざけんです。2018年7月1日明治大学中野キャンパスにて「CCSE 2018」が開催されました。

普段なかなか注目されない「企業研究」に特化したカンファレンスで、メルカリをはじめ、楽天、サイバーエージェント、スタートトゥディ、Cygamesなど名だたる企業が集結し、それぞれの研究所や研究内容の紹介を行っていました。

IT系の企業では企業内研究が盛んです。それは技術の発展が著しい昨今において、次世代を見据えた商品開発がとても大事だからではないでしょうか。

CCSE 2018で学んだポイント

  • 検証を繰り返すスピードを高めていくことが大事(リーン型開発)
  • リアルを知る現場の人とデータ、そして開発者(エンジニア)が一体になった商品開発が大切 →時代はすばやく変化していてデータに基づいた迅速な判断が重要!
  • 大学など外部組織を巻き込む力の大切さ →社内の限られたリソースを社外を巻き込んだ多角的な視点から活用法を見出していくことが大事
  • 「ビジネスデータをフル活用する」重要性 →データを中心に現実の課題を見据えて議論していくことが大事
  • ユーザが多様化しすぎていて、企業からするとユーザがわからないという状況になっている。勘が通用しない。だからこそデータが大事

全体を振り返って、データドリブン&ユーザ視点を維持しつつ新たな技術を盛り込んだ開発を行われている印象でした。AI系の開発事例も多く出てきました。

以下いくつかのセッションをピックアップしてお伝えします。

セッションをPick Up!!

■プライバシーに配慮したコンピュータビジョン技術の社内導入

Speaker:楽天技術研究所 中澤さん

実世界のセンシングに力を入れている楽天。今回はカフェテリアのリアルタイム混雑検出がテーマ。

楽天がある二子玉では12000人以上が働き、カフェテリアがとても混雑するそうです。

そこで、入口と出口にあるカメラを使ってカフェテリア内の人数カウントしています。

(入口から入った人数)ー(出口から出た人数)で中にいる人数がわかります。
その情報を社内のポータルサイトでリアルタイムで情報提供しているそうです。

そこでネックになるのがプライバシーについてです。

個人情報保護法では光彩やDNA、歩容(歩き方)なども個人情報とされています。情報の特徴抽出をしても特定できれば個人情報です。

個人情報保護法の施行を迎えるに当たり研究者が気をつけるのは
「誰の」「なぜ」「どんなデータか」「どのように扱うのか」の4点。

経産省が提供するカメラ画像利活用ガイドブックもあり、それだけでなく、社内の法務部とコミュニケーションが必要です。

また、ビジネスサイドと研究所のどちらが責任を負うのかを明確にしておかなければなりません。

ビジネスサイドはやりたいことを押してきますが、研究者、エンジニアはその本質を理解して代替案も提示することが大事です。

■インタラクティブな属性操作が可能なファッションアイテム検索

Speaker:スタートトゥディテクノロジーズ スタートトゥディ研究所 リサーチャー 中村さん

ZOZOTOWNを運営しているスタートトゥディ。今年から社内に研究所ができました。

今まではテキストベースの検索や画像ベースの検索も導入しています。画像検索では視覚的に似ているアイテムを探すことができます。タイトルや属性情報がなくても検索が可能なのが特長です。

テキストにも画像にもそれぞれ一長一短があります。

テキストは細かな検索条件の設定が可能ですが情報にノイズがあります。画像は視覚的に検索できますが、検索結果を細かくコントロールできません。

そこでAttribute manipulationを実装したファッションアイテム検索システムを研究しています。画像データに加えてテキストなどのマルチモーダルなデータを使うことで、視覚的な類似度を保持しながら色など特定の属性のみを変化させるアルゴリズムが可能になっているといいます。

具体的にはVAEとGANを用いた生成プロセスでパラメータの動的な操作を実現しました。

画像+属性という新たな検索手法は今後どのように実装されていくのか楽しみです。

メルカリの研究開発組織R4D

Speaker:メルカリ 山村さん

テクノロジーを社会実装してDisruptionを目指す研究開発組織がR4Dです。

R4DはのRは研究(Reserch )のこと。4つのDは以下の4つの意味が込められています。

  • 設計(Design)
  • 開発(Development)
  • 実装(Deployment)
  • 破壊(Disruption)

R4Dではメルカリグループと研究機関の強みを相互に活かして高速に社会実装しています。パートナーが基礎研究や応用研究をし、R4Dで研究開発、社会実装を担っています。

AIエネルギー、ネットワークやブロックチェーン、ロボティクスなど多くの分野の研究にあたっているそうです。

特徴的なところは、今1人が2つ以上のテーマを持ちそれぞれの個人が研究開発にあたっているということ。

R4Dはこれからメルカリに貢献するだけでなく、貧困や飢餓、不平等をなくすなど多くのミッションがあるそうです。

 

料理動画サイネージシステムの開発について

Speaker:Cookpad TV  今井さん

料理動画サイネージシステムの開発についての発表です。

CookpadTVは料理動画が流れるサイネージで、8000台近くがスーパーの店頭に設定されていています。献立に悩む買い物客にメニューを提案することが目的です。なんと月に1000台ペースで増えているそうです。

今回は効果検証プロセスを重視した開発についてのお話でした。

一般的なサイネージ開発はウォーターフォール開発が多く、一度リリースしてしまえばシステムの変更を行うことが難しい課題があります。

CookpadTVは開発後に展開したあとも、改善をしていけるようなリーンなシステムを構築しています。

サイネージとしてはまずハードが肝です。
CookpadTVではすぐに手に入る量産品のタブレットを導入しました。

デバイスには、ユーザにすばやく価値を届けるためにソフトウェアの工夫をしています。

まず、デバイスを一括して管理できるようにしています。
MDM(Mobile Device Managament)を構築し、端末を自動でアップデートできるなどが可能になっています。

この基盤整備は検証スピードを上げるために構築したといいます。ではどんな価値を検証したいのでしょうか。

価値仮説を作っているCookpadTVはさまざまな仮説を言語化しています。

その上で、実装→検証のサイクルを高速に回すことで、さまざまなな機能の利用率をスピーディに改善しています。

にユーザ視点で高速なPDCAを回す素晴らしい事例でした。

■メルカリにおける機械学習基盤について

Speaker:メルカリ 中河さん

メルカリにおける機械学習基盤についての発表でした。

TensorFlowなどを利用した内製の機械学習プラットフォームを構築している。OSSでも公開する可能性もあるそうです。

メルカリは感動出品(画像からのカテゴリ推定)や違反出品の検知、価格サジェストなどに機械学習を応用しており、機械学習の基盤を整えています。

具体的には、Githubへのプッシュをトリガーにして学習を開始したり、モデルづくりの過程の自動化も進められています。

またDockerの思想を応用し、同じプロセスを違うコンテナに作業させることで個々のコンテナの負荷を減らすなどの工夫もされています。

今後はデプロイやモニタリング、ハイパーパラメータの調整、再学習などのプロセスを自動化していきたいともおっしゃっていました。

 

■グローバル企業の中で「変化」を仕掛ける,楽天技術研究所の挑戦

Speaker:楽天 森さん

楽天技術研究所は世界で5カ国、140名以上の規模で、既存の事業と独立した戦略的なR&D組織です。具体的にはロボティクスや機械学習、ARやHCIの研究に取り組んでいます。

2017年には66個の研究プロジェクトが発足し、そのうち42プロジェクトがビジネス成果を創出しました。

代表的な取り組み
・世界初のドローンデリバリー技術を活用。第一弾としてゴルフ場コース内でのゴルフ用品や軽食、飲み物のデリバリー
・Rakuten Cafe(渋谷)でFCバルセロナとコラボしたMR技術
・遺伝子ラボ

楽天流のアプローチについてもご紹介くださいました。

まず大切なのは研究者だけで研究計画を作らないということ。ビジネス側の社員を巻き込み、議論を通して立案を進めるといいます。

これにより研究所とビジネスの融合による新しい価値の体験・実装が可能になります。「ビジネスサイドで何が問題で何が課題なのか」を研究者が理解でき、またビジネスサイドも技術がどれほど発展しているのかを理解することができ相互に利点があります。

また「ビジネスデータのフル活用」が重要です。

研究者が感じている「データ不足」や「ビジネス側の課題がわからない」という不満がありますが、データを中心に現実の課題を見据えてさまざまな人を巻き込んで議論していくことが大事。

また現在、インターネットが当たり前になり、人々の行動が様変わりしました。

ユーザのリーチ力がグローバル化している状況です。海外の商品も気軽に買うことができるようになりました。

そうなると企業からするとユーザがわからないという状況になりやすいといいます。つまり昔のビジネスの常識が通用しなくなってきている。

技術の革新が早く、40代以上の人は、その環境の中でビジネスをしていないので、経験や勘がが役に立たなくなっています。

常にデータを見て変化していく世の中をみて研究しないといけません。

楽天は70以上のサービスを運営しています。全世界で1億を超えるユーザがいて、膨大なデータを蓄積している。そのデータを基に研究に活用しているそうです。

例えば楽天のサービス「Viki」は世界160カ国以上で使われているビデオストリーミングサービスです。ユーザが字幕を生成することができるため、映像と紐付いた字幕データがたくさんあります。

アカデミアとの連携も強化しています。
同じグループ企業内では見識やアプローチに限界があり、限られたリソース(データ)を最大限に活用することができません。
ユーザが個別化している今、企業内の限定的リソースをさまざまな視点で多角的に議論してビジネスに活かすことが大切です。

だからこそ研究目的でのデータ提供も楽天は積極的に行っています。楽天市場や楽天トラベルの情報を260以上の大学や研究室・研究機関に提供しているそうです。

それだけではなく、さらにはデータを活かしたチャレンジイベントを開催しています。楽天市場のユーザと協力して新たなプロジェクトを一緒に作っていく取り組みも行っているそうです。

今、ビジネスで新しい取り組みをやろうとしたら最新技術の活用と無縁ではいられない。
「研究所の技術がリードとなり、新しいビジネスが起きる」と森さんはおっしゃっていました。

企業研究所は常に変化を仕掛けつづけます。リアルとネットを融合し、常に進化し続ける必要があります。

■コーディネート整合性を考慮したカテゴリ間推薦

Speaker:スタートトゥディ研究所 真木さん

コーディネート整合性を考慮したカテゴリ間推薦についての発表です。

レコメンド(推薦)システムはさまざまな企業が競って開発している分野です。それは重要性が高く、ユーザに直接影響を与えるシステムだからです。

ファッションにおける推薦システムは他のジャンルと異なる部分があるといいます。

映画や音楽は個別に使用されるため同じカテゴリの商品をレコメンドしますがファッションアイテムは常に複数のアイテムが同時に使用されるという独自性があります。

つまりコーディネートの整合性(アイテム同士の相性)の問題が発生します。帽子を見ているユーザにその帽子と相性の良い服をレコメンドしたりする必要があります。

そこで取り組んでいるのがカテゴリ間推薦はトップスとボトムスなど他カテゴリで推薦するという研究です。

開発における問題点はAmazonで同時購入したデータセットを学習データとして使おうとしても、同時に買ったとはいえ、一緒に着るとは限らないということ。必ずしも同時に着るものを同時に買わないですよね。

ではどんなデータを使えばいいのでしょうか!?

スタートトゥディ研究所ではファッションSNSのデータを使うことでその問題を解決しました。

IQONという200万ユーザのファッションSNSを運営しており、おしゃれに関心のあるユーザがさまざまなコーディネートを作成しています。

これにより同時着用を想定した画像セットを得ることができました。

実際に学習させた結果はこちらです。

学習前は、相性の悪そうな組み合わせですが、学習後は相性がよくコーディネートとして成り立っているように感じます。

ZOZOTOWNの新たなレコメンドシステム、とても楽しみですね。

データサイエンスによる物流プロセスの最適化

Speaker:楽天 平手さん

倉庫内のオペレーションの最適化や商品配達効率の向上がテーマでした。

従来の倉庫では人が荷物をピックアップするために広大な倉庫内を歩き回る必要がありました。このピッキングの作業ははコストが高く、倉庫内の人件費の多くを占めるコストポイントでした。

ピックする人はオーダーをもとに作成されたリストを参考に倉庫内で商品を集め、パッキングエリアに持っていくそうです。めんどくさいピックもある現場の不満がありました。某アイドルのCDの大量買いなどは棚の移動が少ないため楽という裏話も笑

では、どうしたらこの課題を改善できるでしょうか!?

楽天はピックするリストをマッチングして行動距離短くするという取り組みを行いました。注文された商品に対して、なるべく行動距離が少なくなるようなリストアップを行うことで、効率化が図られています。

他にも任意の荷物に対して最適な配送の時間帯を指定する配送の最適化も行っています。過去の配達結果を学習データとして利用するそうです。

より良い機械学習のためのアノテーションの機械学習

Speaker:ABEJA 白川さん

機械学習が注目されていますが、データ整備がとても大切です。

いかに綺麗なデータを用意するかが重要で、モデルの改善よりもデータの整備のほうが精度を向上させます。

データ整備>モデル改善

アノテーションが大事だといいます。アノテーションは機械学習(ディープラーニング)に使用するデータにラベル付けをして、学習できる形にする作業のことです。

データをいかに正確にアノテーションしてクリーンなデータを用意するかが重要なポイントです。

ではアノテーションをどう改善していけばいいでしょうか。

・帽子やマスク、サングラスなど人お顔が認識できない
・白飛び
・年齢推定など本質的に難しいもの
・感性に基づくもの

上が綺麗にアノテーションされたデータを基に作成されたモデルの精度で、下がアノテーションにブレがあるデータを基に作成されたデータで作成されたモデルによる精度です。

アノテーションの正確さによって、精度に大きな違いがでることが見て取れます。

アノテーションのノイズへの対処はとても重要です。

ABEJAではEM-algorithmという各アノテータの傾向を推定するアルゴリズムなどを活用することで、アノテーションの精度を高めています。

 

■対話エージェントの積極的な介入による関係性構築の試み

Speaker:サイバーエージェント 馬場さん
AI技術の研究組織「AI Lab」を設立しているサイバーエージェント。
大阪大学との共同研究などにあたっています。

AI Labは「対話エージェントとヒトが当たり前に共存する世界を作りたい」というビジョンがあります。

だからこそ、受け身ではなく積極的に話しかけてくれる対話エージェントを開発しています。将来的にはロボットがヒトに話しかけたりヒトがチャットボットに相談したりすることが当たり前の世界を作りたいとおっしゃっていました。

対話エージェントと共存する社会を作るには「私のためにやってくれている感」をロボットから得ることが大事です。だからこそ対話エージェントからユーザにアクションを起こすことが大事だといいます。

例えばAI Labで開発しているのはヒトに同調するチャットボットです。カスタマーサポートでの理不尽なクレームなどで活用するそうです。

チャットベースのカスタマーサポートで、オペレータとユーザとチャットボットの3者で話し合いを行います。複数人対話によって社会を形成し、いかに理不尽なクレームなのかをユーザに理解してもらうことを目的としています。

味方感を醸成することで、オペレータの評価も向上するそうですよ。

 

メルカリにおける画像認識の応用

Speaker:メルカリ 木村さん

メルカリは1億800万ダウンロード、月間利用者数が1050万人と、日本を代表するサービスとなりました。

開発で最も注力しているのが自然言語処理(NLP)と画像認識です。

C2Cのメルカリにはさまざまなデータがあり、それを活用しています、

データの活用に向けて、機械学習のシステム基盤整備に力を入れていて、また量子アニーリングにも力を入れているそうです。

特に基盤については初期から力を入れていて、だからこそ機械学習に注力できると木村さんはおっしゃっていました。

メルカリの機械学習チームでは分業が進んでいます。サーベイをする時間や実装の時間を加味して、機械学習エンジニアがモデルを作ったり、要件定義やサーベイに注力できるように工夫しています。

具体的にはSysMLがデータ収集などの作業を行うことで、分業体制が整っているようです。

詳しくはこちらのスライドをWebで発見しました。ぜひご覧ください。

さいごに

メルカリやスタートトゥディ、サイバーなど日頃からどんな研究開発をしているのか気になっていたのですが、やはり次世代を見据えた先進的な取り組みをされていたことが印象的でした。

特にメルカリのように機械学習の基盤を整備する大切さは、その後の開発のスピードなどに直結するため、それぞれの企業に求められていることだと感じました。

また、技術を中心とした議論を研究所だけでなくビジネスサイドや社外も取り込んで行っていくこと。データに忠実に多角的な視点で開発を行っていくべきことなど、一見あたりまえですが、本当に大事なことだなと感じました。

さて、みなさんの会社では研究開発は進んでいますか?みなさんの会社でも自社のサービスとのシナジーを考えながらデータ、AIの利活用を進めていきましょう。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する