Yahoo! JAPANの月間約800億PVのデータはサービスにどのように活かされているのか

おざけんです。

東京・紀尾井町。ヤフー株式会社を訪れた。

機械学習をはじめとした人工知能技術には「データ」が肝心だ。今や各IT企業はいかにデータを収集し、どのように自社サービスに還元していくかに躍起になっている。
Googleをはじめとした海外大手は、スマートスピーカーなどを販売する他、数々のプラットフォームを運営することで、ユーザとの接点を増やし、それをサービス改善に活かしている。
また、Google Photosなどの自社プラットフォームで得たデータをもとに画像や音声認識などのツールを提供している。

では国内有数のIT企業であるヤフーではデータはどのように活用されているのだろうか。
取材に快く応じてくれたのは全社的な研究開発を担うYahoo! JAPAN研究所の田島所長だ。

Yahoo! JAPAN研究所所長田島玲（博士（理学）） 研究所の所長として、Yahoo! JAPANが保有するマルチビッグデータを生かした先端技術への取り組みや、さまざまなサービスでの活用を部門横断で推進中。ヤフー株式会社に加わる以前は、日本アイ・ビー・エム東京基礎研究所にて数理科学チームのリード、また、A.T.カーニー（戦略系コンサルティングファーム）にてコンサルタントを務めていた。 2000年に東京大学にて博士（理学）の学位を取得済み。

日本一のポータルサイト「Yahoo! JAPAN」そのデータ量は？
開発の先陣を切るYahoo! JAPAN研究所
それぞれのサービスへ還元されるデータ
省エネランキング世界2位のスパコン「kukai（クウカイ）」
編集後記

日本一のポータルサイト「Yahoo! JAPAN」そのデータ量は？

Yahoo! JAPAN

https://www.yahoo.co.jp

日本最大級のポータルサイト。検索、オークション、ニュース、天気、スポーツ、メール、ショッピングなど多数のサービスを展開。あなたの生活をより豊かにする「課題解決エンジン」を目指していきます。

Yahoo! JAPANが開設したのは1996年4月。20年以上に渡って運営されてきた日本を代表するポータルサイトだ。

そんなYahoo! JAPANは2017年度第2四半期決算発表によると

・月間総PV：約758億
・月間アクティブユーザーID数：4158万ID
・Dailyユニークブラウザー数：9302万ブラウザー

と、脅威のアクセス数を誇っている。

ヤフー株式会社　事業指標　推移表　（四半期）（クリックで拡大）

また、ヤフーが所有するデータはYahoo! JAPANのトラフィックデータだけではなく、数々のユーザ接点で収集する数多くのデータがある。

同社はYahoo!知恵袋やYahoo!乗換案内、ヤフオク!などユーザとの接点を多く展開していて、それぞれのデータの活用の幅は広そうだ。

Yahoo! JAPANのサービス一覧。ショッピングから決済まで数多くのユーザ接点を有している。（引用：https://services.yahoo.co.jp/）

では、そんなYahoo! JAPANを運営するヤフーのデータ利活用はどうなっているのだろうか。

開発の先陣を切るYahoo! JAPAN研究所

ヤフーの研究開発体制はどうなっているのか！？全社横断の研究組織 Yahoo! JAPAN研究所

Yahoo! JAPANをはじめ、各サービスで蓄積されたデータはどのように活用されているのだろうか。

まずは、社内の研究体制を伺った。

私達、Yahoo! JAPAN研究所は全社横断の研究組織です。2007年に発足し、社長直属、CTO直下を経て、2015年からはCTO管掌のデータ＆サイエンスソリューション統括本部という全社横断でデータ活用を推進する組織内に配置されています。
研究所では、Yahoo! JAPANの強みであるマルチビッグデータを活かして、広い視野を持って研究開発に当っています。なお研究員に限らず、研究所外のエンジニアであっても機械学習の開発などに取り組んでおり、論文を出すこともあります。

（引用：ヤフー株式会社 2017年度第2四半期決算説明会資料）

研究所の構成は！？

研究所の規模はどれくらいなのだろうか。

田島所長

正社員のメンバーは約20人です。また、インターン生も20人くらい在籍しています。外部との共同研究も盛んで、大学では、東大や慶応大、東工大、京大などと取り組んでいます。

共同研究している大学一覧は以下にまとまっている。

Yahoo! JAPAN研究所 - ヤフー株式会社

共同研究 - Yahoo! JAPAN研究所 - ヤフー株式会社

https://research-lab.yahoo.co.jp/collaboration/index.html

Yahoo! JAPAN研究所の開発領域 -自然言語処理に注力-

Yahoo! JAPAN研究所を筆頭に、データの利活用が研究されているヤフー。
では、AI領域では具体的にどのような研究が行われているのだろうか。

AI関連では具体的には「自然言語処理」「画像認識」「音声認識」「機械学習」の4つの領域で研究開発が行われています。

研究所内では自然言語処理を担当する研究者が特に多いという。これにより、Yahoo!知恵袋などYahoo! JAPAN内の膨大な言語データの利活用の研究が進められているそうだ。

対話や要約などに力を入れています。音声認識では、内製の「YJVOICE」というエンジンを持っています。Yahoo! JAPANが提供するさまざまなアプリの音声検索機能として、提供しています。

また、サービス内にある膨大な画像データも研究の対象となる。

画像では、商品画像のデータの研究が進んでいます。ヤフオクやYahoo!ショッピングでの画像の検索や、キャプション付けなどの研究を行っています。

詳しい研究内容や、発表された論文は以下のサイトをご覧いただきたい。

Yahoo! JAPAN研究所 - ヤフー株式会社

研究領域 - Yahoo! JAPAN研究所 - ヤフー株式会社

https://research-lab.yahoo.co.jp/domain/index.html

それぞれのサービスへ還元されるデータ

それぞれのサービスで集められたデータはどのようにサービスを成長させているのだろうか。具体的な事例を見ていこう。

Yahoo!乗換案内のデータを用いた未来の混雑予測

混雑を予測するのは難しいと考える方も多いだろう。リアルタイムの混雑データは確認することは可能かもしれないが、未来の特定の時点における混雑度を予測することは難しい。

しかし、ヤフーはYahoo!乗換案内のデータを上手く活用することで、未来の混雑予測を可能にしてしまおうと研究を進めている。

Yahoo!乗換案内は、出発地と目的地を入力すれば、路線ルートや料金などを表示してくれる便利なサービスだ。

乗り換え案内を使用する場合、その多くは「○○時につくように○○時○○分の電車に乗ろう」という考えのもと、日時を選択して検索するケースも多いのではないか。
そんなデータが集まると、特定の日付に特定の駅に行きたいと考えている人の数がわかる。そのデータを元に、異常を見つけ出し、平常時と比べることで混雑の予知につなげるという仕組みのようだ。

予測された検索数と当日の検索数の波形が似ていることがわかる。（引用：https://about.yahoo.co.jp/info/bigdata/special/2017/04/）

about.yahoo.co.jp

Yahoo!乗換案内のデータで未来の混雑を予測する

https://about.yahoo.co.jp/info/bigdata/special/2017/04/

Yahoo!乗換案内のデータで未来の混雑を予測するこんにちは、「Yahoo! ...

Yahoo! JAPANトップページレコメンド精度向上

（引用：ヤフー株式会社 2016年度通期および第4四半期決算説明会資料）

ディープラーニングを用いることで、Yahoo! JAPANトップページをパーソナライズしていく取り組みだ。レコメンドされるのはYahoo! JAPANトップページ下部の「あなたへのおすすめ」の部分。

13.5文字のトピックス見出しの要約技術

Yahoo! JAPANが提供する記事と見出しのセットを過去10年分、30万件を学習させることで、プロの編集者の知見を真似ようとする試み。
見出しを作る作業を機械に学習させ、支援ツールとしてAIを有効活用していくそうだ。

13.5文字で記事の要点が伝わるYahoo!ニュースのトピックス（2017年10月21日）

知恵袋のデータを活用。NTCIRのオープンライブQ

ヤフーはYahoo!知恵袋におけるテスト環境を提供している。それがOpenLiveQ (Open Live Test for Question Retrieval)だ。

NTCIR-13という情報検索などの技術を促進する研究活動の一環のタスクである。
参加者はこれを用いて検索サービスに特有の問題（曖昧性・不明瞭性、多様な適合性基準）に取り組む。

このOpenLiveQの参加者は以下のデータを利用できる。

Yahoo!知恵袋検索に入力されたクエリ（訓練： 1,000クエリ，テスト： 1,000クエリ）
クエリに対する検索結果中の各質問のクリック率
各質問をクリックしたユーザの属性情報
男女の割合
各年代の割合
各クエリに対して最大1,000件の質問・回答情報（検索結果中に表示される情報（スニペット等）を含む）

参考：http://www.openliveq.net/?locale=ja#data

省エネランキング世界2位のスパコン「kukai（クウカイ）」

また、ヤフーは計算処理能力の向上にも努めている。まずはこの動画をご覧いただきたい。

CPUやGPUは処理の負荷をかけると熱が発生する。一般的にはファンなどで冷却し、その処理能力を保っている。
しかし、Yahoo! JAPANが開発したスパコン「kukai」は電気を通さない特殊な液体に、そのままハードウェアを漬け込んでしまう「液浸」の仕組みを採用している。これにより、高い冷却効果が発生し、大きくパフォーマンスを向上させている。

前述の「YJVOICE」などのサービスにディープラーニングが実装されたあと、膨大な電力消費が求められたのを背景に開発に至ったそうだ。ヤフー株式会社内にあった従来の環境に比べて、演算処理能力は約２２５倍（理論上）となり、また同規模のGPUサーバと比較しても約15%の電力コスト削減になるという。

Yahoo! JAPANはディープラーニングに必要なAI技術の「アルゴリズム」「ビッグデータ」「マシンパワー」のうち、アルゴリズムをYahoo! JAPAN研究所などが担い、ビッグデータはそれぞれのサービスが蓄積しており、残る「マシンパワー」の部分を大きく増強した形になる。

これにより、2015年に開設された「データ&サイエンスソリューション統括本部」を筆頭に全社を上げてビッグデータを活用していく環境が揃い、今後の発展を続けていくとしている。