ニコニコ動画、機械学習で監視対象のコメント75%減に！「超自然言語処理」に挑むドワンゴのデータ利活用事例セミナーレポート

AINOW編集部のくぼちです。
今回は、角川アスキー総合研究所主催で開催されたセミナー「niconicoにおけるレコメンド、コメント解析、画像解析」のレポートをお届けします。

ドワンゴといえば人工知能研究所が有名ですが、サービス内でのデータ利活用も先進的です。講師は、株式会社ドワンゴ企画開発本部第六企画開発部部長の小田桐優理さん。

プロフィール
　2008年にフューチャーアーキテクト株式会社に入社しデータ分析事業の立ち上げに従事。2014年に株式会社ドワンゴに入社し、niconicoのレコメンデーションシステムの開発を担当。その後、コメント解析システムや画像解析システム、コンピュータ囲碁プロジェクト等の、機械学習が含まれる各種研究開発プロジェクトの立ち上げから実サービスへの適用を担当。研究開発部署であるドワンゴメディアヴィレッジの立ち上げを行い、現在は各種コンテンツの解析と生成に関する研究開発を行っている。

ニコニコ動画ならではの「超」自然言語処理
人力目視が75%減！リアルタイムのコメント監視システム
機械学習で価値をうむために
編集後記

ニコニコ動画ならではの「超」自然言語処理

　ニコニコ動画と言えば「コメント」をイメージされる方も多いでしょうか。ご想像の通り、毎日大量のコメントが蓄積されていますが、コメントの解析は一筋縄にはいかないようです。

　コメント解析と聞くと「形態素解析」が浮かぶかと思います。しかし、ニコニコのコメントは「おまww」「ksk」「※」のように書き言葉でも、話し言葉でも、ときには言葉ですらないことも。こうしたコメントを「超」自然言語と呼んでいるそうです。超自然言語に対しては、一般的な辞書が使えないため、従来の形態素解析の手法があまり役にたちません。そこで、ディープラーニングでコメントを一文字ずつ扱うという手法を採用。

　たとえば「n文字目まで与えられた時に、n+1文字目を予測する」というタスク。「これはひ」まで与えられたとき、「これはひ”どい”」を予測できるようにします。実際に6,000,000コメントを学習させたところ、正解率40%を実現できたそうです。ドワンゴでは、こうしたコメント解析の研究を応用し、コメントに基づく動画のカテゴリ予測やレコメンデーションなどに挑戦しているとのこと。

　ちなみにデータの前処理も独特です。先の事例では、解析対象とするコメントは、動画の末尾10コメントより抽出しています。なぜなら、動画が公開されてすぐのコメントは「1」などのあまり意味を持たないコメントが集まっているから。おなじみの「wwwww」は、「ww」のように末尾2文字までに丸めます。「w」の長さを予測したい訳ではないからです。

人力目視が75%減！リアルタイムのコメント監視システム

　2015年のNHK紅白歌合戦とniconicoコラボ。ラスボス・小林幸子さん出演時の美術セットに、ニコニコ生放送で書き込まれた「コメント」が映し出され話題になりました。その裏側では、「あのNHKで、絶対にやばいコメントは流せない…！」と、精鋭のコメント監視者たちが“目視”でコメントを確認していたようです。

　じつは、紅白に限らず普段からニコニコ動画では人が目視でコメントをチェックし、誹謗中傷や殺害予告などの不適切なコメントを削除しています。しかし、コメント量は膨大。すべてを確認することはできません。基本的にはユーザーによる通報ベースで削除対応をしたようですが、それでは漏れが生じてしまいます。さらに、言葉は曖昧なもの。相当なトレーニングを受けている監視者の間でも、微妙に削除基準がぶれることも…。

　そういった課題があり、小田桐さんのチームでは自然言語処理を活用したコメントの自動監視にチャレンジ。すべてを自動化するのではなく、明らかに問題のないコメントを確認不要にし、人が判断すべきコメントに集中できることを目指したそうです。

　判別器を作るために、まず、教師データとして30万件の監視者の目視による識別ラベルつきのコメントデータを作成。教師ラベルは「白」「黒」だけではなく「グレー」を加えた3値を設定。01ではなく、その間の「黒っぽさ」を捉えられるようにしているのがキモ。こうすることで、どの程度の「黒っぽさ」を人の判断に回すかという域値を調整できるようになります。

　最終的には、全体の7割のコメントが確認不要に。実際の運用における工夫も興味深いです。たとえば、「見る必要がない」とされるコメントもあえて確率的に一部を人力識別対象として、精度検証や今後の教師データとして活用。学習済みのモデルはバージョン管理対象として、新たなモデル導入時に問題が生じたら即座に古いバージョンに変更できるようにしているようです。

機械学習で価値をうむために

　注目を浴びている機械学習ですが、セミナー終盤では「負債」としての機械学習を認識する重要性が語られました。googleが2014年に発表した「Machine Learning Applications for Data Center Optimization」を引用しながら、機械学習を含むシステムは通常より複雑で大きな技術的負債をうみやすいと解説。たとえば、機械学習のブラックボックス化や、周辺システムとの間の調整に必要なコードの肥大化、学習したモデルが意図した学習を経たか確認することの困難さについて触れました。

　機械学習に関する業務は、「引き継ぎ」コストも大きいようです。複雑なモデルを使って高い精度で実装したがるエンジニアが多いですが、最新の技術を使うほどにメンテナンスできる人が限られてしまう。精度をたった数%あげるために、コードの複雑性・保守性の低下を受け入れる価値が本当にあるのかを熟考する必要があるとのことです。

　ところで、機械学習で価値を生み出せる組織とは、どのような組織でしょうか。小田桐さんが考える理想的な組織には以下の役割で構成されます。
　・企画者兼アーキテクト
　・機械学習エンジニア
　・アプリケーションエンジニア
　・プロジェクトオーナー
　・機械学習の研究者
　
　特にエンジニアと研究者が同じ組織で、近い距離にいることが大事だと話します。たとえば、エンジニアはついつい目の前の処理に追われがちで、最新の知見をインプットまで手が回らないことがある。一方、研究者は実務での課題に対して疎いところもあり、いかに知見を活用できるか考える時間が必要。小田桐さんのチームでは、定期的な事例共有会などを通して、エンジニアと研究者をつなぐ土壌づくりに取り組んでいるそうです。