データベースの概念を変えるLINEの超巨大言語モデル開発｜日本語対応の難しさ

近年、自然言語処理技術の可能性が再注目されています。

人間が使用する言語（自然言語）を機械で認識する自然言語処理技術は、チャットボットとして活用が進むほか、文書の検索技術の向上など、さまざまな恩恵をもたらしています。

また、2020年は、アメリカの非営利団体 Open AIが開発した文章自動生成AI「GPT-3」をはじめ、汎用的な言語モデルが注目を集めました。膨大なテキストデータを学習した汎用言語モデルは、従来の自然言語処理技術を大きく向上させ、さらに社会を変革すると期待されています。

▼参考記事
OpenAIがGPT-3を強化したテキスト生成APIをリリース | AI専門ニュースメディア AINOW

汎用的な言語モデルの活用に注目が集まる中、2020年11月25日にLINEが世界初となる日本語に特化した超巨大モデルの開発と、その処理に必要なインフラを構築すると発表しました。

今回は、超巨大言語モデルの開発に携わるLINE AIカンパニーの砂金氏、栄藤氏、橋本氏に開発に関してインタビューしました。

（右）砂金信一郎：AIカンパニー/カンパニーCEO、（中央）栄藤稔：AIカンパニー、（左）橋本泰一：AI開発室副室長

超巨大言語モデルのインパクト｜データベースの概念が変わる
100億ページ以上の日本語のデータを学習
- 日本語対応への壁｜「文字数」問題
- テキストや音声との紐付けも｜キーワードはマルチモーダル
今後は外部提供も視野に｜各分野のプロフェッショナルとの協同研究も？
人間の言葉がアートに｜ルーティンワークからの解放
さいごに

超巨大言語モデルのインパクト｜データベースの概念が変わる

汎用言語モデルは、新聞記事や百科事典、小説、コーディングなどの膨大な言語データを学習させ、その上で少量のデータを用いて、再学習することで、用途に合致した高い精度の言語処理を実現可能です。

これにより、さまざまな言語処理（対話、翻訳、入力補完、文書生成、プログラミングなど）を行うことが可能となり、現状の技術よりも高い精度でさまざまなユースケースに簡単に対応できると期待されています。

LINEが開発する汎用言語モデルは、1750億以上のパラメータと、100億ページ以上の日本語データを学習データとして利用予定。この超巨大言語モデルの実現により、新しい対話AIの開発や検索サービスの品質向上など、LINEのサービスの活用のほか、第三者との共同開発やAPIの外部提供についても検討しています。

ーー超巨大言語モデルが与える社会的なインパクトを教えてください。

栄藤氏：この言語モデルは大きなインパクトをもたらしますが、問題となるのはどのようにアプリケーションにしていくのか、料理の部分だと思います。

実現したらこの超巨大言語モデルの実現によってデータベースの概念が変わってしまうと思います。

現在のデータベースは、検索ワードを入れるとそのワードに引っかかる結果が出てきていますよね。LINEが開発しようとしている言語モデルは例えば「東京の番地は？」と聞いたら郵便番号が返されるようなモデルです。これまでに人類が発話して書いた文章がすべて1つの統一された言語モデルの中に入り、データベースの概念が変わると考えています。

ーー開発のきっかけを教えてください。

栄藤氏：さまざまなきっかけがありますが、Open AIが開発した「GPT-3」の発表が一つのインプレッシブでした。

最近、英語圏や中国語圏でそれぞれの言語モデルを開発する風潮があったのですが、日本語や韓国語などマイノリティ言語を開発する人はいませんでした。

そこで、日本ではLINEが言語モデルを開発しようと考えました。

今のところ、出口戦略は明確に決まっていませんが、研究領域として非常に興味深く、日本語を扱うという観点でLINEがやるべき意義があるプロジェクトだと捉えています。

このプロジェクトは、2020年5月ぐらいに意思決定し、約半年間で発表まで至りました。現状として、開発に必要なハードウェアを購入し、稼働までしています。

ーー1番最初にこのプロジェクトを知ったときはどうでしたか？

栄藤氏：はっきり言って、無謀だと思いました。経営者はビビる、エンジニアもビビるという、みんながビビるというプロジェクトだったと思います。

自然言語処理の分野では、「GPT-3」が1750億パラメータで、これから「GPT-4」「GPT-5」と、さらに規模拡大を目指していて、スケールが意味を持ってきていると思います。

1750億パラメータの途中まで行くと、ある時に急にアプリケーションが出てくるみたいな、GPT-3以前に話題を呼んでいたBERTであれば、文章と文章は同じ意味かどうかを判定したり、文章と文章の関連性を数値化するなどのタスクにとどまっていましたが、GPT-3のように例えば300億とか、500億とか、1000億とか、ある学習量を越えた時にペラペラと文章を自動生成していくような世界ができるんじゃないかと考えています。

100億ページ以上の日本語のデータを学習

ーー言語モデルに学習させる100億ページは、どのようなデータを想定していますか。

橋本氏：学習させるデータは大きく分けて、「静的コンテンツ」と「動的コンテンツ」の2種類を想定しています。

静的コンテンツとは、新聞、書籍、百科事典など、中身の変化がない比較的安定しているデータのことです。

動的コンテンツとは、時系列で内容が更新されていくもので、SNSやブログ、ニュース記事などです。

ただ、ボリュームが足りないため、WEBの検索に使われていたデータなども抽出し、集めています。

ーー実際に開発してみて、課題はありますか？

橋本氏：学習させるデータがすべてになります。人間の過去の経験値や性格によって、受け答えが変わって来るため、実際に学習に使われたデータ、そこに書かれている内容が何なのかということに、結局左右されてしまいます。

例えば政治的な問題や、宗教的な問題や性差別の問題に関するコンテンツがたくさん学習されてしまうと、それに沿った発言をしたり、過激なテキストを生みやすいAIになってしまいます。

LINEとして、いかに平等で賢いインテリジェントな言語モデルを構築できるかが、今回の1番難しいポイントかなと思っています。

また、並列で学習計算を回していくにはノウハウが必要で、試行錯誤を繰り返しています。

ーー電子化された日本語のデータは100億ページもないと思うのですが、そこはどのように攻略するのですか。

橋本氏：まだDXが進んでいない日本においては、苦労する部分があります。

しかし、今回は長期的なプロジェクトになるので、今後追加学習をして解決していきたいと思っています。

日本語対応への壁｜「文字数」問題

ーーGPT3をはじめ、英語圏での言語処理モデルの開発が進んでいますが、日本語に対応することの難しさについて教えてください。

橋本氏：文字数が多い点ですね。英語圏ではアルファベットと記号の合計100文字ぐらいで、大抵のテキストを表現できます。

日本語は3000〜4000文字ぐらいのスケールになるので、その点が難しいです。そのため、もっと日本語のデータを用意する必要があり、言語の壁の難しさをクリアする策も考えなければいけません。

栄藤氏：あとは、文脈の問題もあります。

一方で、この超巨大言語モデルで文脈の問題が解決するかもしれないという期待もあります。

日本語は前の文章や文脈で言葉の意味が変わりますよね。例えば「大丈夫」という言葉一つとっても肯定か否定かわからない時があります。

今回の言語モデルでは、全文脈を見ているので、その点で大きく言語処理が進化する可能性があると思います。

ーー従来の言語処理では、どのような課題がありましたか。

栄藤氏：データベースの観点で言うと、今までWhatに対する答えはありましたが、HowやWhyに対する質問には答えられませんでした。

また、文体が統一されていないことですね。つい先程まで「ですます体」で話していたのに、いきなり「〜だよ」となるのが従来の言語モデルでした。今回のプロジェクトでは、その点も統一されるので違和感なく利用できるようになると思います。

ーー開発体制はどのくらいの規模ですか。

砂金氏：数十人程度の規模です。作業を分散していないので、非常に少ないスペシャリストで開発事業を動かしています。

開発をデータの整理からアルゴリズム、インフラを動かすところは開発チームがやっています。また、プランナーチームが並行して、言語モデルができた場合にどのようなサービスに使えるかということを考えています。

しかし、現状として何ができるかわからない部分があるので、妄想空想的な段階を脱しきれていない感じです。ただ、どこで使えそうかというところを考えながら開発に近い距離で一緒に取り組むことを大事にしています。

テキストや音声との紐付けも｜キーワードはマルチモーダル

栄藤氏：昔からシンボルグラウンディングというものがありまして、画像をテキストにしたり、音声をテキストにするのが、グラウンディングの夢でした。

今画像とテキストの紐付けや音声とテキストの紐付けができるようになりつつあります。これからはその紐付けを生かして、テキストから画像を生成したり、画像から音楽を生成する世界が来ていると思います。5年後には面白い世界がやってきていると思います。

ーー音声という意味では、「LINE AiCall」との繋がりはどのようにお考えですか。

砂金氏：リアルタイム性などの問題を解決できれば、スマホ側でエージェントとして活用するアイデアはとても良いと思います。

「ここのお店を予約しておいて」といえば、勝手に予約しておいてくれたりします。応用の幅はとても広いと思うのですが、どのタイミングで、人間よりも精度が高いユーザー体験を開発できるかはまだ見えていません。

「この分野だけだったらどうにかなるかも」という分野が見つかれば、速めに実験的な取り組みに入りたいです。

ーー今までは画像だけに特化したり言語だけに特化したAIが主流でしたが、これからはメディアの形式を超えたマルチモーダルな世界がやってくるということですね。今後はプランナーの重要性が高まりそうです。

砂金氏：出口がわからないので、取り組んでいることが正解かどうかわからない部分があります。

できたばかりの言語モデルを「問い合わせサポート」のようなミッションクリティカルなところに使うと色々な事故が起こると思っています。

そのため、はじめはエンタメ、カジュアルなシーンで「言語モデルとの会話が楽しい」、「生成された文章が楽しい」などのミッションクリティカルではない、ユースケースをどれだけ作っていけるかがポイントになります。その意味ではLINEは良いポジションではないかと思います。

また、最初のうちは、あんまりリアルタイムに向かないと思います。最終的には、リアルタイムに対話ができるとか、ぱっと文章がすぐ返って来る状況が目指せればと思いますが、タイムラグがある状態でも楽しめるコンテンツを増やしつつ、リアルタイムな応答を目指していきたいと思います。

リアルタイム問題を解決できれば、応用できる範囲はとても広いと思います。スマホ側に縮小した言語モデルを入れて、エージェントとして入れることができればもっといいと思っています。

今後は外部提供も視野に｜各分野のプロフェッショナルとの協同研究も？

ーー開発した言語モデルは外部提供する予定ですか。

砂金氏：最終的に安定した状況であれば、外部提供したいのですが、その前の段階でLINEと共同研究をしていただけると非常にありがたいです。

初めのコアの部分は我々で取り組みますが、その後は各分野に精通する組織と共同で開発することができたら面白いと思っています。

栄藤氏：最終的にはAPIで提供して和音のような使い方を提案してもらうのが一番LINEの方針に合っていると思います。言語モデルはバイアスの問題があるので、その点は早い段階から入っていただき、一緒に研究に取り組んでいただければ嬉しいですね。

橋本氏：法律で想定していない世界もやってきます。巨大な言語モデルの場合は、バイアスや倫理などいわゆるAIへのフェアネスの問題が重要なため、一緒に研究に入っていただき一緒に考えていく必要もあります。

ーー研究の成果はいつ頃までにあげる予定ですか。

橋本氏：当初の計画のオンスケジュールで動いてきているので、これから順調にモデルの学習量をあげていければ2021年中には成果を出していきたいです。

人間の言葉がアートに｜ルーティンワークからの解放

ーー超巨大言語モデルがもたらす世界観などのイメージはお持ちですか。

橋本氏：テキストのクオリティは確実に上がると思います。例えば、ECと組み合わせて、みんなが買いたくなるコピーの作成などにも応用できると思います。

あとは、みんなが理解できるような文章の生成が簡略化され、生活しやすくなることがLINEのコンセプトとしても目指すところだと思います。

栄藤氏：既存の文章ルーティンワークからの開放ですね。

同じような書類や申請書を書くことがなくなればいいと思っています。ワープロとか定型文章の処理が完全に変わる世界がくると思っています。

文章が自動生成されてキーボードを打つ機会がなくなると、僕らが話している言葉がアーティスティックなものになるのではないかと思っています。

そして人間に必要なスキルも変わり教育システムも大きく変わるともいます。今、習字やそろばんを習わなくなったように、求められるスキルが変わっていきます。

砂金氏：LINEを自動で返信してくれる物が欲しいです。いずれはスマホでも使えるようなモデルに縮小できれば、LINEの現状の仕組みとしても重要な機能になってきます。基本end to endで、暗号化されているので、途中経路で何かを入れようとしてもだめなんですよね。

その手前で動く何かを実現しないとそのエージェントは機能しません。現状では難しいですが、軽量化したモデルが、可能であればできなくはないことだと思います。

栄藤さんがお話ししたアートの面もそうですが、僕らが現状やっているコンテンツはパーソナライズを大事にしています。現在もLINE NEWSや広告で、パーソナライズしようと取り組んでいます。

もし、言語モデルが開発されて文章生成する際に、ダークデータで追加できたとすると、カスタマイズがしやすくなります。

自分が生活で生み出してきた発言などのダークデータを追加できれば、自分風の言語モデルを作ることができるようになります。それが実現されると、自分風な作品を生み出したい時に、より個性が際立つ作品ができると思っています。

AIによって均一化されて無味乾燥なコミュニケーションが主体になってしまうと、それはLINEが実現したい世界観ではありません。コミュニケーションは楽しいし、自己表現は楽しいので、効率化と同時に「AIによって表現の幅が広がる世界の実現」に挑戦していきたいです。