HOME/ AINOW編集部 /LINEが日本語特化の超巨大言語モデルの開発を発表、100億ページ以上の日本語データを学習
2020.11.25

LINEが日本語特化の超巨大言語モデルの開発を発表、100億ページ以上の日本語データを学習

LINE株式会社は2020年11月25日、同社の親会社のNAVERと共同で、世界初となる日本語に特化した超巨大言語モデルの開発と、その処理に必要なインフラ構築を行うと発表しました。

超巨大言語モデルとは、膨大なデータを学習させた汎用的な言語モデルです。AIによるより自然な文章の認識や表現を可能にするもので、日本語に特化した超巨大言語モデル開発は世界でも初めての試みです。

從來の言語モデルでは、それぞれの目的にあわせて、個別に膨大な文章を学習させる必要がありました。言語モデルは、特にチャットボットとして活用が進み、Q&Aや対話などにその技術が応用されています。

一方で、言語モデルの研究開発では、複雑な文章の認識や文脈の認識など、依然として技術的な課題を抱えていました。

そこで注目されているのが汎用的な言語モデルです。Googleが発表したBERTや、アメリカの非営利団体 OpenAIが発表したGPTなどが大きく話題になりました。

これらの汎用言語モデルは、新聞記事や百科事典、小説、コーディングなどの膨大な言語データを学習させ、その上で少量のデータを用いて、再学習することで、高い精度の言語処理を実現可能です。

これにより、さまざまな言語処理(対話、翻訳、入力補完、文書生成、プログラミングコードなど)を行うことが可能となり、個々のユースケースに簡単に対応できると期待されています。

LINEが開発する汎用言語モデルは、1750億以上のパラメータと、100億ページ以上の日本語データを学習データとして利用予定です。この超巨大言語モデルの実現により、新しい対話AIの開発や検索サービスの品質向上など、LINEのサービスの活用のほか、第三者との共同開発やAPIの外部提供についても検討しています。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

生成AIガバナンスとは?構築手順5ステップと企業の体制づくりを解説

生成AIコンプライアンスのリスクと対策!担当者向けに徹底解説

生成AIガイドラインを企業が策定する手順!必須項目も解説

生成AIの情報漏洩対策を解説!仕組みと事例から学ぶ企業の防衛策

生成AIの著作権リスクを企業向けに解説!侵害事例と5つの対策も

生成AIを広報業務に活用する方法7選!プロンプト例も紹介

生成AIの人事活用シーン5選!そのまま使えるプロンプト例も紹介

【2026年最新】生成AIの導入に使える補助金5選!申請手順も解説

生成AIを導入する金融機関の活用事例7選!導入ステップも解説

生成AIの医療機関での活用事例とメリット!導入の注意点まで解説

あなたにおすすめの記事

生成AIガバナンスとは?構築手順5ステップと企業の体制づくりを解説

生成AIコンプライアンスのリスクと対策!担当者向けに徹底解説

生成AIガイドラインを企業が策定する手順!必須項目も解説

生成AIの情報漏洩対策を解説!仕組みと事例から学ぶ企業の防衛策

生成AIの著作権リスクを企業向けに解説!侵害事例と5つの対策も

生成AIを広報業務に活用する方法7選!プロンプト例も紹介

生成AIの人事活用シーン5選!そのまま使えるプロンプト例も紹介

【2026年最新】生成AIの導入に使える補助金5選!申請手順も解説

生成AIを導入する金融機関の活用事例7選!導入ステップも解説

生成AIの医療機関での活用事例とメリット!導入の注意点まで解説