HOME/ 注目のニュース /ストックマークが最近の話題にも詳しい14億パラメータの日本語LLMを公開
2023.08.09

ストックマークが最近の話題にも詳しい14億パラメータの日本語LLMを公開

最終更新日:

ストックマーク株式会社は、2023年8月8日、最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM(大規模言語モデル)をオープンソースとして公開したと発表した。モデルは以下のHugging Face Hubからダウンロード可能だ。

https://huggingface.co/stockmark/gpt-neox-japanese-1.4b

ストックマークはビジネスにおける情報収集・分析をサポートするサービスを運営しており、そのために最新のWebデータの収集を日々行なっている。今回の事前学習では、一般にLLMの事前学習によく使われるCommon Crawl由来のデータだけでなく、当社が所有している独自のWebデータ(2023年6月まで)も含めて事前学習を行うことで、最近の話題にも詳しいモデルを開発したとしている。

具体的には、事前学習に用いたデータセットはCC100の日本語サブセット、Wikipediaの日本語版、当社独自の日本語Webデータから構成されていいる。また、コーパス全体でのデータ量は約200億トークンで、そのうち同社独自のWebデータは約90億トークンほど。また、今回の事前学習モデルの構築は、国立研究開発法人産業技術総合研究所(産総研)との共同研究の一環で行われており、事前学習も産総研の計算インフラストラクチャであるABCIで行われた。

同社のテックブログでは、2021年9月までのデータにより学習されているChatGPT本モデルに対して最近の話題を入力してその出力を比較している。「最近の画像生成AIをいくつか教えてください。」などの入力に対して、ChatGPTは「申し訳ありませんが、私の知識は2021年の9月までのものであり、最新の情報は提供できません。2021年までの時点で、いくつかの人気のある画像生成AIは以下の通りです」と回答する一方、同社のモデルは2022年以降に登場したStable DiffusionやMidjourneyなどのモデルを知っていることが示されている。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

Generative AI Japan|産官学連携で世界に通用する競争力の獲得を目指す

生成AI時代の人材育成|海城中学高等学校物理部がAI班を作ったワケ

GPT-4oはクレイジーだ―思わず言葉を失うような(信じられない)6つの使用例を紹介

社内の生成AIにおける「回答精度の低さ」をどう克服する?|株式会社クレディセゾンCTOに訊く

博報堂DYグループの挑戦|Human-Centered AI Institute が問うAIと人間の新しい関係性

“現実と仮想の境界線を越えたエンターテイメントとは?” |川田のロンドン体験レポート

低コストで高性能なAIモデル・MoEモデル開発の舞台裏|カラクリCPO中山氏へインタビュー

あなたにおすすめの記事

Generative AI Japan|産官学連携で世界に通用する競争力の獲得を目指す

生成AI時代の人材育成|海城中学高等学校物理部がAI班を作ったワケ

GPT-4oはクレイジーだ―思わず言葉を失うような(信じられない)6つの使用例を紹介

社内の生成AIにおける「回答精度の低さ」をどう克服する?|株式会社クレディセゾンCTOに訊く

博報堂DYグループの挑戦|Human-Centered AI Institute が問うAIと人間の新しい関係性

“現実と仮想の境界線を越えたエンターテイメントとは?” |川田のロンドン体験レポート

低コストで高性能なAIモデル・MoEモデル開発の舞台裏|カラクリCPO中山氏へインタビュー