ストックマークが最近の話題にも詳しい14億パラメータの日本語LLMを公開

ストックマーク株式会社は、2023年8月8日、最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM（大規模言語モデル）をオープンソースとして公開したと発表した。モデルは以下のHugging Face Hubからダウンロード可能だ。

https://huggingface.co/stockmark/gpt-neox-japanese-1.4b

ストックマークはビジネスにおける情報収集・分析をサポートするサービスを運営しており、そのために最新のWebデータの収集を日々行なっている。今回の事前学習では、一般にLLMの事前学習によく使われるCommon Crawl由来のデータだけでなく、当社が所有している独自のWebデータ（2023年6月まで）も含めて事前学習を行うことで、最近の話題にも詳しいモデルを開発したとしている。

具体的には、事前学習に用いたデータセットはCC100の日本語サブセット、Wikipediaの日本語版、当社独自の日本語Webデータから構成されていいる。また、コーパス全体でのデータ量は約200億トークンで、そのうち同社独自のWebデータは約90億トークンほど。また、今回の事前学習モデルの構築は、国立研究開発法人産業技術総合研究所（産総研）との共同研究の一環で行われており、事前学習も産総研の計算インフラストラクチャであるABCIで行われた。

同社のテックブログでは、2021年9月までのデータにより学習されているChatGPT本モデルに対して最近の話題を入力してその出力を比較している。「最近の画像生成AIをいくつか教えてください。」などの入力に対して、ChatGPTは「申し訳ありませんが、私の知識は2021年の9月までのものであり、最新の情報は提供できません。2021年までの時点で、いくつかの人気のある画像生成AIは以下の通りです」と回答する一方、同社のモデルは2022年以降に登場したStable DiffusionやMidjourneyなどのモデルを知っていることが示されている。