HOME/ 注目のニュース /ストックマークが最近の話題にも詳しい14億パラメータの日本語LLMを公開
2023.08.09

ストックマークが最近の話題にも詳しい14億パラメータの日本語LLMを公開

ストックマーク株式会社は、2023年8月8日、最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM(大規模言語モデル)をオープンソースとして公開したと発表した。モデルは以下のHugging Face Hubからダウンロード可能だ。

https://huggingface.co/stockmark/gpt-neox-japanese-1.4b

ストックマークはビジネスにおける情報収集・分析をサポートするサービスを運営しており、そのために最新のWebデータの収集を日々行なっている。今回の事前学習では、一般にLLMの事前学習によく使われるCommon Crawl由来のデータだけでなく、当社が所有している独自のWebデータ(2023年6月まで)も含めて事前学習を行うことで、最近の話題にも詳しいモデルを開発したとしている。

具体的には、事前学習に用いたデータセットはCC100の日本語サブセット、Wikipediaの日本語版、当社独自の日本語Webデータから構成されていいる。また、コーパス全体でのデータ量は約200億トークンで、そのうち同社独自のWebデータは約90億トークンほど。また、今回の事前学習モデルの構築は、国立研究開発法人産業技術総合研究所(産総研)との共同研究の一環で行われており、事前学習も産総研の計算インフラストラクチャであるABCIで行われた。

同社のテックブログでは、2021年9月までのデータにより学習されているChatGPT本モデルに対して最近の話題を入力してその出力を比較している。「最近の画像生成AIをいくつか教えてください。」などの入力に対して、ChatGPTは「申し訳ありませんが、私の知識は2021年の9月までのものであり、最新の情報は提供できません。2021年までの時点で、いくつかの人気のある画像生成AIは以下の通りです」と回答する一方、同社のモデルは2022年以降に登場したStable DiffusionやMidjourneyなどのモデルを知っていることが示されている。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

生成AI導入の推進責任者とは?役割・スキル・任命基準と失敗例を解説

生成AI社内導入の問題点7選!情報漏洩・定着失敗など失敗事例と対策も

生成AIの保守運用費用は?内訳と予算超過を防ぐ7つの削減策も

生成AI活用のモチベーションが続かない原因と維持するための7つの施策!企業事例も解説

生成AIを予算内で導入する5つの鉄則!相場・配分・補助金で投資額を最大化

生成AI導入で法務が押さえるべき7つの論点と対応手順!必見のチェックリストも

生成AI社内浸透を成功させる7つの施策!利用率を倍増させた企業事例も

【5ステップ】生成AI導入スケジュールの立て方!期間目安と遅延を防ぐコツ

生成AI導入が社員に浸透しない原因!理解を深めて定着させるコツを解説

生成AI導入は外注すべき?判断軸5つと費用・期間の目安を解説

あなたにおすすめの記事

生成AI導入の推進責任者とは?役割・スキル・任命基準と失敗例を解説

生成AI社内導入の問題点7選!情報漏洩・定着失敗など失敗事例と対策も

生成AIの保守運用費用は?内訳と予算超過を防ぐ7つの削減策も

生成AI活用のモチベーションが続かない原因と維持するための7つの施策!企業事例も解説

生成AIを予算内で導入する5つの鉄則!相場・配分・補助金で投資額を最大化

生成AI導入で法務が押さえるべき7つの論点と対応手順!必見のチェックリストも

生成AI社内浸透を成功させる7つの施策!利用率を倍増させた企業事例も

【5ステップ】生成AI導入スケジュールの立て方!期間目安と遅延を防ぐコツ

生成AI導入が社員に浸透しない原因!理解を深めて定着させるコツを解説

生成AI導入は外注すべき?判断軸5つと費用・期間の目安を解説