HOME/ 注目のニュース /ストックマークが最近の話題にも詳しい14億パラメータの日本語LLMを公開
2023.08.09

ストックマークが最近の話題にも詳しい14億パラメータの日本語LLMを公開

ストックマーク株式会社は、2023年8月8日、最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM(大規模言語モデル)をオープンソースとして公開したと発表した。モデルは以下のHugging Face Hubからダウンロード可能だ。

https://huggingface.co/stockmark/gpt-neox-japanese-1.4b

ストックマークはビジネスにおける情報収集・分析をサポートするサービスを運営しており、そのために最新のWebデータの収集を日々行なっている。今回の事前学習では、一般にLLMの事前学習によく使われるCommon Crawl由来のデータだけでなく、当社が所有している独自のWebデータ(2023年6月まで)も含めて事前学習を行うことで、最近の話題にも詳しいモデルを開発したとしている。

具体的には、事前学習に用いたデータセットはCC100の日本語サブセット、Wikipediaの日本語版、当社独自の日本語Webデータから構成されていいる。また、コーパス全体でのデータ量は約200億トークンで、そのうち同社独自のWebデータは約90億トークンほど。また、今回の事前学習モデルの構築は、国立研究開発法人産業技術総合研究所(産総研)との共同研究の一環で行われており、事前学習も産総研の計算インフラストラクチャであるABCIで行われた。

同社のテックブログでは、2021年9月までのデータにより学習されているChatGPT本モデルに対して最近の話題を入力してその出力を比較している。「最近の画像生成AIをいくつか教えてください。」などの入力に対して、ChatGPTは「申し訳ありませんが、私の知識は2021年の9月までのものであり、最新の情報は提供できません。2021年までの時点で、いくつかの人気のある画像生成AIは以下の通りです」と回答する一方、同社のモデルは2022年以降に登場したStable DiffusionやMidjourneyなどのモデルを知っていることが示されている。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

生成AIコンサルとは?費用相場と失敗しない選び方を解説

生成AIで社内問い合わせを自動化する方法!メリットも解説

生成AIで資料作成を効率化する方法!おすすめツール8選も解説

生成AIガバナンスとは?構築手順5ステップと企業の体制づくりを解説

生成AIコンプライアンスのリスクと対策!担当者向けに徹底解説

生成AIガイドラインを企業が策定する手順!必須項目も解説

生成AIの情報漏洩対策を解説!仕組みと事例から学ぶ企業の防衛策

生成AIの著作権リスクを企業向けに解説!侵害事例と5つの対策も

生成AIを広報業務に活用する方法7選!プロンプト例も紹介

生成AIの人事活用シーン5選!そのまま使えるプロンプト例も紹介

あなたにおすすめの記事

生成AIコンサルとは?費用相場と失敗しない選び方を解説

生成AIで社内問い合わせを自動化する方法!メリットも解説

生成AIで資料作成を効率化する方法!おすすめツール8選も解説

生成AIガバナンスとは?構築手順5ステップと企業の体制づくりを解説

生成AIコンプライアンスのリスクと対策!担当者向けに徹底解説

生成AIガイドラインを企業が策定する手順!必須項目も解説

生成AIの情報漏洩対策を解説!仕組みと事例から学ぶ企業の防衛策

生成AIの著作権リスクを企業向けに解説!侵害事例と5つの対策も

生成AIを広報業務に活用する方法7選!プロンプト例も紹介

生成AIの人事活用シーン5選!そのまま使えるプロンプト例も紹介