HOME/ 注目のニュース /ストックマークが最近の話題にも詳しい14億パラメータの日本語LLMを公開
2023.08.09

ストックマークが最近の話題にも詳しい14億パラメータの日本語LLMを公開

ストックマーク株式会社は、2023年8月8日、最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM(大規模言語モデル)をオープンソースとして公開したと発表した。モデルは以下のHugging Face Hubからダウンロード可能だ。

https://huggingface.co/stockmark/gpt-neox-japanese-1.4b

ストックマークはビジネスにおける情報収集・分析をサポートするサービスを運営しており、そのために最新のWebデータの収集を日々行なっている。今回の事前学習では、一般にLLMの事前学習によく使われるCommon Crawl由来のデータだけでなく、当社が所有している独自のWebデータ(2023年6月まで)も含めて事前学習を行うことで、最近の話題にも詳しいモデルを開発したとしている。

具体的には、事前学習に用いたデータセットはCC100の日本語サブセット、Wikipediaの日本語版、当社独自の日本語Webデータから構成されていいる。また、コーパス全体でのデータ量は約200億トークンで、そのうち同社独自のWebデータは約90億トークンほど。また、今回の事前学習モデルの構築は、国立研究開発法人産業技術総合研究所(産総研)との共同研究の一環で行われており、事前学習も産総研の計算インフラストラクチャであるABCIで行われた。

同社のテックブログでは、2021年9月までのデータにより学習されているChatGPT本モデルに対して最近の話題を入力してその出力を比較している。「最近の画像生成AIをいくつか教えてください。」などの入力に対して、ChatGPTは「申し訳ありませんが、私の知識は2021年の9月までのものであり、最新の情報は提供できません。2021年までの時点で、いくつかの人気のある画像生成AIは以下の通りです」と回答する一方、同社のモデルは2022年以降に登場したStable DiffusionやMidjourneyなどのモデルを知っていることが示されている。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

議事録AIでZoom会議の効率を向上!3つの自動化術を解説

Web会議の議事録作成を効率化するAIツールの選び方とおすすめ5選

議事録AIツール「tl;dv」で効率化を実現する3つの方法

AIエージェントツールで始める業務革命、重要な5つのステップ

【ChatGPTで時短】議事録AIプロンプトの効率化テクニック5選|コピペで使える例文付き

議事録AI活用で会議効率化!Teamsで始める4つの手法

AI議事録の情報漏洩を防ぐ5つの具体策と事例紹介

Google Meetの議事録を自動化!無料で使えるAIツール5選

# Google AI Studioで議事録を劇的に効率化する3つの秘訣

ミーティング議事録AI活用法:効率化の鍵になる5つの選び方

あなたにおすすめの記事

議事録AIでZoom会議の効率を向上!3つの自動化術を解説

Web会議の議事録作成を効率化するAIツールの選び方とおすすめ5選

議事録AIツール「tl;dv」で効率化を実現する3つの方法

AIエージェントツールで始める業務革命、重要な5つのステップ

【ChatGPTで時短】議事録AIプロンプトの効率化テクニック5選|コピペで使える例文付き

議事録AI活用で会議効率化!Teamsで始める4つの手法

AI議事録の情報漏洩を防ぐ5つの具体策と事例紹介

Google Meetの議事録を自動化!無料で使えるAIツール5選

# Google AI Studioで議事録を劇的に効率化する3つの秘訣

ミーティング議事録AI活用法:効率化の鍵になる5つの選び方