最終更新日:
rinna株式会社は2023年7月31日、日本語と英語のバイリンガル大規模言語モデルをオープンソースで公開した。これにより、日本語と英語の両方に対応したテキスト生成が可能となる。
OpenAIによるGPTシリーズの進化に伴い、rinnaは2021年4月より日本語に特化したGPTやその他のモデルの公開を続けてきた。今回公開されたモデルには、40億のパラメータを持つバイリンガルGPTや、長いテキスト入力が可能なモデル、さらにはテキストと画像の両方を入力できるマルチモーダルモデルが含まれる。
本モデルの学習データの割合は英語56%、日本語33%、ソースコード11%で構成されている。また、長いテキスト入力が可能なモデルとして入力上限が2048トークンから最大8192トークンに拡大した。
本モデルは、商用利用可能なライセンスでオープンソースとしてHugging Faceプラットフォームに公開されており、研究者や開発者が自由に利用することが可能だ。
今後、rinnaは本モデルのさらなる大規模化や、画像だけでなく音声を入力とするマルチモーダルモデルの研究・開発を進めるとのこと。さらに、AI技術の社会実装を加速させるため、幅広いパートナーシップの募集も行われる予定だ。
AINOW編集部
難しく説明されがちなAIを読者の目線からわかりやすく伝えます。