LINE、36億パラメータの日本語言語モデルを公開

LINEは2023年8月14日、36億パラメータの日本語言語モデル「japanese-large-lm（ジャパニーズラージエルエム）」を、OSSとして公開したことを発表した。

LINEでは2020年11月から日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んでおり、HyperCLOVAと並行する形で複数の大規模言語モデルの研究開発プロジェクトが進行している。公開されたのは36億（3.6 Billion）および17億（1.7 Billion）パラメータの日本語言語モデル。1.7Bモデル、3.6Bモデル共にHuggingFace Hubの以下で公開されており、transformersライブラリから利用が可能だ。商用利用も可能なApache License 2.0となっており、研究者に限らず企業も利用可能。

1.7Bモデル：https://huggingface.co/line-corporation/japanese-large-lm-1.7b
3.6Bモデル：https://huggingface.co/line-corporation/japanese-large-lm-3.6b

モデルの訓練にはLINE独自の大規模日本語Webコーパスを使用。同社によれば、Web由来のテキストにはソースコードや非日本語文のようなノイズが大量に含まれるため、フィルタリング処理を適用し、大規模かつ高品質なデータを構築しているという。性能評価には開発データでのPerplexityスコア（コーパス中に出現する単語をモデルがどの程度正確に予測できたかを示す値で、小さいほど性能が良い、すなわち、正確に予測できていることを表す）、質問応答・読解タスクの正解率を計測した。

その結果、1.7BモデルはOpenCALM-7Bと同等、またはタスクによっては良い性能を達成。3.6BモデルはRinna-3.6Bと同等かタスクによっては良い性能を達成可能なことがわかったという。同社は公開したモデルについて、指示文に対して適切な出力を行えるようにチューニング（Instruction tuning）したモデルを近日中に公開予定とのこと。

なお、AINOWでは昨年、LINEの大規模言語モデルに関して同社にインタビューを実施している。こちらの記事も合わせて一読いただきたい。