日本語に特化した言語と画像の関係を表現するAI「CLIP」が公開｜rinna株式会社

rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン“クリフ”チェン、以下rinna社）は、日本語に特化した言語（テキスト）と画像の関係を表現できる事前学習言語画像モデルCLIP（Contrastive Language-Image Pre-training）とその改良版モデルCLOOBを学習し、商用利用可能な Apache-2.0 ライセンスで公開しました。

本モデルを公開することにより、日本語における言語・画像理解に関する研究の活発化に繋がることが期待されます。

■概要

rinna社はこれまでに、日本語の自然言語処理 (NLP) に特化したGPT (13億パラメータ) やBERT (1.1億パラメータ) の事前学習言語モデルを公開し、多くの研究・開発者に利用されています。汎用言語モデルの活用の幅は広がっており、OpenAI社により開発されたCLIPは、言語と画像の関係を表現することを実現しました。

今回は、日本語に特化したCLIPを学習したほか、、CLIPの改良モデルであるCLOOB (Contrastive Leave One Out Boost) についても同様に日本語に特化した学習を行いました。これらのモデルをAIモデルライブラリである Hugging Face に商用利用可能な Apache-2.0 ライセンスで公開することで、言語・画像コミュニティに還元します。

■ Hugging Face URL

CLIP: https://huggingface.co/rinna/japanese-clip-vit-b-16

CLOOB: https://huggingface.co/rinna/japanese-cloob-vit-b-16

■CLIPの解説

CLIPは、言語と画像の関係を表現できる事前学習言語画像モデルです。例えば、猫の画像に対して、「可愛い猫の写真」のテキストの方が「犬が散歩している写真」のテキストより近いと判断することが可能です。

CLIPの学習には、画像とその画像を説明するテキスト（例えば、「可愛い猫の写真」の画像とテキスト）のペアを大量に利用します。学習段階では、「可愛い猫の写真」の画像は「可愛い猫の写真」のテキストとは近く、「犬が散歩している写真」のテキストとは遠い関係性であることを学習させます。それと同時に、「可愛い猫の写真」のテキストは「可愛い猫の写真」の画像には近く、「犬が散歩している写真」の画像には遠い関係性であることも学習させます。このような学習により、言語と画像の関係を表現することが可能となります。また、CLIPと同時に公開するCLOOBはCLIPを改良したモデルであり、CLIPより高い性能であることが報告されています。

言語と画像の関係を表現できるCLIPは、多様なタスクに適用することができます。例えば、猫と犬のような複数のクラスに画像を分類する画像分類タスクや、あるテキストに対して近い画像をいくつか出力する画像検索に適用することができます。さらに、画像生成モデルと組み合わせ、テキストから画像を生成させることも可能です。これは、CLIPがテキストに対する画像の類似度を出力することができる特徴を活かし、画像生成モデルにその類似度が高くなるような画像を生成させることで実現できます。

■rinna社の日本語CLIPの特徴

rinna社のCLIPは、以下の特徴があります。

学習データとして、CC12M < https://github.com/google-research-datasets/conceptual-12m > の1200万の言語・画像ペアのオープンソースデータを日本語に翻訳して使用。
CLIP/CLOOBの学習には大きいバッチサイズでの学習を必要とするが、rinna社のモデルは8つのNVIDIA Tesla A100 GPU (80GBメモリ) を用いて十分な計算機リソースで学習。
CLIP/CLOOBの学習には、これまでにrinna社が公開した日本語に特化したBERT (1.1億パラメータ) を利用。
学習されたCLIP/CLOOBはHugging Faceに商用利用可能な Apache-2.0 Licenseで公開。
CLIP/CLOOBは画像分類タスクも対応可能。今回のモデルでは、追加学習なしのzero-shot画像分類において、日本語1000クラス50000枚の画像に対し、CLOOBの上位1位の予測ラベルの正解率Top1は48.36%を達成。表1では、モデルが言語と画像の関係を理解していることを示します。

表１：ImageNet validation setの1000クラスに対するzero-shot画像分類の結果

・　画像生成モデルと組み合わせることで、テキストから画像を生成することが可能（図１、図２）。

図１：「北極にある日本の京都」を入力したときの出力結果

図２：「ひまわりの油絵」を入力したときの出力結果

■今後の展開

rinna社のリサーチチームが開発する大規模な事前学習モデルは、すでにrinna社の製品に広く利用されています。rinna社は、研究成果を引き続き公開し、研究・開発コミュニティへ還元していく予定としています。また、他社との協業も進めることで、AIの社会実装を目指しています。

【rinna株式会社について】

2020年6⽉に設⽴したAIキャラクター開発企業。「あなたらしい創造力をAIキャラクターと共に引き出し、世界をカラフルに。」をミッションに掲げ、人と人、人と情報、人と社会との繋がりやコミュニケーションの新しいあり方を提案しています。任意の人格の口調や学習トピックを反映し、自然な会話をするAIキャラクターを作成できる「Tamashiru」、社内コミュニケーションの透明性を高め、組織の繋がりを強くする「Coordiru」、自分のAIキャラクターを育成し、他のAIキャラクターと交流するSNSアプリ「キャラる」などを提供しています。