最終更新日:
機械学習の勉強を進めていると、「アノテーション」という言葉が出てきます。
データに対して意味づけをするアノテーションは、AIや機械学習の理解に必須の概念です。
そこでこの記事では、アノテーションの定義や、AIの開発における役割を解説します。さらに、実際にアノテーションを行ううえで選択肢になってくる、プラットフォームや、アノテーション業務を請け負っている企業も紹介します。
AIをビジネスに活用するうえで理解しておくべき知識ですので、仕事などでAIに関わっている人は、ぜひご一読ください。
目次
アノテーションとは
アノテーションを日本語に訳すと、「記注、注釈です。機械学習において、データにメタデータをつけて意味づけをすることを指します。
膨大なデータに対して、アノテーションを行い、正解のデータ(=教師データ)を付与することで、機械学習のモデルの何が正しいものかを判断できるのです。
なお、システム開発においてコードに注釈を書き込むことや、YouTubeの動画内にクリック可能な情報を載せることもアノテーションと言います。今回解説するアノテーションとは、役割が異なるので、違うものだと理解しておきましょう。
AI開発におけるアノテーションの位置付け
アノテーションは機械学習の中でも教師あり学習のモデルを開発する際に必要です。
教師あり学習では、データを学習させる前に、「これが正しいデータだよ」と教師データを示す必要あります。この教師データを準備する工程がアノテーションです。
教師データを学習させることで機械学習のモデルは、「ふむふむ。正しいデータはこういう特徴をもっているんだな」ということがわかってきます。
するとAIは、未知のデータが入力された時に、正しいかどうかを、判断できるのです。
AIを開発する工程での、アノテーションの位置付けを図示すると、このようになります。
※AIを開発する工程については、以下の記事を参考にしてみてください。
※以下の記事では、そのような手法も含めた機械学習について、より詳しく解説しています。
アノテーションの具体例
犬か猫かを判別する画像認識のAI開発を例に、工程のなかでのアノテーションの役割をみてみましょう。下記のように表すことができます。
- 犬か猫が映った画像を大量に準備する
- それぞれの画像に犬であるか猫であるかの情報をつける(=アノテーション)
- アノテーションを行ったデータを学習させる
- 機械は正しく学習ができていれば、未知の写真を読み込ませると、犬か猫かを判別できる。そこで、試しに犬や猫の画像を
- AIに判定してもらい、精度を確かめる
- 精度が十分であれば、実装する
アノテーションの種類
例にあげた画像データだけでなく、さまざまなデータに対しても、アノテーションが行われます。ここでは、データの種類に対して、どのようなアノテーションが行われるのか紹介します。
画像データ
画像データに関しては、その画像に何が写っているのかをタグ付けします。1つの画像に対して、タグは1つとは限りません。例えば、下記のような日本人女性の画像データには、年齢うや性別、国籍、感情などのタグ付けがありえます。目的によってアノテーションの内容が異なることに注意しましょう。
テキストデータ
テキストデータにも、アノテーションを行うことがあります。特にテキストのカテゴリをメタデータとして与えることが多いです。すると、未知のテキストに対して、それがどういう内容なのか、自動でカテゴリー分けをするAIができます。
例えば、迷惑メールについても、テキストデータに対するアノテーションと考えられます。みなさんのところに届いたメールを、手動で迷惑メールに振り分ける時、これが「迷惑な内容だよ」という意味づけをしているのです。このデータの蓄積によって、未知のデータに対して、それが迷惑メールなのか否かを自動で判別できるようになります。
音声データ
音声データについてに対しても、感情や特定の言葉を抽出したい場合、それを判別できるようなアノテーションが必要です。話者、言葉のジャンル(感嘆詞など)、言葉から連想される感情などを意味づけするアノテーションがあります。
アノテーションの重要性はこれから低下!?
機械学習分野の研究の進展により、アノテーションの重要性は低くなっています。アノテーションでは、膨大な時間と人件費が生じるため、負荷を下げることが、機械学習の活用を広げることにも直結します。
アノテーションで、コストを解消する手法や、そもそものデータの不足に対処する手法も存在します。そのうち一部を紹介します。
半教師あり学習
半教師あり学習では、アノテーションを一部自動で行います。
まず、一部のデータに対して、人間が手動でアノテーションを行います。そのアノテーション済みのデータを用いて、残りのデータのアノテーションを自動で行ってくれる手法です。。
例えば、人間の画像に対して、性別の判定を半教師あり学習で行うとします。まずは、人間がアノテーションを行います。続いて、アノテーション済みのデータから、「この特徴をもっていると男性、これだと女性に分類」と学習させます。そして残りの画像データのラベルを予測して、確信度の高いものをデータに加えます。(ブートストラップ法)
これがうまくいけば、教師データの作成において、コストの削減が可能です。
転移学習
少ないデータで学習ができる手法として、転移学習も注目されています。
転移学習は、学習済みのモデルを他のAIモデルに転用する手法です。例えば、犬であるか否かを判別するために学習させたモデルを活用して、猫であるか否かを判別するモデルに作り替えが可能です。
十分な教師データを用意できない場合に有効です。
転移学習については、こちらの記事に詳しいです。
既存のデータセットの活用
アノテーションが済まされているデータを使って、学習させることも可能です。
例えば、Googleのオープン画像にも、ラベルつきの大量の画像があります。このように、民間企業や学術機関、政府などが、画像データに限らず、多様なアノテーション済みデータを配布しています。
これらを活用して、コスパよくAIを開発することが肝心です。
アノテーション業務を請け負う企業
実際にアノテーションを行う際、その業務をアウトソースするのも一つの選択肢です。ここでは、アノテーションを請け負っている企業を紹介します。
株式会社バオバブ
株式会社バオバブは、専門ツールを利用したアノテーション業務を請け負っている企業です。データ作成、収集時のルール・マニュアル作成から支援が可能。作業は、トレーニングを行った方が担当します。
株式会社ユニメディア
株式会社ユニメディアは、アノテックという、アノテーションやデータ取集のBPO(ビジネスプロセスアウトソーシング)サービスを提供しています。100万人のクラウドソーシングネットワークに強みがあり、スピーディーな納品が強みです。
株式会社アイアール・アルト
株式会社アイアール・アルトは、データ収集、アノテーション、作成の業務を代行しています。音声データや、言語データなど、多様なデータに対して対応が可能です。
ライオンブリッジジャパン株式会社
ライオンブリッジジャパン株式会社は、教師学習データの作成を請け負っています。専門知識を持つアノテーターも登録されており、ニッチな作業も可能です。
株式会社ブライセン
株式会社ブライセンは、AI向け画像アノテーションサービスの、glocal-Oneを提供しています。できるだけアノテーションを自動化することで、高いコストパフォーママンスを実現しています。富士キメラ総研「2020人工知能ビジネス総調査」AIビジネス市場 サービス市場 アノテーションサービス部門 2019年度実績にて、シェア1位となっています。
アノテーションのプラットフォーム
AI開発でアノテーションが必要な場合、プラットフォームを活用することが多々あります。
ここでは、アノテーションをサポートしてくれるプラットフォームを紹介します。
AIのプラットフォームに関する詳細はこちら
ABEJA Platform Annotation
株式会社ABEJAが提供する、ABEJA Platform Annotationでは、アノテーションから品質チェック、管理進行まで、完結するようなプラットフォームになっています。ツールだけを使うことも可能なうえ、委託サービスの活用も可能です。
Annotation One
Annotation Oneは、グローバルウォーカーズ株式会社が提供するプラットフォームです。ニーズに応じて柔軟なデータセットの作成サービスを提供しているとのこと。教師データの無料ダウンロードができることも魅力です。
FastLabel
株式会社N.Codeは、FastLabelというAIデータプラットフォームを提供しています。初期費用0円から利用が可能で、教師データの作成コストを70%削減できます。プロジェクトの管理がしやすいデザインになっているのも魅力です。
おわりに
教師あり学習でAIを開発するためには、高精度なアノテーションが必須です。ビジネスの観点では、アノテーションをコスパ良く行うには、どうすれば良いのかというのも問題になり、プラットフォームの活用や、業務のアウトソースが選択肢になってきます。
単純な作業に見えるアノテーションも、優秀なAIを作るための肝になっており、奥深いです。現在活用されてない情報を、どうアノテーションで意味づけすれば、活用可能なものなるかも1つの問題と言えます。アノテーションのこれからに注目です。