HOME/ AINOW編集部 /「差別を植え付けるデータ」MITが大規模データセットを削除 -問われるデータの公平性
2020.07.03

「差別を植え付けるデータ」MITが大規模データセットを削除 -問われるデータの公平性

最終更新日:

MIT(マサチューセッツ工科大学)は、人種差別用語や女性差別を助長するとして、大規模なデータセットを削除しました。

このデータセットは、高度な物体検出技術を開発するために2008年に作成されたもので、8000万枚の画像が使われた「Tiny Images」という画像ライブラリです。機械学習モデルに静止画中の人物や物体を識別するための学習モデルを教えるために使用されてきました。

8000万枚のTiny Imagesの欠点を発見したのは、プライバシーに特化したスタートアップ「UnifyID」のチーフサイエンティストであるVinay Prabhu氏と、ユニバーシティ・カレッジ・ダブリンの博士号候補であるAbeba Birhane氏です。「Tiny Images」にはアジア系や黒人、女性の差別につながるラベル付けがされていたといいます。

ディープラーニングでは、ラベルつけされた画像を大量に学習することで、画像とラベル(言葉)の関連付けをしています。「Tiny Images」の画像をディープラーニングで学習することで、ラベルに含まれた差別的な表現を学習してしまい、結果として偏ったモデルが構築されてしまうおそれがあります。

データセットには、売春婦や水着姿の女性など、不必要に日常の画像を差別的な言葉にリンクさせ、将来的にAIモデルに偏見を植え付ける可能性があります。

MITは「TinyImages」のデータセットを削除し、研究者や開発者にライブラリの使用を中止しています。また、そのコピーをすべて削除するよう促しています。また、公式声明と謝罪文をサイト上で発表しました。

Tiny Imagesのデータセットには、カテゴリや攻撃的な画像などの軽蔑的な用語が含まれていることが判明しました。
(中略)
このことを大変心配しており、影響を受けた可能性のある方々にお詫び申し上げます。

 

AIが人種や性別の偏見や差別を示す例は数多くあり、学習させるデータをいかに公平公正な品質に保つのがが大きな課題となっています。特にディープラーニングでは、膨大なデータを学習するため、わずかな偏見でも差別表現を助長して誇張してしまう可能性があります。

過去にもGoogle Photo上で、黒人を「ゴリラ」と認識してしまったり、米アマゾンに導入された採用システムが、女性差別を行うなど倫理的な問題に問われるケースが多くあります。

国内では人工知能学会に「倫理委員会」が設けられるなど、AIの倫理性を向上させる取り組みが行われていますが、AIの発展に伴い、社全体で議論が行わていくことが望まれます。

 

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

AI企業は人間が作ったデータを使い果たした。彼らは今、AIを使ってより多くのものを作ろうとしている

AutoGen:次世代の大規模言語モデルアプリケーションを可能にする

ビジョンから現実へ: ChatGPT 4 Visionのプロダクトデザインへの活用

AI環境問題概観:関心の高まり、現状、そして改善策を見る

オープンソースの衝撃|Metaの大規模言語モデルLlama2とは

OpenAI経済圏の幕開け|OpenAI Dev DayはAI史の転機となったのか

プロダクトデザインのタスクにBing Chatを使用する

ChatGPTはもはや見ることができる – ChatGPT Visionを使って私が発見した驚くべき秘密!

こんなフレーズを見れば、AI生成コンテンツだと一目でわかる

「もうひとつのAI開発競争」の舞台としてのAIインフラ考察

あなたにおすすめの記事

AI企業は人間が作ったデータを使い果たした。彼らは今、AIを使ってより多くのものを作ろうとしている

AutoGen:次世代の大規模言語モデルアプリケーションを可能にする

ビジョンから現実へ: ChatGPT 4 Visionのプロダクトデザインへの活用

AI環境問題概観:関心の高まり、現状、そして改善策を見る

オープンソースの衝撃|Metaの大規模言語モデルLlama2とは

OpenAI経済圏の幕開け|OpenAI Dev DayはAI史の転機となったのか

プロダクトデザインのタスクにBing Chatを使用する

ChatGPTはもはや見ることができる – ChatGPT Visionを使って私が発見した驚くべき秘密!

こんなフレーズを見れば、AI生成コンテンツだと一目でわかる

「もうひとつのAI開発競争」の舞台としてのAIインフラ考察