HOME/ AINOW編集部 /図書館情報学とAIの新展開 ーAI文字認識×クラウドソーシングで史料のテキスト化を加速【第2回 人工知能学会誌コラボ】
2020.11.02

図書館情報学とAIの新展開 ーAI文字認識×クラウドソーシングで史料のテキスト化を加速【第2回 人工知能学会誌コラボ】

最終更新日:

人工知能学会が刊行する学会誌『人工知能』2020年11月号が、11月1日に発刊されました。

『人工知能』は編集委員がテーマを決め、AIに関連する有識者が記事を持ち寄って掲載している学会誌で、2ヶ月に1回発行されます。私たちに身近な分野や話題のAI研究などが扱われていて、AIの現状の課題や最新のAI情報を得ることができる、30年以上の歴史がある学会誌です。

AINOWでは各号の特集内容を、研究者の方々へのインタビューを通して紹介しています。2020年11月号の特集は「図書館情報学とAIの新展開」です。

▼2020年9月号(前号)の特集紹介記事はこちら

図書館情報学とは

図書館情報学とは、図書の収集・分類・保存・利用に関する諸問題を研究する図書館学と、情報の利用やあり方について研究する情報学とを合わせた学問領域です。

図書館にいくと膨大な数の本がきれいに整理され、決められた場所に並んでいます。このおかげで利用者の私たちは難なく本を探すことができます。

このように、図書館にある古くからの膨大な本や論文などの情報をいかに効率的に正しく収集し、保存していくのかを研究し突きつめきたのが図書館学でした。

1970年代に入るとコンピューターが広く普及し、情報検索が容易になってきました。それに伴い図書館の情報化も大きく進展し、従来の図書館学に加えてコンピューターを利用することを前提とした図書館情報学が成立しました。

図書館情報学では、知りたい情報を効率的に検索し、利用できるような環境づくりとその整備、情報の取り扱いなど、図書館に限らないあらゆる事象が研究の対象となっています。

あまり馴染みのない学問分野かもしれませんが、実はAIとの親和性の高い分野であり、近年ではデータの利活用に大いに影響を与えています。

図書館情報学とAIとの関係に関して『人工知能』編集長の清田氏に伺いました。

ーー図書館情報学とAIとの繋がりについてお聞かせください。

清田氏:AI研究において一つの大きな潮流を形成しているのが、「知識をどのように扱うか」という研究分野です。AIマップβのマップE(下記参照)でいえば、「知識の利用と共有」「言語メディア処理」「Webインテリジェンス」の3分野がそれにあたります。図書館情報学は、これらの3分野の発展に大きな影響を与えてきました。

たとえば、情報検索の世界を大きく変えたGoogleのPageRankというアルゴリズムは、図書館情報学に含まれる計量書誌学で開発されてきた論文どうしの引用関係の分析手法に、大きな影響を受けています。

一方で、最近のAI研究の成果が、図書館サービスの革新や、図書館資料の新たな活用につなる事例も増えています。今回の「みんなで翻刻」の取り組みもその一例です。

人工知能学会「AIマップβ(2020年6月版)」E: AI研究の現在
(©2020 人工知能学会AI マップタスクフォース,Licensed under CC-BY 4.0)

ーーなぜ今回の学会誌でこの特集を組んだのでしょうか。

清田氏:AIにとってのデータ資源の重要性は広く知られるようになってきましたが、そのデータづくりを支えている基盤(学問分野やコミュニティ)についても、読者の皆さんと理解を共有したいと考えたからです。

対話システムや自然言語処理の研究に広く活用されているWikipediaやWikidataなどのデータ資源には、図書館情報学をバックグラウンドにもつ多くの人々が貢献していて、図書館情報学で培われた情報の組織化の方法論が生かされています。また、国立国会図書館など、世界各国の図書館が公開している膨大な画像データなども、機械学習の研究に活用されています。

ーー図書館情報学とAIの組み合わせに期待することを教えてください。

清田氏:AIを研究されている方々には、与えられたデータ資源を単に利用するだけでなく、データ資源の提供サイドとのコミュニケーションや、データ資源づくりへの関わりなどにも関心をもっていただきたいです。

そういった関わりから、新たな研究アイデアのヒントが生まれてくることも多いでしょう。図書館情報学とのコラボレーションが、AI研究の新たなフロンティアを切り開くひとつのきっかけになることを期待しています。

AIを活用してくずし字を翻刻(テキスト化)-「みんなで翻刻」

今回の図書館情報学の特集では、古文のくずし字を現代語に変換する翻刻にAIを活用する「みんなの翻刻」を主導する橋本雄太氏による寄稿が掲載されています。

古代の文章をAIを活用して現代語に変換する取り組みは、世界の各所で広まっています。例えば、ゲーム開発/販売会社の『UBISOFT』の『The Hieroglyphics Initiative』という象形文字翻訳プロジェクトがあります。Googleの「TensorFlow」を活用して、象形文字の分析、翻訳を行え、石板にどの象形文字が刻まれているのかを識別をしています。

これまで手作業だった象形文字の解読がこのプロジェクトで一気に進み、これからの研究の発展が進むことが期待されています。

こうした文字認識の技術が古文くずし字にも活用が始まっています。「みんなで翻刻」ではAIを活用しながら多数の人々が協力して史料の翻刻に参加することで、歴史資料の解読を一挙に推し進めようというプロジェクトです。

『人工知能』特集紹介 第2回目となる今回のインタビューでは、歴史資料の解読を行う市民参加型のプロジェクト・「みんなで翻刻」を主導する橋本雄太氏にお話を伺いました。

zoom背景『肥後国海中の怪(アマビエの図)』(京都大学附属図書館所蔵)
https://rmda.kulib.kyoto-u.ac.jp/item/rb00000122/explanation/amabie

橋本雄太氏 プロフィール

2010年京都大学大学院文学研究科修士課程修了。株式会社内田洋行を経て、2013年より京都大学大学院文学研究科博士後期課程。2017年より国立歴史民俗博物館テニュアトラック助教。2018年に京都大学より博士(文学)。専門は人文情報学、特に歴史学研究と教育へのコンピュータ利用。元々の専門は近代科学史(数学史)であったが、博士後期課程編入を機に専門を変更した。

人力のみだったプロジェクトにAIのサポートを導入

ーー「みんなで翻刻」プロジェクトを始めたきっかけを教えてください。

橋本氏:私が京都大学の博士課程にはいってから、偶然、「京都大学古地震研究会」というグループに参加したことがきっかけでした。それまで日本の歴史の史料など読んだことはありませんでしたが、古地震研究会に所属したことで江戸時代以前のくずし字で書かれた史料を読むようになりました。

私は2011年の東北大震災を都内で会社員として働いていたころに経験していて、何かしら地震に関わることができたらなぁというくらいの思いで、最初は興味本位で始めました。

古地震研究会の活動の一つとして江戸時代以前の地震に関する記録を翻刻する作業があります。そこから今の「みんなで翻刻」プロジェクトとなるものが始まりました。

※古地震・・過去に起きた全ての地震

ーーAIの技術を始めから活用するつもりだったのですか。

橋本氏:当初はAIを使う予定はありませんでした。「みんなで翻刻」プロジェクトをリリースした2017年始めの時点では、くずし字をAIで認識するという技術がまだそこまで発展していませんでした。ですから、基本的には参加者が人手で入力することを想定していました。
この状況が変わっていったのが2018年ごろからだと思います。その流れに乗る形で2017年の「みんなで翻刻」新バージョンをリリースし、AIの認識機能を追加しました。

ーーAIを使おうと思ったきっかけは何かあったのでしょうか。

橋本氏:機械学習によるくずし字の研究で有名なカラーヌワット・タリン氏と出会ったこと、凸版印刷さんのくずし字をAIで認識する研究に触れたことがきっかけでした。

カラーヌワット・タリン氏

中世の『源氏物語』古注釈の専門。日本文学における機械学習、特にディープラーニングによるくずし字認識の研究、開発を行なっている。「みんなで翻刻」にもタリン氏の開発したAIシステムが使われている。

現在までに翻刻されている江戸時代の書物は1%に満たない

「みんなで翻刻」を使って史料(右)を翻刻した様子(左)

現在、「みんなで翻刻」には約5000人の人々が参加し、1,100万文字もの史料が翻刻されています。この大きなコミュニティを活用して、参加者たちが協力しながら文字や文章が日々解読されています。それでもこのくずし字を完璧に判断、解読することはとても難しい作業です。

ーー人力で翻刻していく作業は大変なのですか。

橋本氏:例えばですが、私の背景のくずし字が読めますか。(橋本氏のzoomのバーチャル背景)やはり難しいと思います。江戸時代はこの書き方が普通でした。しかし明治時代から活版印刷技術の発達によって活字が一般化してしまい、くずし字がほとんど見られなくなりました。特殊なトレーニングを積んだ人間しか、こうしたくずし字が読めなくなってしまったんです。
また、現代語訳されていたり、研究に使われている書物はまだまだ少ないのが現状です。江戸時代に出版された書物は約150万点と言われていますが、翻刻されているものは1%にも満たないと推定されています。

ーーAIを活用することで効率的に翻刻していこうということですね。

橋本氏:元々はこうした資料の翻刻を担っていたのは、日本史学や国文学分野の研究者でした。しかしながら、こうした少数の研究者が翻刻できる分量には限りがあります。

そこで、数千人単位の一般の人々を翻刻作業に巻き込み、一挙に翻刻作業を進めることを目的としてプロジェクトを始めました。それでもやはり大変な作業なので、AIを活用したサポートで作業の効率化を図っています。
こうした活動が進めば、これまで解読の対象にならなかった書物も解読できますし、それによって新しい史実の発見にもつながるかもしれません。
地震でいうと、現代の地震を研究する上で、過去の地震を知ることは非常に重要です。

地震計による近代的な地震の観測が始まるのは19世紀末。それ以前に発生した地震を研究するには文書記録を見るしかありません。これまではそうした資料の翻刻を専門家が少しずつ手作業で進めてきました。これからはクラウドソーシングやAIを活用することで、地震を含む過去の災害について新しい事実がわかってくる可能性が高まっていくと思います。

人間とAIの分業で翻刻を加速 新たな史実発見の可能性

ーー図書館情報学ではこのプロジェクトはどのように関わってくるのでしょうか。

橋本氏:図書館情報学は現代の本だけでなく、歴史上の史料も扱う学問です。しかし今流通している本にフォーカスがされやすく、歴史史料は図書館情報学で扱われないことも多いです。

現在、「みんなで翻刻」は、図書館と連携しながら史料のテキスト化を進めています。そうした成果がデータとして公開されていけば、研究としてその歴史史料を扱いやすくなるのではないかなと思います。現状、翻刻されていない史料が多く、全文検索ができないために研究対象にすることが難しいという課題があります。翻刻が進めば研究にも活用しやすくなると期待してます。

ーー橋本氏の考える「みんなの翻刻」の今後の展望をお聞かせください。

橋本氏:AIを使って人間をサポートする取り組みを強めていきたいです。今は人間に読めない文字があったらAIが解読候補を教えてくれるくらいのサポートです。今は1文字ずつしか分析できないのですが、文全体を分析できるようにするなど、これからはさらにAIができる範囲を増やしていきたいです。

▼AIを用いて翻刻する様子

 

人工知能学会 学会誌『人工知能』11月号

11月号はAI研究において重要な研究テーマである「知識の利用と共有」「言語メディア処理」「Webインテリジェンス」との関わりが深い特集になっています。

情報・知識を組織化し多くの人たちがアクセスしやすくすることは、知識資産の利活用やさまざまな研究の促進に繋がります。特集では、その可能性やAIの担う役割について多く語られています。

『人工知能』編集長・清田氏に今月号に込めた思いをコメントしていただきました。

清田氏:11月号では、「図書館情報学」特集のほか、6月に開催された人工知能学会全国大会(JSAI 2020)の特集を掲載しました。コロナ禍の影響によって初めてのオンライン開催になりましたが、例年に劣らず、数多くの有意義なセッションが行われました。来年のJSAI 2021もオンライン開催が決定しています。ぜひ手にとって興味のあるテーマを見つけていただき、みなさまのご研究、そしてJSAI 2021での議論に生かしていただけると幸いです。

人工知能学会の個人会員であればこちらから無料で閲覧可能です。(非会員でも一部無料で閲覧できます。)

おわりに

私たちは普段多くの情報に囲まれて過ごしています。ほしい情報があれば簡単に検索したり、図書館に行って整理された本棚から選び取ることができます。

しかし世の中には検索してもでてこない情報、はたまた現代の多くの人には読むことができない文書も存在しています。特に日本は『古文書大国』とも言われるくらい多くの文書が残されています。

まだ解読されていない文書に研究に役立つ情報だけでなく、歴史的な発見も見つかるかもしれません。現代の情報化の中でこうした図書館情報学の役割は今後どんどん大きくなっていくと考えられます。

「みんなで翻刻」は誰にでも開かれたプラットフォームであるため、これからさらに参加者が増えれば古文書の翻刻は加速していき、さらなるデータの蓄積によってAIの性能も上がっていくでしょう。今後の日本の防災対策や、新しい発見につながることが期待されます。

『人工知能』2020年11月号、ぜひ手に取ってお読みください。

過去の学会誌はこちら▼

人工知能学会に関して詳しくはこちら▼

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

JDLA、高専生支援に向け1億円基金を創設

評価額は6億円|1位は福井高専のエッジAIによる老朽化診断ツール|DCON2021速報

グローバルな事業展開を行うAI開発企業「FRONTEO」の凄さとは?

シナモン創業者の堀田氏がDX戦略の勝ちパターンを解説|戦略デザインのポイントとは

機械学習におけるモデルとは?|モデルの種類や「よいモデル」とは何かについて

AI・データ分析プロジェクトを成功に導く“ビジネス力”とは|組織が陥る落とし穴はここだ!

先週のAI関連人気ツイートTOP20!【2021/04/12更新】

Word2vecとは|モデルの種類やその仕組み、活用事例まで紹介!

テレワーク 生産性下がる

【生産性が下がる!?】テレワーク導入による問題と解決方法を徹底解説!

テレワーク導入事例/アイキャッチ

【成功の秘訣】業種別・課題別で見るテレワーク導入事例

あなたにおすすめの記事

JDLA、高専生支援に向け1億円基金を創設

評価額は6億円|1位は福井高専のエッジAIによる老朽化診断ツール|DCON2021速報

グローバルな事業展開を行うAI開発企業「FRONTEO」の凄さとは?

シナモン創業者の堀田氏がDX戦略の勝ちパターンを解説|戦略デザインのポイントとは

機械学習におけるモデルとは?|モデルの種類や「よいモデル」とは何かについて

AI・データ分析プロジェクトを成功に導く“ビジネス力”とは|組織が陥る落とし穴はここだ!

先週のAI関連人気ツイートTOP20!【2021/04/12更新】

Word2vecとは|モデルの種類やその仕組み、活用事例まで紹介!

テレワーク 生産性下がる

【生産性が下がる!?】テレワーク導入による問題と解決方法を徹底解説!

テレワーク導入事例/アイキャッチ

【成功の秘訣】業種別・課題別で見るテレワーク導入事例