HOME/ AINOW編集部 /小説のデータ分析に1年生から挑戦 ―進化する大学のデータサイエンス教育
2020.04.06

小説のデータ分析に1年生から挑戦 ―進化する大学のデータサイエンス教育

最終更新日:

今、国内の大学におけるAIやデータサイエンス分野の教育の整備が進んでいます。

東京工業大学は、2020年度から全ての大学院生を対象にAI・人工知能やデータサイエンスの教育を開始すると発表しました。

また、2017年以降、滋賀大学、横浜市立大学、武蔵野大学の3校の大学が「データサイエンス学部」を設立しました。

このように大学・大学院の学部にAIやデータサイエンスのカリキュラムの導入が進んでいます。これからもAIやデータサイエンスを専門とする学部設置の動きは加速していくでしょう。

今回は、2019年に設置されたの武蔵野大学データサイエンス学部(MUDS)2年生の仲程凛太郎さんにインタビューを行いました。データサイエンス学部での生活だけでなく、1年生から取り組んだ研究内容について伺いました。

仲程 凜太朗さん:1999年1月4日生まれ。北海道札幌市出身。現在、武蔵野大学データサイエンス学部在学中。大学の研究では小説の研究をはじめ芸術および感性の研究がテーマ。学部1年生ながらもDEIM2020にて『オンラインプレゼンテーション賞』を受賞。また、大学生活の傍ら同人活動集団Fratino主宰。Comic Market 97にゲームを出展する。絶賛オリジナルゲームも制作中。座右の銘は、恐るな、大胆であれ。

近年、設立されているデータサイエンス学部とは?

近年のインターネットの発達や、IoTの普及により世の中に膨大なデータが溢れています。そのような中、IT業界では人材不足の課題が深刻になっています。

IT業界の中でもデータサイエンティストが関わる分野では、2020年に4.8万人の人材が不足すると言われています。また、調査によるとデータサイエンティストが抱える課題として、「課題発見力」が挙げられています。これからは、単にAI分野の人材を育成するだけでなく、課題発見のスキルも合わせて身につけていくことが大切です。

AIやデータサイエンス分野の人材不足を背景に、数年前からいくつかの大学で「データサイエンス学部」が設立されています。

2020年3月現在、滋賀大学、横浜市立大学、武蔵野大学の3大学がデータサイエンス学部を設置しています。

データサイエンス分野での学習方法で注目されているのが、PBL(Project Based Learning)という方法です。PBLとは「課題解決型学習」とも呼ばれる学習方法のことです。PBLでは、自主的に問題・課題を発見し、解決策を練り、実行する能力が養われる点が注目を集めています。

滋賀大学データサイエンス学部には「データ駆動型PBL演習」がカリキュラムに組み込まれています。横浜市立大学データサイエンス学部は「データが生まれる現場でPBL(Project-Based Learning、課題解決型学習を行い、実践的な学びの機会を数多く持ちます。」とホームページに記載しています。

武蔵野大学データサイエンス学部は1年次からのカリキュラムとして、大学で身に付けたスキルや知識をどのように実社会の課題に活用できるかを実践的に学ぶ「未来創造プロジェクト」が設置され、社会と繋がりを持ちながら実務の知識も得ることで、AIやデータサイエンスを社会活用を進められる人材を育成しています。

学生が主体となる「未来創造プロジェクト」とは?

武蔵野大学データサイエンス学部データサイエンス学科の「未来創造プロジェクト」は、PBLを取り入れた武蔵野大学のカリキュラムで、6つの分野から選択し、テーマの中から課題を発見し、プロジェクトを実装します。

この「未来創造プロジェクト」は学内だけの取り組みではなく、企業との共同プロジェクトも実施することで、実際に社会の中で起きている課題に取り組むことができます。

未来創造プロジェクトのプロジェクト例(引用:武蔵野大学データサイエンス学部公式HPより)

まるで小さな会社|データサイエンス学部での生活

仲程凜太朗さんは、2019年度に開設された武蔵野大学データサイエンス学部の1期生として入学した大学2年生です。(2020年4月現在)入試勉強をしているときからデータサイエンスに興味を持ち、同学部への入学を決め、データサイエンスを学んでいます。

まずは、詳しくデータサイエンスに興味を持った理由や、データサイエンス学部での生活について伺いました。

ーーどのような過程で「データサイエンス」に興味を持ったんですか?

仲程さん:高校時代に疫学の父ジョン・スノウが統計的にコレラの原因を突き止めたという話を聞いて「統計」の強さと分析の可能性を感じて、大学で「統計学」の勉強をしてみたいと思っていました。その後、GoogleのTJOさんなどのデータサイエンティストの方が書いた記事を読んだ時に、「データサイエンス」について専門的に学んでみようと思いました。

特に自分は小説を読むのが好きだったので、自然言語処理を用いた技術に興味があって、自分がその発展に寄与できるのではないかという期待を持ちました。また、近年流行している機械学習を用いると、近未来を感じさせるような最先端の研究にも関与できるのではないかというわくわく感も抱きました。

もちろん勉強することがまだまだたくさんあると理解していますが、今の時代において「データサイエンティスト」は必要とされている人材でもあるので、この道に進むことを決めました。

日本の大学にはデータサイエンス学部がまだ3校にしかありませんが、海外の大学ではデータサイエンス学部ができ始めていて、これから世界的に盛り上がってくると思っています。

率先してデータサイエンスを学び、自分が好きな分野と絡めることで、誰も挑戦していない研究をする機会があると思っています。

ーーその中でも武蔵野大学のデータサイエンス学部を選んだ理由はなんですか?

仲程さん:他の大学では大学院まで進学するまでの間、統計的処理の計算などの理論を主に勉強されていると思うのですが、大学(学部生)の時点から「動くものを作る」ことが出来るという極めてエンジニア的で実践的な学びが出来そうだと感じたことが大きな理由です。

さらに武蔵野大学のデータサイエンス学部は、2019年に新設された新しい学部です。自分たちで学部を1から作る機会にチャレンジできることにも魅力を感じました。

1年次のカリキュラムを終えた仲程さんに、データサイエンス学部での生活について伺いました。

ーー同級生はどのような学生が多いのでしょうか?

仲程さん:多種多様な学生がいます。 プログラミングを学んでエンジニアになりたい人、カリキュラムにあったグループでの開発に魅力を感じて来たという人、人工知能に興味があるという人もいます。

もちろんデータサイエンスやAI技術に興味があるから入学したという人もいて、さまざまな学生と関わることができています。

また、コミュニケーションツールでSlackを活用しているため、学生同士だけではなく、学生と教授間の連絡もすごく盛んです。Slackを導入したことにより、学生と教授の距離がすごく近いと感じています。

ーーこの1年間でどのようなことを学びましたか?

仲程さん:前期にはProcessing(ビジュアルデザイン用プログラミング)を学び、デジタルアートを作成する授業がありました。Processingは、Javaで作られたソフトウェアなので、Javaを学びつつ、Processingで動くものをテーマにグループで作品を作成しました。

また、教育用マイコンであるマイクロビットを用いてセンサーを使い、動くプログラムを作る課題などもありました。自分で調べながら実装し、本格的にレポートにすることで、自ら学び相手に伝えるコツなどを学ぶことができました。大変でしたが、こういった経験を学生時代から得られることはメリットだと思っています。

後期は、実際に「データサイエンティスト」の方に来ていただいて講演していただいたり、Pythonを本格的に学ぶ授業がありました。また、その中で実際の現場の必要な技術や現実的な問題点も学ぶことが出来ました。

一方で後期からは、未来創造プロジェクトが開始しました。僕は浪人時代に小説を書いていたため、小説家の視点を絡めて研究テーマを設定し、研究に取り組みました。

また、その中で実際の現場で必要になることも学べました。

ーー現場で必要なこととはどのようなことですか?

仲程さん:実際に働く場では、部署同士の連携が取れていないと、他の部署の人側からデータサイエンスの部署を見たときに何をやっているかわからないと思います。そのためある現場では、通訳のような人材を置くことで円滑にコミニュケーションができるようになったという事例があります。他の部署にもしっかりと伝えるという必要性を感じています。

ここ1年を通してデータサイエンティストに求められることはエンジニアリング力だけではなく、ヒアリング力も重要だと思わせられる機会も多くありました。武蔵野大学データサイエンス学部では、授業の課題における教授とのやりとりなどからも、このヒアリング力を養うことができます。

課題設定が曖昧な相手(教授がクライアント役になる)に対して、自主的に課題や分析方法を提示するという授業があり、これは他大学のカリキュラム上では養うことができなかったと思います。

1年次から小説分析プロジェクトに取り組んだ

仲程さんは、未来創造プロジェクトで小説のストーリーの展開を波形で表すことで、類似度を算出し、グラフにストーリーの展開を可視化することに取り組み、「第12回 データ工学と情報マネジメントに関するフォーラム」ではオンラインプレゼンテーション賞を受賞しています。

実際にどのようなプロジェクトなのでしょうか。

ーー未来創造プロジェクトは具体的にどのようなカリキュラムですか?

仲程さん:未来創造プロジェクトでは、まず自主的にテーマを設定するところから主体的に仮説や課題を立てて、研究に取り組みます。実際に学会発表までいく人、今後も長期的に研究する人など一人ひとりの研究スタイルが実現できます。

プロジェクトを進めるために、1年生の前期に得た知識を活用しました。また、自ら書籍を読んだり、イベントに参加して常にアイデアを補充していました。

ーー仲程さんはどのようなプロジェクトに取り組みましたか?

仲程さん:「ストーリー展開特徴抽出に基づく類似度検索可視化方式の実現」というテーマの研究です。

ストーリー展開の特徴抽出とは、小説作品の文章を分析することで、作品ごとのストーリー展開の特徴を割り出し、作品同士のストーリー展開の類似度を検索できるようにするプロジェクトです。

ーー具体的にどのようにこの特徴を抽出しましたか?

仲程さん:「極性」を利用しました。

文章の単語がポジティブな語とネガティブな語を抽出し、例えば、ポジティブな語が1文中に2回出てきたプラス2点で、マイナスな語が出てきたらマイナス1点とします。

1文の平均得点の連続値をStory Signatureという感情の盛り上がりの指標とすることでグラフにストーリーの展開を可視化しました。その上で、小説間のStory Signatureの類似度をDTWを使って求めることで、検索方式を実現しています。

極性とは:言語表現が肯定的な表現か、あるいは否定的な表現かを認識する要素

横軸:Sentenceは文の単位。縦軸:Negapogiはプラス値がポジティブな語の点数、マイナス値がネガティブな語の点数 【引用:『Story Signature ストーリー展開特徴抽出による 類似小説検索可視化方式の実現 』】

ーーなぜ、この発想に至ったのですか?

仲程さん:私自身が昔から小説を書いていたのですが、小説の全体を俯瞰することができないかとずっと考えていたんです。起承転結のように、ストーリーの構成に波があると感じていました。それを波形としてデータで抽出できるのではないかと考えました。

ストーリーを波形として抽出することができれば、新たな作品を作る際にストーリーの波形を参考に俯瞰することができます。

他にも、例えばあるジャンルで売れている作家の作品の波形を参考に、より売れる作品に編集をすることもできるのではないかと考えています。

ーー研究の結果、発見はありましたか?

仲程さん: 森鷗外と夏目漱石が意識し合っていた可能性があるということがわかりました。森鷗外の『青年』という作品は夏目漱石の作品のオマージュだと言われています。

そこで2人の作品は類似度が高いのではないかと思い、データベースに保存されている夏目漱石と森鴎外の作品、全182作品の類似度を求めたところ32位でした。その結果を得て、『青年』よりも意識しあっていた作品があるのではないかという仮説が得られました。

調査したところ、夏目漱石の『三四郎』から1番近いのは森鷗外の作品であり、森鷗外の『青年』と類似度が最も近い作品が近いのが『草枕』でした。

この結果により、2人はお互いに意識し合っている可能性が高いとわかりました。

森鴎外の『青年』と夏目漱石・森鴎外の一部作品との類似度(一部)(値が低いほど距離が近い)【仲程さん提供のデータを基にAINOW編集部が作成】

ーー実際にプロジェクトを実装して大変だったことはありますか?

仲程さん:類似度を抽出する時にDTWという手法を使用した時です。そもそも「小説を波で表す」という考え方がないので、DTWを使い、類似度を抽出することが大変でした。

DTW:Dynamic Time Warpingの略称であり、2つの時系列データを波形で表して類似度を計測する手法。主に音声などの時系列データに用いる。

データサイエンティストとしてのこれからの活動について

ーー今後はどのような活動に取り組みたいですか?

仲程さん:小説や音楽、絵画など芸術の分野で、作家や編集者の視点などに注目して世の中に還元できるものを研究したいです。

今回の研究を進める中で、「こういうものが今はないけど欲しいな」と常に考えている、自分の中にある貪欲な気持ちに気付きました。まだ世の中にないけれど必要だと思うものはたくさんあると思います。その中でニーズがあると感じたものを研究・開発をしていきたいです。

まとめ

データサイエンティストが抱える課題は、「適切な課題設定」や「課題発見力」が大きな課題となっています。

人材不足だからと言い、データサイエンスの知見やスキルを身につけても、実践の場で活用できなければ、宝の持ち腐れです。企画やプロジェクトを実装する中で学び、応用できるスキルを身につければ、場所に限らず活躍することができます。

このような課題を解決するために、今後の教育制度ではアクティブラーニングから一歩進んだ「PBL」という学習方法が注目されるでしょう。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

動画生成AI『Sora』とは|映像業界にとどまらないインパクトを解説

基調講演だけではない。OpenAI、Microsoft、Metaもビジョンを語ったGTC2024セッションまとめ

ChatGPTもGeminiも忘れて、これらの(信じられない)次世代AIツールをチェックしてみよう!

あなたにおすすめの記事

動画生成AI『Sora』とは|映像業界にとどまらないインパクトを解説

基調講演だけではない。OpenAI、Microsoft、Metaもビジョンを語ったGTC2024セッションまとめ

ChatGPTもGeminiも忘れて、これらの(信じられない)次世代AIツールをチェックしてみよう!