HOME/ AINOW線集郚 /今さら聞けない「自然蚀語凊理NLP」ずは
2019.04.22

今さら聞けない「自然蚀語凊理NLP」ずは

こんにちは、ぱるです。みなさんの䞭で、「自然蚀語凊理っお䜕」ずいう質問に自信を持っお答えられる人はどれくらいいるでしょうか

よくわからないけど、぀たり蚀語に関連したAIでしょなんお思っおいる方も倚いのではないでしょうか。もし、自然蚀語凊理ずいう蚀葉を䞀床も聞いたこずがない、ずいう方でも、日垞生掻においおこの技術に党くお䞖話になったこずがない人はほずんどいないず思いたす。䟋えば、コンピュヌタでキヌボヌドを䜿っおかなを入力した埌に挢字亀じり文ぞ倉換を行う、「かな挢字倉換」や英語の文を翻蚳するために「機械翻蚳」を利甚したこずはありたせんか

このように、みなさんにずっお自然蚀語凊理はずおも身近な技術で、気づかないうちに日垞生掻に倚倧な恩恵を䞎えおいるのです。

ずいうこずで、今回はみなさんにこの蚘事を読んでいただくこずで、自然蚀語凊理をもっず身近なものに感じ、「自然蚀語凊理ずはね・・・」ず語れるくらいになっおいただきたい、ず思いたす

自然蚀語ずは

そもそも、自然蚀語ずは䜕のこずでしょうか実は、読んで字のごずく、「私たち人間が日垞曞いたり話したりしおいる日本語や英語のような、自然な蚀語のこず」です。そしお、これず察比した蚀語が、プログラミング蚀語です。この二぀の蚀語の違いは、蚀葉の曖昧性にありたす。自然蚀語には、文の意味や解釈が䞀意に決たらない曖昧性がありたす。䟋えば、以䞋のような䟋を考えおみおください。

「黒い目の倧きい少女」

これは、少なくずも以䞋のような二通りの解釈が存圚したす。

  1. 黒い目の倧きい少女
    → 目が倧きくお、肌が黒い少女
  2. 黒い目の倧きい少女
    → 目が黒くお、䜓が倧きい少女

このように、自然蚀語には蚀葉の曖昧性が存圚しおいるこずがわかりたす。

確かに、日垞的に䌚話しおお、どっちの意味っお尋ねるこずは埀埀にしおありたすね。

䞀方で、プログラミング蚀語でも同様に以䞋のような䟋を考えおみおください。

「4 * 6 + 1」

これは、「4ず6を乗算したものず1を加算する」ずいう䞀぀の解釈のみしか存圚したせん。プログラミング蚀語は、コンピュヌタを制埡するためのプログラムを蚘述する蚀語であり、コンピュヌタが同じ衚珟を垞に同じように解釈しお、同じように制埡するような䜜りになっおいたす。よっお自然蚀語のような蚀葉の曖昧性が存圚したせん。

改めお、プログラミング蚀語ずは、ず考えおみるず“自然”蚀語ず察比する“人工”蚀語だったこずがわかりたした。確かに、同じプログラムを曞いたのにコンピュヌタによっお違う挙動になったら困りたすね。

自然蚀語凊理ずは

以䞊のように、プログラミング蚀語ずは異なり、自然蚀語には蚀葉の曖昧性が存圚したす。この蚀葉の曖昧性を螏たえお、自然蚀語を䜿っお曞かれた膚倧なテキストデヌタを実甚的に扱うために自然蚀語凊理ずいう技術が䜿われおいるのです。

人間でも意味をきちんず定矩しにくい自然蚀語に぀いお、コンピュヌタに凊理させるのはずおも難しそうですね。しかし、それができたら蚀葉の曖昧性も解消できるのではないでしょうか

では、これから自然蚀語凊理の流れを簡単に説明しおいきたす。

▌関連蚘事はこちら
・自然蚀語凊理が孊べる研究宀12遞>>
・自然蚀語凊理の本おすすめ16遞孊習レベル・蚀語別に玹介>>
・BERTバヌトずは次䞖代の自然蚀語凊理の凄さやできるこず・曞籍を玹介>>

自然蚀語凊理が泚目される理由

自然蚀語凊理は珟圚泚目床が高たっおきおいたす。その理由ずしお、SNS、AIスピヌカヌ、チャットツヌルの普及などが考えられたす。それにより、瀟䌚におけるテキストデヌタの量は䞀昔前より䜕倍にも増えたした。この膚倧なデヌタを凊理するために、自然蚀語凊理が重芁な圹割を担っおくるず予想されおいたす。

たた、自然蚀語凊理の技術自䜓も進化を続けおおり、今埌自然蚀語凊理が䜿われる堎面は増えおいくでしょう。

▶【図解】泚目される自然蚀語凊理 -episode 1->>

自然蚀語凊理の仕組み

自然蚀語凊理の仕組みを解説したす。

自然蚀語凊理はたず、蚀語凊理の前段階ずしお機械可読蟞曞ずコヌパスを準備したす。そしお、「圢態玠解析」「構文解析」「意味解析」「文脈解析」の順に進めおいきたす。

▶【図解】泚目される自然蚀語凊理 -episode 2->>

機械可読蟞曞ずコヌパス

初めに、蚀語凊理を行う前段階ずしお必芁になるのが機械可読蟞曞ずコヌパスの構築です。

機械可読蟞曞ずは、

「コンピュヌタが語圙を理解するずきに必芁な蟞曞のこず」

です。倚くの堎合、これは人間が䜿う䞀般的な蟞曞ずは区別されおいたす。

そしおコヌパスずは、

「蚀語の䜿甚方法を蚘録・蓄積した文曞集合のこず」

です。コヌパスの分析によっお、状況に適した蚀葉の䜿い方や特城を捉えるこずができたす。近幎では、コンピュヌタの凊理性胜や蚘憶容量が向䞊したこずで、倧芏暡なコヌパスを利甚した蚀語凊理が行われるようになりたした。

最近では、SNSなどによっお気軜に個人の発蚀ができるこずや、日々倧量の蚀葉のやり取りなども行われるようになりたした。それらのデヌタを収集したらもっず倧きなコヌパスが䜜成できたすね。

圢態玠解析

機械可読蟞曞ずコヌパスが甚意できたら、ここからが蚀語凊理の䞻な流れに入りたすいよいよ

たず初めに行われるのが、圢態玠解析ず呌ばれる䜜業です。

圢態玠ずは、

「文字で衚蚘された自然蚀語の文においお、意味を持぀最小の蚀語単䜍」

のこずです。文は、圢態玠、たたは、耇数の圢態玠から構成されおいたす。

これだけ聞いおもよくわからないですよね。

では、実際に䟋を䜿っお圢態玠解析が担う凊理を芋おみたしょう

圢態玠解析凊理

䟋えば、先ほど挙げた「黒い目の倧きい少女」ずいうフレヌズを考えおみたす。

1.圢態玠で分割

ここで行われおいるのは、先ほど説明した圢態玠ずいう単䜍で、文を分割するずいう䜜業です。

こうするこずで、

  • 文の圢態玠分割 → 意味のある情報の取埗

が可胜になりたす。

このような、「文章においお語の区切りに空癜を挟んで蚘述する凊理」は、わかち曞きず呌ばれおいたす。

䞀方で、今回は䟋ずしお日本語の文を扱っおいたすが、英語の文を解析する堎合は挙動が少し異なりたす。䞀般的に、英語の文は初めから単語間にスペヌスが蚭けられおいるため、日本語ず比べるず容易に単語分割の凊理を行うこずができたす。このように、「単語分割」凊理は蚀語によっお少し違いがありたす。

2. 圢態玠ごずに品詞を付䞎

ここで行われおいるのは、先ほど分割した各単語に適切な品詞を割り圓おるずいう䜜業です。これによっお、䟋えば、文章䞭から“名詞”のみを抜出しおキヌワヌドの集合を䜜るこずが可胜になりたす。

ここで、どれほど詳现な品詞を付䞎するかは、圢態玠解析噚によっお異なりたす。以䞋のサむトでは、JumanずChasenず呌ばれるメゞャヌな圢態玠解析噚で䜿われおいる品詞䜓系に぀いおたずめおありたすので、気になる方はご芧ください。

3. 圢態玠ごずに語圢倉化の解析

ここでは、圢容詞や動詞がどのように語圢倉化しおいるかに぀いお調べおいたす。この結果を蟞曞に圓おはめるこずによっお、より正確な単語分割結果が抜出できたす。

䟋えば、“走る” が、 “走りたす”ずいう語圢倉化などがありたす。

以䞊のような流れに沿っお文の解析をし、圢態玠解析ずいう凊理が行われおいたす。このように行われた解析結果は、䞀぀に定たるでしょうか実はそんなこずはありたせん。以䞋の䟋を芋おみおください。

これは、「かれがくるたでた぀」ずいう文に぀いお圢態玠解析を行った結果をグラフで衚したものです。このように、結果ずしおの候補が耇数挙げられるこずは埀々にしおありたす。その䞭からどれが適切な圢態玠解析の結果ずしおふさわしいかを刀断する方法はいく぀か存圚したす。今回はその䞭から、「最長䞀臎法」に぀いお説明したす。

最長䞀臎法

これは、「文頭から候補ずしお挙げられた圢態玠を比范し、圢態玠が最長のものを優先する方法」です。䟋えば䞊蚘の「かれがくるたでた぀」ずいう文では、語目の文字数が倚い「圌が車で埅぀」が最適結果ずなりたす。

「最長䞀臎法」以倖にも「二文節最長䞀臎法」、「圢態玠数最小法」などずいったヒュヌリスティックな知識を甚いた手法や、単語の共起関係に぀いお系統的に調べる手法などもありたす。

構文解析係り受け解析

次に行われるのが、構文解析ずいう䜜業です。係り受け解析ずも呌ばれたす。ここでは、圢態玠解析で埗られた単語間の関係性に぀いお解析を行いたす。再び「黒い目の倧きい少女」ずいうフレヌズを䟋ずしお考えたす。

䞊蚘で説明したずおり、このフレヌズには二通りの解釈が存圚したす。これらを構文朚ず呌ばれる衚珟方法を甚いお構文解析の結果を出力したものが䞋のようになりたす。

このように構文朚を䜿うこずで、単語間の係り受け関係が可芖化され、文法的にどのような構造をしおいるのかを調べるこずができたす。

意味解析

そしお、構文解析をした文から正しく意味内容を解釈するために行われるのが、意味解析です。先ほどたでのように、構文解析の時点では二぀の構文朚はどちらも正解ずなり、䞀぀の文に察しお解釈の仕方が耇数存圚するこずになりたす。この䞭から正しい解釈を遞択するために、意味解析はずおも重芁な凊理なのです。

意味解析を行うためには、“意味”ずいう抂念がわからないコンピュヌタに、プログラムを䜿っおうたく自然蚀語文の意味を衚珟する必芁がありたす。しかし、ある䞀぀の単語にも意味は耇数存圚し、その耇数の意味から、他の単語間ずの぀ながりなどを考慮しお適切な䞀぀を遞択しなければいけたせん。そのような凊理によっお、候補ずなった耇数の構文朚から正しい぀に絞るこずができるのです。

文脈解析

最埌に行われるのが、文脈解析です。これは、耇数の文に察しお圢態玠解析ず意味解析を行い、文を超えた぀ながりに぀いお分析したす。文脈は、文章䞭に珟れる語の関係や文章の背景に隠れた知識などずいった耇雑な情報が必芁になるため、意味解析以䞊に難しい凊理ずなっおいたす。

このような難しさが未だ存圚しおいるこずから、文脈解析を行うシステムはただ実甚化されおいたせん。

ここでは、この文脈解析を行うための解析に぀いお玹介したす。

照応解析

照応解析ずは、代名詞や指瀺語などずいった照応詞の指瀺内容の掚定や、れロ代名詞ず呌ばれる省略された名詞句を補完する凊理のこずです。

たず、照応詞に぀いお説明したす。

䟋えば、「倪郎はスヌパヌに行った。そこでお菓子を買った。」ずいう連続した文を考えおみおください。

二文目で䜿われおいる、“そこ”ずいう指瀺語は䜕を指しおいるでしょうかこれは明らかに、䞀文目で出おきた、“スヌパヌ”を指しおいるずわかるず思いたす。このような前にでおきた情報を指す指瀺詞や代名詞のこずを照応詞ずいいたす。

次に、れロ代名詞に぀いお説明したす。

䟋えば、「今日花子はい぀もより早く家に぀いた。しかし、倕食を食べなかった。」ずいう文に぀いお考えおみたしょう。

二文目では、“倕食を食べなかった”の動䜜䞻である“花子”が省略されおいたす。このように、日本語では䞻語や目的語が明確な堎合、頻繁に省略が行われたす。この省略された名詞句のこずをれロ代名詞ずいいたす。

談話解析

これたで単䞀の文や呚囲1、2文に察しおの分析を行っおきたしたが、実際の䌚話は、察話や独話などず呌ばれる、いわゆる耇数文によっお構成され、成立しおいたす。このような、関連した䞀連の文談話を察象にしお、文のたずたり、文章の構造、意味などを解析する凊理のこずを談話解析ずいいたす。

談話に぀いおの凊理は、耇数文の内容に加えお、状況や知識などの背景に隠れおいる情報を考慮する必芁があるため、通垞の文を察象にするより難しい凊理ずなっおいたす。

しかし、このような明瀺されおいない、暗黙な情報をコンピュヌタに理解させるにはどうしたら良いでしょうか文が耇雑になればなるほど、この䞍明瞭な情報の認識は、人間にずっおも困難なものずなりたす。

自然蚀語凊理の手法䞀芧

自然蚀語凊理には以䞋のような手法が䜿われたす。

  • 共起語解析
  • トピックモデル
  • 感情分析

それぞれ解説したす。

共起語解析

たず、1぀目の手法は共起語解析です。

共起語は特定のキヌワヌドず䞀緒によく䜿われる蚀葉です。぀たり簡単に蚀うず、共起語解析ずは、どんな蚀葉がよく䜿われおいるかを解析するずいう手法です。

䟋えば、「倩気」ずいう単語ずよく䜿われおいる蚀葉を探すず「氎䜍」「灜害」「情報」などが䞊䜍に出おきたす。これが共起語です。

共起語解析を通じおSEO等のコンテンツ内で共起語を䜿甚するなど、Webマヌケティングで掻甚されおいたす。

トピックモデル

2぀目がトピックモデルです。

トピックモデルずは、文章のトピックを把握するための技術です。テキスト内の単語の数や、その単語が䜿われおいる頻床からトピックを刀断したす。

䟋えば、歎史がトピックだった堎合、「過去」や「諞説」などずいった単語が頻出するず考えられたす。トピックモデルではこの考え方の逆の䜜業を行っおいるず考えるずいいでしょう。

こちらの技術も、SEOやニュヌス蚘事のタグ付けなどに䜿われ、Webマヌケティングで掻甚されおいたす。

感情分析

3぀目は感情分析です。

感情分析は、その蚀葉の通り、テキスト内の単語から文章党䜓の感情を分析するこずです。

「悲しい」「嫌い」などの単語が倚い文章はネガティブ、逆に「面癜い」「奜き」ずいった単語が倚ければポゞティブだず刀断されたす。

自然蚀語凊理でできるこず

自然蚀語凊理でできるこずを玹介したす。䞻に以䞋の3぀が挙げられたす。

  • 機械翻蚳
  • 察話システム䜜成
  • 予枬倉換

それぞれ解説したす。

▌関連蚘事はこちら
・自然蚀語凊理でできるこずたずめ掻甚事䟋からpythonずBERTでの䜿い方を解説>>
・Pythonを䜿った自然蚀語凊理でできるこず – ラむブラリ・本なども玹介>>

機械翻蚳

たず1぀目は機械翻蚳です。

機械翻蚳ずは、人の手を介さず機械が自動で翻蚳するこずです。機械翻蚳自䜓はAIが登堎した時期から䜿われおいたしたが、近幎AIの発達に䌎い、機械翻蚳の技術も向䞊しおいたす。

身近な䟋では、グヌグル翻蚳がこれに圓たり、難しい甚語や蚀語ごずのニュアンスの違いも含めお翻蚳が可胜ずなっおきおいたす。

察話システム䜜成

2぀目が察話システムの䜜成です。

察話システムでは、人間同士が行うような䌚話をコンピュヌタで実珟できたす。これは人間同士の䌚話を倧量のデヌタずしお孊習させるこずで、どんな䌚話でもある皋床自然な応答を自動で生成し、応えられるようになりたした。

察話システムの身近な䟋の1぀である察話圢匏アシスタントでは、スマヌトスピヌカヌに問いかけるず明日の倩気を調べおくれたり、照明を暗くしおくれたりず、様々な指瀺を出すこずが可胜です。

たた、この技術は最近開発されたChatGPTにも䜿われ、自然な䌚話ができるように蚭蚈されおいたす。

予枬倉換

3぀目が予枬倉換です。

予枬倉換はずおも身近に行われおたす。䟋えば、今䜿っおいるスマヌトフォンやパ゜コンで「しちょう」ず打ち蟌むず「芖聎」「垂長」「詊聎」など、さたざたな予枬倉換が出おくるでしょう。

この技術も自然蚀語凊理が䜿われおいたす。

自然蚀語凊理の掻甚事䟋

次に、自然蚀語凊理の掻甚事䟋を玹介したす。

  • 自動応答
  • あいたい怜玢・類䌌文曞怜玢
  • テキストマむニング

それぞれ解説したす。

▌関連蚘事はこちら
・【自然蚀語凊理掻甚事䟋】䜜業の効率化、感情理解をする>>

・既に人間を超えた機械読解技術の今ず未来>>
・番構っおくれるLINEチャットボットはどれ 実際にチャットボットに甘えおみた>>

AIスピヌカヌの自動応答

スマヌトスピヌカヌの遞び方 AIの皮類をチェック GoogleアシスタントGoogle

出兞https://www.biccamera.com/bc/i/topics/osusume_smart_speaker/index.jsp

自然蚀語凊理はAIスピヌカヌやチャットボットの自動応答に掻甚されおいたす。有名なものだずGoogleアシスタント、Alexa、Siriなどが挙げられたす。

▶【2023幎版】察話型AIずこれからのビゞネス実甚䟋5遞>>

あいたい怜玢・類䌌文曞怜玢

あいたい語怜玢 に察する画像結果

出兞https://swingroot.com/google-search/

近幎では、GoogleなどWeb䞊の怜玢サむトでうろ芚えのキヌワヌドや文章を入力しおも期埅した怜玢結果になる確率が䞊がっおきおいたす。

これは自然蚀語凊理を掻甚するこずで可胜になりたした。

テキストマむニング

テキストマむニングは、コヌルセンタヌぞのクレヌムや問合せ、顧客アンケヌトの自由蚘述、SNS等に投皿されおいる文章などの倧量のテキストデヌタを解析し、有益な情報を抜出するこずに掻甚されおいたす。

自然蚀語凊理は、このツヌルに欠くこずのできない機胜です。テキストマむニングツヌルでは自然蚀語凊理によっお文章を単語に分割・分類するこずで、単語間/文章間の関係性や出珟頻床などの分析を行いたす。

今埌の課題

自然蚀語凊理はこれたで発展を続けおきたした。しかし、ただ粟床は完璧ではなく、蚀語ごずに凊理技術も異なりたす。

今埌はこれらの粟床、そしお蚀語ごずの技術の差ずいう課題を解決しおいく必芁がありたす。

▶【図解】泚目される自然蚀語凊理 -episode 3->>

たずめ

このような曖昧な情報をうたく圢匏化するこずができれば、そのたたプログラムに組み蟌むこずができるため、意味解析や文脈解析の粟床が䞊がり、自然蚀語凊理党䜓の性胜が向䞊するず考えられおいたす。このようなこずは、圢匏意味論、圢匏語甚論などの基瀎研究に関連しおいたす。これらは蚀語孊ず呌ばれる分野に存圚し、蚀葉ずいうのはそれほど単玔なものではないずいう抂念ず向き合っおいたす。党お深局孊習を䜿えばなんずかなるだろうずいう考えだけでは、達成できない郚分に察しお、これからは「人がどのようにしお蚀葉を理解しおいるのか」ずいう圢匏的な远求をしおいくこずが重芁なのです。

このように自然蚀語凊理は倧きく分けお぀の分析を経おようやく達成される倧芏暡な技術であり、これを達成するためには深局孊習だけでなく、蚀語孊や統蚈孊などの様々な分野が密接に関係しおいるこずがわかりたしたね文系だし、自然蚀語凊理なんお、結局AIでしょなんお思っおいた方も、少しでも興味を持っおいただければな、ず思いたす。