WEEKLY人工無脳（2018.11.5~11.11）

① Googleが圧倒的な自然言語処理手法を発表。東ロボくんの仇はGoogleが討つのか？
② 血液から14種のガン診断を目指す。PFNがやるなら勝確でしょ。
③ 定期的にバスるけど一向に進化しないBabyTechのもどかしさ
④ 中国でAIニュースキャスター登場
⑤ 超正確な位置情報を「3単語」で表せることは実はすごいイノベーションかもしれない…
⑥ 「理解できる」はどこまで重要なのか、もしくはいつ手放すのか
⑦ GANで顔の悪魔生成
与太話

① Googleが圧倒的な自然言語処理手法を発表。東ロボくんの仇はGoogleが討つのか？

機械学習クラスター周りで今週最も話題になってたのはこれでしょうか。

Togetter

東ロボくんの生みの親《新井紀子》教授の間違いが明らかになった日。人間は人工知...

https://togetter.com/li/1285134

いったい深層学習に何が起こってるんだ？！

Googleが公開した自然言語処理手法（新たな汎用言語表現モデル）が、これまでの自然言語解釈タスクでぶっちぎりの精度を出したという話。すごくざっくりいうと、機械による文章読解精度が劇的に上がったということ。

人工知能が昨今こんなに注目されている理由の根っこには、『「画像処理タスク」において人間のような高い精度を出せるようになったから』というところが始まりだったりします。2012年の画像解析コンペにおいて初めて深層学習手法であるCNNが使われ、二位にダントツの差をつけて優勝したあたりから社会的にも「AI（≒深層学習）がなんか凄いことになってるぞ」という雰囲気がでてきた感じでしょうか。その後も研究は続き、それからたった5年ほどで、今となっては人よりも高い精度で画像処理タスク（画像に何が映っているか判断する・不良品の検知など）を行えるようになっています。（※実際に人間の精度を超えたのは2015年）

ただ、それは「画像処理タスク」における大きな成功であって、実は「自然言語（人間の使っている言葉の）処理タスク」はまだそこまで大きな成功がありませんでした。自然言語処理タスクには、文章の解釈・翻訳・文章要約・文書生成などが含まれますが、確かに、Google翻訳のような機械翻訳もかなり精度は上がりましたが、まだまだヘンテコな処理を行う例も目立ちます。文書要約や生成に至っては全然まだまだです。自然処理学会でも「実用的な翻訳システムはいつ頃できるか？」という質問に、「この5~10年くらいでできそう、という回答をもう何年も言ってます」というギャグがあるくらい、できそうでできない意外に難しい分野が「自然言語処理」です。

自然言語の機械的な解釈がなぜ難しいかという説明は、以下を見てもらうと一目瞭然かと。これは特に日本語独特の難しさだったりもしますが、他の言語でもそれぞれ難しさがあります。
https://twitter.com/nkmr_aki/status/1030799586737020930

文章にはいちおう文法というルールはあるものの、読み書きに数学のような明確な正解がないので難しい…
そんなわけで、2011年から始まったセンター試験の問題（文書）を解読して回答する東ロボくんのプロジェクトも、こういった難しさの前に成功できずに2016年にプロジェクトは終了しました。（ただし、2014年には、全国センター模試で全国の私大の８０％以上に合格可能というＡ判定を獲得するまでには成功してます。十分すごい。）

そこに一石を投じたのが今回のgoogleのBERTと呼ばれる新しい資源言語処理方法。@_Ryobotさんなど、有識者による解説ツイートはこちらにまとめられていますが、ざっくり言うと、これまでの自然言語処理の進化から、それこそ初めてCNNが投入された2012年の画像分析コンペのときのような非連続的な精度アップが報告されました。

汎用的な手法のため特に精度的なトレードオフもないらしく、さまざまな言語の自然言語処理タスクの性能を上げてくれそうということですごく注目されています。近々、「BERTで実装し直したらこんなに〇〇が向上した」という日本語記事もポロポロと出てくると思われます。

さすがに計算コストはかなり高く、googleお手製の計算チップTPUを使って4日間、GPUだと40~70日かかるようなものらしいのですが、googleはこの学習済みモデルを公開してくれています（日本語はない）

こちらの記事ではBERTを日本語に適応した話や、BERTの背景的なところも詳細に書かれていて勉強になります。

ところで、BERTの公開と同じタイミングで、東ロボプロジェクトからセンター試験の学習データが公開されました。そもそもセンター試験は教育指導要領の変更によって廃止され、2020年からは全く別の試験内容になるためこれを使って遊ぶにはちょっとモチベーションがあがりませんが、BERTに適応するとどうなるのかというのは気になるところです…

② 血液から14種のガン診断を目指す。PFNがやるなら勝確でしょ。

Preferred Networks

Preferred NetworksとPFDeNAが、深層学習技術を用いて少量の血液でがん14種を判定...

https://www.preferred-networks.jp/ja/news/pr20181029

2021年を目標に社会実装し、がんの早期発見・健康寿命延伸を目指す株式会社Preferred Networks（代表取締役社長: 西川徹、以下PFN）と株式会社ディー・エヌ・エーとPFNの合弁企業である株式会社PFDeNA（代表取締役社長:守安功、以下PFDeNA）は、深層学習技術を活用...

PFDeNA（PFNとDeNAの合弁会社）が、血液から胃がんや肺がん、乳がんなど14種のがんを早期発見できる深層学習システムの開発を2021年の事業化を目指して始めるよという話。

がんは早期発見が重要なものの、受診コストや身体的負担のために検査受診率は3割ほどの低水準だそうです。血液検査するだけで早期発見できるのならこれほど便利なことはない。

近年の研究で、がんになると体液に含まれる「マイクロRNA」という物質の種類や量が変動することや、罹患した臓器によってマイクロRNAの発現に違いがあることなどが分かっている。開発するシステムでは、採取が容易な血液からマイクロRNAを計測。計測結果と臨床情報を使ってディープラーニングを行い、14種類のがんの有無を高精度で判定できるようにする。

深層学習の雄、PFNさんが絡んでいると勝利感のある夢のある話。実用化がんばってほしい。

③ 定期的にバスるけど一向に進化しないBabyTechのもどかしさ

https://twitter.com/hatarakedo1988/status/1059066159675273216

WEEKLY人工無脳でも何度もとりあげたことのあるBabyTech系のお話。アプリでお母さんの睡眠時間や授乳回数を可視化したらめっちゃ大変だということが一目瞭然でわかった！という話。togetterにもまとめられます。

ここで紹介されている「ぴよログ」というアプリを実際にDLして触ってみましたが、授乳タイミングや授乳時間はともかく、睡眠時間まで手動入力しないけないのはやはりかなりめんどくさい。

例えば、Fitbitのようなライフロガーデバイスを手首に付けておくと、アプリに明示的に入力することなく、かなりの高精度で寝た時間・起きた時間を自動でアプリに記録してくれます。なので、お母さんに付けてもらって、お母さんが夜中に起きた時間≒赤ちゃんがおきて授乳を求めた時間とすれば大体の行動ログをほぼ自動で記録することができて便利だと思うのです。

昔、そういったBabyTechのサービスを作ろうと赤ちゃんが生まれた母親にいろいろアンケートやヒアリングをしてみたことがあるのですが、結局の所、お母さんたちがそういった「手首に装着するデバイス」を嫌がっていたという印象でした。理由は、「子供に当たると危ないから付けたくない」「寝るときにも時計状のものをつけたくない」といったものが大半でした。前者は納得できますが、後者はがんばってほしいところ。

結局、こういった可視化を如何に「安全に」「ストレスフリー」に「自動で」できるかが肝だと思っていて、多くの人がこういった可視化ができれば育児は爆発的に便利になると思います。

（例えば、母親の激少な睡眠時間をリアルに可視化されれば流石に非協力的な父親でも何かしら対応するでしょう。また、夜中に起こされたお母さんたちをコミュニティー的に繋げて「今、日本中で夜泣きで起こされたお母さんは◯百人もいます、あなただけじゃないよ」という同期が取れれば育児ストレスも少しは緩和されるのではと思ってます）

データサイエンス的なアプローチで育児はやっぱりもっとアップデートできる。とても興味あるしお手伝いしてみたい分野です。誰か情報知ってたら教えてください！

④ 中国でAIニュースキャスター登場

TechCrunch Japan

中国でAIニュースキャスター2人がデビュー。リアルな外観とそれほどでもない喋りに...

https://jp.techcrunch.com/2018/11/09/engadget-ai-2/

中国国営ニュースメディアの新華社通信が、AIニュースキャスター2名をデビューさせました。その見た目は実在のキャスターをかなり忠実に再現したものになっています。

中国国営ニュースメディアの新華社通信が、中国語と英語それぞれを話すAIニュースキャスター2名をデビューさせたという話。

リアルな外観とそれほどでもない喋りに視聴者ザワつく

のとおり、実在人物をモデルとした見た目はリアルなものの、喋っている音声には電子的な音の影響を感じます。それでも国営メディアが実戦投入してやり始めるのはすごいですね、さすが中国。

WaveNetやDeepFake、GoogleDuplexのように限りなく自然に話す仕組み自体はあるのでAIキャスターたちもきっとすぐ自然に話せるようになると思います。見た目ももう美少女VTuberでええんちゃうんかというのは置いといて。

⑤ 超正確な位置情報を「3単語」で表せることは実はすごいイノベーションかもしれない…

TechCrunch Japan

ソニー、住所革命のwhat3wordsに出資　地球上を57兆分割し3単語で表現 | TechCrunc...

https://jp.techcrunch.com/2018/11/08/engadget-what3words-57-3/

ソニーのコーポレートベンチャーキャピタルであるSony Innovation Fundは11月6日、地球上を57兆分割し3単語で表現する英国のスタートアップ「what3words」に出資したと発表しました。

ずっと注目しているwhat3words。世界中を3m四方に区切り、3単語で超正確な位置情報を表現する技術（アイデア？）住所の曖昧さを解消できるので、「自動車・モビリティ・ナビゲーション」「配送・物流・Eコマース」「郵便サービス」「国家インフラ」「無人航空機」関連企業からおそろしい出資額を受けて注目されています。

今回の記事中には日本の位置を3単語で表している画像も付いててテンションあがった。

TechCrunch Japan

ソニー、住所革命のwhat3wordsに出資　地球上を57兆分割し3単語で表現 | TechCrunc...

https://jp.techcrunch.com/2018/11/08/engadget-what3words-57-3/

Sonyが出資した理由に、

Sony Innovation Fundは今回の出資の理由について「what3wordsが機械に正確な位置情報を音声で入力するという大きな課題を解決してくれました」と語ります。

と書かれていてなるほどなーと。

カーナビアプリにも音声で行き先を指定するUIはあるものの、住所が長すぎたりすると認識失敗することがよくあります。それに対して「3つの単語」を言うだけなら確かに音声識別の精度はほぼ100%になりそう。what3wordsのアイデア自体もコロンブスの卵だし、それを活用しようとする人たちのアイデアもまた面白い。

⑥ 「理解できる」はどこまで重要なのか、もしくはいつ手放すのか

WIRED.jp

グーグルの画像認識AIは、専門家にも見えない腫瘍の変異を識別できる：研究結果｜W...

https://wired.jp/2018/11/08/google-ai-tool-tumors-mutations/

グーグルの画像認識アルゴリズムを応用することで、主要な2種類の肺がんを97パーセントの精度で判別できるようになったという研究結果が発表さ

医療系のAIでは、「なぜその領域をガンと判断したか」というように、判断根拠をブラックボックスにすることなく説明できる能力（機能）が強く求められています。しかし、人間には取り出しきれない（理解しきれない）情報を画像データは確かに持っていて、AIならそれがわかるかもということもまた事実。「根拠はわからないが99%正しい答えを返すAI」を我々はどう扱えばよいのかという話。

googleの物体検出アルゴリズムInceptionV3を転移学習し、腺がんと扁平上皮がんの2種類の肺がんの区別を学習させるときに、それぞれの腫瘍の遺伝子変動情報も与えると識別精度が上がったという話。ただし、この精度向上の根拠は不
明であるらしい。

これに対して、「根拠不明だから利用できない」とするのか、「根拠不明であっても99%正しい答えをだすアルゴリズムを利用しないのは馬鹿げている」とするのかで医師の間でも意見が割れるらしい。

「本当の新規性は、AIが人間と同じくらい優れていることを示したことではなく、人間の専門家ができない識別が可能であることを示唆した点でしょう」

おそらくこの先も、「人間の専門階が出来ない識別（そして根拠も理解できない）が、AIはできる」という事例が医療分野以外にもたくさん出てくるはずです。そうした時に、人間が諦めて盲目的に従うか、謎AIの使用を厳密に制限するかはまた難しい話になりそうです。

⑦ GANで顔の悪魔生成

Twitter

Spelling Mistakes Cost Lives on Twitter

https://twitter.com/darren_cullen/status/1060225126313156613?s=21

“Computer generated faces using generative adversarial network / progressive growing technique from Nvidia. Trained on 50,000 images from a photobooth at ZKM Center for Art and Media by @highqualitysh1t https://t.co/RO1EG6ha8S”

Progressive Growing of GANsを使って50,000の画像を学習して生成した顔動画。怖くて面白かったので。

与太話

最近母校の高校で、文理選択や職業について考える総合学習の時間（？）で自分の仕事であるデータサイエンティストについてのお話をしてきました。スライド公開もしているので良かったら見てみてください。データサイエンティストの話だけではなく、今AIが社会をどのように変えていこうとしているかという話もしたかったのでそれについても話しました。