はじめに
DeepMindは2022年7月28日、同社が開発したタンパク質構造予測モデル「AlphaFold」が既知のほぼすべてのタンパク質の構造を予測したと発表しました。この記事は第三次AIブーム以降もっとも注目すべきAIの善用事例である同AIの成果について、今までの歩みを振り返ったうえでまとめます。そして、同AI以外のDeepMind開発の「サイエンスAI」も紹介することを通して、短期的利益を求めない同社の経営理念を明らかにします。
AlphaFoldの歩み
AlphaFoldの現在までの歩みについては、DeepMindが公開している記事『ブレークスルーのタイムライン』にまとまっています。その歩みは、以下のようにAlphaGoの歴史的勝利の裏で開発チームが結成された2016年から始まります。
2016年3月13日:AlphaFold開発チーム結成
この日、DeepMindが開発した囲碁AI「AlphaGo」が当時トップ囲碁プロ棋士であったイ・セドル氏との5番勝負において3勝して、勝ち越しを確定させました。同AIの強さを目の当たりにした同社のエンジニアたちは、化学における難問であるタンパク質構造予測問題をAIで解決できると確信しました。そして、この対局終了直後、タンパク質構造予測AIを開発する小規模なチームが結成されました。
2018年12月12日:はじめての挑戦
AlphaFoldは、タンパク質構造予測の精度を競うコンペであるCASP13に出場。見事ランキング1位になりました。同モデルの手法は権威ある科学雑誌『Nature』に論文として掲載されました。
CASP13で優勝した経緯の詳細は、AINOW翻訳記事『AlphaFold:科学的発見のためのAIの活用』を参照のこと。
2020年11月30日:50年来の問題を解決
AlphaFoldの後継モデルAlphaFold2がCASP14に出場し、2位に大差をつけて優勝。コンペ主催者より50年来の難問であったタンパク質構造予測問題のソリューションとして公式に認められました。AlphaFold2の予測精度は原子レベルの構造を明らかにするほどのものであり、その予測誤差は1オングストローム(100億分の1メートル)未満であり、2位の予測モデルの3倍の精度を実現しました。
2021年7月15日:コードをオープンソース化
Nature誌はAlphaFoldの手法を詳細に解説した論文『AlphaFoldによる高精度のタンパク質構造予測』を発表。同時にDeepMindは、同モデルのコードを公開してオープンソース化しました。
2022年7月28日:2億以上のタンパク質構造を予測
DeepMindは、AlphaFoldで予測したタンパク質構造のデータベースの規模を100万から2億以上に拡張。この規模は、タンパク質構造に関する世界的なデータベースUniProtに登録されたほぼすべてのデータに匹敵しました。
AlphaFoldが成し遂げたこと
2022年7月28日公開のDeepMindブログ記事では、AlphaFoldが成し遂げた成果が解説されています。その成果は、以下に示すように従来のタンパク質構造に関する研究にビッグバンとでも言うべき急速な知識量の拡張をもたらしました。
タンパク質構造予測問題とは
そもそもタンパク質構造予測問題とは、なぜ難問と呼ばれていたのでしょうか。この問題を理解するには、タンパク質の成り立ちに立ち返る必要があります。
タンパク質とは、人間の身体を構成する筋肉からバクテリアにいたるまでの有機物を構成している物質です。タンパク質の組成はDNAによって定義されているのですが、タンパク質の具体的な挙動は、DNAにもとづいて展開されるタンパク質の3次元構造にしたがって決まります。
タンパク質の化学的解明において問題となるのは、DNAから想定される3次元構造が膨大な数となることです。自然界に存在するタンパク質の構造自体は一意的であるにもかかわらず、DNAから想定される3次元構造は天文学的な数になるというパラドックスは「レヴィンタールのパラドックス」として知られています。DNAからタンパク質の3次元構造を導出する問題は「タンパク質構造予測問題」として定式化され、前述のCASPのようなこの問題の解決法を競う化学的コンペが開催されるようになりました。
こうしたなかDeepMindの研究チームは、タンパク質構造予測問題をDNAを入力、タンパク質の3次元構造を出力とする一種の教師あり学習としてとらえました。そして、既存のタンパク質に関するデータを学習データとして活用してAlphaFoldは開発されたのでした。
データベース拡張を可視化してみる
AlphaFoldの歩みで言及したように2021年7月15日に同モデルのコードをオープンソース化した時に、DeepMindは同モデルの予測を共有するデータベース「AlphaFoldタンパク質構造データベース(AlphaFold DB)」を構築しました。このデータベースの公開当時に含まれていたタンパク質構造は、アメリカにおける同データベースに相当するPDB(The Protein Data Bank)の100万倍でした。そして、2022年7月28日には既知のタンパク質のほぼすべての構造を予測するに至り、AlphaFold DBの規模はPDBの200万倍に達しました。
2022年7月28日時点でAlphaFold DBに含まれているタンパク質を分類すると、規模の大きい順に動物、植物、バクテリア、菌類、そしてその他のタンパク質となります。これらのタンパク質構造は、後述するように農林水産業や難病の治療、さらには生命の起源の解明に応用されています。スピンオフ企業での活用
2021年11月には、DeepMindは創薬に特化したスピンオフ企業Isomorphic Labsを設立してAlphaFoldを活用したビジネスを始めました。
Isomorphic Labsの社名に含まれている「Isomorphic」とは「同形の」を意味する単語です。この単語は、同社設立の理念を説明しています。つまり、生物学と情報処理科学のあいだには共通の基本構造があるのではないか、という確信です。そして、これら二つの学術分野を架橋するのがAIなのです。AIが得意とする特徴抽出をもってすれば、タンパク質構造予測問題を解決したように、従来は見出せなかった創薬につながる化学物質を発見できると考えられます。
AlphaFoldの社会活用
AlphaFoldは、世界中の科学者がさまざまな問題を解決するために実際に活用されています。そうした活用事例は、「Unfolded(展開された、明らかにされた)」と名づけられたDeepMind公式ウェブページにまとめられています。以下では、その活用事例の一部を紹介します。
ミツバチの免疫を活性化するタンパク質の構造を解明
ミツバチは、巣から蜂蜜が採取されるだけではなく、花粉を運ぶ受粉媒介者として生態系と農業において重要な役割を担っています。しかしながら、近年ミツバチはしばしば大量死しており、その原因はいまだはっきりしていません。
ノルウェー生命科学大学のVilde Leipart研究員は、ミツバチの大量死を予防するためにミツバチの免疫システムを研究しています。ミツバチの免疫システムにおいて、同研究員が注目しているのが、ビテロジェニンと呼ばれるタンパク質です。卵を産むほとんどの動物に含まれているこのタンパク質は免疫力を活性化する機能があり、ミツバチの生態系においては女王蜂の産卵時に同タンパク質が受け継がれて、蜂の巣全体の免疫力を高めます。それゆえ、ミツバチに含まれるビテロジェニンを解明することは、ミツバチの免疫力を高め大量死を予防することに貢献すると考えられます。
ビテロジェニンを解明するにあたり、Vilde Leipart研究員が使ったのがAlphaFoldでした。同タンパク質の構造が判明すれば、その機能が詳細にわかるようになります。同モデルを使った結果、以前であれば何年もかかる同タンパク質の構造解析がわずか2日で完了しました。
AlphaFoldによるビテロジェニンの構造解析は、ミツバチだけでなく卵を産む他の動物にも応用できます。例えば魚類に含まれる同タンパク質の構造を予測すれば、魚類の免疫力を高めて漁業を活性化できると考えられます。
このようにAlphaFoldは、農林水産業に画期的なソリューションをもたらすのです。
寄生虫を殺す酵素を探す
リーシュマニア症はリーシュマニアと呼ばれる寄生虫が人体に侵入することで発症する感染症であり、アジアやアフリカなどに罹患者がいます。この感染症の従来の主な治療法は毎日2本の薬剤を17日間注射するというものでしたが、アフリカの貧しい地域では通院が難しいために治療できないという問題がありました。
こうしたなかグラスゴー大学のMichael Barrett教授は、リーシュマニアの代謝を阻害する酵素を発見しました。発見した酵素を使えば、この病原虫を殺す経口治療薬を開発できます。
しかし、以上の酵素からリーシュマニア症の治療薬を開発するには、ひとつの壁がありました。この酵素は実験室で扱いにくいタイプのものなので、実験によってタンパク質構造を解明できなかったのです。そこで登場するのが、AlphaFoldです。同モデルはタンパク質のDNA配列から構造を予測するので、実験を実施することなく構造解析が可能なのです。
なお、リーシュマニア症は世界の貧困地域で蔓延しているが対策が遅れている「顧みられない熱帯病(neglected tropical disease)」のひとつに分類されており、DeepMindはこうした感染症の対策についてAlphaFoldを使って積極的に支援することを表明しています。
タンパク質の進化を追跡する
チューリッヒ連邦工科大学のPedro Beltrao教授は、生命進化について研究しています。生命進化には、DNAが深く関与しています。すなわち、DNAの特定の箇所に変化が生じることが引き金となって細胞が変化し、そのような変化が蓄積して生命進化が起こると考えられるのです。それゆえ、同教授の関心はDNAが変化する仕組みと変化してきた歴史の解明にあります。
AlphaFold以前の生命進化研究では、異なる種のタンパク質の配列を比較することを基本としていました。しかし、数億前のタンパク質を研究する場合、その配列が判別できなくなるという限界がありました。
AlphaFoldの登場以降、生命進化研究に新たな方法が加わりました。その方法とは、数億年前のタンパク質のDNA配列からAlphaFoldを使ってその立体構造を予測したうえで、その構造を比較するというものです。この方法の利点は、DNA配列より立体構造のほうが長く保存されるため、立体構造を調べれば数億年以上過去のタンパク質であっても、その特徴を判別しやすくなるというところです。
このようにAlphaFoldは、生命進化のような基礎科学の研究にも貢献しているのです。
サイエンスAIはほかにも
DeepMindは、AlphaFoldのほかにも科学の発展に寄与するAIを開発しています。以下では、そうしたサイエンスAIを3つ紹介します。
古代ギリシアの碑文を解読する「Ithaca(イサカ)」
2022年3月9日に公開された「Ithaca(イサカ)」は、古代ギリシアの碑文の文字を復元するAIモデルです。同モデルは同様の目的で開発されたPythiaを拡張したもので、破損したテキストを62%の精度で復元し、碑文があった場所を71%の精度で特定し、テキストが刻まれた日付を真実の日付範囲から30年以内に推定できます。
Ithacaは、ギリシア語の碑文に関する学習データセットを使って訓練されました。同モデルは自然言語処理モデルの一種なのですが、通常の自然言語処理モデルが単語をAttentionの最小単位にしているのに対して、同モデルは単語に加えて文字にもAttentionするように設計されました。文字にもAttentionすることによって、欠落した文字を復元できるようになったのです。
なお、こちらのインタラクティブウェブページにアクセスすれば、同モデルの動作を確認できます。例えばサンプルの碑文を読み込むと、その碑文は80%以上の確率でデロス島にあったもので、建立されたのが紀元前270年頃と予測結果が表示されます。
プラズマを制御する強化学習AI
2022年2月16日には、スイス連邦工科大学ローザンヌ校に属する核融合発電を研究するスイス・プラズマ・センターがDeepMindと協力してトカマク(プラズマを閉じ込める容器。以下の画像参照)内のプラズマを制御する強化学習AIを開発したことを発表しました。
水素どうしをぶつけて融合させることで太陽の核よりも高温状態を作る核融合は次世代のエネルギー源として長年研究されていますが、この研究は困難を極めるものです。というのも、核融合を発生させるトカマクは非常に高価なものであるうえに、1回の実験で最大3秒しかプラズマを維持できず、次の実験までに15分の冷却を要するからです。このようにトカマクの運用は非常に難しいので、現在はプラズマのシミュレーションを実行してから、その結果をトカマクを使った実験と照らし合わせる手法がとられています。
DeepMindが開発したAIモデルは、以上のようなプラズマのシミュレーターを使ってプラズマの制御を学習した強化学習モデルでした。同モデルが画期的なところは、従来のプラズマ制御システムでは19個の磁場コイルを別々に制御していたのに対して、単一のニューラルネットネットワークですべてのコイルを制御できる点にあります。こうした特徴により、同モデルは制御するプラズマの形状を設定するだけで最適な制御を実行できるようになりました。制御できるプラズマ状態のなかには、これまで観察されたことがなかった2つのプラズマがひとつの容器内に存在する「ドロップレット」も含まれています。
90分先までの降雨を予測する生成モデル
2021年9月29日には、90分先までの降水量・降雨時期・降雨場所を予測するDeepMind開発モデルが発表されました。同モデルは、過去20分間の降雨レーダー(降雨状況を連続的に示す動画)にもとづいて90分先までの降雨を予測します。概念的には降雨レーダーを動画ととらえたうえで、高い確率で90分先までに出現する動画を予測する処理が実行されています。
DeepMindは開発した降雨予測モデルの性能を実証するために、既存の降雨予測モデルとの比較評価を行いました。この評価には、イギリスの国立気象局であるMet Officeに所属する50人以上の気象専門家が参加しました。評価の結果、89%の評価ケースにおいて専門家はDeepMindの予測モデルがもっとも優れていると判定しました。
以上のDeepMind開発降雨予測モデルを発表したブログ記事では、同モデルが生成したイギリス上空の降雨レーダーが既存の降雨予測モデルのそれとともに掲載されています。以下の画像は、左上が実際の降雨レーダー、右上の「DGMR(Deep Generative Models of Radar)」がDeepMind開発降雨予測モデルが生成したそれ、下段の2つの画像が既存予測モデルによるそれです。DGMRはPySTEPSより予測が精確であり、またUNetより細部まで予測していることがわかります。
創業者は「ディープラーニングのゴッドファーザー」に準ずる存在に
以上のように自然科学におけるAI活用を推進するDeepMindの創業者Demis Hassabis氏は、科学技術に対する貢献が評価されて、2022年6月15日、2022 年度アストゥリアス王女科学技術研究賞を受賞しました。
なお、2022 年度アストゥリアス王女科学技術研究賞はHassabis氏のほかに、「ディープラーニングのゴッドファーザー」と称されることもあるGeoffrey Hinton氏、Yann LeCun氏、Yoshua Bengio氏の3名も受賞しました。今回の受賞によって、Hassabis氏はAI開発史においてディープラーニングのゴッドファーザーに準する存在となったと言えるでしょう。
まとめ
以上にまとめたDeepMindのサイエンスAIは、何らかのビジネスモデルを実現して利益を上げるために開発されたわけではありません。そもそもDeepMind社は、短期的利益を上げることを目指していないのです。同社の経営理念を掲げたウェブページを閲覧すると、「私たちは科学を発展させ、人類に利益をもたらすために知能を解明します」と書かれています。そして、こうした同社の経営理念が端的に表れている人工知能研究が、AlphaFoldをはじめとしたサイエンスAIなのです。
なお、DeepMindの近況を知るには、同社公式ブログと同社公式Twitterアカウントをフォローするとよいでしょう。
記事執筆:吉本 幸記(AINOW翻訳記事担当)
編集:おざけん