所長 近藤滋のメッセージ 新プロジェクトと生命科学の未来

長い間お待たせして申し訳ありません。

1年ぶりの所長挨拶の更新である。遅れて大変申し訳ないm(__)m。初回分がとてもうまく書けたので、調子に乗って「3か月に1回更新します。」などと書いてしまったのだが、そんなにぽんぽんアイデアが出るはずもなく、書いては没にしているうちに、1年以上経ってしまった。最近は、講演のたびに、質問タイムになると「あの続きは何時アップするのですか?」と怒られる始末。本当に申し訳ありませんでした。

で、2回目の所長挨拶ですが、最近、国立遺伝学研究所(遺伝研)が立ち上げた新しいプロジェクトを中心に、生命科学研究の未来について考えていることを述べさせていただきます。

生成AIの脅威

ここ数年の科学界における最大の話題というか、驚きと言えば、AIの劇的な進化であることに、異論は無いだろう。2024年には、ノーベル物理学賞が機械学習の理論に、ノーベル化学賞がそれを利用してたんぱく質の3D構造を予測するAlphaFoldに対して与えられた。もちろん、AI(人工知能)進化の影響は、特定の分野だけではなく、あらゆる領域に及ぶ。特に、ChatGPTやGeminiなどの、LLM(大規模言語モデル)は、あらゆる「知的」な作業に革命的な影響を与えつつある。

文章の作成や翻訳なんて、もはや朝飯前である。しかも、そのクオリティが、恐ろしく高い。実は、遺伝研の要覧(冊子版)に掲載されている私の「所長挨拶」はGPT-5が書いてくれたものである。(注:多くの皆さんに読んでいただいているHP版は自分で書いたものです。)私は、「遺伝研の所長のあいさつ文+定型的な内容+三島のご当地宣伝+近藤滋の文体で」とプロンプトを投げただけである。それだけで、AIが勝手に関係のある文献(例えば、過去に私が書いたエッセイなど)をダウンロードし、それを参考にして、実にそれらしいあいさつ文を書いてくれた。自分で読んでも違和感は全くない。すばらしいクオリティである。まるで、有能な影武者が存在しているかのようだ。体感としては、「人工知能」は実現していると言っても良いと感じる。その上、そんなものがすごい勢いで進化している。今一つ使えないなあ、というイメージだったGPT-3から、たったの2年である。5年後、10年後、どうなっていくのだろう。すごいを通り越して恐ろしいと言わざるを得ない。

LLMが機能する原理そのものは、それほど複雑ではない(らしい)。生成AI自身に尋ねると、

LLM(大規模言語モデル)は、簡単に言うと「超高性能な『次に続く言葉』の予測マシン」です。膨大な文章データを学習し、「ある単語の次に、どの単語が来る確率が高いか」を統計的に計算します。例えば「昔々ある」の次は「ところに」だと推測する仕組みです。単なる暗記ではなく、文脈や言葉の関連性を多次元的な数値(ベクトル)として捉えているため、人間のように自然で複雑な対話が可能になっています。

とのこと。 こんなことで、人の思考を模したような文章が作れるのが信じられないが、その間隙を埋めるのは莫大な計算量と記憶量である。どのくらい莫大かというと、仮に単語(トークン)の数を10万とすれば、そのそれぞれに対して個別の特徴量(数千次元)が存在し、それらを使って、次に来る語を探すための巨大な行列計算をする。しかも、直前の単語だけでなく、かなり離れた単語や文脈まで参照する(アテンション機構)のだから、並大抵の計算量ではない。それを可能にするためには超高速の並列計算機が必須であり、現在、世界中でNVIDIAのH100やH200、最新型のB200(Blackwell)の取り合いになる、という事態が起きている。

生命科学研究への影響

研究者にとってもLLMは非常に便利である。申請書や論文を書く時、大いに助けになるし、研究に関する重要な論文を探すのにとても便利だ。「@@@のような実験をしている論文」「@@@の可能性を指摘している論文」、などの質問でスクリーニングすれば、たちまち、最新の情報が手に入る。論文探しは時間が解ける作業なので、これはとてもうれしい(もちろん、嘘の論文を出してくることがあるので、チェックは必須!)。

だがそれ以上に、もっと本質的というか、分子生物学研究の方法論を革新するような、変化が起きる可能性がある。理由は、生命の本質であるゲノムが、1次元のデジタル配列であり、LLMの入力であるテキストデータと、本質的に同じものであることだ。

LLMに必要なのは、大量の文書データをAIに学習、いや、入力することだけであり、文章に付帯する解釈とか、意味付けを後から入力する必要はない。もちろん、どんな言語でもOKだ。日本語でも、スワヒリ語でも、ナバホ語でも、語彙や文法の違いに関係なく、意味のある記号の配列情報さえ十分な量を入力すれば、自動的に意味を解釈し、正しい文法で文章を綴るシステムができる。

ゲノム情報は、意味のある記号の配列という点で、自然言語と構成が同じであり、すでに莫大な量の配列情報も蓄積している。となると、原理的にはLLMと同じことができるはずなのである。生命科学研究者の多くは、ゲノムに書かれている意味や文法を解読すべく、日夜実験に励んでいる。しかし、AIに配列情報を放り込むだけで、それらが自動的に出力されたりしたら……どうなる???

Evo,Evo2の衝撃

AIの世界の流れは恐ろしく速い。2024年の11月に、スタンフォードのチームが中心となって開発したゲノム言語モデル(gLM: genome language model)であるEvo(原核生物が対象)の論文がScience誌に掲載され、翌年2月には、全生物版のEvo2が、bioRxivに発表された。Evo,Evo2は、LLMが文章を生み出すように、「意味のある」核酸配列を出力する。論文によれば、CRISPR遺伝子の最初の配列を入力すると、それに続く、CRISPR遺伝子の全配列が出力された。その配列は、既存のCRISPR遺伝子のどれとも違う(相同性は約73%)が、そのタンパク質を実際に合成してみると、天然の遺伝子とそん色ない活性を持つことが確認されている。

「それがどうした。既知の配列の共通部分を出力しただけだろう」と思われるかもしれない。だが、違うのである。AIが記憶しているのは、機能を持つための条件であり、配列そのものではないからだ。例えば、間違った(つまり、変異のある)5’端配列を入力すると、出力される3’端の配列は、自動的に、その変異を打ち消すものに変わる。これは、遺伝学におけるサプレッサー変異であり、それを予測するシステムがどれだけ有用であるかは、遺伝学をかじった人なら良くわかるだろう。

さらにEvo,Evo2は、それぞれの塩基の「尤度(ゆうど)」を計算することが出来る。尤度というのは、その塩基がそこに存在するべき確率のことであり、100%なら、その遺伝子が機能する(つまり個体が生存できる)ために必須であり、0%なら、遺伝子が機能しない(致死)ことを意味する。この数値を使うと、ゲノム内の重要な配列を根こそぎ抽出することができるため、イントロンーエクソン構造、エンハンサー、組み換えシグナル、クロマチン結合部位、などを予測することが可能なのだ。つまり、通常の遺伝子解析で我々が欲している情報が、実験無しで手に入る可能性がある(現バージョンの信頼性は、まだ、実用に足るレベルではないが、時間の問題だと思う)。

さらに最近の報告では、学習の終わったAIの内部を調べてみると、記憶領域の中に、すべての生物種の進化系統樹が、ひとりでに出来上がっていた、とのこと。恐ろしい……。ChatGPTと同じように、ゲノム言語モデルの可能性も計り知れない。だから、当然のように、米国の他グループ(Google)や中国のチームが参入し、激しい開発競争が始まっている。

遺伝研としてどうするか

一研究者としては、そのような便利なシステムが使えるようになることは歓迎すべきことではある。しかし、遺伝研の所長としては、ちょっと複雑だ。なぜなら、gLMが出力する情報は、遺伝研が共同利用機関として供給している、大規模シークエンスとそれに関する情報解析サービスと、ほぼ重なるからだ。

それらが不要になるのであれば、他のサービスに切り替えるか、あるいは、単に負担が無くなるのでラッキー、と言えないこともない。だが、事情はそれほど単純ではない。Evo,Evo2は現在無料で公開されているが、これはまだ、実用には足りないパイロット版だからである。より高度になれば、最新版は、まちがいなく有料化されるだろう。また、政治的な状況によっては(トランプの顔を思い浮かべてください)日本からのアクセスが打ち切られる可能性だってある。何より、この新しい革新的な技術を、自身の手で進化、カスタム化できないこと、さらにそれができる技術者を養成できないことは、どう考えても日本の生命科学にとってのマイナスとなるだろう。

となると、誰かがこの新規分野に参入するしかない。でも、やるとすれば……どう考えても遺伝研しかなさそうではないか。

gLMプロジェクト発進

状況的に参入すべきなのは解るが、そのためには人材と資金が必要である。 

人材に関しては、遺伝研の情報系研究室(黒川顕教授)所属の東光一助教が、専門的知識を持っていることが分かった。彼は、すでに自発的に研究を開始しており、また、研究所外の学生を集めて、小さい研究会まで組織していたのである。これは、運良く、というか奇跡的なめぐりあわせである。彼を中心にして、プロジェクトチームを組むことになった。

もちろん、それだけでは、技術的な面、主に高速並列計算技術の点で心配が残るが、これも幸いなことに、遺伝研が所属する「情報・システム研究機構」(ROIS)には、国立情報学研究所(NII)も入っており、しかも、NIIは日本版LLMの開発で日本をリードしている。全面的な技術面でのサポートが受けれることになった。

最後に、必要な計算機資源の調達である。Evo2レベル(全生物)のゲノム生成AIだと、学習させるだけで@@@億円くらいの計算資源が必要になる。誰にでもできる研究ではなく、だからこそ、共同利用機関である遺伝研ぐらいしかやれるところがないのであるが、遺伝研だって、そんな資金、あるはずがない。当座は、遺伝研が所属する情報・システム研究機構の喜連川優機構長の計らいで、裁量経費から出していただけることになったが、もちろんそれでは全く足りない。実は、これも幸いなことに、昨年末に、非常に大きなAI for Science枠の補正予算が立ち上がっている。内容的にぴったりはまるので、取得できる可能性はある(もちろん取れるかどうかは分からないのですが……)。

以上のような経緯で、いささか急ごしらえではあるが、ゲノム生成AI研究をスタートさせることができた。具体的には、遺伝研内部ではなく、ROISのデータサイエンス(DS)共同利用基盤施設にバイオ生成AI研究会を作り議論の場を確保し、ほぼ同時に開発を開始。最初は、Evo2論文の追試であるが、リーダーの東助教によれば、実際に1から作ってみると論文には記述されていない、たくさんのノウハウが存在していたとか。現在、それらを一つ一つクリアしながら進んでいるとのこと。予定では、原核生物モデルの学習は2月末で完了し、パフォーマンスを調べたり、独自の改変を加えたりする段階に入る。早いうちに各研究機関を回り、進捗状況の報告と、開発に参加してくれる若手研究者のリクルートをしたいと考えています。ご興味のある研究機関の皆さま、ご協力いただけると幸いです。

いろいろ悩ましい

というわけで、この1年で大きなプロジェクトをスタートさせたわけだが、それで安心できるわけではなく、不安がいっぱいというのが正直なところ。まず、本当に、実用に足るパフォーマンスの物ができるのか? それに、すでに先行している超強力なグループ(NVIDIAとか、Googleとか、中国政府とか)とかと競争しても、全く勝ち目がないんじゃないか?

心配していると、眠れなくなりそうだが、二つの点でこのプロジェクト実行すること自体に価値があることは確信している。まず、なんといってもそれ自体「科学」として面白いこと。だって、AIが生命の基礎をどこまで理解するか突き詰めてみたいと思いませんか? もしそれができるのなら、海外の結果を指をくわえて眺めるのではなく、自分でやりたくなるのが人情ってものでしょう。それに、この新しい分野に誰も参入しなければ、それができる研究者の養成ができないこと。そうなってしまえば、将来の日本の生命科学にとって、致命的な弱点となるかもしれない。だから、やらない、という選択肢はあり得ないのだ。

それに、巨大なライバルに対して、一矢報いる可能性だってゼロではないと思う。開発競争が行われていると言っても、まだ、始まってから2年も経っていない。パフォーマンスを証明していくには、実験との連動が必要だろうし、AlphaFoldが扱うタンパクの3D構造とは異なり、ゲノムのアウトプットは非常に多岐にわたる。だから、今後は、「ゲノム生成AIを何に使うか」のアイデア勝負になることが予想され、そこに付け入る余地があるのでは……と期待しているのである。

AIと生命科学研究の未来

実は、もう一つ悩ましい、もっと根源的な問題がある。ここまで読んで、特に、私のことをよく知っておられる方は、「なんでビッグサイエンスに反対の立場だったお前が、その極みみたいなプロジェクトの旗を振ってるんだ?」と思ったのではないだろうか? いや全くその通り。私自身は、サイエンスの楽しさは、個人の発想と創意工夫から生まれると信じている。だから、AIによって「発見」がされてしまえば、楽しいも何もないのである。実際、最近のニュースでは、AIがこれまで知られているほとんどの物理法則を導き出したとか、数学の証明をしたことが伝えられている。生命科学はどうなるのだろう? 大変革を迎えるかもしれないし、逆に、ゲノムが決定されても、謎のほとんどは未解決のまま残ったように、それほど変わらないかもしれない。そのどちらになるかによって、遺伝研の将来計画が変わってくるから、所長としては真剣に考えざるを得ないのだ。

ということで、この問題が後編のテーマとなる。そう、実は、ここからが本論なのだが、長くなりそうので、一旦、ここで小休止とさせていただくことにする。後編は2週間後にはアップする予定ですので、ご心配なく。大丈夫です。すでに、おおかた仕上がっていますので。

国立遺伝学研究所長 近藤 滋