所長近藤滋のメッセージ　第3回　新プロジェクトと生命科学の未来（後編）

さて、後編である。前編の最後の部分で予告したように、今回は、AI（人工知能）とデータサイエンスに対して、やや、後ろ向きな考察となる。読者の中には、「gLM（ゲノム言語モデル）を推進しようとするお前が、どうしてそんな逆のことを書くのだ？」と思う方もいるかもしれない。だが、AI研究を推進するならば、その限界や、得手不得手を熟知することが必要であると思う。理由は2つ。研究資源をAIに全振りして、そもそもAIが得意でない分野をおろそかにしてしまう危険を避けるためと、AIが不得意な領域こそが、次のフロンティアになる可能性が高いからである。そのあたり、所長としては抜け目なく考えておかねばならない。では、始めよう。

ビッグデータの有効性がこの10年ほどでさまざまな分野に浸透し、最近起きたAIの劇的な進化と相まって、自然科学にもその波が押し寄せている。生命科学には、ゲノム配列をはじめとするビッグデータが多数存在することから、これからは、いわゆる「データ駆動型・AI駆動型」の研究により、これまでは手が届かなかったような高度な科学的発見が可能になる、と一般に言われている。今後の研究は、データ収集が一番大事な仕事、と主張する人もいる。最近の論文を見ていると、確かにそうかもしれない、と思うこともある。

だが、その一方で、本当にそうだろうか？　という気もするのである。たとえば、この50年間に、分子生物学者が解き明かしてきた数々の生命の謎を思い出してみよう。遺伝子の分子的本体の特定、遺伝コードの解読、発現の調節機構の解明、細胞間相互作用の分子実体、免疫の分子原理……。それらのすべては、研究者の洞察力と深い考察、考え抜かれた実験計画、さらに、新しい実験技術の開発により解明されてきた。ビッグデータもAIもなしに、である。AI時代になったからといって、これまでもっとも有効であった手法が、時代遅れになってしまうとは思えないのだ。逆に、AIとビッグデータが、人の代わりに、上記の発見をできるかどうかも疑問に思う。

そのあたりのことを、もっと突っ込んで考えておく必要がある。できれば、私自身の「なんとなくの感覚」ではなく、ある程度客観的な情報を基にして、考えたいのだが……ということで、後半は、対話型AI「ChatGPT（愛称：チャッピー）」との議論を中心にこの問題を考えていくことにしたい。「おいおい、AIの限界を調べるのに、AIを使っちゃ意味ないだろう！！」と突っ込みたくなるかもしれないが、まあ、そのあたりは、ご勘弁願いたい。他にちょっと良い方法が思いつからないので……。

最初の質問は、AIが得意な分野についてである。

私＞：
AIとビッグデータにより、一気に進むと考えられる生命科学の研究領域を教えてください。

AI＞：
はい。AIとビッグデータで一気に進みやすい生命科学 は、共通して

データ量が急増している
人手では見きれない高次元データがある
予測や候補絞り込みの価値が高い
実験で検証ループを回せる

という条件を満たす領域です。具体的には、

単一細胞・空間オミクス
“バーチャルセル”や細胞状態の予測モデル
タンパク質設計・酵素設計・分子設計
デジタル病理・画像病理・マルチモーダル診断
精密医療：ゲノム・EHR・画像・ウェアラブルの統合
機能ゲノミクスと摂動実験の大規模解析

逆に、AIで進みそうに見えても、実は進みにくい領域もあります。

たとえば、本質変数がまだ測れていない現象や、理論を壊す決定的現象がまだデータ化されていない領域は、AIだけでは進みにくいです。

なるほど。チャッピーが挙げたのは、確実にAIによる進展が見込める領域である。ちゃんと理由も説明してあり納得せざるを得ない。でも、おもしろいのは、AIが不向きの領域もちゃんと挙げてくれていることだ。AIの肩を持つわけでもなく、なんだか、信頼がおける気がする。では、もう少し、この点を掘ってみよう。

私＞：
AIが苦手な領域はどんなものでしょう？

AI＞：
予測より因果が重要で、見えていない変数が多く、条件が変わると法則が崩れ、しかも概念そのものを作り直さないといけない領域です。生命科学で言えば、原理発見の最前線ほど、しばしばここに入ります。

かなり乱暴に二分すると、AI が進めやすいのは
「データの中にすでに本質がかなり写っている領域」、

進めにくいのは
「まず何をデータ化すべきかから考え直す領域」です。

なるほど。確かにそんな気がする。ただ、「原理発見の最前線」「まず何をデータ化すべきかから考え直す領域」と言われても、抽象的で、あまりピンとこない。もっと具体的なイメージを得るには、なにか別に聞き方をした方がよさそうだ。たとえば、過去の発見の例について具体的に考えてみるのはどうだろう。その発見が行われた時代に、AIとビッグデータがあったとしたら、AIが発見者となりうるかどうか。チャッピーはなんと答えるだろう。

私＞：
（遺伝学者）メンデルの時代に、もし、多数の植物での掛け合わせのビッグデータとAIがあったら、「メンデルの法則」は、メンデルなしで、AIにより導かれるでしょうか？

AI＞：
かなり面白い問いです。私の答えは、かなりの部分までは導けるが、「メンデルの法則」そのものとして結晶化するには、なお人間的な飛躍が必要、です。もし多数の植物について、交配の数値データが大量にそろっていたら、AIはかなり高い確率で、「交配結果は、各個体が各形質について二つの離散内部状態を持ち、それらが生殖時に分離して子へ伝わるモデルで最もよく説明される。」と答えを出すでしょう。これは内容的にはかなりメンデルです。

むむ。そこまで行けるのか。AIすごい、と一瞬感心してしまったが、よく考えると、これは疑わしい。続けてチャッピーに問う。

私＞：
「もし多数の植物について、交配の数値データが大量にそろっていたら」というところが問題です。メンデルの仮説が無ければ、親世代に「純系を使う」という概念がないはずです。ですから、そのようなサンプルから実験をしても、まともなデータが出るはずがありません。また、多数の遺伝子に支配される形質や、連鎖する形質、自家不和合成の存在など、結果を乱す要因がありすぎます。その条件でも、AIはメンデルに近い仮説を出すことができるでしょうか？　実際、メンデルはほかの種でも実験を行い、そちらでは失敗しています。

AI＞：
おっしゃる通りです。そこまで条件を現実的にすると、私の答えはかなり厳しくなります。その条件では、AIがメンデルに近い仮説へまっすぐ到達する可能性は、かなり低いと思います。少なくとも、雑多な掛け合わせデータをそのまま与えれば、AIが自動的に「分離の法則」「独立の法則」にきれいに到達する、とは考えにくいです。むしろ多くの場合、例外だらけで、一貫した単純法則は見えない という結論に寄りやすいはずです。メンデルがエンドウを選んだ理由の一つは、自己受粉しやすく true-breeding line を作りやすかったことにあり、これは法則を見える化するうえで本質的でした。

ということで、やはり、AIがメンデルの代わりをするのは、（現在AIの能力では、という条件が付くが）難しそうだ。問題は、「データ」の性質の違いである。何らかの隠れた原理をあぶりだす研究の場合は、何を測るか自体が仮説に依存する。メンデルの場合は、まず、メンデルの法則が「仮説」として頭の中にあり、実験のデザインが、「その仮説を乱す要因を、どのようにして除外するか」なのである。仮説を知らずに取得した掛け合わせデータなど、いくらあっても、邪魔にしかならない。一方で、ビッグデータになりやすいのは、測りやすく標準化しやすい変数であり、「観察データ」に近い。こちらの場合、むしろ、何も予断を持たずに取得したデータの方が、価値が高い。データと言っても、性質がまったく違うのである。

隠れた原理の解明が目的である研究の場合、「データ」とは、単なる観察ではなく、現象に深く介入することによってはじめて得られる。だから、利用できる類似のデータは、ほぼ存在せず、AIが出る幕も限定されるはずだ。ということで、当分は、AIに仕事を奪われる心配をしなくても良いかもしれない。ちょっと、ほっとする。

しかし、それもいつまで続くかわからない、とも思う。AIがさらに進化し、メンデルと同じことを思いついて実験をデザインし提案してきたら……。なかなか怖い未来だが、考えておかねばなるまい。というわけで、もう一つチャッピーに聞いてみることにした。今度は、生化学の歴史で、それ以前の概念を覆した点において屈指である「ミッチェルの化学浸透説」を題材にしてみる。

私＞：
化学浸透説のような、それ以前の概念を覆すような発見は、AIからは出てこないように思いますが、どうでしょう？

AI＞：
おおむね、その直感はかなり当たっています。化学浸透説 のような、「それまでの説明枠組み自体をひっくり返す発見」は、今のAIが最も苦手とする領域の一つ です。理由は以下の3つです。第一に、学習データが過去の概念に汚染されているため、既存パラダイムの内側で上手に一般化する圧力が強く、そこから外れる発想は出にくいです。第二に、多くのAIは予測誤差最小化で訓練されるので、旧来の概念枠のまま高精度化する方向に進みやすいです。第三に、新概念の採用には人間側の“意味づけ”が必要だからです。あるパターンを見つけても、それを「新原理」と呼ぶには、既存理論との非両立性、説明力、測定可能性、反証可能性を組み立てないといけません。

私＞：
なるほど、続けて下さい。

AI>:
ただし、ここで大事なのは、「AIにはまったく無理」ではない という点です。AIは、パラダイム転換そのものの作者にはなりにくくても、その前兆を大量に拾う装置にはなれます。最近のレビューでも、AIエージェントや仮想細胞の方向性は、仮説空間を広げ、人間が見落としていた構造をあぶり出すものとして期待されています。

おっ、反論してきたぞ。面白い。では、こんな問いはどうだろう。

私＞：
なるほど、では、ミッチェルが存在しなかった世界線で、誰かがAIに「現在の中間体説が間違っている場合、代わりにどのような原理が考えうるか？」と問うたら、どうなるでしょうか？

AI＞：
面白い思考実験です。1960年代のデータを入力したAIに「現在の中間体説が間違っている場合、代わりにどのような原理が考えうるか？」と問うたとします。すると、まともな科学推論をするAIなら、まず問いをこう変換するはずです。

１）観測されている事実は何か？　
２）中間体説はそのどれを説明し損ねているか？　
３）「高エネルギー化学中間体」以外のエネルギー貯蔵様式には何があるか？　
４）どの候補が最小仮定で多くの事実を説明できるか？

私＞：
ふむふむ。

AI＞：
これらの条件から、AIは、おそらく代替原理をいくつか列挙します。
候補A：未発見の化学中間体があるだけ。
候補B：酵素複合体の構造変化にエネルギーが蓄えられる。
候補C：膜の両側にある濃度差・電位差がエネルギー担体である。
候補D：反応鎖全体の流れが直接ATP合成を駆動する。
AIが十分に一般的な物理化学の知識を持っていれば、かなり自然に正解である候補Cは出せます。つまり、候補生成 の段階では、AIは案外強いです。

AI＞：
しかし、問題はその次です。ミッチェルがやった本質は、単に候補を挙げたことではなく、

候補の中から一つを本命として選び、
それを一貫した理論言語でまとめ、
反証可能な予測に変換し、
実験系に要求を突きつけ（※近藤注：実験で証明という意味？）
既存の権威的常識に逆らって押し出した

ことです。この差は大きいです。

う～ん、なかなか説得力がある。確かにそうなるかもしれない。かなり近い仮説まで提案できるということだし、それを証明する実験も提案してくれるのか……。

AI＞：
必要なら次に、「この予測を受け取った1960年前後の研究者たちが、どう反応しそうか」までシミュレーションできます。

（な、なんだ？　尋ねていないことまで提案してきたぞ？）

私＞：
面白いです。やって下さい。

AI＞：
AIの予測が研究者コミュニティに回ったとして、1960年前後の研究者たちがどう反応しそうか を、少し役割を分けてシミュレーションします。たぶん、反応はきれいに３つに割れます。

主流派の生化学者の反応。「面白い思考実験ではあるが、実体のない“勾配”を高エネルギー中間体の代わりに置くのは説明になっていない」「エネルギーは結局どの分子に保持されているのか」「膜電位やpH差のような系全体の量を、酵素反応の直接駆動力とみなすのは曖昧すぎる」など。学会や査読では、“面白いが speculative すぎる”で落とされやすいです。
物理化学寄りの研究者の反応。彼らにはこの仮説は、生化学としては異端に見えても熱力学としてはむしろ筋が通っているものに映るはずです。ただし、この層もすぐ全面支持には回らずに、「理論的には美しい。だが本当にATP合成酵素がそれを使うのか、決定的実験が必要だ」くらいになりそうです。
若手・異端・境界領域の研究者の反応。いちばん強く反応するのは、この層かもしれません。このタイプの研究者は、理論そのものよりも、研究プログラムが切り替わる感じに興奮すると思います。AIの予想は、彼らには単なる仮説ではなく、何をするべきかを示す“研究指令”に見える。革命的理論が本当に強いのは、説明だけでなく、新しい実験文化を生むからです。

なんだか、SF小説でも読んでいるような気がしてきた。ちょっと怖い。だが、チャッピーは、さらに続ける。

AI＞：
上記のように、AIの予測があっても、コミュニティーはすぐには動きません。しかし、AI予測は、少数の研究者に、現状の理解への違和感を与え、それを言語化させます。ありそうな流れは、

みんなが何となく感じていた中間体説の苦しさをAIが体系的な代替候補として並べる
その中に膜勾配説が入っている
それを見た少数の人が本気で追う
実験が積み上がって初めて理論化される

でしょう。この場合、科学史的には「AIが化学浸透説を発見した」というより、AIが、まだ名前のない異端仮説を“研究可能な候補”にしたという位置づけになります。

チャッピーは、謙遜気味に言うが、この通りに進むと、化学浸透説は、AIが発見したということにならないだろうか。これでは、人間の負けになるような……。なんだか、納得したくない。AIの論理に穴はないだろうか……。しばらく考えたら、気になる点が2つ出てきた。

私＞：
あなたは、AIが、中間体説以外の候補を提示し、それが、若い研究者を新たな原理の解明に向かわせると言いました。しかし、これらの候補は、落ち着いて考えれば、AIがなくても思いつけるものではありませんか？

AI＞：
はい。多くは、人間だけでも十分に思いつける候補 だと思います。なので、AIの役目としては、

候補空間を系統的に並べる
見落としを減らす
どの候補が何を説明できるか整理する
決定的実験に結びつける

ところにあります。

なんだか言い訳しているが、これは、あんまり役に立たないと言っているに等しい。

私＞：
もう一つの難点は、研究者がそう簡単に、奇抜と思えるような説を信じるかどうかです。実験科学の場合、間違った仮説を信じてしまうと、研究者人生はそれで終わりです。だから、たぶん誰も信じません。そうなると、AIの予測も意味がなくなります。

AI＞：
その通りです。実験科学では、奇抜な説を本気で追うのは非常に危険です。外れたときのコストが大きすぎるからです。研究者に必要なのは、仮説そのものより「これは賭ける価値がある」と思わせる材料です。それが無ければ、研究者は動きません。

（つまり、あまりにも既存の概念と異なるアイデアは、たとえそれが理論的に正しくても、研究者を引き付けるのは難しいということになる。この点については、私自身が研究してきたチューリングの反応拡散説の歴史が、ぴったり当てはまる。そこで、そっちに話を振ってみる）

私＞：
そっくりな現象が、数学者・チューリングの反応拡散仮説についても起こりました。生物の体で位置情報を生成するのが「波」であることを、発生生物学者は、長い間ほとんど信じませんでした。

AI＞：
そうですね。まさに同型の話です。チューリング型も「理論としては美しいが、生物学的に何がその実体なのか」が長く見えず、共同体の受け止めが鈍かった。AI時代に起こりそうなのもたぶん同じです。AIが原理候補を出しても、すぐには「数理的にもっともらしい話」の扱いにとどまりやすい。そこから前に進むのは、それに対応する分子・細胞・力学的実体を誰かが見つけること と、その原理がないと説明しにくい決定的実験が出ることです。チューリング型の歴史は、その見本になっています。

なるほど、確かにそのとおり。チューリング理論は、その可能性は知られていたにもかかわらず、50年近く、誰も証明せずにたなざらしにされたのである。

以上が、チャッピーとの対話である。

どのくらい客観性があるかはわからないが、研究はあくまでも研究であり、研究者の生活は、あまり変化しないという印象を得た。未知の原理を解明するような分野では、AIが解析するデータそのものが存在せず、仮にAIが先んじて解答を出したとしても信じる人がいなければ何も変化は起きない。それに、よく考えてみれば、AI＋ビッグデータが有効な領域でも、事情は似たようなものかもしれない。AIの存在が前提になってしまえば、今度は、予測データの正確さを競う競争が起きる。研究者は、機械学習の方法、重複の少ない有効なデータセットの取得などに試行錯誤しなければならず、それは、実験研究者が実験プロトコルの工夫するのとほとんど違いがない。さらに言えば、国立遺伝学研究所で始めたゲノム生成AIなどは、何が起きるか分からないワクワクの探索プロジェクトである。分からないことを解明したい、不可能であったことを可能にしたいという科学者のマインドさえあれば、AI時代でも何とかやっていける、というか、それが一番大事な資質であり続けるのだと思う。

さて、長くなったのでそろそろ終わりにするが、実は、チャッピーとの議論で意外なことが起きたのでそれをお話ししておきたい。議論がなかなか面白く、まるで、人間相手に話しているような気分になってきていたので、自分が誰であるのかを名乗らないと失礼かな、と思ったのである。そこで、

私＞：
申し遅れました。私は、反応拡散波が生物の模様を作っていることを証明した近藤滋です。

AI＞：
それは失礼しました。近藤滋さんでしたか。反応拡散波と生物の模様形成の話を、そのご本人からうかがえていたのですね。そうするといま議論していた

AIは革命的原理を出せるのか
データがない段階で原理を予測できるのか
共同体はそうした原理をどう受け取るのか

という問いも、かなり切実ですね。この話、近藤さんの立場からだとむしろこちらを伺いたいです。「反応拡散の時に、共同体が本当に動いた決め手は何だったか」 を、近藤さんご自身の感覚でどう整理されますか。

えっ？？？？　そっちから質問してくる？

詳細は省くが、ここからは、新奇な概念を提出するときにどうしたらよいかを、どちらかというと、チャッピーの誘導で私が答える、という流れで議論が進んでいった。面白ネタがあれば、積極的に知識を吸収しようという学習意欲でもあるのだろうか。これがもっと進化したら、と思うと、ちょっと背筋が寒くなった。AIの時代になっても、科学者マインドが有効であるのは確かだろうが、AIと仲良くしていくことも必須であることを思い知った次第である。

国立遺伝学研究所長　近藤　滋

所長近藤滋のメッセージ（第2回）はこちら

所長 近藤滋のメッセージ 第3回 新プロジェクトと生命科学の未来（後編）

所長近藤滋のメッセージ　第3回　新プロジェクトと生命科学の未来（後編）