機械学習による科学的実証により、パーソナライズされた活動を持つ「極端な」DNA配列が明らかになった。

人工知能(AI)は、ChatGPTやその他の関連するAI技術が広く世間に注目されるようになったことで、私たちのニュースフィードに爆発的に浸透した。人気のチャットボットだけでなく、生物学者は遺伝子の本質的な機能を調べるためにAIを活用する方法を見つけつつある。

以前、遺伝子を活性化させるDNA配列を調査していたカリフォルニア大学サンディエゴ校の研究者たちは、人工知能を使って、成長、発達、病気に関わる基本的なプロセスである遺伝子活性化に関連する謎の断片を特定した。バイオサイエンス学部のジェームズ・T・カドナガ教授らは、人工知能の一種である機械学習を用いて、遺伝子の最大3分の1の機能に関与する「ゲートウェイ」DNA活性化コードである下流コアプロモーター領域(DPR)を発見した。

この発見をもとに、門永教授とLong Vo ngoc研究員、Torrey E. Rhyne研究員は、機械学習を用いて、遺伝子活性化において特別に設計された機能を持つ合成「極端な」DNA配列を同定した。Genes&Development』誌に掲載された論文では、機械学習(ML)を用いて数百万種類のDNA配列をテストし、DPR遺伝子の活性化エレメントをヒトとショウジョウバエで比較した。AIを使うことで、ヒトでは活性化されるがミバエでは活性化されない、あるいはその逆の、稀な、個人化されたDPR配列を見つけることができた。より一般的には、このアプローチは、バイオテクノロジーや医療に有用な活性を持つ合成DNA配列を同定するために使用することができる。

「将来的には、この戦略を使って、実用的で有用な応用が可能な極端な合成DNA配列を同定することができるだろう。ヒト(条件X)とミバエ(条件Y)を比較する代わりに、ある遺伝子を活性化させる薬物A(条件X)の能力はテストできるが、薬物B(条件Y)の能力はテストできない。「この方法は、組織1(条件X)では遺伝子を活性化させるが、組織2(条件Y)では活性化させない、パーソナライズされたDNA配列を見つけるのにも使える。このAIベースのアプローチには、数多くの実用的な応用例がある。合成された極端なDNA配列は、おそらく100万個に1個という非常に稀なものである。

機械学習はAIの一分野であり、コンピューター・システムがデータや経験に基づいて継続的に改善・学習するものである。今回の研究では、Kadonaga、Vo ngoc(カリフォルニア大学サンディエゴ校の元ポスドク研究員、現在はヴェリア・セラピューティクス社に在籍)、Rhyne(リサーチ・アソシエイト)の3人は、サポートベクター回帰として知られる手法を用いて、実際の実験室での実験データに基づいて確立された20万個のDNA配列を使って機械学習モデルを「訓練」した。これらは機械学習システムの例として提示されたターゲットである。その後、ヒトとミバエの機械学習システムに5000万個のテストDNA配列を「投入」し、配列を比較し、2つの巨大なデータセットに含まれるユニークな配列を特定するよう求めた。

機械学習システムは、ヒトとミバエの塩基配列がほぼ重複していることを示したが、研究者たちは、AIモデルが、ヒトでは遺伝子の活性化が非常に活発であるがミバエではそうでない稀なケースを特定できるかどうかという中心的な疑問に焦点を当てた。答えは「イエス」であった。機械学習モデルは、ヒトに特異的な(そしてミバエに特異的な)DNA配列を特定することができたのである。重要なことに、AIが予測した極端な配列の機能は、門永氏の研究室で従来の実験室での試験方法を用いて検証された。

IA DNA

この研究に着手する前は、AIモデルが5,000万個の配列の活性を予測できるほど “賢い “かどうか、特に通常とは異なる活性を持つ非典型的な “極端な “配列の活性を予測できるほど “賢い “かどうかわかりませんでした。ですから、AIモデルが100万個に1個の珍しい極端な配列の活性を予測できたことは、非常に印象的であり、注目に値します」と門永は言い、機械学習技術が分析した1億個の実験室実験に匹敵するものを実施することは、1回の実験室実験に3週間近くかかるため、現実的には不可能であろうと付け加えた。

機械学習システムによって同定された稀な配列は、実証実験として成功し、生物学における機械学習やその他のAI技術の他の利用法への布石となった。

「日常生活において、人々はChatGPTのようなAIツールの新しい用途を発見している。ここでは、遺伝子を活性化するDNAエレメントをパーソナライズして設計するためにAIを使用することを実証しています。この方法は、バイオテクノロジーや生物医学研究に実用的に応用できるはずです」と門永氏。「もっと広く言えば、生物学者はAI技術の力を探求し始めたばかりでしょう」。

この研究は、米国国立衛生研究所(R35 GM118060)から資金提供を受けた。

出典:UCSD