OpenProteinSetは、AlphaFold 2のトレーニングに使用されたものと同じ品質の大規模なデータセットを提供し、このデータは研究コミュニティに提供されていませんでした。

タンパク質は生命の「作業馬」です。その配列と構造を理解することは、新しい酵素の設計から生命を救う薬の開発まで、さまざまな課題に立ち向かうための基本です。最近の数年間、DeepMindのAIシステムであるAlphaFold 2は、前例のない精度でタンパク質の構造を予測し、この分野を革命化しました。しかし、ハーバード大学、ハーバード医学大学、コロンビア大学、ニューヨーク大学、フラットアイアン研究所の研究者たちによる新しい論文によれば、データの不足がトレーニングに支障をきたしています。

そこで、OpenProteinSetというオープンソースのデータベースが登場し、大規模なタンパク質のアラインメントデータを提供することを目指しています。

OpenProteinSetは、1600万以上のシーケンスアラインメントを提供します

タンパク質の機能はアミノ酸の配列にコード化されています。進化を通じて、これらの配列のわずかな変化が蓄積され、その間に構造と機能が変わることはありません。

多重配列アラインメント(MSA)は、進化的に関連するタンパク質の配列セットで、対応するアミノ酸が同じ列に並ぶようにギャップを挿入してアラインされます。これらのMSAのパターンの分析は、タンパク質の構造と機能に関する豊富な洞察を提供します。

長い間、MSAはタンパク質の研究において重要でしたが、2021年にはAlphaFold 2によってその有用性が爆発的に増加しました。AlphaFold 2は、大量のMSAデータを基にタンパク質の構造を実験的な精度に近い精度で予測します。AlphaFold 2はオープンソースですが、そのトレーニングデータは非公開でした。

OpenProteinSetは現在1600万以上のMSAと関連するデータを提供しており、すべてがオープンソースです。このデータベースには、実験的に決定されたタンパク質の構造のデータベースであるProtein Data Bank(PDB)のすべての14万以上のタンパク質のためのMSAが含まれています。また、類似性に基づいてグループ化されたUniProtのデータも含まれています。

PDBのタンパク質に関して、OpenProteinSetはさまざまな複数のシーケンスデータベースからの生のMSAを提供します。また、PDBの検索によって同定された構造的に類似したタンパク質も含まれています。さらに、UniProtの異なるグループに対して、AlphaFold2によって予測された構造も提供されています。

研究者たちは、オープンソースのデータセットであるOpenProteinSetを使用して、AlphaFold 2の再実装であるOpenFoldをトレーニングしました。

開発者たちは、OpenProteinSetを使用して、AlphaFold 2のオープンな再実装であるOpenFoldをトレーニングしました。彼らによれば、OpenFoldは元のモデルと同等のパフォーマンスを持っており、これらのオープンデータの十分性を証明しています。

「OpenProteinSetによって、分子機械学習コミュニティに利用可能な事前計算されたMSAの数量と品質を大幅に向上させました」とチームは述べています。「このデータセットは、構造生物学のさまざまなタスクに即座に適用できます。」

OpenProteinSetはAWSでホスティングされ、利用可能です。