データとモデルとAIと

メディアが流す情報をぼうっと聞いていると、AIを使えば何でもできそうな気分になってきます。しかし、ふと科学者として正気に戻って、しばしば学生がAIに過剰に依存することを心配したり、学習に使うデータが十分なければ大したことができそうにはないのになどと思ってみたりしています。

私は分子シミュレーションを主な研究のツールとして使っています。その前提として、シミュレーションに使うモデルを構築する研究、そしてシミュレーションを実行する方法やプログラムを開発する研究が必要です。

このようなモデルは物理学や化学の原理である程度作ることはできるのですが、さらに膨大な実験データとの整合性チェックと調整によって、実用に耐えうるモデルとして出来上がります。ドメイン型タンパク質の再現性がある程度よくなって以降、慣性半径などの非ドメイン型タンパク質のデータも用いて実験データの再現性がさらに向上したモデルが開発されてきました。このような改良が進んできた背景には、Protein Data Bank (PDB)にエントリーされた立体構造等のデータの充実があります。AlphaFoldの成功も、ドメイン型タンパク質の立体構造データが大量に蓄積していることと無縁ではありません。

現在、PDBに登録されたエントリー数は24万件ほどで、そのうち20万件余りが’Protein only’のデータです。一方、’DNA only’のデータは約2600件、’RNA  only’のデータは約2000件であり、データ数はタンパク質の100分の1程度です(’XXX only’のデータに絞ったのは件数をチェックするのが容易なためです)。核酸のモデルがタンパク質のモデルほどよくないのは、データ数が二桁少ないことと関係してると言ってよいでしょう。

RNA構造のエントリー数の増加は、2020年以降100件ずつ程度のスローペースです。核酸モデルの本格的改良にはまだまだ時間がかかるのかもしれませんが、それを悠長に待っていては核酸のシミュレーション研究ができません。まずはいろいろ使ってみて、何がOKで何がダメなのかを確かめながら、現状のモデルでも示せることを考え、日々研究を続けています。

 

 

投稿者プロフィール

北尾 彰朗東京工業大学生命理工学院教授