収録日:20210814
発表者:@Ag_smith, @yohei_kikuta
内容:
- 自己紹介とアイスブレーク (00:00:38~)
- @Ag_smith の自己紹介
- AlphaFold が出てからこれまでの所感をお互い簡単に話してみる
- タンパク質の立体構造予測という問題について (00:08:48~)
- アミノ酸配列の情報から 3D のタンパク質の立体構造(原子配位やそれらの間の結合)を予測するという問題
- そもそもタンパク質とは?モデル名の由来ともなっている Folding の意味するところとは?
- タンパク質の立体構造予測は解が一意に定まる問題なのか?
- この問題がどのような精度で解けるとどのような嬉しいことがあるのか?
- AlphaFold の概略 (00:26:11~)
- 入力特徴量部分。target sequence, MSA clust, MSA extra, template について
- Evoformer 部分。MSA の row-wise/column-wise attention と pair representaion のグラフ構造として捉えることによる triangle な特徴量 update と MSA と pair representation のミックス
- Structure module 部分。抽象的な特徴量と residue gas から出発して 3D の原子配位を定める
- recycling と loss function 部分。recycling の有効性と loss function の工夫
- ドメイン知識観点での疑問とそれに対する回答 (01:14:19~)
- MSA と template の違いは何か? → template はクエリ配列の類縁構造のうちタンパク質立体構造が実験的に決定されたもの
- タンパク質のドメイン部分と側鎖部分のそれぞれの予測の重要性は? → どちらも重要。ドメイン部分によって大まかなタンパク質の構造がわかるだけでも大きく役立つし、側鎖部分はより厳密にその機能を把握するために役立つ
- 論文中で様々に使われている tool 群はその道の研究者なら誰でも知ってるもの? → yes. 例えば AMBER は @Ag_smoth がこれまでの研究で多用
- 原子配位を定めるときの frame の概念は馴染みがあるもの? → これはドメイン知識と機械学習の融合で生まれていそう。2原子間の結合の長さや3原子が作る角度はたいていの場合理想値に近く、これを文献値で置き換えるというのはドメイン知識を活かしている部分
- 機械学習観点での疑問とそれに対する回答 (01:33:33~)
- self-distillation はどれくらいよく使われている? → distillation のアイデアは広くいろんなところで使われており、self-distillation は pseudo labeling と distillation を組み合わせたもので unlabeled data があるときにかなり使われている
- deep learning 界隈で流行っているという transformer の応用と有用性は如何ほどのもの? → ほとんど至る所で使われているレベル。並列計算と相性がよく、大量データから学習するにはあまり人間の知識を encode せずに学習させていくというのが昨今の風潮
- Evoformer 中で使われる row-wise/column-wise attention は MSA transformer と同じもの → 論文を眺めた感じ同様のものっぽい。MSA は明確に row ごと column ごとに意味があるので、row-wise/column-wise を使うのはそこまで手法的な飛躍はない
- triangular な update の意味するところは? → 残基 i,j の関係性を捉えるときにもう一つの残基 k の影響を考慮して特徴量を学習している。これは具体的には α helix である残基が隣の残基と 4 つ先の残基の関係が重要だよねというのを考慮できるようモデリングしている
- IPA は鏡映ができてしまうのを防ぐというものになっている? → yes. IPA や loss function の FAPE などは鏡映変換の下で不変ではない。鏡映変換するとカイラリティが変わってタンパク質の性質が変わるので、ちゃんとそれを区別するようなモデリングになっている
- 今後の AlphaFold の展望 (01:55:39~)
- AlphaFold によって今後のタンパク質構造研究はどう変わっていく?商業的なインパクトもある?
- 機械学習観点でのインパクト
- 思いついて試してみたらうまくいったという複合体予測についてのエピソード
参考情報:
- Highly accurate protein structure prediction with AlphaFold:https://www.nature.com/articles/s41586-021-03819-2
- 菊田が論文を読んだときのメモ:yoheikikuta/paper-reading#60
- MSA Transformer: https://www.biorxiv.org/content/10.1101/2021.02.12.430858v1
- SE(3)-Transformers: 3D Roto-Translation Equivariant Attention Networks: https://arxiv.org/abs/2006.10503