Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Hello, I would like to ask some questions about AOT architecture #52

Open
zhanghongyong123456 opened this issue May 29, 2023 · 1 comment

Comments

@zhanghongyong123456
Copy link

zhanghongyong123456 commented May 29, 2023

我最近在看一篇关于抠像的论文(Adaptive Human Matting for Dynamic Videos) https://arxiv.org/abs/2304.06018 ;这个论文是基于 AOT结构修改的,对于transformer这块有点不太明白,请您解答一下,

  1. 这个抠像框架有用到身份验证吗,是不是不需要身份ID,
  2. 对于长期注意力机制,这里写的每10帧执行一次,那么输入的图像序列帧需要多少呢,是否需要超过10帧,
  3. 公式中有提到 Ef 和 Eb 是前景 f 和背景 b 的可学习嵌入,这个可学习嵌入是基于 输入图像使用 16x16 的卷积核还是基于已经提取的特征图进行卷积,或者是其他操作呢
  4. 对于transformer 架构,Adam 中的转换器由三层组成,隐藏层大小为 256D。 long-term attention的step l为10。为了降低计算复杂度,网络存储了多达10组的Key和Value特征用于long-term attention。窗口大小,w和 s,对于短期注意力来说分别是 7 和 1,我没有在AOT架构中找到储存10组value,这个是否对应AOT中的10个物体呢。对于AOT架构是否只需要去除身份ID,就可以得到这个抠像的transformer了,
    下面是论文的tranformer的一些描述,期待您的解答,谢谢

0
1
2
3
4
5
6

@z-x-yang
Copy link
Collaborator

  1. 应该有用到,但应该只有一个前景目标。
  2. 视频一般都超过10帧。
    1. 建议联系这篇论文的原作者来了解相关的实现细节。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants