简体中文 | English
PaddleVideo包含视频理解方向众多模型,包括基于RGB的行为识别模型,基于骨骼点的行为识别模型、时序动作检测模型、时序分割模型、时空动作检测模型、视频目标分割模型、多模态模型。其中基于RGB的行为识别方向是PaddleVideo核心建设的方向,因其训练得到的好的特征提取器提取的特征,是众多下游任务的基础输入。
与图像识别不同的是,行为识别任务的核心是提取时序信息。按模型结构的不同,基于RGB的行为识别方法大体上可以分为基于2D网络、基于3D网络、基于RNN以及基于Transformer结构的模型。2D网络一般会使用图像预训练模型配合时序模块提取时序信息,比如TSN、TSM等,简单高效。由于视频多一个时序维度,因此很自然的会使用3D卷积提取时序信息,比如I3D、SlowFast。3D模型的计算量一般比较大,训练迭代次数也更多一些。基于RNN的网络以视频特征作为输入,利用RNN提取时序信息,如AttentionLSTM。近期学界涌现了众多基于Transformer结构的行为识别网络,如TimeSformer、VideoSwin。相较于卷积网络,transformer结构的网络精度更高,计算量也会大些。
PaddleVideo自研并开源了PP-TSM,该模型基于TSM进行优化,在保持模型参数量和计算量不增加的前提下,精度得到大幅提升,欢迎使用。更多前沿模型复现与基础模型优化工作,敬请期待~
行为识别方法 | ||||
PP-TSM (PP series) | PP-TSN (PP series) | PP-TimeSformer (PP series) | TSN (2D’) | TSM (2D‘) |
SlowFast (3D’) | TimeSformer (Transformer‘) | VideoSwin (Transformer’) | TokenShift (3D’) | AttentionLSTM (RNN‘) |
MoViNet (Lite‘) | ||||
基于骨骼点的行为识别方法 | ||||
ST-GCN (GCN’) | AGCN (GCN‘) | 2s-AGCN (GCN‘) | CTR-GCN (GCN‘) | |
时序动作检测方法 | ||||
BMN (One-stage‘) | ||||
视频时序分割 | ||||
MS-TCN | ASRF | |||
时空动作检测方法 | ||||
SlowFast+Fast R-CNN | ||||
多模态 | ||||
ActBERT (Learning‘) | T2VLAD (Retrieval‘) | |||
视频目标分割 | ||||
CFBI (Semi‘) | MA-Net (Supervised‘) | |||
单目深度估计 | ||||
ADDS (Unsupervised‘) |
- 【官方】Paddle 2.1实现视频理解优化模型 -- PP-TSM
- 【官方】Paddle 2.1实现视频理解优化模型 -- PP-TSN
- 【官方】Paddle 2.1实现视频理解经典模型 -- TSN
- 【官方】Paddle 2.1实现视频理解经典模型 -- TSM
- BMN视频动作定位
- 花样滑冰选手骨骼点动作识别ST-GCN教程
- 【实践】CV领域的Transformer模型TimeSformer实现视频理解
各模型训练推理速度参考 Benchmark.