Skip to content

Latest commit

 

History

History
124 lines (112 loc) · 5.58 KB

README.md

File metadata and controls

124 lines (112 loc) · 5.58 KB

简体中文 | English

前沿算法与模型

1. 概要

PaddleVideo包含视频理解方向众多模型,包括基于RGB的行为识别模型,基于骨骼点的行为识别模型、时序动作检测模型、时序分割模型、时空动作检测模型、视频目标分割模型、多模态模型。其中基于RGB的行为识别方向是PaddleVideo核心建设的方向,因其训练得到的好的特征提取器提取的特征,是众多下游任务的基础输入。

与图像识别不同的是,行为识别任务的核心是提取时序信息。按模型结构的不同,基于RGB的行为识别方法大体上可以分为基于2D网络、基于3D网络、基于RNN以及基于Transformer结构的模型。2D网络一般会使用图像预训练模型配合时序模块提取时序信息,比如TSN、TSM等,简单高效。由于视频多一个时序维度,因此很自然的会使用3D卷积提取时序信息,比如I3D、SlowFast。3D模型的计算量一般比较大,训练迭代次数也更多一些。基于RNN的网络以视频特征作为输入,利用RNN提取时序信息,如AttentionLSTM。近期学界涌现了众多基于Transformer结构的行为识别网络,如TimeSformer、VideoSwin。相较于卷积网络,transformer结构的网络精度更高,计算量也会大些。

PaddleVideo自研并开源了PP-TSM,该模型基于TSM进行优化,在保持模型参数量和计算量不增加的前提下,精度得到大幅提升,欢迎使用。更多前沿模型复现与基础模型优化工作,敬请期待~

2. 模型概览

行为识别方法
PP-TSM (PP series) PP-TSN (PP series) PP-TimeSformer (PP series) TSN (2D’) TSM (2D‘)
SlowFast (3D’) TimeSformer (Transformer‘) VideoSwin (Transformer’) TokenShift (3D’) AttentionLSTM (RNN‘)
MoViNet (Lite‘)
基于骨骼点的行为识别方法
ST-GCN (GCN’) AGCN (GCN‘) 2s-AGCN (GCN‘) CTR-GCN (GCN‘)
时序动作检测方法
BMN (One-stage‘)
视频时序分割
MS-TCN ASRF
时空动作检测方法
SlowFast+Fast R-CNN
多模态
ActBERT (Learning‘) T2VLAD (Retrieval‘)
视频目标分割
CFBI (Semi‘) MA-Net (Supervised‘)
单目深度估计
ADDS (Unsupervised‘)

3. AI-Studio模型教程

4. Benchmark

各模型训练推理速度参考 Benchmark.