ResFNN残差网络分数分布回归模型
基于3D卷积网络提取视频特征,利用ResFNN进行特祝贺和学习,应用分布回归获取更精确的分数映射
阅读笔记:ResFNN论文
摘要
- 介绍了基于AI的动作质量评估(AQA)在体育领域的重要性,尤其是在比赛评分、技能评估和康复医学中的应用。
- 提出了Residual Structure-Based Feedforward Neural Network (ResFNN) 模型,通过高效的动作特征学习改进评分性能。
- 方法:
- 利用3D卷积网络提取视频特征。
- 使用ResFNN进行特征聚合和学习。
- 应用分布回归获取更精确的分数映射。
- 在AQA-7、MTL-AQA和JIGSAWS数据集上的实验验证了模型的优越性。
引言
- 强调AI和5G技术推动了智能运动设备的发展,例如智能相机、手环和鞋子。
- 动作质量评估(AQA)的核心挑战是评估连续动作中的细微差异,尤其是在相似场景下。
- 当前方法的问题:
- 背景干扰。
- 相似性学习误差。
- 特征提取和聚合能力不足。
- 本文的贡献:
- 利用残差结构的前馈神经网络提升特征学习能力。
- 提出分数分布回归方法,解决评分主观性带来的不确定性。
相关工作
AQA
- 早期基于传统机器学习的研究,使用支持向量回归和离散余弦变换等特征提取。
- 随着深度学习发展,方法逐渐转向C3D、LSTM、图神经网络等。
- 局限性:对初始特征的聚合与学习效果不足。
残差结构网络
- He等人提出的残差网络(ResNet)解决了深层网络中的梯度爆炸和退化问题。
- 残差结构被广泛应用于不同领域,本研究引入残差前馈网络(ResFNN)用于特征聚合。
标签分布学习
- 标签分布学习(LDL)将标签建模为概率分布,用于处理多评分者的主观性问题。
方法
框架概述
- 三个模块:
- 视频特征提取:通过I3D卷积网络提取特征。
- ResFNN:由6个残差块组成,每个块包含全连接层和快捷连接。
- 分数分布回归:将动作质量编码为高斯分布,通过采样生成最终分数。
特征提取
- 使用滑动窗口将视频分割为重叠的16帧片段。
- 提取片段特征并通过平均操作聚合为视频特征。
ResFNN
- 每个残差块包含5个全连接层,采用ReLU激活和Dropout正则化。
- 快捷连接(Shortcut Connection)解决梯度爆炸与退化问题。
分数分布回归
- 将特征编码为高斯分布,采样生成预测分数。
- 通过分布偏差损失和重建损失优化模型。
实验
数据集
- AQA-7:包括跳水、滑雪、体操等7种动作,共1189个视频样本。
- MTL-AQA:包含1412个跳水动作,提供多裁判评分。
- JIGSAWS:针对外科手术技能评估。
评价指标
- 使用斯皮尔曼相关系数(ρ)评价预测分数与真实分数的相关性。
实验结果
- 在所有数据集上,ResFNN均优于现有方法,特别是在特征聚合能力和不确定性处理方面表现突出。
消融实验
- 验证ResFNN和分布回归模块的有效性。
- 使用6个残差块的模型效果最佳。
结论
- 提出了一种高效的残差前馈神经网络(ResFNN),解决了特征聚合与学习问题。
- 引入分布回归方法,处理动作评分中的不确定性。
- 未来计划:
- 提升模型解释性。
- 轻量化模型设计以适应移动设备。
参考文献
- 提供了与AQA相关的经典文献,包括C3D、LSTM以及分布回归等方法。