ResFNN残差网络分数分布回归模型

基于3D卷积网络提取视频特征,利用ResFNN进行特祝贺和学习,应用分布回归获取更精确的分数映射

阅读笔记:ResFNN论文

摘要

  • 介绍了基于AI的动作质量评估(AQA)在体育领域的重要性,尤其是在比赛评分、技能评估和康复医学中的应用。
  • 提出了Residual Structure-Based Feedforward Neural Network (ResFNN) 模型,通过高效的动作特征学习改进评分性能。
  • 方法:
    1. 利用3D卷积网络提取视频特征。
    2. 使用ResFNN进行特征聚合和学习。
    3. 应用分布回归获取更精确的分数映射。
  • 在AQA-7、MTL-AQA和JIGSAWS数据集上的实验验证了模型的优越性。

引言

  • 强调AI和5G技术推动了智能运动设备的发展,例如智能相机、手环和鞋子。
  • 动作质量评估(AQA)的核心挑战是评估连续动作中的细微差异,尤其是在相似场景下。
  • 当前方法的问题:
    • 背景干扰。
    • 相似性学习误差。
    • 特征提取和聚合能力不足。
  • 本文的贡献:
    1. 利用残差结构的前馈神经网络提升特征学习能力。
    2. 提出分数分布回归方法,解决评分主观性带来的不确定性。

相关工作

AQA

  • 早期基于传统机器学习的研究,使用支持向量回归和离散余弦变换等特征提取。
  • 随着深度学习发展,方法逐渐转向C3D、LSTM、图神经网络等。
  • 局限性:对初始特征的聚合与学习效果不足。

残差结构网络

  • He等人提出的残差网络(ResNet)解决了深层网络中的梯度爆炸和退化问题。
  • 残差结构被广泛应用于不同领域,本研究引入残差前馈网络(ResFNN)用于特征聚合。

标签分布学习

  • 标签分布学习(LDL)将标签建模为概率分布,用于处理多评分者的主观性问题。

方法

框架概述

  • 三个模块:
    1. 视频特征提取:通过I3D卷积网络提取特征。
    2. ResFNN:由6个残差块组成,每个块包含全连接层和快捷连接。
    3. 分数分布回归:将动作质量编码为高斯分布,通过采样生成最终分数。

特征提取

  • 使用滑动窗口将视频分割为重叠的16帧片段。
  • 提取片段特征并通过平均操作聚合为视频特征。

ResFNN

  • 每个残差块包含5个全连接层,采用ReLU激活和Dropout正则化。
  • 快捷连接(Shortcut Connection)解决梯度爆炸与退化问题。

分数分布回归

  • 将特征编码为高斯分布,采样生成预测分数。
  • 通过分布偏差损失和重建损失优化模型。

实验

数据集

  1. AQA-7:包括跳水、滑雪、体操等7种动作,共1189个视频样本。
  2. MTL-AQA:包含1412个跳水动作,提供多裁判评分。
  3. JIGSAWS:针对外科手术技能评估。

评价指标

  • 使用斯皮尔曼相关系数(ρ)评价预测分数与真实分数的相关性。

实验结果

  • 在所有数据集上,ResFNN均优于现有方法,特别是在特征聚合能力和不确定性处理方面表现突出。

消融实验

  • 验证ResFNN和分布回归模块的有效性。
  • 使用6个残差块的模型效果最佳。

结论

  • 提出了一种高效的残差前馈神经网络(ResFNN),解决了特征聚合与学习问题。
  • 引入分布回归方法,处理动作评分中的不确定性。
  • 未来计划:
    • 提升模型解释性。
    • 轻量化模型设计以适应移动设备。

参考文献

  • 提供了与AQA相关的经典文献,包括C3D、LSTM以及分布回归等方法。