PECoP动作质量评估的参数预训练

基于参数预训练的AQA

阅读笔记:PECoP: Parameter Efficient Continual Pretraining for Action Quality Assessment

1. 引言

1.1 背景

  • 动作质量评估(AQA)
    • AQA 任务需要评估视频中动作的细节和质量,广泛应用于体育比赛评分、医疗动作评估等领域。
    • 其与动作分类任务的核心区别在于,AQA 更关注动作细节和流畅性,而不仅仅是类别判断。
  • 现有方法的挑战
    • 迁移学习局限性
      • 通常采用基于动作分类模型的迁移学习方法,但预训练任务与目标任务(AQA)之间存在领域差异,导致迁移效果有限。
    • 算力和存储需求
      • 全模型微调对计算资源和存储要求较高,尤其在资源受限的场景中难以部署。
  • 研究目标
    • 提出一种参数高效的持续预训练方法,在参数量有限的情况下提高迁移性能,适配 AQA 任务。

1.2 创新点

  • 参数高效性
    • 通过仅对少量参数进行优化,实现高效的迁移学习。
  • 持续预训练
    • 提出一种动态策略,将模型的预训练与下游任务训练紧密结合,使模型适应新的领域分布。

2. 相关工作

2.1 动作质量评估方法

  • 传统方法
    • 通常基于手工设计的特征提取器(如 SIFT、HOG),精度较低且不适应多样化场景。
  • 深度学习方法
    • 利用 CNN 和 Transformer 模型提取视频特征。
    • 问题:大多依赖大规模预训练,且适应 AQA 任务的泛化性能有限。

2.2 参数高效学习

  • 低秩分解和权重共享
    • 通过分解模型权重矩阵或共享模块参数,减少训练所需的参数量。
  • 提示学习(Prompting)
    • 增加少量的任务提示参数,而非调整整个模型。
    • 常用于 NLP 任务,在视觉领域的应用较少。

2.3 持续学习

  • 主要方法
    • 基于记忆回放(Memory Replay)和参数正则化。
  • 在迁移学习中的应用
    • 持续学习可缓解领域迁移中的遗忘问题,但需要设计适合 AQA 的策略。

3. 方法

3.1 模型架构

  • 主干网络
    • 选择了轻量化的 Transformer 架构,便于集成额外的参数高效模块。
  • PECoP 模块
    • 核心组件包括可学习的参数化模块,仅对特定层进行调整,减少整体参数开销。

3.2 参数高效模块设计

  • 动态任务提示
    • 根据输入视频的领域特征,动态调整提示参数,提升迁移性能。
  • 低秩适配(LoRA)
    • 在模型权重中加入低秩矩阵,以最小的参数变化实现域适配。

3.3 持续预训练策略

  • 阶段性更新
    • 持续预训练分为多个阶段,每阶段逐步引入新任务数据以强化模型泛化能力。
  • 正则化与回放
    • 采用基于正则化的防遗忘策略,同时对关键样本进行回放,确保模型对旧任务的记忆。

4. 实验与分析

4.1 数据集与实验设置

  • 数据集
    • 在公开的 AQA 数据集上验证模型,包括 MTL-AQA 和 FineGym。
  • 实验设置
    • 与全模型微调方法进行对比,重点考察 PECoP 的参数效率和迁移性能。

4.2 实验结果

  • 性能比较
    • 在多个数据集上,PECoP 的性能优于全模型微调和其他参数高效方法。
  • 参数效率
    • 相较全模型微调,参数量减少了 90%以上,同时保持了竞争力性能。

4.3 消融实验

  • 提示学习与低秩适配的效果
    • 动态提示和低秩适配模块的结合显著提升了模型的泛化能力。
  • 持续预训练策略的影响
    • 持续引入新任务数据能有效缓解领域迁移中的遗忘问题。

5. 总结与未来工作

5.1 贡献

  • 提出了针对 AQA 任务的参数高效持续预训练框架 PECoP。
  • 通过动态提示和低秩适配模块,实现了迁移性能与参数效率的平衡。

5.2 局限性

  • 持续预训练的收敛速度较慢,需进一步优化。
  • 模型在复杂动作场景中的表现还有提升空间。

5.3 未来方向

  • 探索更轻量化的提示机制。
  • 将 PECoP 扩展至其他领域任务(如医学图像分析、行为识别)。