PECoP动作质量评估的参数预训练
基于参数预训练的AQA
阅读笔记:PECoP: Parameter Efficient Continual Pretraining for Action Quality Assessment
1. 引言
1.1 背景
- 动作质量评估(AQA):
- AQA 任务需要评估视频中动作的细节和质量,广泛应用于体育比赛评分、医疗动作评估等领域。
- 其与动作分类任务的核心区别在于,AQA 更关注动作细节和流畅性,而不仅仅是类别判断。
- 现有方法的挑战:
- 迁移学习局限性:
- 通常采用基于动作分类模型的迁移学习方法,但预训练任务与目标任务(AQA)之间存在领域差异,导致迁移效果有限。
- 算力和存储需求:
- 全模型微调对计算资源和存储要求较高,尤其在资源受限的场景中难以部署。
- 迁移学习局限性:
- 研究目标:
- 提出一种参数高效的持续预训练方法,在参数量有限的情况下提高迁移性能,适配 AQA 任务。
1.2 创新点
- 参数高效性:
- 通过仅对少量参数进行优化,实现高效的迁移学习。
- 持续预训练:
- 提出一种动态策略,将模型的预训练与下游任务训练紧密结合,使模型适应新的领域分布。
2. 相关工作
2.1 动作质量评估方法
- 传统方法:
- 通常基于手工设计的特征提取器(如 SIFT、HOG),精度较低且不适应多样化场景。
- 深度学习方法:
- 利用 CNN 和 Transformer 模型提取视频特征。
- 问题:大多依赖大规模预训练,且适应 AQA 任务的泛化性能有限。
2.2 参数高效学习
- 低秩分解和权重共享:
- 通过分解模型权重矩阵或共享模块参数,减少训练所需的参数量。
- 提示学习(Prompting):
- 增加少量的任务提示参数,而非调整整个模型。
- 常用于 NLP 任务,在视觉领域的应用较少。
2.3 持续学习
- 主要方法:
- 基于记忆回放(Memory Replay)和参数正则化。
- 在迁移学习中的应用:
- 持续学习可缓解领域迁移中的遗忘问题,但需要设计适合 AQA 的策略。
3. 方法
3.1 模型架构
- 主干网络:
- 选择了轻量化的 Transformer 架构,便于集成额外的参数高效模块。
- PECoP 模块:
- 核心组件包括可学习的参数化模块,仅对特定层进行调整,减少整体参数开销。
3.2 参数高效模块设计
- 动态任务提示:
- 根据输入视频的领域特征,动态调整提示参数,提升迁移性能。
- 低秩适配(LoRA):
- 在模型权重中加入低秩矩阵,以最小的参数变化实现域适配。
3.3 持续预训练策略
- 阶段性更新:
- 持续预训练分为多个阶段,每阶段逐步引入新任务数据以强化模型泛化能力。
- 正则化与回放:
- 采用基于正则化的防遗忘策略,同时对关键样本进行回放,确保模型对旧任务的记忆。
4. 实验与分析
4.1 数据集与实验设置
- 数据集:
- 在公开的 AQA 数据集上验证模型,包括 MTL-AQA 和 FineGym。
- 实验设置:
- 与全模型微调方法进行对比,重点考察 PECoP 的参数效率和迁移性能。
4.2 实验结果
- 性能比较:
- 在多个数据集上,PECoP 的性能优于全模型微调和其他参数高效方法。
- 参数效率:
- 相较全模型微调,参数量减少了 90%以上,同时保持了竞争力性能。
4.3 消融实验
- 提示学习与低秩适配的效果:
- 动态提示和低秩适配模块的结合显著提升了模型的泛化能力。
- 持续预训练策略的影响:
- 持续引入新任务数据能有效缓解领域迁移中的遗忘问题。
5. 总结与未来工作
5.1 贡献
- 提出了针对 AQA 任务的参数高效持续预训练框架 PECoP。
- 通过动态提示和低秩适配模块,实现了迁移性能与参数效率的平衡。
5.2 局限性
- 持续预训练的收敛速度较慢,需进一步优化。
- 模型在复杂动作场景中的表现还有提升空间。
5.3 未来方向
- 探索更轻量化的提示机制。
- 将 PECoP 扩展至其他领域任务(如医学图像分析、行为识别)。