PECoP动作质量评估的参数预训练

发表于 2024-11-24 分类于 AQA 阅读次数：

基于参数预训练的AQA

阅读笔记：PECoP: Parameter Efficient Continual Pretraining for Action Quality Assessment

1. 引言

1.1 背景

动作质量评估（AQA）：
- AQA 任务需要评估视频中动作的细节和质量，广泛应用于体育比赛评分、医疗动作评估等领域。
- 其与动作分类任务的核心区别在于，AQA 更关注动作细节和流畅性，而不仅仅是类别判断。
现有方法的挑战：
- 迁移学习局限性：
  - 通常采用基于动作分类模型的迁移学习方法，但预训练任务与目标任务（AQA）之间存在领域差异，导致迁移效果有限。
- 算力和存储需求：
  - 全模型微调对计算资源和存储要求较高，尤其在资源受限的场景中难以部署。
研究目标：
- 提出一种参数高效的持续预训练方法，在参数量有限的情况下提高迁移性能，适配 AQA 任务。

1.2 创新点

参数高效性：
- 通过仅对少量参数进行优化，实现高效的迁移学习。
持续预训练：
- 提出一种动态策略，将模型的预训练与下游任务训练紧密结合，使模型适应新的领域分布。

2. 相关工作

2.1 动作质量评估方法

传统方法：
- 通常基于手工设计的特征提取器（如 SIFT、HOG），精度较低且不适应多样化场景。
深度学习方法：
- 利用 CNN 和 Transformer 模型提取视频特征。
- 问题：大多依赖大规模预训练，且适应 AQA 任务的泛化性能有限。

2.2 参数高效学习

低秩分解和权重共享：
- 通过分解模型权重矩阵或共享模块参数，减少训练所需的参数量。
提示学习（Prompting）：
- 增加少量的任务提示参数，而非调整整个模型。
- 常用于 NLP 任务，在视觉领域的应用较少。

2.3 持续学习

主要方法：
- 基于记忆回放（Memory Replay）和参数正则化。
在迁移学习中的应用：
- 持续学习可缓解领域迁移中的遗忘问题，但需要设计适合 AQA 的策略。

3. 方法

3.1 模型架构

主干网络：
- 选择了轻量化的 Transformer 架构，便于集成额外的参数高效模块。
PECoP 模块：
- 核心组件包括可学习的参数化模块，仅对特定层进行调整，减少整体参数开销。

3.2 参数高效模块设计

动态任务提示：
- 根据输入视频的领域特征，动态调整提示参数，提升迁移性能。
低秩适配（LoRA）：
- 在模型权重中加入低秩矩阵，以最小的参数变化实现域适配。

3.3 持续预训练策略

阶段性更新：
- 持续预训练分为多个阶段，每阶段逐步引入新任务数据以强化模型泛化能力。
正则化与回放：
- 采用基于正则化的防遗忘策略，同时对关键样本进行回放，确保模型对旧任务的记忆。

4. 实验与分析

4.1 数据集与实验设置

数据集：
- 在公开的 AQA 数据集上验证模型，包括 MTL-AQA 和 FineGym。
实验设置：
- 与全模型微调方法进行对比，重点考察 PECoP 的参数效率和迁移性能。

4.2 实验结果

性能比较：
- 在多个数据集上，PECoP 的性能优于全模型微调和其他参数高效方法。
参数效率：
- 相较全模型微调，参数量减少了 90%以上，同时保持了竞争力性能。

4.3 消融实验

提示学习与低秩适配的效果：
- 动态提示和低秩适配模块的结合显著提升了模型的泛化能力。
持续预训练策略的影响：
- 持续引入新任务数据能有效缓解领域迁移中的遗忘问题。

5. 总结与未来工作

5.1 贡献

提出了针对 AQA 任务的参数高效持续预训练框架 PECoP。
通过动态提示和低秩适配模块，实现了迁移性能与参数效率的平衡。

5.2 局限性

持续预训练的收敛速度较慢，需进一步优化。
模型在复杂动作场景中的表现还有提升空间。

5.3 未来方向

探索更轻量化的提示机制。
将 PECoP 扩展至其他领域任务（如医学图像分析、行为识别）。

0%