软件所在时间戳监督下视频时序动作分割方面取得进展

文章来源:  |  发布时间:2023-04-27  |  【打印】 【关闭

  

   近日,软件所天基综合信息系统重点实验室研究团队的论文Timestamp-Supervised Action Segmentation from the Perspective of Clustering被人工智能领域顶级学术会议International Joint Conference on Artificial Intelligence(IJCAI)接收,第一作者为硕士生杜大钊,通讯作者为徐帆江研究员。论文就时间戳监督下的视频时序动作分割任务,提出了一种全新的基于特征聚类的动作分割框架TSASPC,包括伪标签集成和迭代聚类算法。该框架直接建模靠近动作边界的动作语义模糊区间,避免了其对训练过程的负面影响。相比于其他动作分割算法,TSASPC框架在多个公开数据集上有着显著的动作分割性能提升。 

  视频时序动作分割旨在将包含多个动作的长视频分割为若干个动作段,是视频理解领域中的重要任务。由于全监督下获取长视频逐帧标注的成本很高,研究团队希望寻求弱监督下的解决方法。新兴的弱监督方法之一是时间戳监督下的算法,它通常采用的做法仅为训练视频中每个动作段随机标注一帧,然后根据视频帧的视觉特征为每帧都生成伪标签,形成完整的伪标签序列来训练分割模型。然而,处于动作变化区域的帧的动作语义信息一般不够明确(研究团队将这部分区域称为“语义模糊区间”),在语义模糊区间内,时间戳监督算法为视频帧赋予低质量的伪标签会误导模型训练、影响训练过程。 

  研究团队为解决上述问题,显式建模语义模糊区间,设计了一个新的时间戳监督时序动作分割框架TSASPC,将每个动作段视为一个类簇,将动作分割视为一个特殊的聚类问题。该框架由两个主要算法组成,分别是伪标签集成和迭代聚类。伪标签集成算法综合三种时域聚类算法生成伪标签的结果,得到带有未标注区间的伪标签序列,即包含语义模糊区间的伪标签序列。迭代聚类算法以伪标签集成算法生成的伪标签序列为初始化,通过特征聚类迭代地为语义模糊区间的帧生成伪标签。此过程缩小了语义模糊区间,并能利用不断更新的伪标签序列训练分割模型。研究团队还通过在训练过程中引入聚类损失,提高了学习获取特征的质量。 

  研究团队将设计的TSASPC框架与多种不同监督设置下的动作分割算法在GTEA50SaladsBreakfast三个重要数据集上进行了对比。结果表明,TSASPC框架在衡量分割性能的多个指标上均有提升,例如 F1分数指标、编辑距离指标和分割准确率指标。TSASPC框架甚至在Breakfast数据集上超过了全监督方法的分割性能。团队还通过大量的消融实验说明了伪标签集成和迭代聚类算法的作用,并证明了所提出框架的合理性。

基于特征聚类的时间戳监督动作分割框架TSASPC的流程图