随着各类拍摄设备和网络的普及,“视频”已成为人们日常生活中满足信息获取需求的重要来源。对于娱乐需求,人们可以自主提取视频段中的信息要素,从而获得“新闻点”。
(网图侵删)
但对于城市监管需求,在过去漫长的实际应用中所面临的最大问题,就是必须由人工查看视频。很多时候,一个监控室中需要多名安保人员7*24h紧盯视频流才能发现非法闯入行为,高科技成果要仰仗人海战术才能产生价值。
(网图侵删)
因此,能否运用如今被广泛应用的深度学习技术对视频进行恰当地分析处理,剔除无关信息,对保留关键事件信息至关重要。
目前对于“提取包含动作的视频段”这个任务来说,主要有两类基于深度学习的方法,即anchor-base类方法和anchor-free类方法(这里的anchor指的是为了解决检测目标尺度和长宽比变化范围大而设立的预定义边框)。
Anchor-base类处理方法借鉴了目标检测领域,将原先目标检测中对空间信息的建模,替换成对该任务中的时序信息的建模。与之相对的是anchor-free:此类处理方法抛弃了anchor的使用,而是直接预测视频中不同时间点的类别:主要包含开始、结束、动作三类。
然而,现有的这两类方法在预测的过程中没有充分利用全局信息,缺乏对于视频整体的理解,这会导致预测过程中出现一些违反常识的结果,进而降低了模型的性能。基于此,考拉悠然科技提出了一种融合全局信息的动作视频段提取方法。利用该方法训练得到的模型能够在预测动作视频段的过程中,通过引入全局信息来对有效视频段的产生进行指导,进而通过对视频整体的理解,在预测过程中将视频中不同视频段之间的关系考虑进去,最终大大避免反常识预测的产生。
(整体网络结构框架图)
具体而言,该方法的应用可分为如下几步:
1.首先从原始视频中提取包含视频段的视觉特征并将其组成视频特征序列;
2.随后利用时序卷积对提取的视频特征序列进行卷积操作,基于输出的视觉特征序列生成视频段的二维视频段特征,并进行视频段的动作预测以及开始和结束时间节点的预测;
3.最后融合视频段的动作预测结果以及开始时间节点和结束时间节点预测结果,以此产生最终的预测结果。
通过上述融合全局信息的动作视频段提取方法,我们在动作视频段提取过程中引入全局特征,将全局信息引入到两个分支当中,在预测的过程中,能够在一定程度上考虑到特征的整体分布结构,使预测结果更加准确。
对于视频开始节点和结束节点的预测来说,仅仅利用局部信息,会忽略整体视频的结构,而没有考虑到视频节点之间的相互关系。引入全局信息,是对视频整体结构的理解的一个增强。同样,对于所有视频段构成的二维矩阵来说,每一个位置都对应着一个可能的视频段,这些视频段并不是不相关的,相反,这些视频之间包含着各种各样的关系(例如包含、相邻等)。利用全局信息,可以使得最终的预测结果充分考虑各个视频之间的关系,不会出现一些违反常识的预测结果,从而提高预测结果。
基于此,考拉悠然科技研发团队所开发的例如斗殴检测、攀爬检测、徘徊检测、玩手机检测等各个场景下的行为动作识别算法,都可从视频的全局信息中获取辅助信息,有效降低视频中行为动作误检和漏检的概率。在未来,考拉悠然科技还将继续探索深耕,开发出更多场景下的视频分析能力。