400-661-9188
028-83319389

技术创新 | 行家说行话|融合全局信息的动作视频段提取方法

发布时间:2021-08-06

随着各类拍摄设备和网络的普及,“视频”已成为人们日常生活中满足信息获取需求的重要来源。对于娱乐需求,人们可以自主提取视频段中的信息要素,从而获得“新闻点”。



001

(网图侵删)



但对于城市监管需求,在过去漫长的实际应用中所面临的最大问题,就是必须由人工查看视频。很多时候,一个监控室中需要多名安保人员7*24h紧盯视频流才能发现非法闯入行为,高科技成果要仰仗人海战术才能产生价值。


002

(网图侵删)



因此,能否运用如今被广泛应用的深度学习技术对视频进行恰当地分析处理,剔除无关信息,对保留关键事件信息至关重要。

目前对于“提取包含动作的视频段”这个任务来说,主要有两类基于深度学习的方法,即anchor-base类方法和anchor-free类方法(这里的anchor指的是为了解决检测目标尺度和长宽比变化范围大而设立的预定义边框)。

Anchor-base类处理方法借鉴了目标检测领域,将原先目标检测中对空间信息的建模,替换成对该任务中的时序信息的建模。与之相对的是anchor-free:此类处理方法抛弃了anchor的使用,而是直接预测视频中不同时间点的类别:主要包含开始、结束、动作三类。

然而,现有的这两类方法在预测的过程中没有充分利用全局信息,缺乏对于视频整体的理解,这会导致预测过程中出现一些违反常识的结果,进而降低了模型的性能。基于此,考拉悠然科技提出了一种融合全局信息的动作视频段提取方法。利用该方法训练得到的模型能够在预测动作视频段的过程中,通过引入全局信息来对有效视频段的产生进行指导,进而通过对视频整体的理解,在预测过程中将视频中不同视频段之间的关系考虑进去,最终大大避免反常识预测的产生。


003

(整体网络结构框架图)



具体而言,该方法的应用可分为如下几步:
1.首先从原始视频中提取包含视频段的视觉特征并将其组成视频特征序列;
2.随后利用时序卷积对提取的视频特征序列进行卷积操作,基于输出的视觉特征序列生成视频段的二维视频段特征,并进行视频段的动作预测以及开始和结束时间节点的预测;
3.最后融合视频段的动作预测结果以及开始时间节点和结束时间节点预测结果,以此产生最终的预测结果。

通过上述融合全局信息的动作视频段提取方法,我们在动作视频段提取过程中引入全局特征,将全局信息引入到两个分支当中,在预测的过程中,能够在一定程度上考虑到特征的整体分布结构,使预测结果更加准确。

对于视频开始节点和结束节点的预测来说,仅仅利用局部信息,会忽略整体视频的结构,而没有考虑到视频节点之间的相互关系。引入全局信息,是对视频整体结构的理解的一个增强。同样,对于所有视频段构成的二维矩阵来说,每一个位置都对应着一个可能的视频段,这些视频段并不是不相关的,相反,这些视频之间包含着各种各样的关系(例如包含、相邻等)。利用全局信息,可以使得最终的预测结果充分考虑各个视频之间的关系,不会出现一些违反常识的预测结果,从而提高预测结果。

基于此,考拉悠然科技研发团队所开发的例如斗殴检测、攀爬检测、徘徊检测、玩手机检测等各个场景下的行为动作识别算法,都可从视频的全局信息中获取辅助信息,有效降低视频中行为动作误检和漏检的概率。在未来,考拉悠然科技还将继续探索深耕,开发出更多场景下的视频分析能力。

相关文章

推荐阅读

行业洞察 | AI行业洞见 | 国内首台 考拉悠然Micro LED检测设备破局高端屏显困境

在微米级的世界里,每一毫厘的完美都凝聚着科技的极致探索。当Micro LED技术引领显示革命,是谁在幕后点亮了这场视觉盛宴的璀璨之光?

2024-12-10

公司动态 | 从科学梦到新蓝海,考拉悠然科技发布《2020年度 成都高新区人工智能产业发展蓝皮书》

四川省目前拥有600多家人工智能相关企业,2020年前三季度人工智能核心企业产业的规模已达300亿元,带动关联产业规模超2000亿元。

四川省目前拥有600多家人工智能相关企业,2020年前三

2020-11-23

公司动态 | 考拉悠然成功入选“智慧城市领域物联感知与AI应用优秀解决方案”

12月10日,首届中国联通智慧城市领域物联感知与AI应用优秀案例发布交流大会在河南郑州举行,大会由中国联通智慧城市军团联合联通数字科技有限公司物联网事业部、物联中国团体组织联席会共同主办。此次大会旨在深入贯彻落实国家全域数字化转型战略,推动物联网及人工智能技术在智慧城市领域的创新应用与发展。

2024-12-11

Hi,我是考拉悠悠

AI定义新美好

探索无限可能从这里开始