400-661-9188
028-83319389

技术创新 | 行家说行话|融合全局信息的动作视频段提取方法

发布时间:2021-08-06

随着各类拍摄设备和网络的普及,“视频”已成为人们日常生活中满足信息获取需求的重要来源。对于娱乐需求,人们可以自主提取视频段中的信息要素,从而获得“新闻点”。



001

(网图侵删)



但对于城市监管需求,在过去漫长的实际应用中所面临的最大问题,就是必须由人工查看视频。很多时候,一个监控室中需要多名安保人员7*24h紧盯视频流才能发现非法闯入行为,高科技成果要仰仗人海战术才能产生价值。


002

(网图侵删)



因此,能否运用如今被广泛应用的深度学习技术对视频进行恰当地分析处理,剔除无关信息,对保留关键事件信息至关重要。

目前对于“提取包含动作的视频段”这个任务来说,主要有两类基于深度学习的方法,即anchor-base类方法和anchor-free类方法(这里的anchor指的是为了解决检测目标尺度和长宽比变化范围大而设立的预定义边框)。

Anchor-base类处理方法借鉴了目标检测领域,将原先目标检测中对空间信息的建模,替换成对该任务中的时序信息的建模。与之相对的是anchor-free:此类处理方法抛弃了anchor的使用,而是直接预测视频中不同时间点的类别:主要包含开始、结束、动作三类。

然而,现有的这两类方法在预测的过程中没有充分利用全局信息,缺乏对于视频整体的理解,这会导致预测过程中出现一些违反常识的结果,进而降低了模型的性能。基于此,考拉悠然科技提出了一种融合全局信息的动作视频段提取方法。利用该方法训练得到的模型能够在预测动作视频段的过程中,通过引入全局信息来对有效视频段的产生进行指导,进而通过对视频整体的理解,在预测过程中将视频中不同视频段之间的关系考虑进去,最终大大避免反常识预测的产生。


003

(整体网络结构框架图)



具体而言,该方法的应用可分为如下几步:
1.首先从原始视频中提取包含视频段的视觉特征并将其组成视频特征序列;
2.随后利用时序卷积对提取的视频特征序列进行卷积操作,基于输出的视觉特征序列生成视频段的二维视频段特征,并进行视频段的动作预测以及开始和结束时间节点的预测;
3.最后融合视频段的动作预测结果以及开始时间节点和结束时间节点预测结果,以此产生最终的预测结果。

通过上述融合全局信息的动作视频段提取方法,我们在动作视频段提取过程中引入全局特征,将全局信息引入到两个分支当中,在预测的过程中,能够在一定程度上考虑到特征的整体分布结构,使预测结果更加准确。

对于视频开始节点和结束节点的预测来说,仅仅利用局部信息,会忽略整体视频的结构,而没有考虑到视频节点之间的相互关系。引入全局信息,是对视频整体结构的理解的一个增强。同样,对于所有视频段构成的二维矩阵来说,每一个位置都对应着一个可能的视频段,这些视频段并不是不相关的,相反,这些视频之间包含着各种各样的关系(例如包含、相邻等)。利用全局信息,可以使得最终的预测结果充分考虑各个视频之间的关系,不会出现一些违反常识的预测结果,从而提高预测结果。

基于此,考拉悠然科技研发团队所开发的例如斗殴检测、攀爬检测、徘徊检测、玩手机检测等各个场景下的行为动作识别算法,都可从视频的全局信息中获取辅助信息,有效降低视频中行为动作误检和漏检的概率。在未来,考拉悠然科技还将继续探索深耕,开发出更多场景下的视频分析能力。

相关文章

推荐阅读

公司动态 | 不负认可,砥砺前行!一封来自西南科技大学的感谢信

近日,考拉悠然收到来自西南科技大学的感谢信,对 “西南科技大学智慧校园一卡通系统”项目中呈现的高效、专业的技术和交付能力表示肯定,对公司领导、全体项目人员表示衷心的感谢。

2022-03-22

公司动态 | 新年启航 | 考拉悠然2024大事记!

国家科技服务业规上企业 国家科技型中小企业 赛迪研究院全国多模态大模型最具投资价值企业榜单排名前五 四川省企业技术中心 成都市中小企业数字化转型服务商 成都市人工智能生态企业榜 中国联通首届智慧城市领域物联感知与AI应用优秀解决方案 2024中国工业视觉服务商TOP10 2024年度高新区人工智能产业应用标杆企业 成都优秀大模型应用场景企业

2025-01-01

公司动态 | 考拉悠然亮相央视!新技术催生新场景,开启空间智能新时代

人勤春来早,开工干劲足。2月17日央视新闻频道(CCTV13)《朝闻天下》栏目特别关注成都人工智能产业加速发展的成果,展现新技术催生新场景的勃勃生机。其中报道走进了成都考拉悠然科技有限公司。

2025-02-17

Hi,我是考拉悠悠

AI定义新美好

探索无限可能从这里开始