大多数人接触到的“语义”一词,仅在于文字或语音识别领域,即经过训练后的机器能够识别人类发出的消息或简短的语音,进而给予适当的反馈。实际上,在图像领域,也同样存在“语义”——计算机根据语义内容对图像进行分割,进而识别出图像内容。
以下图为例,一只猫在植物背景中的照片,在机器经过判断后,即可生成右侧图,红色标注为猫,绿色是植物(黑色表示back ground)。作为计算机视觉领域的一个重要课题,语义分割在自主驾驶、医学图像分析、地理信息系统等领域有着广泛的应用空间。
语义分割是对每一个像素点进行分类,因此需要逐像素类别标注。为了降低标注成本,许多研究人员尝试用弱监督的方式(例如图像分类标签)来指导网络训练。当前,大多数基于图像分类标签的弱监督语义分割方法都是通过训练一个分类网络,然后借助类激活特征图对目标进行定位,从而为训练分割模型提供像素级标签。
然而,从分类网络所获得激活图稀疏且不完整,只能定位物体中最具辨别力的部分。于是,最近的一些工作通过扩大激活区域来获得完整的目标对象。但现有工作主要集中于研究如何扩大显著区域的类激活范围,利用显著图来提取背景,却忽略了对显著区域外目标的对象挖掘。
基于此,考拉悠然科技提出了一种基于非显著区域对象挖掘的弱监督语义分割方法。通过引入一个基于图的全局推理单元来帮助分类网络捕获不连续和远距离区域之间的全局关系,从而增强网络激活散布在角落或图像边缘附近的目标对象的能力。通过潜在对象挖掘和非显著区域掩码操作,提高生成的像素级标签的质量,进而借助分割网络的自我校正能力来挖掘显著区域以外的目标对象。
具体而言,该方法可分为如下几步:
1.首先利用带有图像级标签的数据训练分类网络,借助基于图的全局推理单元进一步激活显著区域外的特征,提取原始类激活特征图和在线累积类激活特征图;
2.随后利用显著图为在线累积类激活特征图提供背景线索,并借助原始类激活特征图挖掘潜在对象,生成像素级伪标签训练分割网络;
3.然后利用分割网络的预测和伪标签,通过非显著区域掩码模块生成掩码伪标签,训练最终的分割网络。
通过上述基于非显著区域对象挖掘的弱监督语义分割方法,我们在训练分类网络的过程中引入全局推理单元捕获不连续和远距离区域之间的全局关系,有助于更好地激活非显著区域的目标特征,从而促进潜在目标对象的挖掘,生成高质量的像素级伪标签。
结合分割网络的预测和伪标签各自的优势,生成非显著区域掩码伪标签,可以在保留已分割出目标对象的边缘信息的情况下,减少显著区域外目标对象的错误标签,从而帮助分割网络发现显著区域外的目标对象。
通过非显著区域对象挖掘,我们的方法可以避免位于图片的角落和边缘附近的目标的漏分割,极大程度上提升模型的分割精度。
基于此,考拉悠然科技研发团队所开发的例如场景分割、实例分割、车辆检测等各个场景下的图像分割与检测算法,都可从图像的全局信息中获取非显著目标的信息,有效降低图片中目标对象漏分割和漏检的概率。在未来,考拉悠然科技还将持续探索深耕,开发出更多场景下的图片分析能力。
(考拉悠然场景分割算法)
(考拉悠然场景分割算法)