编者按:本文来自微信大众号“MEMS”(ID:MEMSensor),作者MEMS,原文标题《自动化地点视觉物体检测与辨认范畴获得系列发展》,36氪经授权发布,略有删减。
近来,中国科学院自动化研究所智能感知与核算研究中心研究员张兆翔,及其团队学习脑神经机制与视觉认知机理,在视觉物体检测模型与办法上获得一系列发展,共有5篇文章被 ICCV2019 选用,1篇文章被 NeurIPS2019 选用,1篇文章被 JMLR 期刊录入。本次侧重介绍依据三叉戟网络(Trident Networks)的物体检测。
物体检测是核算机视觉与模式辨认范畴的核心问题,一直以来遭到学术界与工业界的广泛重视。当时物体检测最大的难点,是怎么对场景中多种标准的物体进行有用表征,从而进行更为高效、更为精确的物体检测。
在二维透视成像中,近大远小是一个常见的现象,如图1所示。这一透视联系,协助人类视觉系统构成对三维空间的感知。但关于依据二维图画的视觉感知使命而言,近大远小会导致相同实在巨细的物体依据远近不同,因此在成像平面上构成不同标准的物体。这将对视觉感知使命提出应战。具体来说:(1)这会导致信息的衰减,二维图画捕获的信息随间隔二次衰减,因此30米外的物体在图片上或许只要15米外相同物体1/4的像素;(2)卷积神经网络具有限制性。因为卷积操作在二维平面上选用相同巨细的滑动窗口进行核算,同一卷积操作无法一起对标准差异较大的物体进行呼应。
图片来自:MEMS
针对传统卷积神经网络的限制,张兆翔及其团队初次提出 Trident 网络结构。首要经过不同膨胀系数的卷积支路完成对不同标准的物体的辨认,然后经过权重同享完成对不同标准相同物体的一致性描写。研究人员还提出了一种在测验阶段只需要一条卷积支路的快速 Trident 网络,快速 Trident 网络坚持了与传统检测器主干网络相同的核算量,大幅提高了该办法的实用性。
图片来自:MEMS
该 Trident 办法能够与不同根底网络结构结合,并在 COCO 数据集上获得大幅度提高。该文作为 Oral文章在 ICCV2019 宣布。