腾讯优图在国际权威数据集Pascal VOC2012 物体分类比赛中刷新世界记录
腾讯旗下的图像技术团队——优图团队,近日联合中科院自动化所在计算机视觉领域的国际权威数据集——Pascal Voc 2012 的Object Classification挑战中,以平均总分第一及六大单项第一的成绩打败了来自各国的顶尖团队。这标志着腾讯优图团队在物体检测与分类领域的技术水平已达到了世界前列。
Pascal VOC2012 是国际权威物体分类挑战赛,其作为视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。从2005年至今,该组织每年都会提供一系列类别的、带标签的图片,挑战者通过设计各种精妙的算法,仅根据分析图片内容来将其分类,最终通过准确率、召回率来一决高下。如今,挑战赛和其所使用的数据集已经成为了对象检测领域普遍接受的一种标准,每年都会吸引大批来自领域内知名高校与团队如VGG,NUS,UC Berkeley,Google等的积极参与。
(上图展示了优图模型对物体的位置和种类的预测信息)
此次腾讯优图团队参加Pascal VOC2012,力压多国顶尖图像团队取得世界第一的成绩,其背后离不开两大技术的创新。
一是上下文特征与物体特征的融合技术(Fusion Of Context Feature and Object Feature)。优图团队从实际生活场景出发,意识到物体的“上下文环境“对最终的物体识别具有一定的辅助价值。因为物体通常不会独立的存在,与周遭的环境存在着一定的依存关系,比如,杯子一般都会放在桌子上,沙发一般出现在房间里,而轮船很难出现在街道上。据此优图团队提出了创新方案:分别建立了两套特征表达的模型,上下文模型与物体的识别模型,分别提取特征后进行融合,并训练分类器输出最终结果。结果表明,结合后比结合前在MAP上提升了约3个百分点。
二是大规模卷积神经深度网络提升特征表达能力。近些年的研究与实践表明,训练出足够深的网络极大有助于维持物体在不同尺度、视角变化下特征表达的鲁棒性与鉴别性。优图团队基于早前在大规模图像数据集训练的深度卷积神经网络模型(在ImageNet分类上达到Top5 error 6%的效果)对目标进行了多尺度特征抽取,在准确率上相较于传统的特征如Sift、Hog等有显著的改善。
作为腾讯旗下的图像技术团队,优图团队一直在各大图像处理世界大赛中率拔头筹。这也让人们对腾讯探索生活场景下的图像应用的可能性充满了想象。比如此次Pascal VOC2012所测试的物体检测与分类技术,是计算机视觉、模式识别、机器学习中非常活跃的研究方向。在监控安防,互联网等领域具备广阔的应用前景。除此之外,腾讯优图的人脸识别技术在2014年就已经在世界权威人脸检测评测集FDDB上达到世界第一水平,人脸识别LFW数据集准确率超过了99.5%。这项优势也反映在腾讯与微众银行对金融、证券等业务进行人脸识别的应用尝试。而今年初总理访问腾讯微众银行时,腾讯的人脸识别技术也正式登场亮相。