今日,由商汤科技SenseTime携手香港中文大学、亚马逊、南洋理工大学、悉尼大学联合举办的首届WIDER Face and Pedestrian Challenge 2018挑战赛圆满落幕。作为一项全新的全球顶级计算机视觉竞赛,挑战赛共吸引来自世界各国超过400支队伍报名。在竞赛组织、设计、数据选取等全过程中,商汤科技充分发挥产学研协同的优势,提出了诸多切合实际场景及产业应用需求的竞赛课题及规则,以全新的行业规范和标准,促进产业与学术界的交流,开拓计算机视觉研究的新发展方向。
制定全新标准数据集 促进高性能算法涌现
随着应用需求与场景的增多,人脸检测、行人检测及人物检测已成为计算机视觉研究中的热门项目。挑战赛聚焦这三大热点,设计了WIDER Face,WIDER Pedestrian及WIDER Person Search三项子任务,同时基于不断增加的复杂场景需求,启用了更加贴近真实场景的数据集,以提升竞赛的实用、创新及挑战性,进而促进计算机视觉领域人脸及行人检测高性能算法的涌现。
WIDER Face人脸检测数据集是人脸检测领域中的标准数据集。WIDER Face数据集于2016年由商汤-香港中文大学联合实验室搜集、标注并作为口头报告发布在当年的计算机视觉顶级会议CVPR大会上。在一年多时间里,WIDER Face已成为人脸检测领域广泛使用的标准数据集。相比较于之前的人脸检测数据集,WIDER Face数据集在数据难度,图片和标注数量上都有一个数量级的提升。
WIDER Pedestrian提供了专门用于行人检测的大规模数据集。考虑当前行人检测两大热门应用(监控和自动驾驶),选用监控摄像头和车载摄像机采集的图片,拍摄角度、行人尺度、光照等方面都具有很大不同,参赛者必须提出更加鲁棒和普适性的方法来应对不同场景。并且部分数据来自夜景拍摄,给检测带来更大难度。同时,相比其他的行人检测数据集,WIDER Pedestrian提供了行人和骑车人两种不同行人的标注具有更多的检测目标数和不同尺度的行人。检测目标的密集,更小尺度的行人和行人之间的遮挡等都给参赛者带来了更多挑战。
WIDER Person Search是一个新颖的从192部电影中检索人物的任务,需要根据演员的标准照,从一个大的数据库中将对应角色的实例全部检索出来。人物检索不但具有实用性,还非常具有挑战性。演员的标准照和他们在电影里的装扮往往是完全不同的。即使在同一部电影里演员的衣着和环境也会发生极大变化。此外电影里的还存在光线过暗、遮挡、动作模糊等各种增加识别难度的障碍。这个更具有挑战性的任务为人物搜索算法的未来发展提供了新的舞台。
全球400余队伍参赛 各项目前三脱颖而出
WIDER Face and Pedestrian Challenge挑战赛共吸引来自全球学术、产业界的432人/队报名参赛,收到73支队伍提交结果。参赛者来自中国、俄罗斯、日本、美国、澳大利亚等多个国家。参赛者隶属的机构既包括中科院计算所、微软亚洲研究院、北京大学、上海交通大学、中国科学院大学、中国科学技术大学、NtechLab、卡耐基梅隆大学、香港大学、香港理工大学、悉尼科技大学、日本中部大学、美国圣塔克拉拉大学、美国乔治城大学、伊利诺伊大学、慕尼黑理工大学等大学和研究机构,也有京东、雅虎、旷视、科大讯飞、滴滴等商业公司。
面对三个挑战性极高,同时颇具实用价值的子任务,参赛队伍们各展神通。WIDER Face人脸检测任务比赛的三支获奖队伍,均使用了深度学习技术来设计实现人脸检测算法,并且均使用或借鉴了特征金字塔的思想对主干网络的特征进行增强,并对初始匹配模板(anchor box)进行了分组和重设计。冠军队伍还使用了模型融合来取得更好的结果。
在WIDER Pedestrian监控和自动驾驶下的行人检测任务中,获胜者使用传统Faster RCNN方法,利用ResNet网络加金字塔结构(FPN)抽取并融合多层次语义特征。并通过在检测模块中添加级联网络(Cascade R-CNN),训练得到更好的检测框回归器(bounding box regression),采用RoI-Align代替Faster RCNN中的RoI-Pooling,帮助检测小尺度行人,使用注意力机制(channel-wise attention)处理遮挡问题。
在第三项子任务WIDER Person Search中,获奖队伍则都把任务拆分为两个阶段,第一个阶段做人脸识别,把人脸相似度非常高的加入到查询集(query expand)。第二阶段做行人重识别,利用身体特征处理人脸特征无法准确判断的待查询图片。最终综合人脸和人体的特征相似度得到排序结果。冠军和亚军都使用了杰卡德距离和欧式距离来进行排序。
作为挑战赛的联合主办方,商汤科技并未派队伍参与此次竞赛。挑战赛颁奖仪式将于今年9月ECCV 2018会议期间在德国慕尼黑举行,同时还将举办相关研讨会。此外,全体获奖者将被邀请共同撰写竞赛论文,并在ECCV2018研讨会上做报告。竞赛结束后,组织者仍会开放验证集的测试服务器供参赛者进行科学研究。
商汤科技秉承“坚持原创,让AI引领人类进步”的使命,一直以来专注于推动计算机视觉与深度学习技术的发展,不但拥有自主研发的原创深度学习平台Parrots和全球顶级超算中心,是亚洲最大的AI研发基地,同时以产学研协同创新的模式,借助在人脸识别、图像识别等技术领域丰富的应用落地经验,不断推动学术和工业界的紧密连接。通过举办WIDER Face and Pedestrian Challenge 2018挑战赛,商汤科技以多年研究积累与落地经验反哺学术,制定全新行业标准,引领产业与学术发展潮流,推动计算机视觉领域技术进步。
关于商汤科技:
商汤科技SenseTime是全球领先的人工智能平台公司,同时也是“全球最具价值的AI创新企业”。以20年人工智能科研技术为积淀,并以“坚持原创,让AI引领人类进步”为使命,商汤科技建立了全球顶级、自主研发的深度学习超算中心,是亚洲最大的AI研发基地;在人脸识别、图像识别、文本识别、医疗影像识别、视频分析、无人驾驶等技术领域的创新成果,支撑了十多个垂直行业的AI变革。
除了技术实力领跑行业,商业营收方面,商汤科技的市场占有率亦居多个垂直领域首位。目前,商汤科技已与国内外700多家知名高校、企业及机构建立合作,包括美国麻省理工学院、香港中文大学、Qualcomm、英伟达、本田、阿里巴巴、苏宁、中国移动、银联、万达、海航、华为、小米、OPPO、vivo、微博、科大讯飞、中央网信办等,涵盖智慧城市、智能手机、互娱广告、汽车、金融、零售等诸多行业,共同推动AI对各行业的技术升级,引领AI时代发展大潮。
2018年5月,商汤科技宣布完成6.2亿美元C+轮融资,总融资额超过16亿美元,估值超过45亿美金,继续保持全球总融资额最大、估值最高的人工智能独角兽地位。商汤科技现已在香港、北京、深圳、上海、成都、杭州、日本京都、东京和新加坡成立分部,汇集世界各地顶尖人才,合力打造一家世界一流的原创人工智能技术公司。中国“智”造,“慧”及全球。