为了推动人物识别在视频智能分析产业中的广泛应用,爱奇艺联合中国模式识别与计算机视觉大会(PRCV2018)共同发起“多模态视频人物识别挑战赛”。近日该赛事公布了最终结果: InfiniVision&帝国理工学院iBUG(DeepInsight)团队、百度VAR团队、以及周同科技与北京工业大学组成的团队分获前三名。此次获奖的三支团队通过不同的算法,提升了人物识别技术的精准度。在人脸识别领域具备国际领先水平,曾在MegaFace2018百万人脸识别领域比赛中获得第一名的 InfiniVision&帝国理工学院iBUG(DeepInsight)团队以MAP平均精度均值88.65%的优异成绩在本次比赛中再次折桂。赛后,爱奇艺在此基础上成功利用头部、声音、人体等多模态特征融合信息和更少的模型,进一步将精准度提高了0.8%,在视频人物身份识别技术上取得了重要突破。此次竞赛的颁奖仪式将在11月23日中国模式识别与计算机视觉大会2018(PRCV2018)上进行。
基于人脸、声纹、姿态、场景等多模态特征的人物识别技术属于AI领域中前沿的技术。目前在人脸识别领域最热门的评测竞赛包括LFW与MegaFace,前者侧重于对比两张人脸照片是否具有相同身份,后者则是以在海量注册人脸中检索特定人脸的准确率为重要指标。而此次爱奇艺推出“多模态视频人物识别挑战赛”则是侧重基于人物的声音、体态、着装、行为举止等多维度进行综合识别,更接近真实场景的需求,难度更大。为此,爱奇艺向全球的参赛团队开放了目前全球最大的明星视频数据集(iQIYI-VID),其中包含5000位明星艺人,以及长达1000小时、50万条视频片段。此举吸引了包括纽约大学、瑞典隆德大学、新加坡国立大学、东京工业大学、百度公司、小米公司、微软等全球顶尖高校以及行业领先的公司组成的397支参赛队伍参与。
此次获奖的InfiniVision&帝国理工学院iBUG(DeepInsight)团队利用one-stage人脸及关键点检测器来进行多姿态人脸检测和对齐,并且利用ArcFace/Insightface在清洗后的公共数据集上进行训练, 微调参数获得了多个人脸识别模型,对特征融合后获得的视频人脸及场景特征进行MLP网络的训练,提升了人物识别技术的精准度与召回率。百度VAR团队通过对损失函数、训练流程的改进,以及结合一些非监督的数据清理方式,检测到低质量的人脸(模糊、侧脸),增加了多模态的信息,利用了视频中场景、行人等信息,使得最后的检索结果有了进一步的提升。在提升检测结果方面,周同科技与北京工业大学组成的团队却采用了完全不同的方法,他们基于视频人物人脸特征、人脸质量、近景远景视频场景特征,挖掘多模态信息间的相关性,构建基于规则分层的多模态融合算法,有效提升了人物搜索的排名。
AI已经成为在线视频领域的新赛道。基于在这个领域的长期积累,爱奇艺已经将视频识别技术应用于实际业务中,上线了一系列基于AI技术的产品,人物识别精准度的提升将进一步优化爱奇艺娱乐生态系统的方方面面:爱创媒资系统、艺汇智能选角系统等已经应用于自制内容的制作,将会进一步优化娱乐生态系统的效率; 基于智能人物识别的“只看TA”、以图搜剧等功能可更精确地捕捉视频画面,为用户带来更为个性化的观看体验; 智能化广告点位选取,更在保证用户体验的基础上,最大化广告主的收益,进而增强爱奇艺的货币化能力。
举办AI竞赛是爱奇艺推动行业技术进步的重要举措。爱奇艺旨在不断通过产学研合作,不断探索前沿技术,实现前沿技术的落地与应用,不断为用户带来极致体验、优化娱乐生态系统效率以及增强爱奇艺的货币化能力。爱奇艺近期发布的2018年Q3财报显示,本季度爱奇艺研发费用为人民币5.584亿元(约合8130万美元),较2017年同期增加63%,目前,各项尖端技术正在应用于更好地提升用户体验和制作、分发内容。未来,爱奇艺将不断通过前沿技术推进娱乐行业的智能化进程。