近日,腾讯优图团队在2015国际权威音频检索评测大赛MIREX中表现优异,在哼唱识别比赛中取得两个世界第一,两个世界第二的成绩。其中,在数据集IOACAS上,优图团队TOP10的命中率达到 88.86%,超过了包括搜狗、音乐雷达、清华大学、网易云音乐、台湾大学等在内的历届强队,刷新哼唱识别世界纪录。
(数据来源:MIREX,表中数字为检索命中率)
MIREX(全称Music Information Retrieval Evaluation eXchange)由美国伊利诺依大学厄本那-香槟分校(UIUC)国际音乐信息检索系统评估实验(ISMIRSEL)主办。凭借其评估平台的公正性和可信性,已成为每年中音乐信息检索领域的一件盛事。
腾讯优图团队仅用两年的时间,就成功刷新了MIREX大赛世界纪录,主要得益以下三方面的持续积累及创新探索。
1. 前沿理论为技术实现提供了基础。腾讯优图与厦门大学纪荣嵘团队在哼唱识别领域展开了深度合作,纪教授的多项科研理论注入优图哼唱搜索算法以及MIREX评测系统中,夯实了技术研发的理论基础。
2. QQ音乐为技术落地提供了场景。优图团队在技术攻坚的同时联合QQ音乐,共同促成了哼唱识别功能的落地,在QQ音乐上创新性地推出哼唱识别功能,填补了QQ音乐在哼唱识别上的空白。在此之前,即使是像听歌识曲这样的找歌神器,也需要用户靠近正在播放歌曲的设备(即外部声源)才可发起识别。哼唱识别功能在QQ音乐上的落地实现,打破了市场单一的原声识别,在音频搜索的产品中位居业界领先的行列。上线以来,用户反响热烈,更引起微博上用户的热烈讨论。而AppStore上很多用户因哼唱功能的推出而纷纷点赞。
3. 多源曲库建设为技术创新提供了数据源泉。哼唱识别和原音识别不同,不仅要识别用户唱的什么,还要兼容不同用户哼唱的差异,这是哼唱识别最大的难点之一。传统的方法都是使用MIDI数据构建检索库,成本高且效果欠佳,优图创新地提出了基于清唱数据和MIDI数据的多源曲库建设技术,同时结合多参考检索技术,极大地提升了效果并降低了成本,成功解决了这个难题。另外,优图针对用户哼唱的特点,合理裁剪哼唱片段,减小用户之间的差异性,也进一步地提升了识别成功率。
除了哼唱识别,优图音频团队在原声识别领域的表现也十分出众。依托QQ音乐千万级别的海量曲库,结合优图团队强大的技术实力,原声识别达到了97%的准确率,抗噪性能和抗时间扭曲性能优异。优图后台基于用户行为构建冷热歌曲分级架构,设计柔性服务策略,保障高负载下的系统搞可用性,提升服务质量。在每天的请求量高达数千万级别的情况下,成功率仍能保持在99.99%的服务高质量水平。
QQ音乐哼唱识别
优图音频团队不仅在音乐分析上有很多成果,在数字识别和声纹识别等领域也有建树。现今互联网金融热火朝天,远程核身是一个重要的问题,主流的解决方案都是通过人脸识别解决;但是人脸识别存在活体识别的难题,结合多种生物验证手段提高攻击门槛成为一条合适的道路。优图在人脸识别达到世界第一的基础上,进一步结合数字识别技术和声纹识别技术,从声音的角度来验证身份。优图利用密码的随机性和声音的独特性来提升活体检测的效果,将远程核身的安全性提升了一个数量级。优图音频技术和图像技术一起作为双保险,保障用户的体验和合法权益。