·如视的专利密码:如何构建数字空间“护城河”·2025通信会丨以创新技术赋能新型电力系统 锐捷知识大脑推动效率提升·从技术到战场:华为云联创营破解AI落地“产业密码”·Aqara 语音伴侣 H1 正式发布:全屋妙控,一句就 AI 了·Social to Sales,助力品牌全球业务增长|数说故事十周年战略升级·赋能汽车新生态:神州数码、思科携手开展圆桌研讨会·AI落地真场景,共探增长新境|数说故事D3论坛圆满收官·文心快码3.5 全新升级:为百度创造40%新增代码,累计服务760万开发者·海南联通发布"双万兆"网络建设成果,联合华为构筑自贸港数字经济新基座·外卖实况窗更便捷,百亿补贴更优惠!速来体验鸿蒙版京东品质外卖·智能驾驶热潮下的安全觉醒:华为联合11家车企推动行业自律与技术升级·小米手机时隔十年再次登顶国内榜首,超越华为、OPPO、苹果·QQ 9.1.70新版本开启测试,可支持微信小程序·恭喜林更新成为高贵的E8玩家!海信百吋大屏让客厅秒变世俱杯赛场·首发骁龙8至尊领先版!电竞性能旗舰荣耀GT Pro正式发布,3199元起·7200mAh巨兽电池、骁龙8至尊芯、电竞级操控,荣耀GT Pro重新定义3000元档位的游戏规则·“小屏大魔王”一加13T正式发布 国补后售价2899元起·抖音生活服务2025年「心动榜」发布:“好吃”和“吃好”都重要·年轻人的假期续航包:把餐厅吃成“旅行试用装”·比旗舰还旗舰?刚爆料的这款高定电视,实在令人期待!·2025中国家庭全屋用水行业高峰论坛召开,华帝引领用水健康变革·BYDFi正式上线链上交易工具MoonX 开启CEX+DEX双引擎时代·百度有驾硬核亮相2025上海车展:用创新技术打通行业对话与用户服务·星环科技入选大模型应用交付供应商名录,领航AI产业新生态·苏宁易购深耕粤海市场,战略全面启动!·酷开教育智能体:以AI互动开启“学练思”一体化革命·荣耀 MagicBook Pro16 笔记本 HUNTER 版 4 月 30 日发布,搭载 RTX5070 显卡·真我GT7正式发布,2599元起,搭载3nm天玑9400+·YOUMAGIC溯源活动圆满落幕,揭秘清华智造科技美学新范式·当西湖醋鱼遇见奥斯卡影帝:一场厨房里的中美烹饪文化外交
您现在的位置:首页 >> 新•资讯 >> 正文
阿里妈妈图像识别刷新世界最好成绩,一年屏蔽4600万恶意推广
发表时间:2016年6月1日 09:09 来源:新科技 责任编辑:编 辑:渝文成都

日前,阿里妈妈图像团队的OCR(图中文字识别)技术刷新了ICDAR Robust Reading竞赛数据集的全球最好成绩,并大幅超越第二名。Robust Reading竞赛是当前OCR技术领域全球最具影响力的比赛。这也是继阿里巴巴图像搜索领军人物华先胜获得ACM(美国计算机协会)“杰出科学家”称号之后,阿里的图像识别技术再一次登上国际顶尖舞台。

图. ICDAR Robust Reading Challenge 1 end-to-end官方成绩

借助这一领先的OCR技术,阿里妈妈图像团队能够以95%的超高准确率识别图中违规文字信息,有效过滤商家恶意推广,维护消费者权益。2015年,阿里妈妈累计屏蔽了4600万条恶意推广。

OCR是计算机视觉领域的经典问题,长久以来,一直受到学术界和工业界的持续关注。在工业界,Google、Microsoft、Amazon等大型互联网公司,以及商汤科技、旷视科技(拥有Face++、Image++)等计算机视觉技术创业公司,都在OCR技术上耕耘多年。随着技术不断成熟,OCR也开始在互联网及其他行业逐步上线使用。

据阿里妈妈定向算法技术负责人盖坤介绍,在阿里巴巴平台上营销创意、商品等均是以图片形式展示,图像技术是理解这些信息的重要手段。同时,也有不良商家在图片中内嵌一些违规的信息达到其恶意推广的目的,图片内文字违规是比例相当大的一类,而传统监控手段多以人工肉眼来审核,费时费力,尤其是随着图片数量越来越大,这几乎已成为不可完成的任务。针对这一强烈需求,从2014年开始,阿里妈妈图像团队开始重点攻坚OCR技术,通过机器视觉的方式从图片中识别出文字,从而鉴别出违规的文案信息。

对恶意推广的定义,盖坤表示,一方面依据国家相关法律法规,对于违禁品、色情信息、封建迷信、假冒伪劣、减肥丰胸、夸大虚假等违规类型进行不同程度的处罚和管理,另一方面在法规之外平台有着更高要求,对损害消费者利益或进行不正当竞争的推广类型积极尝试进行管控。其中,与消费者关系最为密切的假冒伪劣单项违规类型,被阿里妈妈作为重点审查对象。

相对其他限定场景OCR应用相比,阿里妈妈要处理的创意图片和商品图片上的文字字体、色彩更加多样,文字布局更加灵活,背景包括各种商品、布景或自然场景,蕴含各种复杂纹理,给识别问题带来了更大的挑战。盖坤介绍,在技术路线上,相比于传统方法,抛弃了图像预处理、字符分割等流程,采用了多个深度神经网络和语言模型相结合的方法来组成完整的OCR系统。针对复杂的场景信息,将LSTM(长短时记忆)技术成功应用到建模中去,大大提高识别的准确率。

据悉,现在基于OCR文字识别实时审核已覆盖整个阿里妈妈业务,每天处理图片近千万张,自动反馈疑似违规图片准确率达95%以上;同时将图文审核风险发现时间从“天”降低到“秒”级。数据显示,2015年阿里妈妈累计屏蔽了4600万条恶意推广,有效净化了互联网营销环境。

除OCR过滤恶意推广以外,计算机视觉技术在阿里巴巴集团内部已经获得广泛使用,比如手淘的“拍立淘”产品,通过手机拍照即可搜索相似商品,2015年双11当天,千万消费者使用了“拍立淘”功能,创造了超过数千万元的销售额。另外,在商品图片版权保护、鉴黄等场景也都引入了计算机视觉技术。

相关文章
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备15027068号】
Copyright © 2015 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。