「对视频的智能理解是人工智能的最大战场」, 说出这一观点的上海交通大学教授倪冰冰坦言「这一说法, 不会有多少人有反对意见」。在近日召开的全球科技青年论坛上, 智能视频分析的专家倪冰冰表示「全世界每秒钟传到 Youtube 的视频要达到几千个小时, 即使使用现在流行的神经网络、深度学习技术, 加上高性能硬件设备, 计算时间之久也超乎想象。」
这一呼吁不无道理。人类每天接触到的『听说读写』信息里有 70% 是视觉信息。在中国, 爆炸式增长的视频时代正在来临:2017 年朋友圈日发表视频次数 6800 万, 较同期增长 22%; 日语音发布次数 60 亿次, 较同期增长 26%;音视频日通话次数 2.05 亿次, 同比增长 106%;2018 年 9 月短视频月度活跃用户数达 5.18 亿, 渗透率 46%;2018 年中国长视频用户已增长到 5.6 亿以上, 渗透率约 45%。
视频理解将作为人工智能的另一个典型应用技术被广泛使用。
视频理解具备广泛产业应用基础
「视频一直被视为计算机视觉里的暗物质。」人工智能科学家李飞飞曾如是说, 如此同时, 超大公司如 IBM、谷歌、Facebook 都为视频智能理解研究发布视频数据集。
事实上, 视频理解技术可成为基础应用技术之一, 亦可作为直接的产品驱动技术。
在全球应用市场, 视频理解技术正作为底层驱动技术之一, 如在被广泛讨论的辅助驾驶/自动驾驶方案中, 道路识别、障碍物识别等关键技术均基于视频理解技术等集成而成。
不仅如此, 随着全球安防、防恐预算的逐年增加, 视频理解技术作为直接的核心技术之一, 催生超万亿级增量市场, 在一秒内找出关键人已成为可能。
互联网是视频理解的最大应用场景, 诸如在线视频、短视频、直播领域已成为继安防后另一个直接驱动的超万亿市场, 并有可能产生针对 2C 商业化变现的可能。
视频理解应用的典型公司
识别智能理解技术的研发过程并不像描述起来这么简单, 其面临的技术挑战巨大。除了视频理解的数据体量, 视频的质量、视频内容中有效信息的数量也都是很大的技术难题。
美国社交媒体公司 Facebook 在最新一季分析师沟通会上透露, 视频识别已成为旗下视频在线产品、VR 产品的核心竞争力之一。
中国人工智能企业影谱科技近期推出视频识别 MCVS 框架, 视频识别已成为其在『在线视频』应用领域最大的竞争力之一。
二者代表了中美企业在『视频理解』方面的技术能力、应用范围。从技术的开放性能力、应用程度上看, 二者本质区别。
从数据量看:Facebook 的视频理解更擅长在旗下 Youtube、Instagram stories 的影像基础, 实现对两个平台上的视频结构化及标记, 为 Facebook 平台的自动化推荐及智能化应用打下基础。影谱科技则更擅长对多个在线视频网站的内容实现规模化的视频结构处理, 通过 MCVS 平台输出标准化后的视频大数据, 以实现跨平台的商业化应用, 为开放打下基础。
从应用范围看:Facebook 视频理解更多是『为己所用』的应用定位, 所有尝试场景均应用在自有产品上。与 Facebook 不同, 影谱科技的『人工智能化、开放性』则更为彻底:规模化实现对跨平台的非结构化视频进行自动化处理, 可输出标准化数据, 并可自动化实现在原有视频中随时再造一段「无违和感」原生内容。
更有趣的是, 影谱科技的视频理解技术 MCVS 可以自成独立产品, 而不仅是底层集合技术之一。
众所周知, 人工智能技术被产品化的难点在于:大规模商业化应用、客户购买基础、商业前景。
影谱科技的视频理解技术在 2016 年实现产品化, 推出的 MCVS 已成为中国在线视频大规模智能化的基础之一, 辅助在线视频网站、广电台打开商业化增量空间。其人工智能系统帮助播放器、视频网站、电视台、影像制作企业等理解每天诞生的数十亿的图像和视频, 及模仿视频中出现的动作, 以实现影像内容的自动化制作。
国家战略再确立 视频理解增量市场前景可期
据工信部最新发布的《新一代人工智能产业创新重点任务揭榜工作方案》指出, 智能网联汽车、智能服务机器人、智能无人机、医疗影像辅助诊断系统、视频图像识别系统等项产品将作为攻关方向。在这些领域, 产业创新活跃, 相关技术和产品具有较好发展基础, 通过「揭榜挂帅」进一步促进其深入应用落地。
视频图像识别系统广泛集成在智能网联汽车、智能服务机器人、智能无人机、医疗影像辅助诊断系统。『视频理解』是中国新一代人工智能产业创新的基础应用技术, 存在政策支持的基础。
视频识别具备广泛的应用前景:包括生物特征识别、视频理解、跨媒体融合等技术创新;人证合一、视频监控、图像搜索、视频摘要等典型应用。
作为中国视频识别系统深入应用落地的头部企业, 影谱科技有充足的技术及落地场景的准备。公司在 3D 重建、多模态、视频叠加、轨迹追踪等视频理解的集约技术领域具备多项专利, 已完成影像自动生成的深度布局及较大市场份额, 孵化在广泛应用场景里快速落地的行业基础。
视频识别的快速商业落地将是属于人工智能的另一个超万亿市场, 先行一步的公司显然将具备较大优势。