专访虎牙技术负责人揭秘不挡脸的AI弹幕是怎样炼成的--互联网 -- 新科技

专访虎牙技术负责人揭秘不挡脸的AI弹幕是怎样炼成的

发表时间：2018年11月14日 09:09 来源：飞象网责任编辑：麒麟

时至今日，我们在观影、追剧、直播时，发弹幕已成为大部分用户的行为习惯。常规弹幕目前实现了弹幕与视频分离，用户可二选一，很好的规避了弹幕满天飞的混沌状态。但在直播、二次元等诸多的场景中，用户更希望在不压缩视频质量的情况下同时享受“看”与“说”。

“(Dan)幕”这个词源于射击游戏，弹幕网站也源于此， Niconico视频网站是相对较早拥有弹幕功能的网站。随后，弹幕网站凭借共鸣性、易操作性，及人人都能享受的再创作娱乐化与对话语权等特性风靡。

自动躲避人像的弹幕

近日，游戏直播平台虎牙发布了AI智能弹幕功能，满足了用户“看”与“说”同时进行的需求，当用户在弹幕设置中选择该功能后，弹幕就会自动躲避人像。也就是说，在直播过程中，用户可以清晰的看到主播的整个脸以及整个轮廓。

虎牙AI产品总监表示，在“大主播直播间、上电视玩法进行时”等场景下，常常会出现高密度弹幕的现象，高密度弹幕会遮挡住主播，对于希望看到主播的用户来说是一种干扰，而关闭弹幕又让用户无法看到精彩弹幕内容且无法与其他用户进行互动交流。为了改善这种现状，许多视频企业开发出了精简弹幕、半屏显示以及调节弹幕透明度等多种手段，但这些依然不是最完美的解决方案。

虎牙直播采用背景分割技术，能较好处理人和背景分离，实现智能弹幕。这项功能在虎牙娱乐品类得以实践，而在有效分割了游戏主角和背景方面，虎牙表示后续该功能会继续在游戏品类进行尝试拓展。

AI智能弹幕背后的那些技术

虎牙AI技术负责人表示，AI智能弹幕功能背后有两大核心技术，智能识别人像和人像掩码的智能压缩。

实时端上智能识别人像。实时端上智能人像动态识别的技术原理是利用计算机图像分析、模型理论、人工智能及模式识别技术的非接触性高端模式识别技术，从复杂的图像场景中检测出特征人脸信息，并进行匹配识别的智能分析过程。

人像掩码的智能压缩。利用人工智能技术识别出 “人像”区域像素集掩码(mask)，把掩码用智能压缩技术压入视频流，观众端再把掩码跟视频帧同步解压。帧跟掩码一一对应，就可以知道帧中人像的精确位置。

在专访中，虎牙AI技术负责人还向我们介绍了AI智能弹幕功能的特点：

1、常规处理弹幕的做法是“离线(Offline)”和云上处理，需要面对的只是识别问题;而虎牙是针对直播进行实时端上处理;

2、有的网站采用类似PS蒙版技术，采用人工方式为特定视频添加蒙版来模糊弹幕;而虎牙则采用人景分离技术，让人物与场景分离，让弹幕在人物之后，场景之前;

3、AI智能弹幕与传统直播弹幕相比，在几乎不增加带宽的前提下，把每帧的mask随视频流编码。而常规方法在视频点播的中则需要大量的流量来支撑弹幕传输。

用“黑科技”营造极致用户体验

当问及识别、掩码压缩、帧与掩码对应等一系列操作，尤其在直播环境下，运维方面是不是要花费很大精力，也就是说，怎样确保用户体验不受到智能弹幕功能的影响?

虎牙AI技术负责人这样回答，端上对AI体验最大的影响是计算量。在虎牙设计AI弹幕功能时，就考虑到了算力受限的问题。故把人像识别，mask编码放在主播端进行实时计算，不会影响到用户的体验。在用户端，仅需要增加计算解码mask和mask掩码生成，计算量非常小。但是涉及到AI背景分割技术，游戏直播中落地的可能性还有待研究。

[1] [2]