爱奇艺技术总监：奇观识别方案从云迁移到端的探索和实践

近年来，各种短文章和文章应用如雨后春笋般涌现，而AI文章也是近期的热点。是由万得爱奇艺原创推出的创新型AI应用产品。它集成了多模态字符识别、卡通人物识别、线条实体提取、BGM识别等AI技术。支持用户在观看过程中识别文章中的明星人物、卡通人物、背景音乐、行符等文章内信息。

为了进一步了解爱奇艺向AI文章，QCon上海站前夕，InfoQ有幸采访了爱奇艺技术总监朱俊民，听他分享爱奇艺Wonder如何整合多模态人物识别、卡通人物识别、BGM识别、线条实体提取等ai技术，挖掘文章周边内容。

爱奇艺探索 AI文章爱奇艺作为文章平台，一直致力于人工智能、文章和娱乐产业的结合，陆续推出内容创作和用户推荐的智能化产品。是由万得爱奇艺原创推出的AI创新应用产品。截至今年7月，Wonder功能累计使用次数已超过20亿次。

据爱奇艺技术总监朱俊民介绍，作为一款融合了多模态人物识别、卡通人物识别、线条实体提取、BGM识别等AI技术的产品，奇景的萌芽需求来自于用户。当时爱奇艺在分析用户弹幕的时候，发现有一定比例的用户在问现任演员是谁？""背景音乐是什么？"等文章相关的问题。原来用户获取这类问题的答案路径是通过爱奇艺搜索或者百度搜索，但是效果不是很好。造成这种结果的原因主要有两个：一方面，用户需要打破原有的沉浸式观看体验；另一方面，搜索可以无法实现海量内容的实时索引，内容热门时一般无法搜索到用户想要的结果。

为了解决上述问题，爱奇艺在2019年首先在电视上做了一些尝试。用户在看电影时(当时的名字叫AI雷达)，可以通过遥控识别文章中的明星。Wonder产品推出后深受用户欢迎，功能渗透率超出团队预期。

后来，R & ampd团队将这一功能延伸到移动端，通过两指双击的简单手势触达更多用户群体，与用户见面需要了解内容背后的知识。识别能力从最初的明星识别逐渐扩展到背景音乐识别、线条实体知识、卡通人物识别等。

准确识别纷繁复杂的明星、背景音乐、卡通人物等元素并不容易。就多模态人物识别而言，爱奇艺针对文章中人物识别的难点进行了全方位的优化和改进，利用人脸质量模型显著降低误检和坏脸的干扰，综合利用人脸、头部、人体、声纹等多维特征信息，通过局部和全局聚类对文章中的人物进行识别，大大提高了识别准确率和召回率。同时，团队还提供了人脸的多维度属性标签，如年龄、性别、颜值等。并将属性标签与人脸识别模型进行整合，在保证准确率的同时，可以显著降低资源开销，提高资源利用效率。目前线上模型包含10个属性，比其他工业模型更全面。爱奇艺人脸识别和属性模型十五合二为一。一个模型可以同时识别身份属性，每个属性的识别准确率都比较高。目前在线wonder服务的明星识别准确率为99.5%。

多模态字符识别技术的技术实现框图如下：

朱俊民坦言，为了达到99.5%的恒星识别准确率，算法团队做了很多努力。首先，他们分别训练了人脸、头部、人体和声纹特征的提取模型。然后在人脸的帧级特征上增加一个NetVLAD模块，将帧级特征转化为文章维特征，可以充分利用帧级人脸信息，提高特征的表达能力。在特征融合层，为了充分利用多模态特征，减少噪声干扰，团队还创新性地提出了多模型注意模块自适应地为每个模式分配不同的权重，基于这些权重融合多模态特征，显著提高了算法的鲁棒性和文章字符识别的准确率。

下表显示了R & ampd队逐步增加多模态特征信息，NetVLAD和MMA模块人脸特征的准确性提高。从表中可以得出，随着多模态信息的增加，爱奇艺的人脸识别准确率稳步提升，充分验证了爱奇艺多模态字符识别方法。

其实这样一款识别准确率高，广受好评的产品研发周期并不是很长。朱俊民表示，这些年来，爱奇艺在NLP、声音、视觉等AI能力上积累了很多。感谢爱奇艺对算法团队的长期投入，在决定做wonder产品的时候，大部分算法和基础设施已经相对成熟。团队只需要从用户出发需求，根据实际场景调整算法和方案，快速实现产品化。朱俊民说道：

如果把奇观比作一栋房子，多模态人物识别、卡通人物识别、BGM识别等AI技术是基础。因为对AI的长期投入，有坚实的基础支撑爱奇艺建造更美的房子。

如何确定从云迁移到最后的解决方案？从奇迹开始，R & ampd团队决定采用纯云识别方案。朱俊民介绍，之所以这样决定，主要是考虑到算法的复杂度。在客户端，需要播放文章(需要解码并显示在屏幕上)并处理AI算法。芯片的性能可能会跟不上，手机的散热和电池问题会比较突出。所以万得之初采用了纯云识别方案。

后来随着算法的优化和解耦，以字符识别为例，实现了检测和识别的解耦，人脸检测的算法也足够轻量，可以用CPU实现平滑推理。团队开始寻求云端的模式，算法解耦，端上检测部署，云上识别部署。这样做的好处是：一方面，在末端做检测可以过滤很多没有人的情况，减少网络传输和云端识别的计算资源浪费；另一方面，在末端做检测可以让用户交互体验更好，并且可以实现字符区域的跟踪。

云侧的识别方案不是云侧方案的简单复制。朱军民提到，在实现“一国两制”的过程中云边，难点主要在于两个方面：一方面，芯片适配。原有的云GPU算法，考虑到客户端GPU参差不齐，需要将算法转化为CPU推理模式。另一方面，算法模型迁移到客户端时，要考虑到客户端本身的限制，不能大幅增加整个app安装包的大小。所以为了适应客户端，算法本身需要CPU迁移，模型大小通过蒸馏压缩。与此同时，客户工程师需要集成相应的算法运行时，同时建立模型动态加载的机制，尽可能减小客户端的数据包大小。

云端模式将会得到更快的推广和应用。随着5G的逐步发展，朱军民认为云端模式将会得到更快的推广和应用。作为一种全新的网络架构，5G将提供10Gbps以上的峰值速率、更好的移动性能、毫秒级延迟和超高密度连接。此外，性能

而且5G网络的特性决定了它更加分散。需要在网络边缘部署小型或便携式的数据中心，将终端请求本地化，这就是所谓的边缘计算。将来，服务可能会进一步从云边到云边模式。

除了继续在“和平”方面努力外云端模式下，Wonder的下一步将继续扩展已确定的类别。比如：动植物的百科实体类鉴定；电子产品、汽车等标准产品的识别；以及各种穿竖货的识别。另一方面，将继续优化现有的识别体验，提高整体结果率，目标是实现万物识别。

因为身处内容行业，朱俊民也表示会继续关注AI s在声音和视觉上的算法创新，在交互上探索新场景。在未来，他希望看到人工智能在内容创意和创作中发挥授权和有效的作用。

嘉宾介绍：

爱奇艺技术总监朱俊民。上海交通大学硕士，拥有3项美国专利和8项中国专利。2015年加入爱奇艺，负责AI产品落地和创新应用开发，先后孵化了HomeAI(智能语音交互平台)、Wonder(智能识别平台)、Douya(表情制作分发平台)等创新应用。

本文转自微信官方账号：AI前线，作者李冬梅，点击阅读原文评论付干江。

标签：算法AI文章

声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，谢谢。

推荐阅读