专访腾讯音视频实验室刘晓宇：服务8亿QQ用户的音视频通讯技术如_国家扶持项目网

国家项目扶持网【编译】作者：窈七 2017-04-11

1999年，当时还叫OICQ的聊天软件发布了一个新版本，语音通话功能被正式加入，随后，视频通话也被加入。18年后的今天，QQ的月活跃用户已经超过8亿，一个更惊人的数字是，最多的时候，QQ用户每天的音视频通话时长达12亿分钟。

在QQ发展过程中，其背后的音视频通信技术也经历了对外采购，到成立QQ音视频技术中心，自研引擎，再发展壮大为腾讯音视频实验室，开放自研的SPEAR音视频引擎的过程。现在，随着全民直播时代的到来，腾讯又研发并开放了一体化的直播解决方案，并将腾讯直播SDK应用于斗鱼、虎牙、快手等顶级的直播平台。这背后，技术、经验上的不断进步和积累，也有腾讯对中国复杂的网络状况的智能处理。

日前，腾讯音视频实验室负责人刘晓宇接受了国家项目扶持网的采访，聊了聊这些问题，并向我们介绍了精细化运营及5G技术来临之际，直播会有哪些更新鲜的玩法。

（腾讯音视频实验室负责人刘晓宇）

腾讯音视频实验室：从无到有，再到支持每天12亿分钟通话

遥远的斯坦福校园内，一位机器学习教授上课的场景被高清摄像机捕捉的画面，通过编码器压缩，以分段发送的方式，通过互联网传输到你的电脑上，再由播放器进行实时解压缩处理，你就能学习到最前沿的课程。

流媒体技术给互联网带来了无限的活力，而当场景变成音视频通讯时，背后的技术就不止复杂了一倍。除了双向的反馈，实时通讯对延迟的要求也变得非常高；另外，回声处理也成了新的问题，“我听到你的声音出来了，我也要说话，这个过程中麦克风是一直开着的，假如不处理回声，你的声音会被再次采集进去，播到你那边。”

在腾讯大厦的腾讯音视频实验室内，刘晓宇向国家项目扶持网做了一个小科普。2005年，他加入腾讯，负责QQ应用层的架构设计，“除了底层的公共组件，好友面板、消息窗口，包括空间、音乐、邮箱等插件化功能，可以理解为你能看到的QQ界面展示出的东西，都是我们开发的。”

2011年，腾讯正式成立了音视频中心，刘晓宇被任命为负责人。尽管QQ在1999年就有了音视频通话功能，但很长一段时间，腾讯都依靠腾讯研究院和第三方技术提供商，没有独立的团队负责音视频通讯。

成立音视频中心，是因为腾讯觉得音视频会是未来的一个爆发点，还有一个重要原因，当时采购自GIPS（后被Google收购）的技术方案，是一个“黑盒子”，出现问题时自己无法找出原因，GIPS又不够重视，这坚定了腾讯技术自研的决心。

刘晓宇介绍，在音视频通讯中，网络问题一直是一个技术难点。检测网络带宽，以平衡视频质量和传输速度的带宽探测，处理丢包、抖动，都需要很深的技术积累。另外，随着移动互联网的发展，设备碎片化越来越严重，适配不同的设备又成了巨大的问题，“我们经常要适配系统的问题，有时候会出现很戏剧化的事情。”有一个版本的QQ，腾讯特意为适配不好的小米手机做了优化，但版本还没发布，小米就发现了问题，自己率先做了优化。互相适应，结果又有问题了。

（为了测试QQ在不同网络中的音视频通话质量，腾讯音视频实验室拉了10多条和用户真实情况一样的宽带，涵盖各个运营商、教育网等）

音视频中心的发展壮大，推动了QQ音视频通话功能的不断革新。现在，QQ用户每天的音视频通话时长达12亿分钟。2015年11月，腾讯正式开放自研的SPEAR音视频引擎，将包括流控策略控制云端化、通道智能化/多通道备份机制、分布式混音和云混音、跨平台通信协议设计、提供跨平台客户端引擎SDK、预连接设计、双人/多人通话平滑切换、通话客观质量评测体系等特性带给更多的开发者。

2016年，腾讯音视频实验室正式成立，最初成立时只有7个人的音视频中心，如今已有80多人。除了继续保障QQ的音视频通话，将它的能力开放出来，在企业级市场上有所作为，也成了音视频实验室的新任务。

从音视频通话到直播：技术、需求都要随人性而改变

2015年，随着4G和智能手机的普及，移动直播开始成为一个新的热点。其实在技术上，直播并不是一个新兴的东西，早在2008年前后，六间房就开始尝试使用Flash的技术进行网页直播。

从网页直播到移动直播，用户的需求没变，但使用的网络环境、设备、直播环境都在发生变化。例如，移动直播要解决Wi-Fi、移动网络的切换问题；而在不同的空间里，保证音质、视频流畅以及光线平衡，又对技术提出了新的挑战。刘晓宇向国家项目扶持网举了个例子，最早做音视频通讯时，腾讯向GIPS采购的音视频通话方案经常会遇到投诉，其中的一个重要原因是中国复杂的网络环境，比如南北通问题、用户糟糕的网络连接等。

（消音实验室，关闭大门安静时分贝数仅为17，可以保证每次测试环境的一致）

在应对移动直播时，类似的问题同样存在，这就需要移动技术提供商针对不同的环境进行优化，其中弱网专项优化、抢带宽的能力、手机性能优化、机型适配、后台转码能力等，都会直接影响直播间稳定、清晰度，连麦的实时性和沟通的顺畅。

另外，据刘晓宇介绍，因为用户观看直播的微妙习惯，技术策略上也要做相应的调整。例如，在以前的视频通话中，用户的主要需求是低延时，所以当网络不好时，系统会自动降低视频清晰度。但是在直播中则完全相反，“宁可卡一点，延迟稍微大一点，也不要把分辨率降下来”；在研究中，刘晓宇的团队还发现，用户在观看直播时非常随性，会习惯性地滑到下一个直播，这就需要系统提前缓存画面，让用户快速切换直播。

现在，腾讯已经有了一整套的直播技术解决方案，只需要几行代码，就可以让企业接入腾讯直播模块，拥有腾讯的直播技术支持。

这套音视频直播AVL（Audio Video Live）方案，依托腾讯的SPEAR音视频通信引擎，通过腾讯直播SDK可打造跨平台一对多、多对多的超清酷炫直播场景。除了能够提供基础的高清、秒开、高音质、转码、鉴黄能力外，还具备连麦、实时录制、音频直播、美颜、水印、混音、IM等特色能力。同时兼具旁路直播、屏幕分享、人脸识别、滤镜、挂件等“冷僻”能力，全部能力达到17项之多，是目前能力覆盖最全的主流直播SDK。其流畅度、音质、低延迟、下行抗丢包4项指标位居行业***，其他核心数据也接近行业最佳。

（测试真实通话时的质量，过程中的各项数据都会被实时记录下来）

音视频直播AVL 的一个重要应用是直播中的连麦，现在，斗鱼、虎牙和快手，都使用了这个服务。斗鱼直播产品规划经理汪楚峰也接受了国家项目扶持网的采访，据他介绍，成立于2014年的斗鱼，现在每天开播的直播间数量超过4万，每天的活跃用户超过2000万。

2015年，斗鱼开始使用腾讯提供的直播连麦功能，除了低延迟，腾讯还提供了虚拟装扮、主播变声等特色功能，另外在音乐场景中，腾讯对麦克风收音和音质提高上也有深入的优化。

垂直场景、语音识别、VR，新技术之下直播还有新玩法

今年初的春节期间QQ视频通话里做了一个视频表情彩蛋的玩法，说出“么么哒”屏幕上会出现红唇表情，说“新年快乐”、“恭喜发财”也会有对应的惊喜表情。

这只是语音识别在视频通话上的初步应用。直播平台的竞争已经出现“大鱼吃小鱼”的态势，在刘晓宇看来，技术将成为直播平台差异化的一个突破点。

今年，NOW直播已经开始测试绿幕直播，当用户在直播过程中，环境背景为指定绿色时，可替换任意手机相册内的照片或视频。这种应用在电影制作中的技术，可以让直播有更创新的玩法，有分析人士认为，它可以应用于二次元主题直播。接下来腾讯也会将该能力集成到直播SDK中去，开放给更多直播平台使用。

（Now直播的绿幕直播）

现在的直播，秀场和游戏直播占了绝大多数，但同时，也开始出现越来越多的垂直场景，如金融、教育类直播，在这类场景中，除了主播和观众，还涉及到屏幕，现在，腾讯的直播技术已经能解决三方同步、满足屏幕解码和CPU控制的问题。

另外，VR直播曾经被高度看好，刘晓宇告诉国家项目扶持网(公众号：国家项目扶持网)，目前VR直播的技术障碍主要在于，要保证多人同时观看的沉浸式体验，直播源就要传输360度的全量数据，而这个数据量是非常庞大的；另外，在采集全景视频时，画面叠加部分的拼接、分割，镜头的矫正都还有很长一段路要走。

不过，科技行业永远是进步最快的领域，根据工信部和三大运营商的规划，2020年，中国5G将正式商用，刘晓宇说，“和4G相比，5G会是一种质变，我们会时刻关注这里的技术发展。”

国家项目扶持网原创文章，未经授权禁止转载。详情见转载须知。

上一篇：Windows Vista被微软抛弃，明日起停止一切支持
下一篇：星河研究院：揭秘美国独角兽俱乐部（一）| 系列

关键词：