专访腾讯多媒体实验室商世东：咬咬牙也要跟上新版本的发布

Photo by Sergey

文章由LiveVideoStack与商世东的采访整理而成

编辑：Coco Liang

1. 选择

离开杜比从来都不是一个困难的决定

刚刚毕业的时候，我在摩托罗拉做音频方面的工作，一做就是将近十年的时间。2010年，我去了杜比实验室，算起来是国内入职杜比研发团队的第二个员工。当时负责整个杜比中国的工程团队，差不多有五六十个人的规模。

后来我又去了杜比澳大利亚，再后来，也就是2019年1月，我加入了腾讯多媒体实验室，在音频技术中心负责整个音频团队的建设、产品的技术路线规划、技术的交互以及负责对多个产品，包括腾讯会议在内的端到端的音频体验，现在团队（音频）大概有20个人。

对我来说，首先，在杜比这样的业界领先公司工作，我学习到了很多，国际化的视野、前瞻性的技术布局、完整的思维体系、团队建设等等，这些都是让我终身获益的东西。

但离开杜比并不是一个非常困难的决定，这其中大环境、小环境的原因都有一些。我后来回顾了一下，最重要的原因还是在于杜比的主要业务是在传统领域，成长速度不尽人意。作为一家主要做技术授权业务的公司，它没有最终面对消费者的产品，相对而言公司规模也比较小，对整个生态的影响有限，很难有一个全面的把握。

换一种说法，这其中有很多的东西是个人想要但是平台无法给与的，个人成长容易碰到天花板，想要向上突破的时候，公司已经不能给自己提供这样的平台了。就这方面而言的话，在腾讯，天花板几乎不存在，在这里，只要有能力、有潜力、有愿望，个人拥有持续不断的提升空间，并且可以在这个无限上升的空间里做到最好，这对我来说是非常重要的一点。

在腾讯面临的用户数量，以前在杜比的时候是想都不敢想的。现在一天会有千万级DAU的产品，可以看到自己开发的产品在整个市场上遇到各种意想不到的困难、挑战、问题以及机会

现在我们很大一部分的精力放在腾讯会议上，通过种种技术对用户使用场景进行分析并通过统计数据的上报、分析，了解用户可能遇到的问题并快速加以解决。

2. 改变

需要更多的思考与更确定的答案

Photo by Sergey

以前我们做视频会议，考虑会议中的语音质量提升和评估的出发点都是要求对标或者超越电话（典型的比如电话话筒终端），这个是典型的双人通话场景，但是现在我们也发现视频会议大量的场景都是围绕多人的、多地的联合办公场景。以前基于电信行业终端（电话话筒为主要语音设备）定义的完整的语音质量体系需要重新审视和演进来满足现在用户的需求。

简单地说，会议软件是从模仿打电话的体验开始的，虽然从使用方式、使用场景、使用时间等等角度来看，多样性已经远远超过了电话。而且，仅仅俩人打电话是不够的，我们要一个小组打电话，光打电话还不够，还要分享视频、分享屏幕、图片和文档。从国际标准，比如ITU-T的演进路线图来看，制订的通话标准，也不断的从双人通话向多人、跨地区的实时、强交互场景演进。

会议当中关键的语音体验简单的来说，可以从三个维度来衡量，语音通信的可懂度，语音自然度/保真度和语音舒适度。从这三方面来说，在多人会议中面临的挑战明显要多于双人。

比如多人通话采集设备的多样性。两个人的时候当然很好协调，人多了以后采集设备如何配置，以及采集的音质、采样率、比特率；在多人场景里面音频编解码的接入配置，到底是宽带还是超宽带，最简单的办法就是所有的配置都按照最好的来，但是这样对系统资源的占用是最高的。同时因为对系统资源的占用最高，会带来总体体验的下降。

那么如何动态来在多种因素中平衡，保证多人语音通信的综合体验在三个维度上有最优的均衡，就变成一个很有挑战性的课题。

同时，不同场景的网络环境也不一样。你的网络、我的网络，可能还有第三个、第四个人的网络，有的人使用有线网络、有的则是WiFi，有的是4G，带宽差异巨大，网络QoS也参差不齐，这时候如何有效的探测网络实际带宽，进而高效的进行流控管理，在多人场景下的复杂度远远高于双人。

所以，综上所述，一旦开始考虑多人参会的因素，你会发现，在两人通话的情形下讨论的音质体验、QoS、QoE等等问题，现在要重新思考答案。这在国际上当前也是很热的领域，大家也都在探索答案。

对于整个视频会议体验来说，或者对于用户体验来说，这不是一个单一的因素或者指标就可以决定的。之前我们有针对网络规划的常见QoS三个指标，丢包，抖动和延迟，这些东西都是必要条件，但是不是充分条件。决定一个用户体验的是很多方面的因素，比如从音频角度来说，从我们做音频的角度来说，用的最多的就是上面说到的三个维度：语音可懂度、自然度、舒适度。

首先是听得懂你说的话，这是可懂度。如果音量很低，卡顿很严重，或者回声，或者很嘈杂，或者啸叫发生，那我基本就无法听了，那视频会议通话中反应比较多的卡顿来说，我们通过深度学习技术来解决网络丢包的问题。

IP网络上面传输的时候常常会发生丢包的现象，以前处理丢包的技术比较简单粗暴，比如直接拿后面一帧填补一下或者前一帧内容直接复制。但是现在我们通过机器学习的方法，可以很准确的预测丢掉的那个音节的部分内容，在用户体验上则并没有感知。

但是光听得懂肯定不行，你肯定不可能只满足于听得懂。

比如听机器人说话，那听得懂是没有问题的，但自然度方面就不会太好，这里面就涉及很多音质的东西，不仅是延迟、卡顿，抖动，这些是网络的指标。自然度对于用户来说更多是一个感知问题，我们用音色是否明亮、是否均衡、是否丰满，等等多项指标来衡量。当我们在语音处理中不可避免需要非线性处理的时候，我们就可以通过上述的指标来保证语音的感知自然度。

在语音舒适度维度方面，我们的终极目标是视频会议语音通话的体验要尽可能的接近真实场景下的人和人间距1米时的通话体验，要达到这样的目标，我们还有很长的一段路要走。

目前可以想象到哪些困难我们需要克服，除了网络QoS三要素外，如何尽可能真实的仿真出所处的声学场景和对话形式，对于目标的达成至关重要，我们的技术演进路线图也是朝着这个方向在努力。

3. 赶车

咖啡与信念缺一不可

Photo by Sergey

今年的需求（疫情）爆发了以后，我们整个团队一直加班加点，针对以前很多没有覆盖到的场景、没有碰到过的用户需求，陆陆续续开发了更多的技术和功能。

比如，我们发现很多老师给学生上课时需要声音共享，而且这是一个非常刚性的需求。以前我们在办公室很少有声音共享，屏幕共享就可以了，所以我们在Windows（大部分老师都是用电脑进行教学直播互动）上提供了很多音频共享的功能。

比如我们可以在学生把麦克风禁麦后还讲话的时候提醒学生，我们通过信号处理的技术，可以把学生讲话的声音有效的从环境背景声分离处理，从而实现关麦讲话提醒这个功能。

另外，用户激增后，我们也看到了不同用户的终端设备差异性导致的产品行为的不一致。举个例子，用户开关麦克风的过程当中需要整个设备驱动进行重启。设备驱动重启的过程中，大部分设备都没有问题，但是某些设备确会导致关麦的时候扬声器无声，一秒两秒的无声用传统的质量评估手段是看不出来的，但对用户体验有很大的影响。所有这样的问题被发现后，快速迭代的能力就非常关键。

在这个过程中，对产品的思考更多时候是一个信念问题，当有这么多人使用这款产品时，我们是带有使命感在工作的。我们更多是希望早一点把需求解决、把功能做出来，早一点优化用户的体验。

所以大家常常是咬着牙，加班加点，周末也不休息。在声音共享这个功能上线的时候，我记得我们有一个同学一晚上调bug调到了两三点，我们当时想到底还要不要跟着这次产品更新一起发布新功能，还是说再挺一下，坚持把这最后一个问题解决掉。

因为产品的发布时间已经确定，如果这次赶不上，那意味着老师和学生们第二天上课时又没有声音，上课的效率和体验都会受到比很大的影响，所以我们的同学那天就赶了一整个晚上，在这期间咖啡就没停过。

最后，终于在凌晨5点多钟的时候，问题解决了，最后还做了全面的自测，确保没有问题，第二天我们真的就硬是赶上了新版本发布的这趟车。

这个声音共享功能发布了以后，我们非常非常开心，就是那种很单纯的喜悦，希望上网课的老师们都赶紧升级到新版本，这样他们再给学生分享视频的时候，声音的分享就再也不成问题了。

声音是传递信息非常重要的媒介，所以我们的想法很简单，就是这个东西能够越早做出来越好。

4. 出海

VooV Meeting的师、敌、友

Photo by Sergey

最近，Zoom是一个非常值得关注的对象。Zoom对我们来说，是云视频会议的先行者。因为它们在这个行业进入比较早，做得比较久，对用户需求、行为的理解也比较深刻，有很多值得我们学习的地方。

其实我也蛮喜欢微软Teams的产品，它也有一些自己独到的地方。它从Skype时代开始演进，有比较多的积累。而且微软对底层技术有长期的投入，很多先进的思想一直在引领这个行业的进步。

因为我们做视频会议的时间相对比较短，有这样一些先行者给我们先进的思路，包括用户的支持、合作伙伴、硬件合作伙伴合作模式等等，都是值得借鉴的。

腾讯会议海外版本VooV Meeting也同样是我们在支持，毕竟底层技术都是一样的。

从音频角度来说，海外用户跟国内用户的诉求大体上一样，但也有一些不一样的地方。比如国内开会的时候，整个网络架构都是比较均匀的，尤其是我们看到北上广这些城市，他们本身的网络条件是不错的，延迟也处于比较好的状况。

到了海外，我们的服务器部署不像在国内这么完善，我们需要知道哪些地方的服务器部署是不足的。海外也不需要像国内这样面面俱到的部署，很多地域人口密度很低，比如美国的用户可能比较集中在东西海岸，那么就需要针对东西海岸加强部署，在后台的调度也要加以注意。

国内的话，我们的信息获得比较全面，流量高发的城市地区我们都有掌握，但海外这些需求和信息要如何获得，这就是一个问题。你怎么知道到底哪些城市在哪些时候会有一个峰值的需求？这必须要有一个对全网质量的评估和监控，这样才能近乎实时地知道用户的需求出现在什么地方，从而可以有针对性的、非常灵活快捷地进行相应的部署。

从具体使用技术的角度来说，国内外的用户使用视频会议的习惯也有些区别，国外可能习惯用PSTN电话的接入方式，国内则是IP来接入。国外很多用户倾向于使用固定电话或者移动电话接入体验，因为传统电话网络PSTN跟我们的IP网络是属于不同的运营商网络，他们的运营商网络到我们的网络里面要经过很多网关、路由，针对这种情况怎么优化体验是我们要加以考虑的，这方面的开发技术比如说频谱扩展，比如PSTN专门的降噪，诸如此类的需求可以有针对性的加以开发。

5. 硬件

1+1>2

Photo by Sergey

国内有非常不错的硬件制造商，深圳就有很多了。我们和这些硬件制造商合作的时候，怎么互相之间博采众长，产生一加一大于二的效果，这里面其实有很多合作的空间。

腾讯会议在很多场景里面是要跟不同的合作伙伴联合打造一个比较好的会议体验的，而这些合作伙伴在他们的相关领域里面，像硬件领域、网络领域的未来发展是怎样的，有什么有前景的趋势，哪些变化在酝酿当中、又会什么时候发生，都是我们要持续关注的问题。

比如，我们看到麦克风不断有新技术材料出来，那相关制造商的路线规划是什么，某些技术难点突破了以后会对视频会议云通信的产品有怎样的影响，这些都需要你拥有很好的前瞻性。

另外，我们一直比较关注相关的领域。比如，5G时代整个接入网络带宽上去了，那我们就思考当接入带宽不再成为瓶颈以后，可以在哪些用户体验上做进一步的优化。

像之前提到的教学场景，老师们可能有些高品质的音频需要传输，不仅仅是语音，还有基于音乐的特定场景。比如老师给学生放一段视频，视频里面可能不仅仅有对话，还会有高品质的音乐。那么对于音乐来讲，面临的挑战是不一样的。音乐的内容特征、频谱、码率需求，从音质体验的角度来说比语音要求要高。

这样的诉求在3G、4G网络视频会议下由于带宽的限制、网络的拥塞可能不得不放弃，但在5G的时候就会提上日程，要研究如何在新的场景下满足用户更多的需求，从而去优化他们的体验。

另外，基于AI的技术，我们也看到音频视频两者多模态可以更好的结合起来，能够大大往前走一步，给用户更好的综合体验。同时，计算能力上来以后，你会发现很多事情做起来受限于当时的设备，而现在慢慢都成为了可能，我们在思考怎么把这些事情一步一步做起来。

我们现在和硬件厂商的很多合作，已经在紧锣密鼓地开展了。腾讯会议本身可以提供很好的音视频处理、传输、编解码技术，我们的硬件合作伙伴也有一些他们专有的硬件上面的特色功能。

第一步，我们之间要先相互打通。直接打通第一步以后，我们要思考怎么把自己的技术和对方的优势结合，这里面有很多工作可以做。

举个例子，用户的设备跟我们腾讯会议软件，不管是通过有线网络还是USB进行连接，以前在用户设备上受限于运算能力做不到的事情，现在就可以做到了。因为通常我们讲的会议电话这样的产品，它的运算能力、内存总是受限的，很多基于AI的算法做不到。

但是腾讯会议的APP跑在我们通用的、运算能力强大的设备里面（像电脑）就不存在这样的限制，尤其是和云结合起来后。一旦和硬件厂商打通以后，双方找到彼此之间的配合点，以前做不到的事情现在都成为可能，典型的例子比如会议内容转录、整理会议纪要等等。

像一些传统的视频会议方案提供商，它本身是一个闭环，它的解决方案里，软件硬件全都是它自己的，不存在运营多样化的挑战问题，因为每个链条它都自己把握，这样质量有保证。但是相对而言，他们的完整解决方案的价位也比较高，兼容性也会是很大的问题。

腾讯会议的话，要跟所有设备商都可以接入，面临着保证可靠性、稳定性、安全性的挑战，因为不同的厂商的产品要在它的性能范围之内互相协同，无缝连接。。

在安全性方面，我不是专家，但从开发SDK的角度来说，我们对于用户本身的信息肯定是不做收集的。对于用户谈话，比如交流的具体内容，我们也不会做任何收集，只是用算法对这些内容的统计信息进行收集，包括通话过程当中的质量，比如是否失真、嘈杂、有卡顿等等，这些都是从技术方面统计的信息。

因为我们需要对这些技术指标进行评估，比如我发现你那边频繁出现卡顿现象，那么我希望能够知道你在什么时候、为什么发生了卡顿，如果发生卡顿的原因是技术网络架构，或者是应用本身消耗了太多的CPU导致的，我们就可以更有针对性地进行优化，从而给予用户更好的体验。

6. 问题

Everything matters

Photo by Sergey

接下来我们要解决的问题，更多的会是更具挑战性的多方会议场景下面的问题。因为现在的用户场景非常多，多样化场景下，不同的场景里面用户对声音的需求是不一样的。

这就说回到用户场景的问题，当下的场景相对以前确实有很大的变化。以前腾讯会议的用户场景没有（也没有想到）现在这么多。现在你可以在家里面、在办公室里面、小型会议室里面、大型会议室里面开会，甚至各种直播场景都是以前没有想过的。在各种场景里面，你的架构、相应的技术应该如何规划、配合，在不同的场景里侧重点又是什么，不同的人都有不一样的理解。

我们这方面做得比较细，要根据用户不同的场景去考量。比如开信息传达的大会的场景，对于这种绝大部分时间都是信息单向传输的情况，延迟可能就不是那么重要了，重要的是声音的可懂度和自然度，要保证用户在长时间倾听的条件下，避免听觉疲劳和注意力分散。

而在小规模小组讨论的场景下，大家都是是熟人，交互非常激烈，你一句我一句，这时候对实时交互的需求会非常强，需要很低的延时，除了对于可懂度和语音自然度的正常要求外，对于声音的舒适度要求尽可能模仿面对面的沟通，要求很高。我们会考虑在这样的场景下，需要哪些新技术，如何在多种限定条件下权衡，来达到一个最好的综合体验和容忍度，。

另外就是基于视频会议的主场景，还有哪些衍生的需求，比如会议内容转录、同声传译，以及和智能音箱的结合、如何通过语音助手来唤醒和交互……这些以前在传统的视频会议产品中见不到的功能，现在随着相关市场产品、技术的成熟，都可以进一步融合起来，在协同办公这样的一个大背景下，共同来提升效率。

诸如此类,在当下和未来，我们都会碰到不一样的挑战，你要问哪个最重要，我没有办法回答，因为用户A和用户B的需求对我来说同样重要。同时，我们也会用数据来说话，数据告诉我们用户的需求在哪里，我们就去开发哪里；如果目前还没能满足这部分的需求，那我们就把它丢到map里，以后的每一天都要想办法去满足它。

超强干货来袭云风专访：近40年码龄，通宵达旦的技术人生