设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

2G 弱网也能开会、语音!腾讯会议用 AI 技术给实时音频传输“动刀”

2024/6/27 0:08:28 来源:之家网站 作者:- 责编:-

6 月 26 日,记者获悉,新一代实时语音编码行业标准 AVS3P10 即将正式发布。

该标准由腾讯提议启动、推进和维护,以腾讯首款神经网络语音编解码器 Penguins 为原型,经过 AVS 音频组多家成员单位共同贡献。

作为全球首个系统性引入人工智能并实现真正意义上的低码率下高质量语音编码标准,AVS3P10 的表现达到国际一流水准。仅需现有主流标准 1/3 的编码码率,就能实现同等清晰的音质。

这意味着,今后在线上会议、语音通话等实时音频场景,带宽要求大幅降低。即使在电梯、地库、隧道等网络很差的环境,也能实现清晰流畅的语音通话。

在有限的带宽条件下,想要将声音高质量传递到接收方,压缩原始数据、去除冗余信息的语音编码技术是其中关键。然而,基于 EVS、OPUS 等现有主流音频编解码标准,当码率降低到 10kbps 以下时,语音质量下降明显,影响用户体验。

为应对该挑战,腾讯会议天籁实验室联合腾讯 AI Lab 自研了腾讯首款神经网络语音编解码器 ——Penguins。此次 AVS 音频组 AVS3P10 标准采纳的腾讯侧方案,就是以 Penguins 为原型。

具体来说,Penguins 将 AI 与传统技术紧密融合,从算法研究、工程化、产品化层面做了大量系统性创新,打破传统香农定律的性能极限,引入大数据并在可控算力增量下提供了新的性能上界,从而对下一代通信系统,尤其是信源编码器部分,提供了新的技术基础和方法论。通过 AI 语音信号建模,提取最核心的特征参数编码,再借助深度学习网络,预测并重建语音中的细微结构,最终生成逼真的音频波形。

多方测试表明,腾讯提交的 AVS3P10 标准,代表了目前 AI Codec 的行业最高水平。该标准实现了 6kbps 下的高质量语音通信,即使在“2G”网络下也能实现清晰通话,且主观质量非常接近原始参考信号,媲美国际主流的 OPUS 标准在 20kbps 的质量。同时,主观质量对标传统编码的中高码率情况下,编码效率提升 200-300%。

2021 年起,Penguins 音频编码器就在腾讯会议的驾驶模式、弱网模式及 QQ 语音通话等场景中投入规模应用,支持了亿级用户的流畅沟通。无论是在复杂的网络环境中,还是在高速移动的交通工具上,都能提供清晰的音频通信体验。

2023 年 3 月,腾讯团队在 AVS 音频组主动提议并参与标准制定,促进行业的技术进步,即 AVS3P10 实时语音编码标准。随后,腾讯提交基于 Penguins 的候选技术;经过 AVS 音频组交叉验证后采纳。2024 年 6 月,AVS3P10 实时语音编码标准正式完成标准化工作,进入公示阶段。

值得一提的是,腾讯主导该标准制定的过程,也被 AVS 工作组评价为制定速度最快,标准交付质量最高,测试得到充分好评。

“AVS3P10 实时语音编码,作为新一代的语音编解码技术标准,是对 AVS 系列标准的重要补充。该标准是当前业界的最高水平,体现了腾讯在语音处理、人工智能技术创新和用户体验方面的实力,将为用户带来更好的体验。”AVS 工作组指出。

在编解码、音频降噪、语音增强等领域,腾讯会议天籁实验室正在探索实时音频通信前沿技术,打造全球领先的实时音频通信端到端解决方案。同时,通过将更多研究成果应用到腾讯会议等产品中,持续提升用户体验,打造“听得清、听得真”的极致体验。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:业界动态

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知