查看原文
其他

比MP3小10倍,Meta公开全新音频压缩技术

脚本之家 2022-11-11
 关注脚本之家”,与百万开发者在一起

出品 | OSC开源社区(ID:oschina2013)
Meta 近日在一篇题为 “High Fidelity Neural Audio Compression”(高保真神经音频压缩)的论文中公布了一项名为 "EnCodec" 的开源音频压缩技术,该技术由 AI 驱动,可以在音频质量没有损失的前提下,将音频压缩到比 MP3 格式还要小 10 倍的程度。
Meta 将这项技术的实现方法分成了一个由三部分组成的系统,经过训练后的 AI 可以将音频压缩到所需的目标大小,其实现过程如下:
  • 首先,编码器将未压缩的数据转换为较低帧率的 "latent space" 表示(representation);

  • 然后,量化器将这个表示压缩到目标大小,同时跟踪最重要的信息,这些信息以后将被用于重建原始信号(这个压缩信号将通过网络发送或保存在磁盘上);

  • 最后,解码器使用单个 CPU 上的神经网络将压缩的数据实时地转变回音频;

至于应用,Meta 表示这种由人工智能驱动的 "超压缩音频" 可以在恶劣的网络条件下获得更快、更优质的通话效果。作为一家 “梭哈” 元宇宙的公司,这项技术还可以提供更加丰富的元宇宙体验(视频会议、影音流媒体、VR 游戏等),而不需要提高带宽。
除了语音通话,这项技术同样可以应用于音乐领域,未来我们有望可以获得高品质、小体积的音频文件。
目前这项技术仍处于研究阶段,源代码和一些音频样本都已公开在 GitHub 上:https://github.com/facebookresearch/encodec
相关链接:https://ai.facebook.com/blog/ai-powered-audio-compression-technique/

<END>

程序员专属卫衣

商品直购链接

👇👇

【☝🏼点击查看更多详情】

  推荐阅读:

专属定制,程序员秒懂的极客卫衣!

用Rust取代C/C++?为时尚早!

打工人抛弃办公室,微软丢掉「Office」

小米工程师提交优化补丁被批,Linux内核维护者:太疯狂!

当一个程序员疯狂敲键盘时,他到底在干嘛?

Office 2019/2021专业增强版,正版终身授权!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存