在当今数字化时代, 语音识别技术已成为人机交互的关键桥梁, 广泛应用于智能客服、语音助手、会议转录等众多领域。然而, 对于东方语言的识别如越南语、缅甸语等, 现有模型往往表现不佳, 难以满足用户的需求。为解决这一难题, 海天瑞声携手清华大学电子工程系语音与音频技术实验室, 共同推出了 Dolphin—— 一款专为东方语言设计的语音大模型。
Dolphin 核心亮点:
・支持东方 40 个语种的语音识别, 中文语种支持 22 方言 (含普通话);
・训练数据总时长 21.2 万小时: 其中海天瑞声高质量专有数据 13.8 万小时, 开源数据 7.4 万小时;
・在 3 个测试集 (Dataocean AI,Fleurs,CommonVoice) 下, 与 Whisper 同等尺寸模型相比:
- base 版本平均 WER 降低 63.1%;
- small 版本平均 WER 降低 68.2%;
- medium 版本平均 WER 降低 67.7%;
- large 版本平均 WER 降低 60.6%
・base 与 small 版本模型与推理代码全面开源;Dolphin 开源的 small 版本与 Whisper large v3 相比, 平均 WER 降低 54.1%。
・论文题目:Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages
Dolphin 的开源只是起点。未来, 海天瑞声与清华大学电子工程系语音与音频技术实验室将继续探索更大规模模型的训练, 以实现更广泛的语言覆盖和更卓越的性能。同时, 我们也将优化模型以适应低延迟和实时应用场景, 使其在更多领域发挥价值。此外, 海天瑞声计划进一步加大对稀缺语言语种数据集的研发支持, 为全球语音识别技术的均衡发展贡献力量。
Dolphin 不仅是一款技术先进的语音识别模型, 更是推动东方语言语音识别技术发展的重要力量。海天瑞声期待与全球研究者和开发者共同携手, 开创语音识别技术的新篇章。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。