星火语音大模型多项指标领先通用人工智能时代语音王者还是科大讯飞_热点播报

2024年开年，国产大模型持续开“卷”。1月30日，科大讯飞在安徽合肥正式举办了星火认知大模型V3.5升级发布会，除了带来星火认知大模型V3.5以外，还首次发布了星火语音大模型，科大讯飞称，星火语音大模型首批37个主流语种已超越OpenAI推出的Whisper V3；在多语种语音合成方面，星火语音大模型的首批40个语种平均MOS分绝对提升0.25，拟人度超83%，在智能语音技术保持国际领先水平。此外，星火语音大模型已深度赋能汽车、客服、陪伴机器人、家庭等更多应用场景，助力千行百业数智化生产力提速。

在发布会上，科大讯飞董事长刘庆峰表示，大模型带来语音技术发展的全新机会。科大讯飞在语音技术上已深耕二十余年，多年来在语音识别、语音合成等多领域始终保持源头技术创新迭代，并斩获大量国际权威赛事冠军。比如语音识别技术方面，科大讯飞蝉联多届国际多通道语音分离与识别大赛CHiME冠军，语音合成技术方面，科大讯飞获国际语音合成大赛Blizzard Challenge十四连冠。在国内，科大讯飞还是首批国家新一代人工智能开放创新平台、语音及语言信息处理国家工程研究中心的承建方，被誉为语音技术与AI领域的“国家队”。

“科大讯飞从创业之初的梦想和使命，就是要实现沟通无障碍。25年了，我们的目标和梦想一天都没有变。”在通用人工智能时代，科大讯飞也紧抓大模型时代机遇，星火语音大模型的发布不止助力无障碍沟通，还能“百搭”更多场景，赋能实际应用，带来产业和人类生活的革新。

在技术优势上，借助大模型底座与国产算力平台，讯飞星火语音大模型将更多语音表征解耦，并融入到大模型预训练中，提升了韵律表现力和拟人度，突破了复杂场景识别效果的上限，提升了语料稀缺小语种的效果。刘庆峰表示：“借助大模型，我们让一段语音具备更加丰富的属性，有语种、有内容、有韵律、有音色，还有情绪。”