构建AI实时音视频互动声网这套方案听、看、思、说样样精通_热点播报

构建AI实时音视频互动声网这套方案听、看、思、说样样精通

2024-09-09 12:40 出处/作者：快科技整合编辑：佚名

在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的 AI 浪潮,在 RTC 能力的加持下,人与 AI 的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。

今年5月,GPT-4o 的发布开创了AI 实时语音交互的先河。在此之前,一些传统的大模型已经具备语音交互的能力,但一般采用 WebSocket 方案,这一方案虽然应用广泛,但其传输架构是基于 TCP 协议来构建,延迟较高,在 STT-LLM-TTS 的三步骤中,一个来回的延迟就要2-3秒,在弱网等非理想网络环境下,整体语音交互的延时更达到4秒+。在 GPT-4o 采用 RTC 方案后,展现出了自然、流畅的低延时语音交互体验,也让更多企业与开发者看到了在 AI 语音交互中 RTC 方案的更优性,并积极与 RTC 厂商合作,升级 AI 语音交互的体验。

声网对话式 AI 解决方案 构建实时多模态 AI 语音交互

声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过与客户在 AIGC 场景的深度合作,探索出了一套实时多模态对话式 AI 解决方案, 该方案以语音为核心,支持视频扩展,实现文本 / 音频 / 图像 / 视频的组合输入 & 输出,通过丰富的功能构建真实、自然的 AI 语音交互体验。

构建AI实时音视频互动声网这套方案听、看、思、说样样精通

苹果iPhoneX 64GB

三星S9

vivo NEX旗舰版

OPPO Find X

努比亚Z18mini

OPPO A5

荣耀Play（4GB RAM）

vivo Y85

坚果R1（6GB RAM）

一加6（8GB RAM）

构建AI实时音视频互动 声网这套方案听、看、思、说样样精通

构建AI实时音视频互动声网这套方案听、看、思、说样样精通