近日,2024(首届)中国数字人大会于北京召开,本次大会以“数字人应用与未来”为主题,汇聚了政府相关主管部门领导、院士专家、国内外数字人产业领军企业代表等,共话数字人未来发展及技术创新。大会开幕式上,快手视觉生成与互动中心负责人万鹏飞受邀出席,并发表主旨演讲《多模态数字人的技术创新与产业应用》。
万鹏飞表示,经过多年的技术研发,快手已构建起了完备的多模态数字人解决方案。具体而言,多模态数字人按照不同的输入形式,可分为传感器、文本/音频、视频、多模态综合四大驱动形式。其中,具备完整多模态输入输出能力的多模态数字人,相较而言效果上限更高,技术难度更大。
在此背景下,快手基于自研数字人采集建模、绑定、动捕驱动、大模型生成互动、交互渲染等技术,全面打造多模态数字人解决方案。他介绍称,数字人可应用于商业化、本地生活、电商、招聘等多元场景,主要分为身份型和服务型两种类型。
以快手官方虚拟主播“关小芳”为例,作为身份型数字人的典型应用,其打通了ASR、VLM、LLM等多个自研大模型能力,具备多模态感知、决策、生成能力,互动延时低于2秒且支持用户打断。卓越的性能表现和极低的推理时延使其广泛应用于快手财报解读等多种场景,并在快手平台吸引了超200万粉丝的关注。
网友评论