快科技2月27日消息,据媒体报道,谷歌发布了新交互模型——Genie,该技术将为AI领域带来革命性的突破。
据了解,Genie共有110亿个参数,能够基于用户输入的一张图片和提示词,生成一款较为完整的2D平台游戏。
Genie三由个部分组成:一个潜在动作模型,用于推断每对帧之间的潜在动作;一个视频tokenizer,用于将原始视频帧转换为离散token。
另有一个动态模型,用于在给定潜在动作和过去帧token的情况下,预测视频的下一帧。这三个组件共同协作,使得Genie能够生成具有高度交互性和可控性的虚拟世界。
网友评论