阿里通义千问开源第二代视觉语言模型支持超20分钟长视频问答与内容创作_热点播报

阿里通义千问开源第二代视觉语言模型支持超20分钟长视频问答与内容创作

2024-09-02 19:10 整合编辑：佚名

【太平洋科技快讯】阿里云通义千问最近宣布开源了第二代视觉语言模型Qwen2-VL。与上一代模型相比，Qwen2-VL在多个方面实现了性能的全面提升。它能够读懂不同分辨率和不同长宽比的图片，在DocVQA、RealWorldQA、MTVQA等基准测试中取得了全球领先的表现。此外，它还能理解超过20分钟的长视频，支持基于视频的问答、对话和内容创作等应用。

Qwen2-VL推出了2B、7B两个尺寸的模型及其量化版本。此外，旗舰模型Qwen2-VL-72B的API已经上线阿里云百炼平台，用户可以直接调用。

此外，Qwen2-VL还具备强大的视觉智能体能力，可以自主操作手机和机器人。它能够集成到手机、机器人等设备中，根据视觉环境和文字指令进行自动操作。

该模型能够理解图像和视频中的多语言文本，包括中文、英文、大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

Qwen2-VL延续了ViT加Qwen2的串联结构，三个尺寸的模型都采用了600M规模大小的ViT，支持图像和视频统一输入。为了更清楚地感知视觉信息和理解视频，团队在架构上进行了一些升级，包括实现了对原生动态分辨率的全面支持和多模态旋转位置嵌入(M-ROPE)方法。

阿里通义千问开源第二代视觉语言模型支持超20分钟长视频问答与内容创作

苹果iPhoneX 64GB

三星S9

vivo NEX旗舰版

OPPO Find X

努比亚Z18mini

OPPO A5

荣耀Play（4GB RAM）

vivo Y85

坚果R1（6GB RAM）

一加6（8GB RAM）

阿里通义千问开源第二代视觉语言模型 支持超20分钟长视频问答与内容创作

阿里通义千问开源第二代视觉语言模型支持超20分钟长视频问答与内容创作