快科技1月26日消息,今日,阿里云公布多模态大模型研究进展。
据悉,通义千问视觉理解模型Qwen-VL再次升级, 继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力, 能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,整体性能堪比GPT-4V和Gemini Ultra。
Qwen-VL-Plus和Qwen-VL-Max在MMMU、MathVista等测评中远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,达到世界最佳水平。
基础能力方面,升级版模型能够准确描述和识别图片信息,并且根据图片进行信息推理、扩展创作;具备视觉定位能力,还可针对画面指定区域进行问答。
网友评论