据悉,DeepSeek已大范围开放其“识图模式”供用户体验,该模式并非简单的文字识别,而是具备了真正的图片理解能力。在实测中,它能识别文物并推断其历史风格,解答高难度空间推理题,理解网络梗图情绪,并能将截图中的代码或界面解析并还原为可交互的HTML代码。
同时,DeepSeek公布了其多模态模型的技术细节,核心是“以视觉原语思考”框架。该框架将点、边界框等视觉元素直接融入推理链,解决了传统模型在密集场景中的“指代鸿沟”问题,使推理更精准。此外,该框架在算力上极具效率,处理图片消耗的tokens远低于其他主流模型,并在多项基准测试中达到领先水平。
需要指出的是,目前上线的识图模式仍标注为内测,功能集中于视觉理解与分析,暂不支持图像生成或视频理解等更广泛的多模态功能。

粤公网安备 44010602000162号
网友评论