首页 > 热点播报 > 正文

DeepSeek大范围开放识图模式 实现图文交互并公布高效多模态技术框架

据悉,DeepSeek已大范围开放其“识图模式”供用户体验,该模式并非简单的文字识别,而是具备了真正的图片理解能力。在实测中,它能识别文物并推断其历史风格,解答高难度空间推理题,理解网络梗图情绪,并能将截图中的代码或界面解析并还原为可交互的HTML代码。

同时,DeepSeek公布了其多模态模型的技术细节,核心是“以视觉原语思考”框架。该框架将点、边界框等视觉元素直接融入推理链,解决了传统模型在密集场景中的“指代鸿沟”问题,使推理更精准。此外,该框架在算力上极具效率,处理图片消耗的tokens远低于其他主流模型,并在多项基准测试中达到领先水平。

需要指出的是,目前上线的识图模式仍标注为内测,功能集中于视觉理解与分析,暂不支持图像生成或视频理解等更广泛的多模态功能。

网友评论

热门IT产品
  1. ¥6499
    HUAWEI Pura90 Pro Max
    ·
  2. ¥1699
    华为畅享90 Pro Max
    ·
  3. ¥5999
    苹果iPhone17
    ·
  4. ¥1999
    vivo Y600 Pro
    ·
  5. ¥7499
    OPPO Find X9 Ultra
    ·
  6. ¥3599
    荣耀500 Pro
    ·
  7. ¥2999
    REDMI K90 Max
    ·
  8. ¥3499
    一加Ace 6至尊版
    ·
  9. ¥9999
    苹果iPhone17 Pro Max
    ·
  10. ¥5299
    OPPO Find X9 Pro
    ·