首页 > 热点播报 > 正文

DeepSeek开源视觉压缩模型引发AI范式变革 10倍效率提升颠覆传统文本处理

DeepSeek最新开源的DeepSeek-OCR模型采用视觉token处理文本,实现了10倍的压缩效率提升。该模型可将1000字文章压缩为100个视觉token,在保持97%精度的同时,单块A100显卡日处理量达20万页数据。这一突破可能解决大模型长上下文效率问题,并引发AI处理范式的根本转变。

该模型在GitHub上线首日即获超4000星标,引发AI社区广泛讨论。前特斯拉自动驾驶总监Andrej Karpathy认为,未来所有LLM输入都应转为图像形式。纽约大学教授谢赛宁也对这种视觉处理方式表示认同,认为这与人类大脑的记忆机制相似。

研究表明,传统视觉token效率较低,但DeepSeek的创新方法使其压缩效率反超文本token10倍。这种技术若与稀疏注意力机制结合,有望实现千万级token的上下文窗口,为文档处理、代码库管理等场景带来革命性变化。

虽然部分研究者指出该方法并非首创,但DeepSeek的工程实现获得广泛认可。目前已有开发者成功在Mac和Spark硬件上部署该模型。不过也有专家质疑该方法与人类认知方式的差异,认为其缺乏渐进性。

网友评论

热门IT产品
  1. ¥5999
    苹果iPhone17
    ·
  2. ¥9999
    苹果iPhone17 Pro Max
    ·
  3. ¥5299
    vivo X300 Pro
    ·
  4. ¥4399
    vivo X300
    ·
  5. ¥4699
    HUAWEI Pura 80
    ·
  6. ¥5999
    Xiaomi 17 Pro Max
    ·
  7. ¥1399
    荣耀X70
    ·
  8. ¥4399
    OPPO Find X9
    ·
  9. ¥2699
    HUAWEI nova 14
    ·
  10. ¥3399
    荣耀400 Pro
    ·