DeepSeek最新开源的DeepSeek-OCR模型采用视觉token处理文本,实现了10倍的压缩效率提升。该模型可将1000字文章压缩为100个视觉token,在保持97%精度的同时,单块A100显卡日处理量达20万页数据。这一突破可能解决大模型长上下文效率问题,并引发AI处理范式的根本转变。
该模型在GitHub上线首日即获超4000星标,引发AI社区广泛讨论。前特斯拉自动驾驶总监Andrej Karpathy认为,未来所有LLM输入都应转为图像形式。纽约大学教授谢赛宁也对这种视觉处理方式表示认同,认为这与人类大脑的记忆机制相似。
研究表明,传统视觉token效率较低,但DeepSeek的创新方法使其压缩效率反超文本token10倍。这种技术若与稀疏注意力机制结合,有望实现千万级token的上下文窗口,为文档处理、代码库管理等场景带来革命性变化。
虽然部分研究者指出该方法并非首创,但DeepSeek的工程实现获得广泛认可。目前已有开发者成功在Mac和Spark硬件上部署该模型。不过也有专家质疑该方法与人类认知方式的差异,认为其缺乏渐进性。

粤公网安备 44010602000162号
网友评论