Kimi首发“上下文缓存”技术助推长文本大模型降本90%_热点播报

Kimi首发“上下文缓存”技术助推长文本大模型降本90%

2024-07-02 19:16 出处/作者：快科技整合编辑：佚名

近日，月之暗面宣布 Kimi 开放平台正式公测新技术——上下文缓存（Context Caching），该技术在 API 价格不变的前提下，可为开发者降低最高 90% 的长文本大模型使用成本，并且显著提升模型的响应速度。

据了解，月之暗面是国内首家面向开发者推出上下文缓存（Context Caching ）技术的大模型公司。

上下文缓存（Context Caching ）技术的基本原理是，系统预先存储那些可能会被频繁请求的大量数据或信息。 这样，当用户再次请求相同信息时，系统可以直接从缓存中快速提供，而无需重新计算或从原始数据源中检索，从而节省时间和资源。

上下文缓存（Context Caching ）技术可以带来降本和提速两大价值。 首先，通过缓存重复性输入的大量数据，对于公共上下文仅收取一次费用，上下文缓存（Context Caching）技术大大降低了开发者使用长文本旗舰大模型的成本，最高可降本达 90%。其次，上下文缓存（Context Caching）技术还有助于提升大模型API的响应速度，实测可将 128K 长文本大模型的首 token 延迟降低 83% 左右，从平均 30 秒左右降低到平均 5 秒内。

Kimi首发“上下文缓存”技术助推长文本大模型降本90%

苹果iPhoneX 64GB

三星S9

vivo NEX旗舰版

OPPO Find X

努比亚Z18mini

OPPO A5

荣耀Play（4GB RAM）

vivo Y85

坚果R1（6GB RAM）

一加6（8GB RAM）

Kimi首发“上下文缓存”技术 助推长文本大模型降本90%

Kimi首发“上下文缓存”技术助推长文本大模型降本90%