文心3.5到4.0：版本前进0.5背后推理成本或暴增10倍不止_热点播报

十月一节后第一天就有消息人士透露， 百度正在加紧训练文心大模型4.0，或将在10月17日举行的百度世界大会上发布。

此前5月，文心大模型3.5版本已经发布，不到半年，4.0上线在即，而且放在了百度世界大会这样的重头戏上，外界期待值直接拉满。

据悉，从文心3.5到4.0，版本数字前进“0.5”背后，推理成本、模型参数量都会迎来暴增，推理成本综合下来高5倍打底，甚至8倍、10倍都有可能，而模型参数量更是超过万亿，也正是万亿的参数量解释了文心大模型4.0推理成本增高的背后原因。

先解释下什么是推理成本？其实就是用户单次使用耗费的算力成本，这里算力不仅包括硬件投入，也折算了运维成本。正所谓有“输入”才有“输出”，推理成本即模型“思考”并“输出”一次所需的成本。

这个推理成本主要受三个因素影响：

1、模型的网络结构和参数规模，大模型神经网络结构越复杂成本越高，参数规模越大，需要的计算量越大，计算成本就越高。

这就好比人大脑中的神经元网络，神经元网络越复杂，需要学习和思考的东西就越多，也就需要更高的成本。

从爆出来的消息看，文心4.0基于飞桨平台在万卡集群训练出来，4.0参数规模将大于市面上所有已经公开发布参数规模的大语言模型，也有可能突破万亿级别。

根据之前行业媒体的测算，如果要在10天内训练1000亿参数规模、1PB训练数据集，大约需要10830个英伟达A100 GPU。

按照每个A100 GPU的成本约为10000美元，那么10830个GPU的总成本约为：10830*$10000=$108300000

为什么说通用大模型是大厂的游戏，原因就在这里，光门槛就超10亿美元。

2、模型的推理部署，如单机还是并行推理、量化、部署方式等。

“优化成本”本身也是要付出代价的。这就好比我们用不同的方式来解决问题。如果一个方法需要更多的时间和精力，那么“思考”成本就会更高。

如果一个模型在推理时需要大量的计算和存储资源，就像一个大人需要花费更多的时间和精力来解决问题一样，那么推理成本就会很高。

而如果采用一些技术手段，比如将推理任务并行处理或者使用量化技术来减少计算和存储需求，就相当于小孩子用更简单的方式来解决问题，可以节省推理成本。当然，这些技术手段本身也是成本。

3、芯片和集群，包括芯片型号、规模以及集群架构等。

芯片买来就能直接用吗？完全不可能！后面还需要一系列的重成本…

这就好比不同的大脑的配置。如果一个芯片或集群的效率更高、速度更快，那么就可以更快地完成推理任务，从而降低推理成本。如果一个芯片或集群的性能不好、速度很慢，这就像一个学习不好的孩子需要花费更多的时间和精力来思考问题一样，推理成本就会很高。

单个芯片可以比喻成一块能发电的砖，如何通过合理配置，最终达到参数规模、推理部署方式以及使用的芯片和集群的性能最大化？这听着都不是一个简单的问题。

随着大语言模型的不断升级迭代，参数量突破万亿、模型能力越来越强、用户使用量激增，推理成本都会成倍增加。

文心大模型4.0增加的更是极致体验

其实自5月发布文心3.5，百度一直通过各种技术优化推理成本，据悉，目前3.5版本推理成本较5月刚发布时，已经下降到原来的几十分之一。

而即将发布的文心大模型4.0版本的推理成本也远低于今年5月的3.5版本，这也是百度积极探索技术手段优化推理性能、降低推理成本的结果。而文心大模型4.0作为单一模型，将是国内首个万卡集群训练的稠密参数大语言模型。

万卡集群背后，如何更好的发挥性能呢？

对于百度来讲，恰好因为过去十年如一日的技术投入，正式因为文心与飞桨的联合优化，才能高效地基于万卡集群训练起这么万亿规模的模型。

10月17日，文心大模型4.0将正式发布，并开启邀请测试。这是迄今为止最强大的文心大模型，它实现了基础模型的全面升级，理解、生成、逻辑和记忆四大能力相辅相成，全面进步。可以说文心大模型的全面升级将为用户带来更极致的产品体验。

通用大模型走向付费是大势所趋

根据海外最新研究《The Economics of Large Language Models》，可以有这样来估计：

每个token（1000 token约等于750个单词）的训练成本通常约为6N，而推理成本约为2N，其中N 是LLM（大语言模型）的参数数量，也就是说推理成本大约相当于训练成本的三分之一。但随着模型上线部署后使用量的增加，推理成本可能远超训练成本。

有媒体估算过，使用云计算服务（以AWS为例）调用ChatGPT的能力，每处理一个输入长度为50字、输出长度为1000字的问题，大约需要消耗0.00014611美元的云计算资源。即用1美元可以向ChatGPT提问约6843个问题。

此外，据华尔街日报早前爆料：微软用户量高达150万的AI编程工具GitHub Copilot，平均每个月在每个用户身上都要倒贴20美元，最高能达80美元。也就是说，微软自做出Copilot以来，光是一个月在它上面亏损就高达3000万美元，一年下来亏损直接过亿。要知道，Copilot也不是能白嫖的，会员每月还得交10美元“使用费”…

而就拿OpenAI来看，它也早已走上了大模型付费之路。对于C端用户，提供订阅模式的ChatGPT Plus，每月收费20美元（合人民币140元），可访问基于GPT-4的完全不同的服务，速度更快，访问更可靠。就算访问 ChatGPT，也可以优先使用新功能和改进。

而对于企业用户，就在今年8月28日，OpenAI官宣推出专注于为大企业服务的“ChatGPT Enterprise”。企业版ChatGPT直接对接GPT-4，提供无限制访问、高级数据分析功能、定制服务等服务，并支持处理更长文本输入的长上下文窗口。

并且企业版在保证企业的数据隐私和安全的背景下，还为企业提供全方位的生成式AI功能。此外，除了目前适合大型企业的版本外，OpenAI还将很快推出适用于小微企业、团队的ChatGPT Business产品，服务于所有规模和类型的组织。

可以看出大模型收费国外已经开始探索不同路径，而确保模型的可持续发展也正需要资金来支持持续的研发、改进和维护。这就需要一定的收费机制来不断优化和迭代模型，提高模型的准确性和效率，结合用户需求和反馈，不断改进和优化模型，提高用户体验。

高昂成本倒逼下，通用大模型走向付费是大势所趋。

文心3.5到4.0：版本前进0.5背后推理成本或暴增10倍不止

苹果iPhoneX 64GB

三星S9

vivo NEX旗舰版

OPPO Find X

努比亚Z18mini

OPPO A5

荣耀Play（4GB RAM）

vivo Y85

坚果R1（6GB RAM）

一加6（8GB RAM）

文心3.5到4.0：版本前进0.5背后 推理成本或暴增10倍不止

文心3.5到4.0：版本前进0.5背后推理成本或暴增10倍不止