阿里巴巴开源了新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的1/3,宣布成本大幅下降,性能超越R1、OpenAI-o1等领先模型。
据悉,千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T tokens,并在后训练阶段经过多轮强化学习,将非思考模式无缝整合到思考模型中。
千问3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强。性能大幅提升的同时,部署成本还大幅下降,仅需4张H20即可部署满血版。
阿里巴巴开源了新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的1/3,宣布成本大幅下降,性能超越R1、OpenAI-o1等领先模型。
据悉,千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T tokens,并在后训练阶段经过多轮强化学习,将非思考模式无缝整合到思考模型中。
千问3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强。性能大幅提升的同时,部署成本还大幅下降,仅需4张H20即可部署满血版。
网友评论