4月29日消息,阿里巴巴发布了新一代通义千问 Qwen3 模型,将“快思考”与“慢思考”集成进同一个模型,大大节省算力消耗。经过后训练的模型已在各大平台上开放使用。同时,阿里云开源了多个 MoE 和 Dense 模型,在基准测试中表现出竞争力的结果。Qwen3 模型支持119种语言和方言,并且数据集扩展显著;为了构建庞大的数据集,从网络上收集数据并从PDF文档中提取信息等方式被采用。Qwen3 预训练过程分为三个阶段,并且具备较高性能和参数更少的优势。通过四阶段的训练流程实现混合模型,并提供软切换机制给用户动态控制模型行为


粤公网安备 44010602000162号
网友评论