阿里开源Qwen3,性能成本双突破
4月29日凌晨,阿里巴巴开源了新一代通义千问模型Qwen3。它的参数量只有DeepSeek-R1的1/3,成本大幅下降,性能却全面超越了R1、OpenAI-o1等全球顶尖模型,登顶全球最强开源模型。Qwen3是国内首个“混合推理模型”,把“快思考”与“慢思考”集成进同一个模型。简单需求能低算力“秒回”,复杂问题可多步骤“深度思考”,大大节省了算力消耗。混合推理:创新设计与训练的挑战
“混合推理”要把顶尖推理模型和非推理模型集成到一个模型里,设计及训练极其精细、创新。目前只有千问3、Claude3.7以及Gemini 2.5 Flash能做到。在“推理模式”下,模型会执行更多中间步骤给出深思熟虑的答案;“非推理模式”则直接生成答案。同一个模型能完成“快思考”和“慢思考”,类似人类回答问题。训练混合推理模型难度远超单纯推理模型,要学习两种输出分布,考验训练策略。Qwen3性能卓越,部署成本低
Qwen3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。预训练数据量达36T ,后训练阶段多轮强化学习。评测显示,它在多方面均大幅增强,创下性能新高。同时,Qwen3的部署成本大幅下降,仅需4张H20即可部署满血版,显存占用仅为相近模型的三分之一。丰富模型版本,支持智能体应用
Qwen3提供了丰富的模型版本,每款都斩获同尺寸开源模型SOTA。它为智能体Agent和大模型应用爆发提供了更好支持,在评估模型Agent能力的评测中创下新高,还原生支持MCP协议,具备工具调用能力,结合相关框架可降低编码复杂性。开源协议宽松,全球共享Qwen3
Qwen3系列模型采用宽松的Apache2.0协议开源,首次支持119多种语言,全球开发者等均可免费下载模型并商用,也可通过阿里云百炼调用API服务。个人用户可通过通义APP体验,夸克也即将接入。目前,阿里通义已开源200余个模型,下载量超3亿次,千问衍生模型数超10万个,成为全球第一开源模型。转载请注明来自社会资讯网,本文标题:《阿里惊爆开源最强模型Qwen3!成本仅为DeepSeek-R1三分之一,性能逆天谁能敌?》
还没有评论,来说两句吧...