4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(千问3) ,参数量为DeepSeek-R1的三分之一,成本大幅下降。据称,该模型性能全面超越R1 、OpenAI-o1等领先模型 ,登顶全球最强开源模型 。
千问3是国内首个“混合推理模型”,将“快思考 ”与“慢思考”集成进同一个模型,对简单需求可低算力“秒回”答案 ,对复杂问题可多步骤“深度思考 ”,节省算力消耗。
阿里巴巴表示,千问3系列支持119种语言 ,并基于近36万亿个token(标记)进行训练,使用的数据量是千问2.5的两倍。
千问3系列包括两个专家混合(MoE)模型和另外六个模型 。阿里巴巴开源了两个MoE模型的权重:拥有2350多亿总参数和220多亿激活参数的Qwen3-235B-A22B,以及拥有约300亿总参数和30亿激活参数的小型MoE 模型Qwen3-30B-A3B。
阿里巴巴表示,Qwen3-235B-A22B在代码、数学、通用能力等基准测试中 ,可媲美DeepSeek-R1 、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型。
此外,六个Dense模型也已开源,包括Qwen3-32B 、Qwen3-14B、Qwen3-8B、Qwen3-4B 、Qwen3-1.7B和Qwen3-0.6B ,均在Apache 2.0许可下开源 。
阿里巴巴表示 ,千问3代表了该公司在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。未来,阿里计划从多个维度提升模型,包括优化模型架构和训练方法 ,以实现扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等关键指标。
阿里巴巴集团CEO吴泳铭在今年2月的业绩会上表示,阿里集团在AI战略里面的首要目标是AGI(通用人工智能)的实现,可能远远超过现在可见的任何一个应用场景 。
阿里巴巴预判如果实现AGI ,人工智能相关产业大概率将会是全球最大的产业,有可能影响或者替代现在50%左右的GDP构成。
目前,包括谷歌在内的多家科技巨头推出了开源模型。今年3月,谷歌开源多模态大模型Gemma 3正式发布。这款仅需单块H100 GPU即可运行的27B参数模型 ,不仅性能对标谷歌闭源大模型Gemini 1.5 Pro,更以“低成本 、高性能”的标签重新定义了行业标准 。这一举措被业界视为谷歌在开源AI领域的一次重大战略升级。
今年3月底,OpenAI 宣布计划在今年发布自GPT-2以来的首个“开源”语言模型。据媒体报道 ,OpenAI的开源模型将采用“输入文本,输出文本 ”的模式,并可能允许开发者自由开启或关闭其“推理”功能 。
阿里凌晨开源新模型:性能对标DeepSeek-R1,参数仅为其1/20|界面新闻 · 科技
AI早报 | 阿里通义千问站上全球开源模型榜首;DeepSeek新专利公布|界面新闻 · 科技
大模型开源卷至视频生成领域:阿里开源万相2.1,性能超Sora|界面新闻 · 科技
极目新闻:吃瓜黑料 在线-今日吃瓜网红黑料-阿里通义千问站上全球开源模型榜首,杭州公司包揽前三|界面新闻 · 科技
工信部:三家电信运营商企业已全面接入DeepSeek开源大模型|界面新闻 · 科技
阿里通义千问与DeepSeek开源两款新模型|界面新闻 · 快讯
快手短视频:黑料网吃瓜网站-黑料吃瓜网app下载-DeepSeek开源生态全面引爆,科技股的重估还会带动哪些相关行业?|界面新闻 · 证券
还没有评论,来说两句吧...