开yun体育网测试了数学推理、编程才气和通用才气-KAIYUN (中国)官方网站 - 世界杯体育筑梦

发布日期:2026-04-28 11:02    点击次数:107

开yun体育网测试了数学推理、编程才气和通用才气-KAIYUN (中国)官方网站 - 世界杯体育筑梦

3月6日凌晨3点,阿里巴巴发布并开源全新的推理模子通义千问QwQ-32B。阿里巴巴称,这是一款领有320亿参数的模子,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1失色。

据悉,QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程才气和通用才气,并与OpenAI的o1-mini以及DeepSeek满血版及蒸馏版进行了相比。

在测试数学才气的AIME24评测集上,以及评估代码才气的LiveCodeBench 中,千问 QwQ-32B深切与DeepSeek-R1非凡,远胜于o1-mini及疏导尺寸的R1蒸馏模子。

在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提倡的教唆服从才气IFEval评测集、由加州大学伯克利分校等提倡的评估准确调用函数或用具方面的BFCL测试中,千问QwQ-32B的得分均卓绝了DeepSeek- R1。

官方先容称,这一效果凸显了鉴定化学习哄骗于经过大边界预西宾的雄伟基础模子的有用性。此外,阿里团队还在推理模子中集成了与Agent联系的才气,使其大要在使用用具的同期进行批判性念念考,并把柄环境反应调养推理流程。

除了性能上的大幅普及,QwQ-32B的另外一个亮点是大幅镌汰了部署使用资本,开发者和企业不错在虚耗级硬件上应付将其部署到腹地诱骗中。

贵寓裸露,从2023年于今,阿里通义团队已开源200多款模子,包含诳言语模子千问Qwen及视觉生成模子万相Wan等两大基模系列,隐讳从0.5B到110B等参数,已矣了全模态、全尺寸大模子的开源。

开源社区Hugging Face此前的榜单裸露,开源仅6天的阿里万相大模子已反超DeepSeek-R1,登顶模子热榜、模子空间榜两大榜单,成为近期全国开源社区最受接待的大模子。把柄最新数据,万相2.1(Wan2.1)在Hugging Face及魔搭社区的总下载量已超百万,在Github的Star数超6k。

在通义千问最新推理模子发布并开源后,阿里巴巴股价应声大涨。隔夜好意思股收盘涨8.61%,报收141.03好意思元。放手发稿,阿里巴巴港股涨超7%。本年以来,阿里巴巴股价累计涨幅已近70%。

新闻荐读

突发!一架载152东说念主波音飞机,升空几分钟后发动机爆炸

◆起原:界面新闻

◆裁剪:陈念念灵

◆二审:赵鹏云

◆三审:刘波

执续暄和

↓↓↓开yun体育网

]article_adlist--> 海量资讯、精确解读,尽在新浪财经APP