阿里巴巴刚刚推出了Qwen3超级杯思维模型,在数学考试中获得了满分。经过真实测试,它竟然是象征性的“噬金兽”。

智胜溪作者陈俊达李水清阿里“超大杯”思维模型终于来了!智东西11月4日报道,阿里巴巴发布了Qwen 3系列中最强大的推理模型Qwen3-Max-Thinking预览版。尽管该模型只是训练中的中间检查点,但使用我们的工具和测试时间计算使我们能够在 AIME 2025 和 HMMT(哈佛-麻省理工学院数学锦标赛)等困难的推理基准上实现 100% 的准确率。然而,这一模式居然在同艺钱文掌门人林俊阳的个人社交媒体账号上得到了“预批”。 11月2日23时54分,林俊阳发​​文:“来了,试试吧。”图为Qwen3-Max处于思考模式。 Qwen 团队没有透露 Qwen3-Max-Thinking 预览版的任何细节,该模型也没有在 Hugging Face 或 Moda 等 plAttachments 中开源。 Qwen 团队表示,随着培训的继续,将发布更多版本。用户不能在 Qwen Chat 和阿里云 API 上体验 Qwen3-Max-Thinking 的预览版。通过引入API调用接口,Qwen3-Max-Thinking首个预览版实现了思维与非思维模式的有效融合。在思维模式上,模型显着提高了智能体编程、常识推理、数学、科学和一般领域的推理能力。体验链接:chat.qwen.ai/? Thinking=true API 调用:https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model url=2840914_2 modelId=qwen3-max-p 值得注意的是,Qwen3-Max-Thinking 评测的预览版仅支持文本到文本模式,我们选择在退出时“限时免费”提供 API 服务。模式。根据我们的经验,我们发现 Qwen3-Max-Thinking 的初始预览需要花费大量代币。如果不是限时免费,使用费可能会更高。不过这个问题可以通过集成解决心理预算。用户可以在1024到81920个代币的思维预算范围内自由切换,从而直接控制模型的推理长度。智东西在Qwen Chat上体验了Qwen3-Max-Thinking预发布版本的功能。要使用该模型,用户必须选择左上角的Qwen3-Max,并在输入框中激活Think模式。 Qwen3-Max-Thinking的初步版本在AIME 2025上得到了全面评估。因此,为了测试模型的数学推理能力,我们选择了本次比赛最难的决赛问题。 Qwen3-Max-Thinking的初步预览显示,它在思考过程中反复打印正确答案,不断检查计算,不断以新的方式解决问题,甚至调用代码解释器以多种方式测试其结果。此过程需要 4 到 5 分钟,并确保您的答案完全正确。如果您将此结果输入到令牌计数器中,则正确的相应的代币使用量估计在 12,000 到 15,000 之间。关于代理调度任务,我们尝试在 DeepSeek-V3.2 和 Qwen3-Max-Thinking 的早期预览版本中启用相同的任务:为开源项目共享网站开发 HTML 原型。 Qwen3-Max-Thinking的第一个预览版可以让您精确分析您的需求并生成您想要的网页。 Web 设计简洁明了,满足使用网站共享开源项目的基本要求,虽然风格和字体选择有点粗糙。 Qwen3-Max-Thinking 的初始预览版在其生成的网站结果方面消耗了更多的代币。从代码量上可以看出,该模型总共使用了 1,417 行代码来完成任务。启用深度推理的 DeepSeek-V3.2 生成了以下网页预览。代码源文件包含787行代码。对于常识推理任务,首先新版本的Qwen3-Max-Thinking可以轻松避免逻辑陷阱。不过,公平地说,Qwen-3-Max 可以用几十个字轻松回答这些问题。很多网友已经使用了Qwen3-Max-Thinking的预览版。有网友反映,这种模式的反应更加直接直接,更加“公事公办”,避免了几乎所有“人性化”的情绪。一些网友在他们创建的“随机基准”基准测试中检查了 Qwen3-Max-Thinking 预发布版本的性能。 Qwen3-Max-Thinking 的预览版可让您回答困难的推理问题。在本次对比测试中,只有GPT-5(思维模式)和Grok 4之前达到了相同的水平。但或许大多数网友最担心的问题是《抱脸》什么时候上映?结论:在阿里巴巴上有望火爆,但Qwen3-Max系列机型已经成为当前AI行业最值得期待的机型之一。在社交媒体的评论区,许多网友开始要求更新。今年9月5日,阿里巴巴推出了Qwen3系列中最强机型Qwen3-Max的预览版。这也是阿里巴巴迄今为止最大的模型,达10亿H,参数超过100个。此次发布的Qwen3-Max-Thinking首个预览版就发挥了推演的威力。在数学才艺表演中获得满分就是一个例子。从定位上来说,这可能是一个为困难推理而设计的模型,可能并不适合所有使用场景。目前,阿里巴巴尚未公布完整的基准测试结果,其整体表现还有待观察。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注