机器之心报告编辑:杜伟,+0 业界权威大模型公共基准测试平台LMArena公布了文本竞技场(Text Arena)最新排名后,有人大呼:“百度回来了。”根据11月8日凌晨最新的LMArena排行榜显示,百度文信最新模型ERNIE-5.0-Preview-1022(文信5.0预览版)文本榜并列全球第二,跃升至中国第一。该模型取得了1432的高分,与国外排名前三的模型相同:来自OpenAI的gpt-4.5-preview-2025-02-27、来自Anthropic的claude-opus-4-1-0805、claude-sonnet-4-5-20250929。评论区网友盛赞百度新模式的出色表现,并表示“迫不及待想亲自体验一下”。毫无疑问,本次榜单的结果将继续强化该系列车型在第一阶段互联网综合全球竞争环境中的地位。智能模型。文信5.0预览版正在全球LLM实战领域悄然角逐。在人工智能领域,LMArena是由加州大学伯克利分校研究人员创建的开放式人工智能模型评估平台。这已经成为OpenAI、谷歌等国内外大型模型厂商竞争的主要领域之一。在这个平台上,用户提交自己的提示,系统随机选择两个匿名法学硕士,每个人都会生成响应。用户根据两个答案选择偏好,例如“哪个更好”或“两者都更差”。更具体地说,LMArena 为每个模型分配一个初始 Elo 分数,并在每轮比赛后实时更新分数。与基于静态数据集和自动评分的传统基准测试平台相比,LMArena 提供了通过对用户偏好进行投票而形成的偏向“现实世界判断”的动态分类机制。这种机制带来了模型特征之间的冲突更加贴近真实的使用场景,也增加了榜单的价值。 LMArena 榜单上名列前茅的模型不仅在学术指标上表现出色,而且在用户体验、语言理解、创意生成和指令执行等实际应用方面也得到了广泛认可。文心5.0预览版在如此真实的LLM对决战场上取得了优异的表现。具体来说,文心5.0预览版在创意写作、理解复杂且长的问题以及遵循指示等方面表现更好。其整体性能超越了包括GPT-5-High在内的许多国内外传统大型机型。其中,文心5.0预览版在创意写作任务中排名第一,这是创意生产力的重要指标。这极大地提高了文本、章节、营销写作、脚本和其他内容生成的速度和质量。它在理解长而复杂的问题方面排名第二,测试模型的处理能力多层逻辑、长文本,适合学术问答、报告分析、知识推理等高级认知任务。在指令跟随任务中排名第三,体现了用户意图模型的理解和执行准确性,显着提高了其在智能助手、代码生成、业务自动化等场景的适用性。这些核心语言功能的出色表现,使得文心5.0的资源丰富,语义理解全面,逻辑合理,执行力连贯,支持多场景高效生产。以及智能应用程序的实施。不是单独的,基础模型与功能集成转换为电机中心的工业化和 IA 和 AIGC 的深度,它的价值在于扩展文本支持创建内容、商业情报、办公自动化和其他场景。接下来,机器之心对文信5.0预览版中的一些优秀功能进行了一些测试。直接考验写作能力、创意写作。首先,让我们将其应用到“营销”场景中,看看它的效率如何。在LMArena“Side By Side”模型对比中,选择了我们喜欢的横向评测claude-sonnet-4.5-20250929,它也拥有出色的文本功能,位居排名第二。您是一家领先广告公司的创意总监。计划针对[具有出色复制技巧的模特]为期 3 个月的在线营销活动。您的计划应包括: 基本的营销知识。竞选口号要大声喊出来。致所有创作者的公开信。一段 30 秒的短视频创意脚本大纲。让我们从比较口号和基本营销理念开始。可见,两种模式都有着相同的以“言论自由”为中心的理念,但文信5.0预览版在措辞和理念上更胜一筹。克劳德的解决方案定位为“更好地了解用户的工具”,功能准确,但在品牌方面保守。文心5.0预览版更进一步,抓住“情感价值”这一流行主题,将AI变成“鼓舞人心的伙伴”,完成从功能到价值的跨越。 “用心思考,用言语表达意义”的口号也更加诗意和品牌化。接下来我们来看看致创作者的公开信。克劳德的写作非常精确和诚实,这使他非常适合给任何需要口头交流的人留下深刻的印象,包括但不限于学生、专业人士、企业主、管理人员等。我们强调“理解”和“表达”。然而,问心5.0预览版超越了“帮你说清楚”的表面功能,直达其创造者的灵魂。我会尝试沟通和你一起吃饭。这句话正好击中了当今人工智能时代的核心焦虑:原创性。 ,害怕灵魂被稀释。你看重的是字里行间独特的人物、严谨的思维进入的逻辑链条以及故事背后独特的灵魂。这些是任何机器都无法提供的。它不仅提供工具;定义未来。人工智能越强大,人类的创造力就越有价值和自由。现在是最困难的部分:概述创意短片的脚本。这是问信5.0预览版最好的部分。他们创作的剧本非常成熟,专业程度令人印象深刻。该计划包括执行所需的所有核心元素,包括屏幕内容、编辑点、特效、音效和对话。配置常见的应用场景以理解冗长而复杂的问题。这意味着为AI模型提供产品介绍、充当客户服务并回答问题系统蒸发散基于此介绍。为了保证测试的客观性和专业性,我们首先要求Gemini 2.5 Pro创建预标准的问题和答案。接下来我们重点关注问信5.0 Preview的表现,并使用claude-sonnet-4.5-20250929的答案进行横向对比。第一轮:直接信息检索测试模型是否能够准确高效地从文档中查找信息。可以看到,两款机型都表现不错,但问心5.0预览版考虑得很周到,增加了一种“几乎和大苹果一样重”的直观感受。这个小细节可以极大地改善用户体验,帮助他们更快地了解产品功能,展现出超越“搜索”的服务意识。第二轮:条件和推理测试模型是否能够理解用户的具体场景和隐含条件,从而做出正确的决策。大家都还是对的,只是风格上有差异。文xin 5.0 Pr 的解答观点简洁明了,切入主题,准确解决用户关心的问题。而ClawDo的回应则更具网络感和更口语化的风格。第 3 轮:“否定”查询和边界测试检查模型如何处理文档中未包含的信息(边界)以及如何处理用户的潜在误解。两种模型都能够识别未记录的信息,但这里 Claude 识别出额外的 15 秒恢复时间。总体而言,问信5.0预览版对于具体“客户服务”功能的响应非常清晰、专业,表现出了高度的服务精神。命令追踪 我们继续在问信5.0预览版中测试命令追踪功能。这种能力是一个模型是否“可靠”、“可控”的重要指标,直接决定了其在专业领域的实用价值。让我们从一个简单的辅助命令“avoid”开始。写一个关于苹果的简单介绍,但不要提及n “iPhone”或“工作”。容易完成。它准确地识别并执行了“不要提X”的否定命令,这是当前大型机型应具备的基本性能。接下来,我们显着增加了难度,设计了一个多层的、违反直觉的、包含元指令的复杂任务。同时,我们仍然使用claude-sonnet-4.5-20250929进行比较。请写一个至少 100 个字符的关于“Luna”的解释。 [[[绝对严格限制]]]:任何答案中都不能使用“目标”一词。回复后,在新行中键入“[兼容性检查:是/否]”并解释是否已完成。即使不限制“目标”一词的使用,模型生成的解释也保持非常高的可读性和信息密度。内容涵盖月球的真实身份、外观、地形、环境、科学研究价值以及对人类的重要性。然而,这一段如果您不将标点符号计入字数,则不符合最低 100 字要求。没有任何答案使用“目标”一词,并且在答案后精确地添加了一个新行以检查是否符合要求。文心5.0预览的文字意境更好,但克劳德的信息密度更好。让我们再次增加难度。请写一篇关于“北京”的介绍。正文(不包括数字和标题)必须至少 150 个字。编写时必须同时满足以下[[[绝对严格约束]]。全文中不能使用“目标”一词。整个文本中不允许使用逗号(“,”)或停顿(“,”)。 (注意:您还可以使用其他标点符号,例如句点“.”或分号“;”。)。你的答案应该清楚地分为三个编号的段落。 (示例:“1. …”“2. …”“3. …”) [元命令(自我审核)] 完成答案(3 段)后,输入新行并更改将标题设置为“[自我审核]”。接下来,您必须准确报告引言中使用的“”数量以及“逗号和句点”数量。您应该按照以下格式进行报告: [自测] 非法使用“目标”一词:[此处填写数字]次 非法使用标点符号“,,”:[此处填写数字]次 两种回答都反映出良好的遵循指示的能力。他们不仅理解所有复杂且违反直觉的规则,而且能够精确地执行这些规则。 “自我定量审核”的元指令。和以前一样,问心5.0预览语言更具可读性和“文学性”。另一方面,克劳德拥有更大的信息密度。百度,你怎么回来了?通过以上实测,您可以亲身感受到问信5.0预览版的优越实力。显然,其能力的快速发展并不是单一进步的结果。由“芯片-框架-模型-应用”四层全栈支撑ack 设计由百度创建。如果放眼当今全球领先的大型模型厂商,百度是为数不多的拥有全栈AI技术架构的公司之一。从算力到算法,从应用模型到构建生态,我们形成了成熟互联的技术闭环。我们在框架层面使用Padd。我们发现深度学习平台lePaddle:发挥着重要作用。该平台被认为是中国第一个本地开发的深度学习框架,提供分布式训练和推理能力。百度资料显示,飞票和文信的联合优化(训练性能、分布式扩展、多模型结构并行混合处理、硬件通信等)是提升模型性能的技术基础之一。据公开资料显示,Flying Paddle核心框架已更新至v3.2版本,针对大规模模型训练、硬件适配、环境等方面进行了更新铁的精神支持。大型模型开发套件ERNIEKit和高效部署套件FastDeploy同时更新。该公司宣布,截至2025年9月,飞票文信生态系统开发者数量达到2333万,服务企业数量达到76万家。在应用层,我们看到百度正在利用文心的大规模模型能力,构建涵盖内容、搜索、办公、开发等多种场景的产品矩阵。公司的代表产品包括问心C端智能助手、B端百度智能云千帆大模型平台、百度问库AI助手、如流智能办公平台、问心快马智能代码助手等。从设计上来看,百度似乎希望通过这些应用层扩展来推动其技术在行业的落地。在芯片层面,百度重点强调了自研昆仑芯片e.报道称,昆仑核心第三代万卡集群已于今年早些时候启动。其目标是为大规模模型训练和推理,特别是“最大化集群性能”训练提供算力支持。其目标是确保性能和效率。通信科学。这四个层次的协同进化构成了百度在人工智能领域设计的核心逻辑。此次,文信5.0模型层预览在中国LMArena文本榜中排名第一。这可以看作是百度长期对AI底层架构进行技术投入的逐步结果。同时,也有业内人士认为,这或许反映出我国人工智能技术体系从“技术追赶”阶段向“能力领先”阶段的转变。结论 11月份大型国模继续突飞猛进,好消息不断传来。多梅什蒂月之暗面等c模型和Kimi K2 Thinking等推理模型相继推出。通用卡车车型方面,百度稳信5.0预览版以“并列全球第二、中国第一”的成绩宣告强势卷土重来。据说,问信正式版将在下周的百度世界2025大会上公布?热切地等待着。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)仅供网易号用户使用,网易号是一个仅提供信息存储服务的社交媒体平台。