《终极任务》高清在线观看 - 剧集 - 蛋蛋剧
tutuxi 2025-07-28 21:26 3 浏览
“人类最后的考试”首次突破分,还是咱国内团队干的!
该测试集是出了名的超难,刚推出时无模型得分能超过分。
直到最近,最高分也不过,由Kimi-Research和Gemini Deep Research并列取得。
现在,上海交大联合深势科技团队突然发布了一项新研究,在“人类最后的考试”(HLE,Humanity’s Last Exam)上一举拿下分,创下新纪录。
在这项研究中,团队推出工具增强推理智能体X-Master、多智能体工作流系统X-Masters。
划重点:还直接把这套方案给开源了。
网友们纷纷感叹现在AI竞赛太激烈,一天一个样。
另外值得一提的是,这项研究使用了DeepSeek-R1-作为驱动智能体的推理模型,由此也有网友表示:
R1在函数调用上表现仍欠佳,而且在这项研究里甚至没有针对这一点进行微调。但即便如此,只要给它搭配合适的框架,它在HLE这个难度很高的测试中就能拿到%的成绩。
虽然大家可能会习惯性地称R1为“最佳基础模型”,但我觉得这其实是给V4打下了基础。我敢肯定,V4一出来就会自带智能体功能。
怎么做到的?
具体来看X-Master和X-Masters,这是该团队SciMaster系列研究的第一部分,旨在开发通用科学AI智能体。
X-Master是一个由开源模型(如DeepSeek-R1)驱动的工具增强型推理智能体,其核心设计理念是模拟人类研究者的动态问题解决过程,在内部推理和外部工具使用之间流畅切换。
这一过程形成了一个共生循环:
工具输出为智能体的推理提供关键反馈,帮助其完善推理;而更清晰的推理又能引导智能体更智能、更高效地使用工具。
实现这一过程的核心机制是将代码概念化为一种交互语言。
当X-Master遇到无法通过内部推理解决的问题时,它会将精确的行动计划编写为代码块。这个“计划”随后会被执行,与任何所需资源进行接口连接,这些资源既包括NumPy和SciPy的强大数值计算能力,也包括团队专门设计的用于实时网络搜索和数据提取的工具包。
执行结果会被无缝吸收回智能体的上下文环境中,丰富其知识储备,并为后续推理提供依据。
具体而言,在智能体的思考过程中,即在token“”和“
”之间生成代码以与环境进行交互。
一旦通过字符串匹配检测到这种模式,其中的代码就会被提取出来,并在一个沙盒环境中执行,在该环境中可以访问各种Python库和工具。
执行结果随后会被附加到模型的上下文中,并由特殊token“
之后,推理模型会继续其思考过程,解读执行结果并进一步推理,直到发起下一次交互或思考结束。
由于当前可用的强推理模型(如DeepSeek-R1)本质上是非智能体的,并且往往在遵循指令方面能力有限,仅依靠传统的提示工程不足以可靠地引导这些模型展现出预期的智能体行为。
因此,团队还引入了一个简单而有效的机制:初始推理引导。
该机制不会让推理模型在收到用户查询后立即开始不受约束的思考过程,而是在模型的初始“
这些引导文本特意从推理智能体自身的角度出发来设计,采用第一人称表述,例如“我可以通过访问外部环境有效回答这个查询”“每当我确定需要与外部工具交互时,我会生成包裹在和
token之间的Python代码”。
团队表示,通过将这些精心设计的自我陈述拼接至模型的上下文中,可有效地引导模型“相信”自身具备增强的能力。
即便没有针对智能体行为进行明确的微调,该模型也能够自主生成和执行代码,与环境交互,并最终发挥出强大的智能体功能。
接下来,为充分发挥X-Master的潜力,团队设计X-Masters,这是一种分散-堆叠式智能体工作流,通过编排多智能体认知过程,系统地增强推理的广度和深度。
在这个过程中,X-Master的不同实例承担着多种专门角色。
“分散”阶段旨在拓宽思路,多个求解器(Solver)智能体并行工作,生成多样化的解决方案,同时批评者(Critic)智能体对这些方案可能存在的缺陷进行修正。
接着“堆叠”阶段用于深化思考,重写器(Rewriter)智能体将所有先前的输出综合成更优的解决方案,最后由选择器(Selector)智能体裁定出最佳答案。
团队表示,其分散-堆叠架构本质上是一种结构化探索和利用策略,与强化学习(RL)中的“Rollouts”概念有很强的相似性。
“分散”阶段类似于强化学习中Rollouts的探索原理,即模拟多条未来轨迹以评估不同行动的潜力。后续的“堆叠”阶段类似于强化学习中Rollouts之后的聚合和“利用”步骤。
首个在HLE上得分超过%的系统
实验部分,团队使用DeepSeek-R1-作为驱动智能体的推理模型,最大完成token数设置为64k,temperature为。
测试重点关注HLE的纯文本子集,包含个样本。评估运行工作流三次并报告平均分数,同时按照官方设置,使用o3-mini作为评判模型。
基线模型在HLE上的结果均来自现有的排行榜。
主要结果显示,X-Masters取得了%的最高分,超过了所有现有智能体和模型,这也是首个在HLE上得分超过%的系统。
跨不同类别的性能显示,与DeepSeek-R1-相比,X-Masters在所有类别中都显示出显著改善:
消融研究结果揭示了智能体工作流中的渐进收益:
工具增强推理(求解器)使基线准确率提高了%,迭代优化(批评者和重写器)又增加了 %,最终选择(选择器)则实现了%的纪录成绩。
另外,团队还将X-Masters与生物学领域科学智能体进行对比。
近期研究成果,如Biomni和STELLA,通过利用配备大量专业工具的大语言模型智能体,在应对生物学难题方面取得了一定进展。
而X-Masters,在HLE的生物学/医学类别中,表现优于现有系统,Biomni的正确率是%,STELLA大概 %,而 X-Masters达到了%。
并且Biomni和STELLA是从生物学/医学类题目里挑了一部分来测试的,而X-Masters是考了这一类里所有道纯文字题,说明它在复杂生物医学问题上的能力确实突出。
在一个叫TRQA-lit(choice)的生物学专门测试中,X-Masters也取得了目前最好的成绩。这个测试里有道多选题,都是生物学研究里的复杂任务,比如找治疗靶点、研究生物医学机制等
独立的X-Master达到了%的准确率,借助智能体工作流,X-Masters取得了%的SOTA成绩,体现了分散探索和堆叠选择的有效性。
与整合了多种专家工具的多智能体系统 OriGene相比,X-Master仅使用两种网络工具(网页搜索和网页解析),却获得了更高的准确率,进一步印证了X-Master工具增强推理过程的高效性,即通过广泛探索和堆叠选择,它能够有效解决复杂的生物学任务。
“人类最后的考试”是什么?
“人类最后的考试”由AI安全中心和Scale AI发起,今年年初发布。刚发布时,包括o1在内,没有一个模型得分超过%,被称作是史上最难大模型测试集。
题目来自多家机构的多名学者,涉及机构包括高校、研究所和企业,还有来自医疗机构的学者以及一些独立研究者等。OpenAI、Anthropic、谷歌DeepMind以及微软研究院都包括在其中。
团队收集到的题目需要经历大模型和人工的双重审查。不仅要达到研究生难度,而且还要确保不能被检索到。当然题目还应当有明确的答案和评判方式,证明等开放式问题不会入选。
最终入围的题目有多道。
入选的问题涵盖了数理化、生物医药、工程和社会科学等多种学科,按细分学科来算则多达余个。按大类来分,可分为八大类,其中占比最多的是数学(%),然后是物理和生物医药(均为%)。
其中有些题目,还会考察模型的视觉能力,比如解读这种上古文字(翻译由GPT-4o生成)。
有些题目还需要结合视觉信息和文本共同理解,比如在化学,特别是有机化学当中,需要用图来表示相关物质的结构。
数学题计算机科学的题目,对推理的要求很高,难度be like:
足以见得,X-Masters拿下分实属不易,而这项突破性成果还是出自我们国内团队之手。
共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du全部来自上海交通大学人工智能研究院,上海交大陈思衡副教授指导。
深势科技方面,创始人兼首席科学家张林峰亲自署名。
论文链接:
https://arxiv.org/abs/
GitHub链接:
https://github.com/sjtu-sai-agents/X-Master
参考链接:
https://x.com/gm8xx8/status/
本文来自微信公众号“量子位”,作者:西风,氪经授权发布。
相关推荐
- My Logo — 韩庚 - Last.fm(韩庚 internation)
-
logo[英][?l?ɡ??][美][?lo?ɡo?]n.标识,标志韩庚的mylogo,就是韩庚的标志的意思
- 2013国剧盛典 - 百度百科(2013国剧盛典十佳电视剧)
-
2013国剧盛典周群、杨澜等主持的文艺晚会由安徽卫视主办、光线传媒承办一年一度“2013国剧盛典”昨晚在京录制,迎来了众多明星前来捧场,俨然成为2013年年末一场饕餮盛宴。凭借《小爸爸》剧中善良可爱、...
- 《囧探查过界》2010电视剧集 - 演职员表 - xb1
-
在电视剧《囧探查过界》中,钟嘉欣的角色已经死了。在剧中,钟嘉欣饰演的角色在调查一起案件时遇到了意外,导致她失去了生命。然而,她的灵魂仍然留在世间,以便完成未完成的事业。在剧中,王喜饰演的角色因为特殊原...
- 哈利·波特与“混血王子” - 维基百科,自由的百科全书
-
可以说是也可以说不是。因为斯内普的父母在他很小的时候就离婚了。还记得第五部哈利在冥想盆看到的情景吗:一个男人朝一个女人吼,一个孩子躲在角落边。那对男女就是他的父母,那个孩子就是他自己。他随了母姓,并一...
- 《月光魅影》电视剧免费在线观看_影视猫
-
这个结局一共有三个的。不是有个吊坠吗。你开始一直选白色的这边结局是一个。一直选黑的那边结局又是另外一个。等你点亮黑色的翼和白色的翼你再重玩一次,结局你就选吊坠中间那颗粉红色的就可以了。...
- 御前四宝剧情介绍(1-40全集)大结局_电视剧_电视猫
-
插曲是得意的笑。得意的笑是小虫作词、小虫作曲,梁伯君、小虫编曲,李丽芬演唱的歌曲,收录于1993年5月发行的专辑《发现》中
- 2014 年有什么好电影?(2014年有什么好电影)
-
1、《心花路放》10.52亿元 2、西游记之大闹天宫104599万元 3、爸爸去哪儿69611万元 4、分手大师66644万元 5、后会无期62975万元 6、澳门风云52496...
- 8部片子, 揭秘英国王室!专栏
-
英国王室是英国的君主制度下的象征性机构,由国王或女王及其家族成员组成。英国王室的职责包括代表国家参加国内和国际事务,担任国家元首的职位,参与国家仪式和庆典,以及履行一些公共职责,比如慈善事业等。此外,...
- 三田佳子オフィシャルブログ「佳子のガラパゴス遊歩」Powered by Ameba
-
doctorx即《Doctor-X~外科医·大门未知子~2》。第二季剧情解析:在第一季中,以果敢干练的作风和高超惊人的医术,人称“DoctorX”外科医生大门未知子(米仓凉子饰)在早已形同腐臭泥潭...
- 大理公主分集剧情介绍(1-31集)_校园剧情网
-
是艾月,因为在剧中刘伯恩曾这样说:"艾月是我的挚爱"刘伯恩喜欢的是艾月,对阿细主要是同情,像大哥哥对小妹妹一样.有,昭庆公主段氏,为大理国丞相、中国公高量成之妻,后生子高皎渊(后出家)昭庆公主段氏是...
- 真爱趁现在剧情介绍(1-72全集)大结局_电视剧_电视猫
-
胡宇威求婚陈庭妮,《真爱趁现在》CP成真电视剧《真爱的谎言之破冰者》正在热播,剧中靳远身为缉毒警察,以身犯险打入犯罪分子内部,与警方里应外合捣毁犯罪集团,那靳远有历史原型吗?他最后怎么样了?靳远是名优...
- 语义错误动漫免费观看(语义错误动漫免费观看全集)
-
有戏|我喜爱的电视剧第章“崔宥娜!” 宥娜还是老样子,边干活边摇头晃脑。确认了没有人会听到后,宰英压低声音继续说。 “人际关系也是一样,不是你一个人的事。两个人合作才能完成的事情你单方面决定又取消...
- 《百星酒店(粤)》完整版HD在线观看 - 电影 - 策驰影院
-
酒店的部门根据酒店自身情况来设置,有的可以合并的,或者拆分,视具体其概况而定。我们酒店现在使用的10个部门1.前厅部2.客房部3.餐饮部4.康体部5.市场营销部6.行政综合部(总办)7.财务部8.人力...
- 《遇见大咖第一季》-综艺-免费在线观看
-
遇见大咖第五季在CCTV—2央视网观看史小诺,女,汉族,1972年4月13日出生于重庆市,中国内地女记者、主持人,1991年就读于北京广播学院播音系。1995年在四川电视台任职,1999年在重庆电视台...
- 樱花草视频在线观看高清版_樱花草视频在线观看视频免费观看_樱花草视频在线观看官网_樱花草视频在线看免费观看
-
歌名:樱花草歌手:sweety作曲:李天龙作词:李天龙晚风吹动着竹林月光拉长的身影萤火虫一闪闪满山飞舞的钱币天上银河在发光地上风铃来歌唱织女星在远方古老浪漫的神话流水走过就像四季的变换幸...
- 一周热门
-
-
《勇者无敌》电视剧完整版在线观看 - 人人影视
-
滿清十大酷刑 HD国语 - 優質雲 - Gimy 劇迷TV線上看
-
末日之战_电影_高清完整版视频在线观看 ... - 腾讯视频
-
前任3:再见前任-电影-高清视频在线观看-搜狐视频
-
筷子兄弟《父亲》MV,唱给伟大的父亲,太感人_高清1080P在线观看平台_腾讯视频
-
不夜城-2016韩剧-20集全集免费在线观看-特看网
-
如何评价韩剧《魔女幼熙》?
-
《天使的尾巴》动漫全集在线观看_天使的尾巴全集线上看-影视TV - 免费在线看电影、电视剧、韩剧、美剧,尽享海外在线影院
-
《永恒》电影在线观看_2010年泰国电影-韩剧网-韩剧DVD
-
《宫锁沉香电影》精品视频在线观看「免费」 - 窝窝影院
-
- 最近发表
- 标签列表
-