GPT-5编程测评大反转 ,表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

  发布时间:2025-11-04 05:24:52   作者:玩站小弟   我要评论
Scale AI的编表面不及比C倍新软件工程基准SWE-BENCH PRO,出现反转!程测成绩表面上看,反转“御三家”集体翻车,格实e高没一家的际的卷全解决率超过25%:GPT-5、Claude Opus 4.1、任务火影神起床了内置菜单Gemini 2.5分别以23.3%、没交22.7%、算上13.5%的编表面不及比C倍解决率“荣”登前三。但深入数据背后,则暗藏玄机。反转前OpenAI研究员Neil Chowdhury表示,格实e高如果只看已提交的际的卷全任务,GPT-5能达到63%的任务准确率,比Claude Opus 4.1的没交31%,高了近一倍!火影科技开挂器(免费)(这怎么不算G又赢!?)换句话说,GPT-5在擅长的题目上依旧稳健,与老基准SWE-Bench-Verified的74.9%差距不大,而Claude跟其他模型则直接拉垮到底。那么,究竟是什么基准测试,让这些顶级模型如此狼狈?SWE-BENCH PRO先说结论,不是模型变菜了,而是题变难了。与平均正确率高达70%的SWE-Bench-Verified相比,SWE-BENCH PRO严格得可不止一星半点。一方面,作为OpenAI于2024年8月发布的测试集,SWE-Bench-Verified中的火影忍者科技挂网站很多代码库已被用作大语言模型的预训练语料,存在着数据污染的风险。另一方面,SWE-Bench-Verified还包含不少琐碎的问题,例如500个问题中有161个只需一两行修改。这与工业软件工程中通常涉及的跨多文件、数百行修改的场景差距较大,从而无法真正反映实际开发场景中所面临的挑战。基于此,SWE-BENCH PRO主打全新题目,以确保模型在训练阶段从未接触过测试内容,从而更真实地考验模型的实际能力。涵盖1865个商业应用、B2B服务和开发者工具的多元化代码库具体来说,SWE-BENCH PRO将这些代码库构建为以下三个子集:公共集:来自采用copy-left许可证的11个公共代码库的731个问题。商业集:来自276个源自初创公司代码库的火影作弊菜单(悬浮球)问题。保留集:来自采用copy-left许可证的12个公共代码库的858个问题。(注:公共集将在HuggingFace上发布,商业集和保留集保持私有,商业集的测试结果会公开,保留集用于验证模型是否过拟合。每个问题由任务描述、相关测试集和可运行环境构成。)这些从强Copyleft许可证(GPL)代码库和真实的初创公司获取的商业代码库能够有效地解决SWE-Bench-Verified存在的数据污染问题。为了确保任务的复杂性,研究团队还排除了像1-10行代码编辑这样琐碎的编辑,保留了需要进行大量多文件修改的问题。此外,为了防止模型对任何单一代码库产生过拟合,这些代码库都处于活跃状态并覆盖消费者应用、B2B服务和开发者工具平台。火影忍者MOD作弊菜单接下来,就让我们看看研究者是如何在这些问题上进行测试的。human in the loop的测试环节为了将模型评估的重点放在当模型获得充分细节后,能否实现给定的修复或补丁上。研究团队在SWE-Bench Verified的基础上,将SWE-BENCH PRO中的每个问题都经过了人工增强,并加入了问题陈述、需求说明以及接口信息。首先,研究团队提供一个待解决问题的问题陈述并在必要时补充上下文信息。其次,针对潜在的歧义问题,对于每个问题,列出了一系列需求并指定相应的类和函数。之后,在环境方面,每个任务都在一个容器化的、用于特定语言的环境中进行评估。在测试阶段,研究通过fail2pass测试验证问题是否已解决,通过pass2pass测试确保现有功能保持完整。其中,为了确保测试质量,fail2pass测试会经过人工筛选,去掉与任务不相关或过于宽泛的测试。对于偶尔失败的测试,则会运行三次,以确保结果稳定。实验结论正如我们开头提到的,大语言模型在SWE-BENCH PRO上的解决率仅为中等水平,远低于SWE-Bench Verified中的70% 。其中,在公共集上,GPT-5和Claude Opus 4.1分别实现了23.3%和22.7%的最高解决率,显著优于小规模模型,Claude Sonnet 4也达到了16.3%的解决率。不过,像DeepSeek Qwen-3 32B和GPT-4o这样的老模型表现就多少有点不尽人意了,仅为3.4%和3.9%。在商业集上,即便是最优模型的得分也低于20%。这表明当前模型在解决真实商业场景中的问题时,能力仍然非常有限。针对这一苦涩的实验结果,研究人员展开了进一步的分析,结论如下:首先,编程语言的难度、代码库以及模型的种类被视为影响模型表现的关键因素。Go和Python通常表现较好,一些模型在这些语言上的解决率超过 30%,而JavaScript和TypeScript则波动较大,从0%到超过30%不等。不同代码库的解决率差异也很明显,一些代码库普遍偏低(低于 10%),另一些则超过50%。前沿模型如Claude Opus 4.1和GPT-5在大多数编程语言和代码库中表现稳定,小规模模型则更易出现接近零的解决率。其次,不同的模型的失败原因往往各不相同。OPUS 4.1的主要失败模式是语义理解不足,错误解答占35.9%,语法错误占24.2%,表明其技术执行能力较强,但在问题理解和算法正确性方面存在挑战。GPT-5的结果显示在工具使用的有效性上可能存在差异,但错误解答相对较少。SONNET 4的主要失败模式是上下文溢出(35.6%)和显著的无休止文件读取行为(17.0%),表明其在上下文管理和文件导航策略上存在局限。GEMINI 2.5的失败模式则较为均衡,涵盖工具错误(38.8%)、语法错误(30.5%)和错误解答(18.0%),显示其在多个维度上保持了一定能力。QWEN3 32B作为开源模型,表现出最高的工具错误率(42.0%),凸显了集成化工具使用对于高效代理的重要性。不难看出,GPT-5虽然延续了以往“会就会,不会就不会”的答题策略,但面对高企的未回答率(63.1%),它的表现仍然不够看。那么,谁会成为第一个突破30%的大模型呢?参考链接[1]https://x.com/vbingliu[2]https://scale.com/leaderboard/swe_bench_pro_public[3]https://x.com/ChowdhuryNeil/status/1969817448229826798[4] https://scale.com/research/swe_bench_pro本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。。

Scale AI的编表面不及比C倍新软件工程基准SWE-BENCH PRO ,出现反转!程测成绩

表面上看 ,反转“御三家”集体翻车,格实e高没一家的际的卷全解决率超过25%:

GPT-5、Claude Opus 4.1 、任务火影神起床了内置菜单Gemini 2.5分别以23.3% 、没交22.7%、算上13.5%的编表面不及比C倍解决率“荣”登前三。

但深入数据背后,则暗藏玄机。反转

前OpenAI研究员Neil Chowdhury表示,格实e高如果只看已提交的际的卷全任务,GPT-5能达到63%的任务准确率,比Claude Opus 4.1的没交31%,高了近一倍 !火影科技开挂器(免费)

(这怎么不算G又赢 ! ?)

换句话说 ,GPT-5在擅长的题目上依旧稳健,与老基准SWE-Bench-Verified的74.9%差距不大,而Claude跟其他模型则直接拉垮到底。

那么  ,究竟是什么基准测试,让这些顶级模型如此狼狈?

SWE-BENCH PRO

先说结论,不是模型变菜了 ,而是题变难了。

与平均正确率高达70%SWE-Bench-Verified相比,SWE-BENCH PRO严格得可不止一星半点 。

一方面,作为OpenAI于2024年8月发布的测试集,SWE-Bench-Verified中的火影忍者科技挂网站很多代码库已被用作大语言模型的预训练语料 ,存在着数据污染的风险。

另一方面 ,SWE-Bench-Verified还包含不少琐碎的问题,例如500个问题中有161个只需一两行修改。

这与工业软件工程中通常涉及的跨多文件 、数百行修改的场景差距较大 ,从而无法真正反映实际开发场景中所面临的挑战 。

基于此  ,SWE-BENCH PRO主打全新题目 ,以确保模型在训练阶段从未接触过测试内容 ,从而更真实地考验模型的实际能力。

涵盖1865个商业应用、B2B服务和开发者工具的多元化代码库

具体来说,SWE-BENCH PRO将这些代码库构建为以下三个子集 :

公共集 :来自采用copy-left许可证的11个公共代码库的731个问题 。

商业集 :来自276个源自初创公司代码库的火影作弊菜单(悬浮球)问题。

保留集 :来自采用copy-left许可证的12个公共代码库的858个问题。

(注 :公共集将在HuggingFace上发布,商业集和保留集保持私有,商业集的测试结果会公开 ,保留集用于验证模型是否过拟合  。每个问题由任务描述 、相关测试集和可运行环境构成 。)

这些从强Copyleft许可证(GPL)代码库和真实的初创公司获取的商业代码库能够有效地解决SWE-Bench-Verified存在的数据污染问题。

为了确保任务的复杂性 ,研究团队还排除了像1-10行代码编辑这样琐碎的编辑 ,保留了需要进行大量多文件修改的问题 。

此外,为了防止模型对任何单一代码库产生过拟合,这些代码库都处于活跃状态并覆盖消费者应用、B2B服务和开发者工具平台  。火影忍者MOD作弊菜单

接下来,就让我们看看研究者是如何在这些问题上进行测试的 。

human in the loop的测试环节

为了将模型评估的重点放在当模型获得充分细节后,能否实现给定的修复或补丁上 。

研究团队在SWE-Bench Verified的基础上 ,将SWE-BENCH PRO中的每个问题都经过了人工增强,并加入了问题陈述、需求说明以及接口信息。

首先,研究团队提供一个待解决问题的问题陈述并在必要时补充上下文信息 。

其次 ,针对潜在的歧义问题,对于每个问题,列出了一系列需求并指定相应的类和函数。

之后,在环境方面,每个任务都在一个容器化的 、用于特定语言的环境中进行评估  。

在测试阶段 ,研究通过fail2pass测试验证问题是否已解决 ,通过pass2pass测试确保现有功能保持完整。

其中,为了确保测试质量 ,fail2pass测试会经过人工筛选 ,去掉与任务不相关或过于宽泛的测试 。

对于偶尔失败的测试,则会运行三次 ,以确保结果稳定 。

实验结论

正如我们开头提到的 ,大语言模型在SWE-BENCH PRO上的解决率仅为中等水平,远低于SWE-Bench Verified中的70% 。

其中,在公共集上,GPT-5和Claude Opus 4.1分别实现了23.3%和22.7%的最高解决率,显著优于小规模模型,Claude Sonnet 4也达到了16.3%的解决率 。

不过 ,像DeepSeek Qwen-3 32B和GPT-4o这样的老模型表现就多少有点不尽人意了 ,仅为3.4%和3.9%。

在商业集上 ,即便是最优模型的得分也低于20%。

这表明当前模型在解决真实商业场景中的问题时,能力仍然非常有限 。

针对这一苦涩的实验结果,研究人员展开了进一步的分析 ,结论如下 :

首先 ,编程语言的难度、代码库以及模型的种类被视为影响模型表现的关键因素 。

Go和Python通常表现较好 ,一些模型在这些语言上的解决率超过 30% ,而JavaScript和TypeScript则波动较大,从0%到超过30%不等。

不同代码库的解决率差异也很明显 ,一些代码库普遍偏低(低于 10%) ,另一些则超过50%。

前沿模型如Claude Opus 4.1和GPT-5在大多数编程语言和代码库中表现稳定 ,小规模模型则更易出现接近零的解决率。

其次,不同的模型的失败原因往往各不相同。

OPUS 4.1的主要失败模式是语义理解不足,错误解答占35.9%,语法错误占24.2%,表明其技术执行能力较强,但在问题理解和算法正确性方面存在挑战 。GPT-5的结果显示在工具使用的有效性上可能存在差异 ,但错误解答相对较少 。SONNET 4的主要失败模式是上下文溢出(35.6%)和显著的无休止文件读取行为(17.0%) ,表明其在上下文管理和文件导航策略上存在局限。GEMINI 2.5的失败模式则较为均衡 ,涵盖工具错误(38.8%) 、语法错误(30.5%)和错误解答(18.0%),显示其在多个维度上保持了一定能力。QWEN3 32B作为开源模型,表现出最高的工具错误率(42.0%),凸显了集成化工具使用对于高效代理的重要性 。

不难看出,GPT-5虽然延续了以往“会就会,不会就不会”的答题策略,但面对高企的未回答率(63.1%),它的表现仍然不够看 。

那么 ,谁会成为第一个突破30%的大模型呢?

参考链接

[1]https://x.com/vbingliu

[2]https://scale.com/leaderboard/swe_bench_pro_public

[3]https://x.com/ChowdhuryNeil/status/1969817448229826798

[4] https://scale.com/research/swe_bench_pro

本文来自微信公众号“量子位”,作者:关注前沿科技 ,36氪经授权发布 。

相关文章

  • 七夕节必备情侣小游戏情侣飞行棋网站源码

    源码简介七夕节必备情侣小游戏情侣飞行棋网站源码 ,最近抖音很火的情侣飞行棋网站源码,这款情侣飞行棋提供了丰富的游戏玩法,可以为情侣 、朋友或家人带来欢乐的游戏体验。无论是在家中,还是在聚会、旅行等场合 ,都
    2025-11-04
  • 拼多多砍价互助,QQ名片点赞 - 抖音点赞秒到账 - 评论点赞业务

    QQ点赞平台优化提议随着社交媒体的发展  ,QQ点赞平台作为一种关键的社交互动方式逐渐被广泛应用。然而,如何让自己的QQ点赞在平台中脱颖而出 ,吸引更多的关注和点赞成为了许多人的关注点。下方将为大家提供QQ
    2025-11-04
  • 魔女审判v1.0.6汉化版

    魔女审判v1.0.6汉化版是一款日系冒险RPG游戏,游戏的日系动漫画风十分精致唯美 ,游戏里有多种玩法等你来挖掘,剧情模式代入感极强,是一款非常值得推荐的游戏,喜爱的小伙伴快来下载吧!注:游戏还未上线 ,
    2025-11-04
  • 低价点赞业务,抖音业务全网最低价 - 抖音点赞迅速到账 - Ks秒赞点赞

    如何自助为抖音视频点赞抖音是近年来非常流行的短视频应用,其中关键的一个指标就是点赞数。因此  ,不少用户想要自助为自己的抖音视频点赞。那么,如何自助为抖音视频点赞呢?接下来将为大家介绍几种方法。1.利用抖
    2025-11-04
  • YPay源支付Mini Pro免授权使用版v1.0

    源码简介YPay源支付Mini Pro免授权使用版v1.0 KilCat ,修改host屏蔽Pro授权站 ,可有效防止因用户操作不当导致免授权程序无法执行时 执行授权官方的盗版入库代码,尽可能保证网站安全
    2025-11-04
  • tiktok成年版1.4,ks秒赞点赞 - 视频播放量业务下单 - 小红书24小时点赞自助业务

    介绍在现今的社交网络时代中  ,社群媒体上的点赞已经成为了衡量社交影响力的一个关键标准。许多人因为想在社交媒体上扩展自己的影响力而寻找一些自助选购点赞的材料 ,以求得到更多的关注与拥护 。可是 ,如果您仅仅通过
    2025-11-04

最新评论