您的位置：首页 > 实时讯息 >

微软研究：AI编程助手软件调试能力堪忧

0次浏览发布时间：2025-04-13 09:14:00

IT之家 4 月 13 日消息，OpenAI、Anthropic 和其他顶尖人工智能实验室的人工智能模型越来越多地被用于协助编程任务，谷歌首席执行官桑达尔・皮查伊在去年 10 月透露，该公司 25% 的新代码由 AI 生成；而 Meta 首席执行官马克・扎克伯格也表达了在公司内部广泛部署 AI 编码模型的雄心壮志。

然而，即便是一些目前最先进的 AI 模型，在解决软件漏洞这一问题上，仍然无法与经验丰富的开发者相媲美。微软研究院（微软的研发部门）的一项新研究表明，包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在内的多款模型，在一个名为 SWE-bench Lite 的软件开发基准测试中，无法成功调试许多问题。

研究的共同作者们测试了九种不同的模型，这些模型作为“基于单个提示词的智能体”的核心，能够使用包括 Python 调试器在内的一系列调试工具。他们给这个智能体分配了一组经过筛选的 300 项软件调试任务，这些任务均来自 SWE-bench Lite。

据共同作者们介绍，即使配备了更强大、更先进的模型，他们的智能体成功完成的调试任务也极少超过一半。其中，Claude 3.7 Sonnet 的平均成功率最高，为 48.4%；其次是 OpenAI 的 o1，成功率为 30.2%；而 o3-mini 的成功率为 22.1%。

为何这些 AI 模型的表现如此不尽如人意？部分模型在使用可用的调试工具以及理解不同工具如何帮助解决不同问题方面存在困难。然而，共同作者们认为，更大的问题在于数据稀缺。他们推测，当前模型的训练数据中，缺乏足够多的“顺序决策过程”数据，即人类调试痕迹的数据。

“我们坚信，训练或微调这些模型可以使它们成为更好的交互式调试器。”共同作者们在研究报告中写道，“然而，这需要专门的数据来满足此类模型训练的需求，例如记录智能体与调试器交互以收集必要信息、随后提出漏洞修复建议的轨迹数据。”

这一发现其实并不令人意外。许多研究都表明，代码生成型 AI 往往会引入安全漏洞和错误，这是由于它们在理解编程逻辑等领域的薄弱环节所导致的。最近对一款流行的 AI 编程工具 Devin 的评估发现，它只能完成 20 项编程测试中的 3 项。

不过，微软的这项研究是迄今为止对模型在这一持续存在问题领域最为详细的剖析之一。尽管它可能不会削弱投资者对 AI 辅助编程工具的热情，但愿它能让开发者及其上级领导三思而后行，不再轻易将编程工作完全交给 AI 来主导。

IT之家注意到，越来越多的科技界领袖对 AI 会取代编程工作的观点提出了质疑。微软联合创始人比尔・盖茨曾表示，他认为编程作为一种职业将会长期存在。与他持相同观点的还有 Replit 首席执行官阿姆贾德・马萨德、 Okta 首席执行官托德・麦金农以及 IBM 首席执行官阿尔温德・克里希纳。

本文分类：实时讯息
本文标签：模型微软首席执行官数据这一智能作者之家
浏览次数：0 次浏览
发布日期：2025-04-13 09:14:00
本文链接：https://www.efwz.net/news/Vz5LN748Nj.html

上一篇 > 金湘军被查
下一篇 > 周沟村赠锦旗感恩许昌市烟草公司建安分公司帮扶

用雷锋精神浇灌“生态长城”

2025年辽宁省台办主任会议在沈召开

有变！事关珠海中考体育！

军营观察丨军体训练：由健康体能向战斗体能转变

清远：“AI+检察”为高质效办案按下快进键

中国移动与曙光存储联合推出国内首个智能存力跨域调度平台

何以湖南丨你所不知道的岳阳

紧急提醒：基孔肯雅热禁用这种常见药！

4条公交线路暂停运营！石家庄最新消息

河南汝阳刘店镇：“四方力量”拧成防汛一股绳筑牢“七下八上”安全堤坝

微软研究：AI编程助手软件调试能力堪忧

中国移动与曙光存储联合推出国内首个智能存力跨域调度平台

海南众扬新材料上半年成绩亮眼，全年产值将突破4000万！

直击WAIC2025 | 首日探馆：大模型丰产下的共舞时代具身智能与AI终端齐飞

苹果智能戒指专利获批：边缘配照明，配合触觉反馈革新交互体验

免费住！武汉青年人才之家最长可住15天