春风拂过广东省乐昌市三溪镇连绵起伏的山丘,新栽的紫... 【更多】
中国台湾网3月25日讯 3月21日,2025年辽宁... 【更多】
近日珠海市教育局发布公告就《珠海市初中学业水平考试... 【更多】
日前,中央军委训练管理部印发了新编修的《军事体育训... 【更多】
轻点鼠标,案卷材料瞬间被AI拆解为法律要素,证据材... 【更多】
据人民日报客户端消息,5月4日,话题#马丽 不要去... 【更多】
截止到5月04日15时35分:交通事故沪渝高速沿江... 【更多】
掌上春城讯5月3日,记者从据磨憨边检站获悉,五一前... 【更多】
5月3日下午,广东文学馆鹅潭电影院座无虚席,200... 【更多】
IT之家 4 月 13 日消息,OpenAI、Anthropic 和其他顶尖人工智能实验室的人工智能模型越来越多地被用于协助编程任务,谷歌首席执行官桑达尔・皮查伊在去年 10 月透露,该公司 25% 的新代码由 AI 生成;而 Meta 首席执行官马克・扎克伯格也表达了在公司内部广泛部署 AI 编码模型的雄心壮志。
然而,即便是一些目前最先进的 AI 模型,在解决软件漏洞这一问题上,仍然无法与经验丰富的开发者相媲美。微软研究院(微软的研发部门)的一项新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在内的多款模型,在一个名为 SWE-bench Lite 的软件开发基准测试中,无法成功调试许多问题。
研究的共同作者们测试了九种不同的模型,这些模型作为“基于单个提示词的智能体”的核心,能够使用包括 Python 调试器在内的一系列调试工具。他们给这个智能体分配了一组经过筛选的 300 项软件调试任务,这些任务均来自 SWE-bench Lite。
据共同作者们介绍,即使配备了更强大、更先进的模型,他们的智能体成功完成的调试任务也极少超过一半。其中,Claude 3.7 Sonnet 的平均成功率最高,为 48.4%;其次是 OpenAI 的 o1,成功率为 30.2%;而 o3-mini 的成功率为 22.1%。
为何这些 AI 模型的表现如此不尽如人意?部分模型在使用可用的调试工具以及理解不同工具如何帮助解决不同问题方面存在困难。然而,共同作者们认为,更大的问题在于数据稀缺。他们推测,当前模型的训练数据中,缺乏足够多的“顺序决策过程”数据,即人类调试痕迹的数据。
“我们坚信,训练或微调这些模型可以使它们成为更好的交互式调试器。”共同作者们在研究报告中写道,“然而,这需要专门的数据来满足此类模型训练的需求,例如记录智能体与调试器交互以收集必要信息、随后提出漏洞修复建议的轨迹数据。”
这一发现其实并不令人意外。许多研究都表明,代码生成型 AI 往往会引入安全漏洞和错误,这是由于它们在理解编程逻辑等领域的薄弱环节所导致的。最近对一款流行的 AI 编程工具 Devin 的评估发现,它只能完成 20 项编程测试中的 3 项。
不过,微软的这项研究是迄今为止对模型在这一持续存在问题领域最为详细的剖析之一。尽管它可能不会削弱投资者对 AI 辅助编程工具的热情,但愿它能让开发者及其上级领导三思而后行,不再轻易将编程工作完全交给 AI 来主导。
IT之家注意到,越来越多的科技界领袖对 AI 会取代编程工作的观点提出了质疑。微软联合创始人比尔・盖茨曾表示,他认为编程作为一种职业将会长期存在。与他持相同观点的还有 Replit 首席执行官阿姆贾德・马萨德、 Okta 首席执行官托德・麦金农以及 IBM 首席执行官阿尔温德・克里希纳。
来源:央视新闻客户端随着人工智能技术的发展,具身智能机器人开始融入我们的生产、生活,开启越来越多的人机协作新方式。在广交会的玩具展区,不少玩具企业将人工智能与制造美学相结合。总台记者 成颖杰:这家来自“中国潮玩之都”东莞的玩具企业,今年结合时下流行的人工智能技术,打造了一款AI毛绒玩具,使用搪胶脸的
提要:越来越多的外贸企业正从“单腿跳”转向“两条腿走路”,通过开拓国内市场来对冲国际贸易风险。然而,这一转型并非简单地将出口产品转向内销——国内外市场在消费习惯、产品标准和渠道特点上存在显著差异,企业必须进行系统性创新。 今年2月以来,美国对华关税不断加码,冲击着全球贸易市场。在全球贸易形势复杂多变
美国就业市场传来利好消息。受美国超预期的非农就业数据刺激,美股市场全线走强,三大指数均涨超1%。中国资产亦集体爆发,三倍做多富时中国ETF一度涨超10%,纳斯达克中国金龙指数一度涨超3%。美国劳工统计局最新发布的报告显示,美国4月非农就业人数增加17.7万,大超市场预期。华尔街人士分析称,市场对就业
新华社 美国商务部4月30日公布数据显示,2025年第一季度,美国国内生产总值(GDP)环比按年率计算萎缩0.3%。这是2022年以来美国经济的最差季度表现。不少市场人士表示,此前已预判美国经济会因关税政策而表现糟糕,但没想到竟如此糟糕,给刚刚迎来执政百日的美国本届政府的信心和声誉再次带来沉重打击。
上海徐汇区日前发布六大“人工智能+城市治理”场景,并启动五大赛道揭榜挂帅计划。上海铁塔创新研发“电安哨卫”集中充电管理平台,作为“量子城市”治理解决方案在活动中亮相。电动自行车充换电柜在上海的外卖骑手、快递小哥群体中使用广泛。但在实现信息化管理前,充换电设施的安装情况、居民使用情况、运行期设备状态以