game show 新闻
你的位置:博雅国学馆 > 新闻 > 阿里巴巴长入高校发布首个面向分娩场景的代码安全基准SecCodeBench
阿里巴巴长入高校发布首个面向分娩场景的代码安全基准SecCodeBench

2025-07-11 05:13    点击次数:156


  

连年来,以大讲话模子(LLM)为中枢的AI编程助手(如GitHub Copilot, Cursor)正已往所未有的速率浸透到软件拓荒的每个边际。Stack Overflow 2024年的侦查涌现,61.8%的拓荒者正在用AI器具进步效果。AI Coding正成为第一个行将颠覆真实分娩场景的畛域。

但是,这场效果翻新的背后,一个严峻的挑战浮出水面:AI生成的代码,安全吗?

斯坦福大学与康奈尔大学的说合还是敲响警钟,标明使用AI编程可能导致代码安全性镌汰,引入复杂各类的潜在转折。当AI生成代码量占据新增代码的1/3以上时,其安全性已成为扫数这个词软件工程畛域亟待顾问的中枢问题。

为随意这一挑战,阿里巴巴集团安全、阿里云安全等多个阿里巴巴安全团队长入与浙江大学收集空间安全学院、复旦大学、清华大学收集科学与收集空间说合院、北京大学推出了SecCodeBench——专注于评估大讲话模子(LLM)生成代码安全性的基准测试套件。

]article_adlist-->

为什么行业进攻需要SecCodeBench?

现时,业界对AI代码的评估大多停留在"功能是否正确"的层面,而对其安全性的系统性评估却严重不及。咱们调研了业内多个AI代码安全测评集,发现它们精深存在两大"致命颓势":

1

测试用例质料杂沓不王人:

好多数据集依赖自动化生成,清寒东谈主工深度参与,导致数据散播失衡(如无数低优先级的弱哈希算法问题占主导)、用例脱离真实分娩场景,甚而包含"垂钓法则"式的诱导性指示,无法真实反应模子的安全水位。

2

评估神志单一且精度不及:

大多评估神志依赖浅显的正则抒发式,难以识别语法或语义复杂的代码变体,且王人备忽略了必须通过真实运行才能考证的动态转折。

为此,咱们推出SecCodeBench。从“数据构建”与“评估神志”两大维度进行了创新,旨在竖立一个科学、平允且面对工业界真实场景的评测新尺度。

SecCodeBench中枢上风

为真实寰宇打造的AI代码"安全试金石"

高质料数据:源于真实,忠于本质

首个贴合真实分娩场景的测试集:SecCodeBench的构建,千里淀了阿里巴巴安全团队的代码安全攻防训戒,真切市欢工业界代码结构与安全建设的痛点与手段。

源自真实GitHub仓库:测试用例并非臆造合手造,而是基于对15万个真实GitHub Java名堂标深度扫描,确保了评测的真实性和挑战性。

转折类型散播泛泛:精选并均匀笼罩了12种业界泛泛招供的CWE(通用颓势摆设)转折类型,幸免了因数据散播不均导致的评测罢了偏差。

民众深度参与,双重审核:所灵验例均由阿里巴巴资深的安全民众参与构建,并过程严格的“双东谈主评审”证明,保证了数据的巨擘性与高质料。

评测平允:咱们移除了扫数可能产生不妥诱导的无极表述,追求对大讲话模子(LLM)才略评估的平允与道同志合。

SecCodeBench的数据集组成如下表所示,所灵验例均罢免业界泛泛招供的CWE尺度进行分类:

场景评估神志数据开头转折/组件类型测试用例数
Autocomplete静态评估扫描约15万GitHub Java仓库46 种398
Instruct静态评估扫描约15万GitHub Java仓库46 种398
Instruct动态评估安全民众东谈主工审核构造17 种18

 混杂评估政策:静态、动态结合,全面度量

SecCodeBench针对AI缓助编程的两种中枢场景,筹备了科学、多维度的评测活水线:

笼罩两大主流场景:针对性地为Instruct(指示驱动编码)和Autocomplete(代码自动补全)这两种最中枢的LLM编程场景筹备了不同的评测范式。

"动态+静态"混杂评估:

动态运行测试:咱们基于安全工程师的实战训戒,计议到真实工程实施中转折产生的频率,经心构造了18个可实质运行的转折足下场景对应的测试用例。它能在真实运行环境中检测代码的安全发扬,这是传统静态分析无法企及的。

高精度静态分析:除了使用高精度正则抒发式快速检测已知转折模式外,咱们还独创性地引入了LLM-as-a-Judge机制。

LLM-as-a-Judge机制:咱们创造性地使用了注入了阿里高质料安全方法常识的大模子当作"安全评委"。

异日瞻望:咱们的阶梯图

咱们勉力于于将SecCodeBench打形成一个络续演进的敞开安全基准,并以评测的平允性、场景的真实性、神志的科学性当作其不变的中枢尺度。异日的使命将围绕以下几个标的张开:

络续推行 Java 用例:咱们将箝制加多更多、更面对真实业务场景的 Java 测试用例,以笼罩更泛泛的 CWE 类别。

推广多讲话相沿:在完善 Java 数据集的基础上,咱们运筹帷幄逐渐相沿其他主流编程讲话,如 Python, Go, C++, JavaScript 等。

社区驱动的迭代与拓荒:咱们将积极听取社区的反馈,络续迭代和修正数据汇集可能存在的问题,以保证基准的恒久高质料与平允性。特地迎接您通过创建 Issue 来接头新功能或提议建议!

如何开动使用SecCodeBench

好意思满的装配指南、使用神志、期间细节和期间细节还是一谈托管在官方GitHub仓库中。咱们饱读动拓荒者和说合者探询仓库,以得到最新、最准确的信息。

GitHub仓库地址:https://github.com/alibaba/sec-code-bench

特地迎接您通过提交Issue和Pull Request的步地,参与到SecCodeBench的社区共建中来!

写在终末

为AI期间的软件工程筑牢安全基石

SecCodeBench的发布,是鼓励AI生成代码从"过后拓荒"迈向"预先留心"的要道一步。它不仅为企业和拓荒者提供了量化评估AI生成代码安全性的科学器具,助力"安全左移"理念简直落地,也为学术界提供了高质料的数据与评测范式,以加快大模子安全畛域的期间梗阻。

咱们服气,让代码更安全,才能让AI更简直。SecCodeBench,愿为AI期间的软件工程,筑牢每一块安全基石。

海量资讯、精确解读,尽在新浪财经APP

Powered by 博雅国学馆 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2025