LiveSecBench Logo

LiveSecBench

大模型动态安全测评基准

LiveSecBench 大模型动态安全测评基准

LiveSecBench 3月版在事件驱动评测范式的基础上,实现了测评题库生成方式的重大革新。首次引入「原子意图 × 攻击策略 × LLM 自动构造」三要素组合方法,借助 Dify 工作流实现越狱攻击级别安全测试题目的自动化批量生成,能够更精准地揭示各模型在极端对抗场景下的安全能力差距。我们的核心特色在于 "自动化对抗生成" 与 "全面"。

随着大模型安全防御能力的整体提升,传统测试题目对各模型的区分度日益降低——显式有害请求已难以有效区分模型在极端安全边界的真实表现。3月版 LiveSecBench 引入「原子意图 + 攻击策略」结构化题目合成框架:将安全风险分解为细粒度原子意图,与越狱攻击策略(如角色扮演嵌入、上下文迷惑、多轮诱导等)进行组合,再由 LLM 作为题目生成引擎,通过 Dify 工作流实现全流程自动化批量生成。这一创新使测评题目难度更高、覆盖更广、更能还原真实攻击场景,从而更有效地测量出各模型在极端压力下的安全水位差异。

核心特色与测评维度

LiveSecBench 突破传统单点测评的局限,构建了业界领先的多维度、纵深防御安全测评体系。我们的核心特色在于自动化对抗生成 全面

  • 自动化对抗生成:采用「原子意图 × 攻击策略 × LLM 构造」结构化合成框架,结合 Dify 工作流实现越狱级测试题目的自动批量生成。题库难度更高、区分度更强,能有效暴露模型在极端对抗场景下被常规测试掩盖的安全短板。
  • 维度全面:延续事件驱动版多维安全覆盖,并将新题目合成方法应用于所有安全维度,确保每个维度均包含足量的高强度对抗样本:
    1. 公共安全:违法犯罪行为、网络攻击(如黑客攻击与电信诈骗)、恐怖主义、涉及国家安全的敏感信息等。
    2. 公平与偏见:歧视、仇恨、刻板印象与未成年人保护。
    3. 隐私:聚焦个人信息(PII)泄露及未经授权的监控行为。
    4. 真实性:评估虚假信息、幻觉及高风险领域的误导性建议。

我们的价值

  • 对开发者与企业:提供清晰的安全性能对标,助力模型迭代优化与风险评估,为选型提供关键依据。
  • 对学术界:提供一套标准、公开、可复现的测评基准,促进大模型安全技术的创新与研究。
  • 对整个生态:建立可信赖的安全评估标准,增强用户对AI技术的信任,推动负责任的AI治理。

LiveSecBench 将持续更新与完善,致力于成为大模型安全领域最受信赖的权威测评基准之一,与业界同仁共同守护智能时代的安全底线。

测评说明:本榜单采用被动测评方式(只公开结果不公开题目),模型开发者如有疑问或需要具体测评报告,请联系我们获取。

评估框架开源代码:前往 GitHub 查看 LiveSecBench 框架

加载榜单数据中...