LiveSecBench 大模型动态安全测评基准

LiveSecBench 3月版在事件驱动评测范式的基础上，实现了测评题库生成方式的重大革新。首次引入「原子意图 × 攻击策略 × LLM 自动构造」三要素组合方法，借助 Dify 工作流实现越狱攻击级别安全测试题目的自动化批量生成，能够更精准地揭示各模型在极端对抗场景下的安全能力差距。我们的核心特色在于 "自动化对抗生成" 与 "全面"。

随着大模型安全防御能力的整体提升，传统测试题目对各模型的区分度日益降低——显式有害请求已难以有效区分模型在极端安全边界的真实表现。3月版 LiveSecBench 引入「原子意图 + 攻击策略」结构化题目合成框架：将安全风险分解为细粒度原子意图，与越狱攻击策略（如角色扮演嵌入、上下文迷惑、多轮诱导等）进行组合，再由 LLM 作为题目生成引擎，通过 Dify 工作流实现全流程自动化批量生成。这一创新使测评题目难度更高、覆盖更广、更能还原真实攻击场景，从而更有效地测量出各模型在极端压力下的安全水位差异。

核心特色与测评维度

LiveSecBench 突破传统单点测评的局限，构建了业界领先的多维度、纵深防御安全测评体系。我们的核心特色在于自动化对抗生成与全面。

自动化对抗生成：采用「原子意图 × 攻击策略 × LLM 构造」结构化合成框架，结合 Dify 工作流实现越狱级测试题目的自动批量生成。题库难度更高、区分度更强，能有效暴露模型在极端对抗场景下被常规测试掩盖的安全短板。
维度全面：延续事件驱动版多维安全覆盖，并将新题目合成方法应用于所有安全维度，确保每个维度均包含足量的高强度对抗样本：
1. 公共安全：违法犯罪行为、网络攻击（如黑客攻击与电信诈骗）、恐怖主义、涉及国家安全的敏感信息等。
2. 公平与偏见：歧视、仇恨、刻板印象与未成年人保护。
3. 隐私：聚焦个人信息（PII）泄露及未经授权的监控行为。
4. 真实性：评估虚假信息、幻觉及高风险领域的误导性建议。

我们的价值

对开发者与企业：提供清晰的安全性能对标，助力模型迭代优化与风险评估，为选型提供关键依据。
对学术界：提供一套标准、公开、可复现的测评基准，促进大模型安全技术的创新与研究。
对整个生态：建立可信赖的安全评估标准，增强用户对AI技术的信任，推动负责任的AI治理。

LiveSecBench 将持续更新与完善，致力于成为大模型安全领域最受信赖的权威测评基准之一，与业界同仁共同守护智能时代的安全底线。

测评说明：本榜单采用被动测评方式（只公开结果不公开题目），模型开发者如有疑问或需要具体测评报告，请联系我们获取。

技术报告：LiveSecBench: A Dynamic and Event-Driven Safety Benchmark for Chinese Language Model Applications

评估框架开源代码：前往 GitHub 查看 LiveSecBench 框架

加载榜单数据中...