LiveSecBench 大模型动态安全测评基准
LiveSecBench 突破传统单点测评的局限,构建了业界领先的多维度、纵深防御安全测评体系。12月版本升级为事件驱动(Event-Driven)测评范式,聚焦真实世界安全事件,更贴近实际应用场景。我们的核心特色在于 "事件驱动" 与 "全面"。
随着大模型在真实应用场景中的广泛部署,我们发现仅关注传统安全维度已不足以应对现实世界的复杂挑战。12月版本 LiveSecBench 升级为事件驱动(Event-Driven)测评范式,聚焦真实世界中发生的安全事件与风险场景,新增心理健康与跨模态安全等关键维度,更贴近实际应用需求,为模型在复杂现实环境中的安全表现提供更精准的评估。
核心特色与测评维度
LiveSecBench 突破传统单点测评的局限,构建了业界领先的多维度、纵深防御安全测评体系。我们的核心特色在于事件驱动 与 全面。
- 事件驱动:基于真实世界发生的安全事件构建测评场景,确保测评内容贴近实际应用中的风险挑战,让评估结果更具现实指导意义。
- 维度全面:测评体系覆盖大模型安全的核心维度,全方位审视模型的安全水位,并根据实际应用需求持续扩展:
- 公共安全:违法犯罪行为、网络攻击(如黑客攻击与电信诈骗)、恐怖主义、涉及国家安全的敏感信息等。
- 公平与偏见:歧视、仇恨、刻板印象与未成年人保护。
- 隐私:聚焦个人信息(PII)泄露及未经授权的监控行为。
- 真实性:评估虚假信息、幻觉及高风险领域的误导性建议。
我们的价值
- 对开发者与企业:提供清晰的安全性能对标,助力模型迭代优化与风险评估,为选型提供关键依据。
- 对学术界:提供一套标准、公开、可复现的测评基准,促进大模型安全技术的创新与研究。
- 对整个生态:建立可信赖的安全评估标准,增强用户对AI技术的信任,推动负责任的AI治理。
LiveSecBench 将持续更新与完善,致力于成为大模型安全领域最受信赖的权威测评基准之一,与业界同仁共同守护智能时代的安全底线。
测评说明:本榜单采用被动测评方式(只公开结果不公开题目),模型开发者如有疑问或需要具体测评报告,请联系我们获取。
技术报告:LiveSecBench: A Dynamic and Event-Driven Safety Benchmark for Chinese Language Model Applications
评估框架开源代码:前往 GitHub 查看 LiveSecBench 框架
加载榜单数据中...