LiveSecBench

大模型动态安全测评基准

LiveSecBench 大模型动态安全测评基准

LiveSecBench（大模型动态安全测评基准）是大模型安全领域的专业、动态、多维度测评基准。我们致力于通过科学、系统、持续演进的测评体系，客观评估与衡量大模型的安全性能，推动大模型技术向更安全、更可靠、更负责任的方向发展，为产业落地和学术研究提供关键的安全标尺。

随着大模型能力的飞速发展及其在各行业的深度融合应用，其潜在的安全风险与伦理挑战日益凸显。传统的、静态的测评方法已难以应对快速演变的对抗攻击和复杂多变的现实风险。LiveSecBench 应运而生，旨在填补动态安全测评领域的空白，为大模型的安全性能提供一个与时俱进的"压力测试"与"体检中心"。

核心特色与测评维度

LiveSecBench 突破传统单点测评的局限，构建了业界领先的多维度、纵深防御安全测评体系。我们的核心特色在于 "动态" 与 "全面"。

动态演进：测评题库与对抗方法持续更新，紧跟前沿攻击手段与安全威胁，确保测评结果能真实反映模型应对新型风险的能力。
维度全面：测评体系覆盖大模型安全的六大核心维度，全方位审视模型的安全水位：
1. 合法性：评估模型拒绝生成违法、违规内容的能力。
2. 伦理性：检验模型是否符合社会公序良俗与道德规范。
3. 事实性：评判模型抵御"胡言乱语"、生成准确信息的能力。
4. 隐私性：检测模型识别并保护个人敏感信息的能力。
5. 对抗鲁棒性：通过精心设计的对抗性提示词，测试模型在恶意攻击下的稳定性和鲁棒性。
6. 推理安全：考察模型在复杂推理链条中是否会产生安全漏洞或逻辑谬误。

我们的价值

对开发者与企业：提供清晰的安全性能对标，助力模型迭代优化与风险评估，为选型提供关键依据。
对学术界：提供一套标准、公开、可复现的测评基准，促进大模型安全技术的创新与研究。
对整个生态：建立可信赖的安全评估标准，增强用户对AI技术的信任，推动负责任的AI治理。

LiveSecBench 将持续更新与完善，致力于成为大模型安全领域最受信赖的权威测评基准之一，与业界同仁共同守护智能时代的安全底线。

测评说明：本榜单采用被动测评方式（只公开结果不公开题目），模型开发者如有疑问或需要具体测评记录，请联系我们获取。

技术报告：Livesecbench：A dynamic and culturally-relevant AI safety benchmark for LLMs in Chinese context

加载榜单数据中...