Skip to content

yeasy/ai_security_guide

Repository files navigation

大模型安全权威指南

License: CC BY-NC-SA 4.0 GitHub stars Online Reading

从原理到实践,全面掌握大语言模型的安全攻防之道

AI Security Guide Cover

关于本书

随着 ChatGPT、Claude、Gemini 等大语言模型(Large Language Model,LLM)的广泛普及,人工智能正以前所未有的速度渗透到社会的各个角落。然而,伴随着这场技术革命而来的,是日益严峻的安全挑战。提示注入攻击可以绕过模型的安全护栏,越狱技术能够诱导模型生成有害内容,数据投毒可能在训练阶段埋下隐患,而敏感信息泄露则威胁着用户隐私与企业机密。

本书系统性地梳理了大语言模型安全领域的核心知识,从基础概念到前沿攻防技术,从理论原理到工程实践,旨在帮助读者建立完整的 LLM 安全知识体系。无论是希望了解 LLM 安全风险的技术管理者,还是致力于构建安全 LLM 应用的开发者,亦或是专注于 AI 安全研究的学者,都能从本书中获得有价值的知识与启发。


目标读者

  • AI/ML 工程师与开发者:希望在开发 LLM 应用时融入安全设计,避免常见漏洞
  • 安全工程师与渗透测试人员:需要掌握 LLM 特有的攻击面与防御手段
  • 技术管理者与架构师:负责制定 AI 安全策略与合规方案
  • AI 安全研究人员:关注学术前沿,探索新型攻击与防御方法
  • 对 AI 安全感兴趣的技术爱好者:希望系统性了解 LLM 安全全貌

你将学到什么

阅读本书后,你将能够:

  1. 理解 LLM 安全的基本概念
  • 掌握大语言模型的工作原理与安全边界
  • 了解 LLM 安全与传统软件安全的异同
  • 熟悉 OWASP LLM Top 10 等权威安全框架
  1. 识别与分析 LLM 攻击手段
  • 深入理解提示注入、越狱、数据投毒等核心攻击技术
  • 掌握针对智能体系统、RAG 架构的新型攻击向量
  • 学会使用红队测试方法评估模型安全性
  1. 构建安全的 LLM 应用
  • 设计具备纵深防御能力的安全架构
  • 实施输入验证、输出过滤、权限控制等防护措施
  • 部署监控告警与应急响应机制
  1. 应对合规与治理挑战
  • 了解全球 AI 监管格局,包括 EU AI Act、中国《生成式人工智能服务管理暂行办法》等核心法规
  • 建立完善的 AI 治理框架与安全运营体系
  • 平衡安全性、可用性与创新性

本书特色

  • 系统全面:覆盖 LLM 安全的全生命周期,从训练到部署,从攻击到防御
  • 理论与实践结合:既有深入的技术原理剖析,也有可落地的工程实践指南
  • 紧跟前沿:覆盖最新的关键安全研究成果与行业实践,并提供持续更新路径
  • 案例驱动:通过真实案例帮助读者理解抽象概念

阅读建议

本书采用循序渐进的结构,建议按顺序阅读:

  • 第一部分(第 1-3 章) 建立基础认知,适合所有读者
  • 第二部分(第 4-7 章) 深入攻击技术,适合需要了解威胁的读者
  • 第三部分(第 8-10 章) 聚焦防御实践,适合需要构建安全系统的读者
  • 第四部分(第 11 章与附录) 治理展望与资源汇总,适合持续学习者

对于时间有限的读者,可优先阅读第 1 章、第 4 章、第 8 章和第 11 章,快速建立整体认知。


五分钟快速上手

体验第一个提示注入攻击,快速理解 LLM 安全威胁,只需这 3 个步骤:

  1. 理解威胁模型(ch1-2):了解 LLM 面临的主要安全风险分类,掌握攻击面的全貌(2分钟)
  2. 动手尝试注入攻击(ch4):在文本框中输入注入指令,亲眼看到模型如何被“欺骗”突破安全护栏(2分钟)
  3. 学习防御技巧(ch4):掌握输入验证、输出过滤等基础防御方法,了解如何保护你的应用(1分钟)

完成这 3 步,你将直观理解为什么 LLM 安全如此重要!

学习路线图

graph LR
    A["<b>安全基础区</b><br/>第1-2章<br/>原理与威胁模型"] -->|掌握攻防| B["<b>安全工程师</b><br/>第1-6,9章<br/>攻击技术与防御"]
    A -->|构建应用| C["<b>AI 开发者</b><br/>第1-4,7-8章<br/>威胁识别与安全编码"]
    A -->|管理策略| D["<b>安全管理者</b><br/>第1-2,9-11章<br/>治理框架与合规"]
    A -->|深入研究| E["<b>研究人员</b><br/>第1-3,5-6,10章<br/>前沿攻防与评估"]
    B -->|应用防御| C
    C -->|组织治理| D
    D -->|学术发现| E

    style A fill:#ffccbc
    style B fill:#d84315
    style C fill:#ff7043
    style D fill:#ffab91
    style E fill:#ffccbc
Loading

学习角色对比

角色 推荐章节 学习重点 预期成果
安全工程师 第1-6→9章 攻击技术详解、红队测试方法、防御实现、安全架构 能够进行全面的 LLM 应用安全评估和加固
AI 开发者 第1-4→7-8章 常见威胁、安全编码实践、工具使用、安全集成 在开发过程中内置安全防线
安全管理者 第1-2→9-11章 风险评估框架、治理体系、合规要求、应急响应 制定企业 LLM 安全策略
研究人员 第1-3→5-6→10章 攻防原理、新型漏洞、评估方法、学术前沿 开展前沿安全研究

作者说明

本书创作于近期,并已完成一轮法规、框架与工具清单校准。由于该领域发展极为迅速,书中部分内容可能随着时间推移而需要更新。建议读者结合附录中的资源列表,持续关注该领域的最新动态。


推荐阅读

本书是 AI 技术丛书的一部分。以下书籍与本书形成互补:

书名 与本书的关系
《零基础学 AI》 AI 零基础入门,适合缺乏 AI 背景的读者
《大模型提示词工程指南》 理解提示词注入攻击的前置知识
《大模型上下文工程权威指南》 深入理解 RAG 安全的上下文工程基础
《智能体 AI 权威指南》 理解智能体系统的架构,为智能体安全提供背景
《Claude 技术指南》 了解 Claude 的安全设计理念(宪法式 AI)与工具安全
《OpenClaw 从入门到精通》 智能体框架的安全基线与审计流程实践
《大模型原理与架构》 深入理解大语言模型底层逻辑与架构

快速开始

在线阅读

👉 推荐GitBook 在线版

本地阅读

使用 HonKit 构建本地阅读环境:

npm install        # 安装依赖
npx honkit serve   # 启动本地服务

或使用 mdpress 构建:

go install github.com/yeasy/mdpress@latest
mdpress serve

启动后访问 本地阅读地址 即可阅读。


参与贡献

欢迎贡献!您可以通过以下方式参与:

  • 🐛 提交 Issue — 报告错误或提出建议
  • 📝 提交 PR — 改进内容或修复 typo
  • ⭐ Star 本项目 — 帮助更多人发现这本书

许可证

本书采用 CC BY-NC-SA 4.0 许可证。

您可以自由分享和演绎,但需署名、非商业使用、相同方式共享。

About

从原理到实践,全面掌握大语言模型安全攻防之道

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors