评估与优化:像工程师一样测试 AI 系统 📊
"如果你不能测量它,你就不能改进它。"
📚 内容导航
规则检查
格式验证、内容规则、代码质量检查
LLM 评审
基础评审、成对比较、Rubric 评审
测试套件
Golden Dataset、回归测试
A/B 测试
Prompt 变体测试、模型对比
成本优化与安全
Token 使用分析、优化策略、输入输出过滤、行为边界
CI/CD 集成
GitHub Actions 工作流、评估脚本
评估体系概述
1.1 为什么需要评估
AI 系统的输出是概率性的,需要系统化评估:
- 质量保证: 确保输出符合预期
- 回归检测: 发现 Prompt 修改导致的问题
- 模型对比: 选择最适合的模型
- 成本优化: 在质量和成本间取得平衡
1.2 评估金字塔
┌─────────────────┐
│ 人工评审 │ ← 最准确,成本高
│ (Human Eval) │
└────────┬────────┘
│
┌────────┴────────┐
│ LLM 评审 │ ← 自动化,中等成本
│ (LLM-as-Judge) │
└────────┬────────┘
│
┌──────────────┴──────────────┐
│ 规则检查 │ ← 自动化,低成本
│ (格式、长度、关键词等) │
└─────────────────────────────┘