← 返回首页
一、LLM 发展脉络
- 预训练语言模型:Word2Vec → ELMo → GPT-1 → BERT → GPT-2 → T5 → GPT-3 → ChatGPT → GPT-4
- Scaling Law:模型性能随参数量、数据量、计算量的增加呈幂律提升
- 涌现能力:模型规模超过阈值后出现的能力(思维链推理、上下文学习等)
- 主流开源模型:LLaMA 系列 / Qwen / DeepSeek / Mistral / GLM
二、核心技术原理
- 预训练目标:自回归(GPT,预测下一个 Token)/ 掩码语言模型(BERT,预测 [MASK])
- Tokenizer:BPE(字节对编码)/ WordPiece / SentencePiece,将文本切分为 Token
- 位置编码:RoPE(旋转位置编码)支持长度外推,ALiBi 线性偏置
- 注意力优化:MHA → MQA(多查询注意力)→ GQA(分组查询注意力,LLaMA2 采用)
- 长上下文:RoPE 外推 / NTK-aware 插值 / Ring Attention / 稀疏注意力
- 解码策略:Greedy / Beam Search / Top-K / Top-P(Nucleus)/ Temperature 控制随机性
三、Prompt Engineering
- Zero-Shot:直接描述任务,不给示例
- Few-Shot:提供少量输入-输出示例,引导模型理解任务格式
- Chain-of-Thought (CoT):引导模型逐步推理,"Let's think step by step"
- Self-Consistency:多次采样 + 多数投票,提升推理准确率
- ReAct:推理(Reasoning)+ 行动(Acting)交替,结合外部工具
- 提示词结构:角色设定 + 任务描述 + 上下文 + 输出格式 + 约束条件
四、微调技术
- 全量微调:更新所有参数,效果最好但资源消耗大
- LoRA:低秩适配,冻结原始权重,训练低秩分解矩阵 A·B,参数量减少 10000 倍
- QLoRA:4-bit 量化 + LoRA,单卡可微调 65B 模型
- P-Tuning v2:在每层添加可训练的 Prefix Token
- SFT(监督微调):指令-回答对数据,让模型学会遵循指令
- RLHF:人类反馈强化学习,训练奖励模型 → PPO 优化策略
- DPO:直接偏好优化,无需训练奖励模型,更简单高效
五、推理优化与部署
- 量化:FP16 → INT8 → INT4,GPTQ / AWQ / GGUF 格式
- KV Cache:缓存已计算的 Key-Value,避免重复计算,空间换时间
- PagedAttention:vLLM 核心技术,分页管理 KV Cache,提升吞吐量
- 推测解码:小模型草稿 + 大模型验证,加速自回归生成
- 部署框架:vLLM / TGI / Ollama / llama.cpp / TensorRT-LLM
六、评估与安全
- 评估基准:MMLU(知识)/ HumanEval(代码)/ GSM8K(数学)/ MT-Bench(对话)
- 幻觉问题:模型生成看似合理但事实错误的内容,RAG / 事实核查缓解
- 对齐安全:RLHF / Constitutional AI / Red Teaming 对抗测试