大语言模型 (LLM)

大模型原理、Prompt Engineering、微调与部署

← 返回首页

一、LLM 发展脉络

预训练语言模型：Word2Vec → ELMo → GPT-1 → BERT → GPT-2 → T5 → GPT-3 → ChatGPT → GPT-4
Scaling Law：模型性能随参数量、数据量、计算量的增加呈幂律提升
涌现能力：模型规模超过阈值后出现的能力（思维链推理、上下文学习等）
主流开源模型：LLaMA 系列 / Qwen / DeepSeek / Mistral / GLM

二、核心技术原理

预训练目标：自回归（GPT，预测下一个 Token）/ 掩码语言模型（BERT，预测 [MASK]）
Tokenizer：BPE（字节对编码）/ WordPiece / SentencePiece，将文本切分为 Token
位置编码：RoPE（旋转位置编码）支持长度外推，ALiBi 线性偏置
注意力优化：MHA → MQA（多查询注意力）→ GQA（分组查询注意力，LLaMA2 采用）
长上下文：RoPE 外推 / NTK-aware 插值 / Ring Attention / 稀疏注意力
解码策略：Greedy / Beam Search / Top-K / Top-P（Nucleus）/ Temperature 控制随机性

三、Prompt Engineering

Zero-Shot：直接描述任务，不给示例
Few-Shot：提供少量输入-输出示例，引导模型理解任务格式
Chain-of-Thought (CoT)：引导模型逐步推理，"Let's think step by step"
Self-Consistency：多次采样 + 多数投票，提升推理准确率
ReAct：推理（Reasoning）+ 行动（Acting）交替，结合外部工具
提示词结构：角色设定 + 任务描述 + 上下文 + 输出格式 + 约束条件

四、微调技术

全量微调：更新所有参数，效果最好但资源消耗大
LoRA：低秩适配，冻结原始权重，训练低秩分解矩阵 A·B，参数量减少 10000 倍
QLoRA：4-bit 量化 + LoRA，单卡可微调 65B 模型
P-Tuning v2：在每层添加可训练的 Prefix Token
SFT（监督微调）：指令-回答对数据，让模型学会遵循指令
RLHF：人类反馈强化学习，训练奖励模型 → PPO 优化策略
DPO：直接偏好优化，无需训练奖励模型，更简单高效

五、推理优化与部署

量化：FP16 → INT8 → INT4，GPTQ / AWQ / GGUF 格式
KV Cache：缓存已计算的 Key-Value，避免重复计算，空间换时间
PagedAttention：vLLM 核心技术，分页管理 KV Cache，提升吞吐量
推测解码：小模型草稿 + 大模型验证，加速自回归生成
部署框架：vLLM / TGI / Ollama / llama.cpp / TensorRT-LLM

六、评估与安全

评估基准：MMLU（知识）/ HumanEval（代码）/ GSM8K（数学）/ MT-Bench（对话）
幻觉问题：模型生成看似合理但事实错误的内容，RAG / 事实核查缓解
对齐安全：RLHF / Constitutional AI / Red Teaming 对抗测试