深度学习

CNN、RNN、Transformer 架构详解与框架实践

← 返回首页

一、神经网络基础

感知机：线性加权求和 + 激活函数，单层只能解决线性可分问题
多层感知机（MLP）：输入层 → 隐藏层（一个或多个）→ 输出层，万能近似定理
激活函数：Sigmoid（梯度消失）/ Tanh / ReLU（主流，死神经元问题）/ LeakyReLU / GELU（Transformer 常用）/ Swish
反向传播：链式法则计算梯度，从输出层逐层向前传播误差
损失函数：交叉熵（分类）/ MSE（回归）/ Focal Loss（类别不平衡）/ Contrastive Loss（对比学习）

二、优化器

SGD：随机梯度下降，加动量（Momentum）可加速收敛并跳出局部最优
Adam：自适应学习率，结合 Momentum + RMSProp，最常用的优化器
AdamW：修正 Adam 的权重衰减实现，Transformer 训练标配
学习率调度：Warmup + Cosine Decay / StepLR / ReduceLROnPlateau
梯度问题：梯度消失（深层网络/Sigmoid）→ 残差连接/BatchNorm；梯度爆炸 → 梯度裁剪

三、卷积神经网络（CNN）

核心操作：卷积（特征提取）→ 池化（下采样）→ 全连接（分类），参数共享减少参数量
卷积计算：输出尺寸 = (输入 - 卷积核 + 2×Padding) / Stride + 1
经典网络演进： LeNet → AlexNet（ReLU/Dropout）→ VGG（小卷积核堆叠）→ GoogLeNet（Inception 多尺度）→ ResNet（残差连接，解决退化问题）→ DenseNet（密集连接）
轻量级网络：MobileNet（深度可分离卷积）/ ShuffleNet / EfficientNet（复合缩放）
正则化技术：Dropout / BatchNorm（加速训练+正则化）/ 数据增强 / Label Smoothing

四、循环神经网络（RNN）

基础 RNN：隐藏状态传递时序信息，存在长期依赖问题（梯度消失）
LSTM：遗忘门 + 输入门 + 输出门 + 细胞状态，解决长期依赖
GRU：重置门 + 更新门，LSTM 的简化版，参数更少效果相近
双向 RNN：同时捕获前向和后向上下文信息
Seq2Seq：编码器-解码器架构，机器翻译的基础模型
注意力机制：Attention 让解码器关注输入序列的不同位置，解决信息瓶颈

五、Transformer

核心思想：完全基于注意力机制，抛弃 RNN 的循环结构，支持并行计算
自注意力：Q·K^T/√d_k → Softmax → ×V，每个位置关注所有位置
多头注意力：多组 QKV 并行计算，捕获不同子空间的信息
位置编码：正弦余弦编码（原始）/ 可学习位置编码 / RoPE（旋转位置编码，LLM 主流）
架构组成：Multi-Head Attention + Feed-Forward + LayerNorm + 残差连接
三种变体：Encoder-only（BERT）/ Decoder-only（GPT）/ Encoder-Decoder（T5）

六、训练技巧

数据增强：图像（翻转/裁剪/Mixup/CutMix）；文本（回译/同义词替换/EDA）
迁移学习：预训练模型 + 微调（Fine-tune），冻结底层特征提取层
混合精度训练：FP16 计算 + FP32 主权重，减少显存占用加速训练
分布式训练：数据并行（DDP）/ 模型并行 / 流水线并行 / ZeRO 优化
Early Stopping：验证集指标不再提升时停止训练，防止过拟合