← 返回首页
一、神经网络基础
- 感知机:线性加权求和 + 激活函数,单层只能解决线性可分问题
- 多层感知机(MLP):输入层 → 隐藏层(一个或多个)→ 输出层,万能近似定理
- 激活函数:Sigmoid(梯度消失)/ Tanh / ReLU(主流,死神经元问题)/ LeakyReLU / GELU(Transformer 常用)/ Swish
- 反向传播:链式法则计算梯度,从输出层逐层向前传播误差
- 损失函数:交叉熵(分类)/ MSE(回归)/ Focal Loss(类别不平衡)/ Contrastive Loss(对比学习)
二、优化器
- SGD:随机梯度下降,加动量(Momentum)可加速收敛并跳出局部最优
- Adam:自适应学习率,结合 Momentum + RMSProp,最常用的优化器
- AdamW:修正 Adam 的权重衰减实现,Transformer 训练标配
- 学习率调度:Warmup + Cosine Decay / StepLR / ReduceLROnPlateau
- 梯度问题:梯度消失(深层网络/Sigmoid)→ 残差连接/BatchNorm;梯度爆炸 → 梯度裁剪
三、卷积神经网络(CNN)
- 核心操作:卷积(特征提取)→ 池化(下采样)→ 全连接(分类),参数共享减少参数量
- 卷积计算:输出尺寸 = (输入 - 卷积核 + 2×Padding) / Stride + 1
- 经典网络演进:
LeNet → AlexNet(ReLU/Dropout)→ VGG(小卷积核堆叠)→ GoogLeNet(Inception 多尺度)→ ResNet(残差连接,解决退化问题)→ DenseNet(密集连接)
- 轻量级网络:MobileNet(深度可分离卷积)/ ShuffleNet / EfficientNet(复合缩放)
- 正则化技术:Dropout / BatchNorm(加速训练+正则化)/ 数据增强 / Label Smoothing
四、循环神经网络(RNN)
- 基础 RNN:隐藏状态传递时序信息,存在长期依赖问题(梯度消失)
- LSTM:遗忘门 + 输入门 + 输出门 + 细胞状态,解决长期依赖
- GRU:重置门 + 更新门,LSTM 的简化版,参数更少效果相近
- 双向 RNN:同时捕获前向和后向上下文信息
- Seq2Seq:编码器-解码器架构,机器翻译的基础模型
- 注意力机制:Attention 让解码器关注输入序列的不同位置,解决信息瓶颈
五、Transformer
- 核心思想:完全基于注意力机制,抛弃 RNN 的循环结构,支持并行计算
- 自注意力:Q·K^T/√d_k → Softmax → ×V,每个位置关注所有位置
- 多头注意力:多组 QKV 并行计算,捕获不同子空间的信息
- 位置编码:正弦余弦编码(原始)/ 可学习位置编码 / RoPE(旋转位置编码,LLM 主流)
- 架构组成:Multi-Head Attention + Feed-Forward + LayerNorm + 残差连接
- 三种变体:Encoder-only(BERT)/ Decoder-only(GPT)/ Encoder-Decoder(T5)
六、训练技巧
- 数据增强:图像(翻转/裁剪/Mixup/CutMix);文本(回译/同义词替换/EDA)
- 迁移学习:预训练模型 + 微调(Fine-tune),冻结底层特征提取层
- 混合精度训练:FP16 计算 + FP32 主权重,减少显存占用加速训练
- 分布式训练:数据并行(DDP)/ 模型并行 / 流水线并行 / ZeRO 优化
- Early Stopping:验证集指标不再提升时停止训练,防止过拟合