机器学习基础

经典算法原理、模型评估与 Scikit-learn 实战

← 返回首页

一、核心概念

监督学习：有标签数据，分类（离散）和回归（连续）
无监督学习：无标签，聚类、降维、异常检测
半监督/自监督：少量标签+大量无标签数据，对比学习等
过拟合 vs 欠拟合：过拟合（高方差）→ 正则化/Dropout/数据增强；欠拟合（高偏差）→ 增加模型复杂度
偏差-方差权衡：总误差 = 偏差² + 方差 + 噪声，模型复杂度增加偏差降低方差升高

二、经典算法

线性模型

线性回归：最小二乘法，损失函数 MSE，梯度下降优化
逻辑回归：Sigmoid 函数映射到 [0,1]，交叉熵损失，本质是分类算法
正则化：L1（Lasso，稀疏特征选择）/ L2（Ridge，权重衰减）/ ElasticNet（L1+L2）

树模型

决策树：ID3（信息增益）/ C4.5（增益率）/ CART（基尼系数），容易过拟合需剪枝
随机森林：Bagging + 特征随机选择，降低方差，抗过拟合
GBDT：Boosting，每棵树拟合前一轮残差，串行训练
XGBoost：二阶泰勒展开 + 正则化 + 列采样 + 并行化，竞赛利器
LightGBM：直方图算法 + GOSS + EFB，训练速度更快，适合大数据

其他算法

SVM：最大间隔分类器，核函数（RBF/多项式）映射到高维空间，支持向量决定决策边界
KNN：K 近邻，懒学习，距离度量（欧氏/曼哈顿/余弦），K 值选择影响偏差方差
朴素贝叶斯：基于贝叶斯定理 + 特征条件独立假设，文本分类常用

三、聚类算法

K-Means：随机初始化质心 → 分配 → 更新质心 → 迭代。K 值选择：肘部法则 / 轮廓系数
DBSCAN：基于密度，无需指定 K，能发现任意形状簇，对噪声鲁棒
层次聚类：自底向上（凝聚）或自顶向下（分裂），树状图可视化

四、特征工程

缺失值处理：均值/中位数/众数填充、KNN 填充、删除
特征缩放：标准化（Z-score）/ 归一化（Min-Max）/ RobustScaler（抗异常值）
编码：One-Hot（类别少）/ Label Encoding（有序）/ Target Encoding（高基数）
特征选择：过滤法（方差/相关系数）/ 包裹法（RFE）/ 嵌入法（L1/树模型特征重要性）
降维：PCA（最大方差方向）/ t-SNE（可视化）/ UMAP（保持全局+局部结构）

五、模型评估

分类指标：Accuracy / Precision / Recall / F1-Score / AUC-ROC / 混淆矩阵
回归指标：MSE / RMSE / MAE / R²
交叉验证：K-Fold（常用 5/10 折）/ Stratified K-Fold（分类保持类别比例）/ Leave-One-Out
超参数调优：Grid Search / Random Search / Bayesian Optimization（Optuna）