← 返回首页
一、核心概念
- 监督学习:有标签数据,分类(离散)和回归(连续)
- 无监督学习:无标签,聚类、降维、异常检测
- 半监督/自监督:少量标签+大量无标签数据,对比学习等
- 过拟合 vs 欠拟合:过拟合(高方差)→ 正则化/Dropout/数据增强;欠拟合(高偏差)→ 增加模型复杂度
- 偏差-方差权衡:总误差 = 偏差² + 方差 + 噪声,模型复杂度增加偏差降低方差升高
二、经典算法
线性模型
- 线性回归:最小二乘法,损失函数 MSE,梯度下降优化
- 逻辑回归:Sigmoid 函数映射到 [0,1],交叉熵损失,本质是分类算法
- 正则化:L1(Lasso,稀疏特征选择)/ L2(Ridge,权重衰减)/ ElasticNet(L1+L2)
树模型
- 决策树:ID3(信息增益)/ C4.5(增益率)/ CART(基尼系数),容易过拟合需剪枝
- 随机森林:Bagging + 特征随机选择,降低方差,抗过拟合
- GBDT:Boosting,每棵树拟合前一轮残差,串行训练
- XGBoost:二阶泰勒展开 + 正则化 + 列采样 + 并行化,竞赛利器
- LightGBM:直方图算法 + GOSS + EFB,训练速度更快,适合大数据
其他算法
- SVM:最大间隔分类器,核函数(RBF/多项式)映射到高维空间,支持向量决定决策边界
- KNN:K 近邻,懒学习,距离度量(欧氏/曼哈顿/余弦),K 值选择影响偏差方差
- 朴素贝叶斯:基于贝叶斯定理 + 特征条件独立假设,文本分类常用
三、聚类算法
- K-Means:随机初始化质心 → 分配 → 更新质心 → 迭代。K 值选择:肘部法则 / 轮廓系数
- DBSCAN:基于密度,无需指定 K,能发现任意形状簇,对噪声鲁棒
- 层次聚类:自底向上(凝聚)或自顶向下(分裂),树状图可视化
四、特征工程
- 缺失值处理:均值/中位数/众数填充、KNN 填充、删除
- 特征缩放:标准化(Z-score)/ 归一化(Min-Max)/ RobustScaler(抗异常值)
- 编码:One-Hot(类别少)/ Label Encoding(有序)/ Target Encoding(高基数)
- 特征选择:过滤法(方差/相关系数)/ 包裹法(RFE)/ 嵌入法(L1/树模型特征重要性)
- 降维:PCA(最大方差方向)/ t-SNE(可视化)/ UMAP(保持全局+局部结构)
五、模型评估
- 分类指标:Accuracy / Precision / Recall / F1-Score / AUC-ROC / 混淆矩阵
- 回归指标:MSE / RMSE / MAE / R²
- 交叉验证:K-Fold(常用 5/10 折)/ Stratified K-Fold(分类保持类别比例)/ Leave-One-Out
- 超参数调优:Grid Search / Random Search / Bayesian Optimization(Optuna)