← 返回首页
一、文本预处理
- 分词:英文(空格/WordPiece/BPE);中文(jieba/pkuseg/LTP),分词粒度影响下游任务
- 去停用词:移除"的、了、是"等高频无意义词,减少噪声
- 词干提取/词形还原:英文 Stemming(Porter)/ Lemmatization(WordNet)
- 文本清洗:去除 HTML 标签、特殊字符、URL、表情符号,统一大小写
二、文本表示
- 词袋模型(BoW):统计词频,忽略词序,维度高且稀疏
- TF-IDF:词频 × 逆文档频率,降低常见词权重,突出区分性词汇
- Word2Vec:CBOW(上下文预测中心词)/ Skip-gram(中心词预测上下文),稠密向量,捕获语义关系
- GloVe:基于全局词共现矩阵的词向量,结合全局统计和局部上下文
- FastText:子词(subword)级别的词向量,能处理未登录词(OOV)
- 上下文表示:ELMo(双向 LSTM)→ BERT(双向 Transformer),同一词在不同语境有不同表示
三、核心 NLP 任务
文本分类
- 传统方法:TF-IDF + SVM/朴素贝叶斯/逻辑回归
- 深度学习:TextCNN(多尺度卷积)/ BiLSTM + Attention / BERT 微调
- 应用:垃圾邮件检测、新闻分类、意图识别
命名实体识别(NER)
- 序列标注任务,BIO/BIOES 标注体系
- 模型:BiLSTM-CRF(经典)/ BERT-CRF / GlobalPointer(高效嵌套 NER)
- 实体类型:人名、地名、机构名、时间、金额等
情感分析
- 粒度:文档级 / 句子级 / 方面级(Aspect-Based)
- 方法:词典方法(情感词典打分)/ 机器学习 / BERT 微调
关系抽取
- 从文本中抽取实体间的语义关系(如"出生于"、"任职于")
- 方法:Pipeline(先 NER 再分类)/ 联合抽取 / GPT 提示抽取
四、BERT 系列模型
- BERT:双向 Transformer Encoder,MLM + NSP 预训练,NLP 里程碑
- RoBERTa:去掉 NSP、更大数据、动态 Mask,全面超越 BERT
- ALBERT:参数共享 + 嵌入分解,大幅减少参数量
- DistilBERT:知识蒸馏压缩,保留 97% 性能,速度提升 60%
- ERNIE:百度,融合知识图谱的预训练,中文效果优秀
- 微调范式:[CLS] + 分类头(分类)/ Token 级输出 + CRF(序列标注)/ 双句输入(匹配)
五、文本生成与对话
- 机器翻译:Seq2Seq + Attention → Transformer,BLEU 评估指标
- 文本摘要:抽取式(选关键句)/ 生成式(重新组织语言),ROUGE 评估
- 问答系统:抽取式 QA(从文档中定位答案片段)/ 生成式 QA(RAG)
- 对话系统:任务型(槽填充+对话状态跟踪)/ 开放域(LLM 驱动)