NLP 自然语言处理

文本分类、命名实体识别、情感分析与 BERT 系列模型

← 返回首页

一、文本预处理

分词：英文（空格/WordPiece/BPE）；中文（jieba/pkuseg/LTP），分词粒度影响下游任务
去停用词：移除"的、了、是"等高频无意义词，减少噪声
词干提取/词形还原：英文 Stemming（Porter）/ Lemmatization（WordNet）
文本清洗：去除 HTML 标签、特殊字符、URL、表情符号，统一大小写

二、文本表示

词袋模型（BoW）：统计词频，忽略词序，维度高且稀疏
TF-IDF：词频 × 逆文档频率，降低常见词权重，突出区分性词汇
Word2Vec：CBOW（上下文预测中心词）/ Skip-gram（中心词预测上下文），稠密向量，捕获语义关系
GloVe：基于全局词共现矩阵的词向量，结合全局统计和局部上下文
FastText：子词（subword）级别的词向量，能处理未登录词（OOV）
上下文表示：ELMo（双向 LSTM）→ BERT（双向 Transformer），同一词在不同语境有不同表示

三、核心 NLP 任务

文本分类

传统方法：TF-IDF + SVM/朴素贝叶斯/逻辑回归
深度学习：TextCNN（多尺度卷积）/ BiLSTM + Attention / BERT 微调
应用：垃圾邮件检测、新闻分类、意图识别

命名实体识别（NER）

序列标注任务，BIO/BIOES 标注体系
模型：BiLSTM-CRF（经典）/ BERT-CRF / GlobalPointer（高效嵌套 NER）
实体类型：人名、地名、机构名、时间、金额等

情感分析

粒度：文档级 / 句子级 / 方面级（Aspect-Based）
方法：词典方法（情感词典打分）/ 机器学习 / BERT 微调

关系抽取

从文本中抽取实体间的语义关系（如"出生于"、"任职于"）
方法：Pipeline（先 NER 再分类）/ 联合抽取 / GPT 提示抽取

四、BERT 系列模型

BERT：双向 Transformer Encoder，MLM + NSP 预训练，NLP 里程碑
RoBERTa：去掉 NSP、更大数据、动态 Mask，全面超越 BERT
ALBERT：参数共享 + 嵌入分解，大幅减少参数量
DistilBERT：知识蒸馏压缩，保留 97% 性能，速度提升 60%
ERNIE：百度，融合知识图谱的预训练，中文效果优秀
微调范式：[CLS] + 分类头（分类）/ Token 级输出 + CRF（序列标注）/ 双句输入（匹配）

五、文本生成与对话

机器翻译：Seq2Seq + Attention → Transformer，BLEU 评估指标
文本摘要：抽取式（选关键句）/ 生成式（重新组织语言），ROUGE 评估
问答系统：抽取式 QA（从文档中定位答案片段）/ 生成式 QA（RAG）
对话系统：任务型（槽填充+对话状态跟踪）/ 开放域（LLM 驱动）