计算机视觉
图像分类、目标检测、图像分割与经典模型
← 返回首页
一、图像分类
- 任务定义:输入图像,输出类别标签,CV 最基础的任务
- 经典模型:AlexNet → VGG → GoogLeNet → ResNet → DenseNet → EfficientNet
- ResNet 核心:残差连接 F(x)+x,解决深层网络退化问题,可训练上千层
- Vision Transformer (ViT):将图像切分为 Patch 序列,用 Transformer 编码,大数据集上超越 CNN
- 数据增强:随机裁剪/翻转/颜色抖动/Mixup/CutMix/RandAugment/AutoAugment
- 迁移学习:ImageNet 预训练 → 冻结骨干网络 → 微调分类头,小数据集利器
二、目标检测
两阶段检测器
- R-CNN 系列:R-CNN → Fast R-CNN(RoI Pooling)→ Faster R-CNN(RPN 生成候选框)
- FPN:特征金字塔网络,多尺度特征融合,提升小目标检测
单阶段检测器
- YOLO 系列:YOLOv1(网格预测)→ v3(多尺度)→ v5(工程优化)→ v8(Anchor-Free)→ YOLO11
- SSD:多尺度特征图 + 默认框,速度快精度适中
- DETR:Transformer 端到端检测,无需 NMS 和 Anchor,二分匹配损失
核心概念
- IoU:交并比,衡量预测框与真实框重叠程度
- NMS:非极大值抑制,去除冗余检测框
- 评估指标:mAP(平均精度均值)、AP50、AP75
三、图像分割
- 语义分割:像素级分类,不区分实例。FCN / U-Net / DeepLab 系列(空洞卷积+ASPP)
- 实例分割:区分不同实例。Mask R-CNN(Faster R-CNN + 分割分支)
- 全景分割:语义分割 + 实例分割,Panoptic FPN
- SAM:Segment Anything Model,通用分割基础模型,支持点/框/文本提示
- U-Net:编码器-解码器 + 跳跃连接,医学图像分割经典架构
四、生成模型
- GAN:生成器 vs 判别器对抗训练,StyleGAN 生成高质量人脸
- VAE:变分自编码器,学习数据的潜在分布
- 扩散模型:前向加噪 + 反向去噪,Stable Diffusion / DALL-E / Midjourney 的基础
- ControlNet:在扩散模型上添加条件控制(边缘/姿态/深度图)
五、多模态视觉
- CLIP:图文对比学习,图像和文本映射到同一向量空间,零样本分类
- 多模态大模型:GPT-4V / LLaVA / Qwen-VL,图像理解+对话
- 图像描述:Image Captioning,给图像生成自然语言描述
- 视觉问答(VQA):根据图像内容回答自然语言问题