计算机视觉

图像分类、目标检测、图像分割与经典模型

← 返回首页

一、图像分类

任务定义：输入图像，输出类别标签，CV 最基础的任务
经典模型：AlexNet → VGG → GoogLeNet → ResNet → DenseNet → EfficientNet
ResNet 核心：残差连接 F(x)+x，解决深层网络退化问题，可训练上千层
Vision Transformer (ViT)：将图像切分为 Patch 序列，用 Transformer 编码，大数据集上超越 CNN
数据增强：随机裁剪/翻转/颜色抖动/Mixup/CutMix/RandAugment/AutoAugment
迁移学习：ImageNet 预训练 → 冻结骨干网络 → 微调分类头，小数据集利器

二、目标检测

两阶段检测器

R-CNN 系列：R-CNN → Fast R-CNN（RoI Pooling）→ Faster R-CNN（RPN 生成候选框）
FPN：特征金字塔网络，多尺度特征融合，提升小目标检测

单阶段检测器

YOLO 系列：YOLOv1（网格预测）→ v3（多尺度）→ v5（工程优化）→ v8（Anchor-Free）→ YOLO11
SSD：多尺度特征图 + 默认框，速度快精度适中
DETR：Transformer 端到端检测，无需 NMS 和 Anchor，二分匹配损失

核心概念

IoU：交并比，衡量预测框与真实框重叠程度
NMS：非极大值抑制，去除冗余检测框
评估指标：mAP（平均精度均值）、AP50、AP75

三、图像分割

语义分割：像素级分类，不区分实例。FCN / U-Net / DeepLab 系列（空洞卷积+ASPP）
实例分割：区分不同实例。Mask R-CNN（Faster R-CNN + 分割分支）
全景分割：语义分割 + 实例分割，Panoptic FPN
SAM：Segment Anything Model，通用分割基础模型，支持点/框/文本提示
U-Net：编码器-解码器 + 跳跃连接，医学图像分割经典架构

四、生成模型

GAN：生成器 vs 判别器对抗训练，StyleGAN 生成高质量人脸
VAE：变分自编码器，学习数据的潜在分布
扩散模型：前向加噪 + 反向去噪，Stable Diffusion / DALL-E / Midjourney 的基础
ControlNet：在扩散模型上添加条件控制（边缘/姿态/深度图）

五、多模态视觉

CLIP：图文对比学习，图像和文本映射到同一向量空间，零样本分类
多模态大模型：GPT-4V / LLaVA / Qwen-VL，图像理解+对话
图像描述：Image Captioning，给图像生成自然语言描述
视觉问答（VQA）：根据图像内容回答自然语言问题