0 前情提要

open-mmlab部分框架,加方法综述,亲测可看。

林达华主讲。

涉及:

  • 图像分类 —— MMClassification
  • 目标检测 —— MMDetection
  • 图像分割 —— MMSegmentation
  • 行为识别 —— MMAction2
    • 时序动作检测
    • 时空动作检测
  • 生成对抗系列——图像编辑 —— MMEditing
    • 图像修复
    • 超分辨率
    • 抠图

没找到ppt。


计算机视觉

困难:

  1. 同类物体外观差异巨大
  2. 不同物体外观相似
  3. 拍摄环境的影响

烂笔头 | OpenMMLab 第一讲-编程知识网


1 图像分类

人工定义 👉 机器学习

1.1 发展

  • 图像特征和分类器(1990s~2012)
  • 深度学习(2012~)
  • 网络结构的演进(2012~2017+)
  • 新的趋势(2017~)

烂笔头 | OpenMMLab 第一讲-编程知识网

1.2 MMClassification

烂笔头 | OpenMMLab 第一讲-编程知识网


2 目标检测

2.1 发展

  • 基本思想:滑窗检测
    • 准确,不易遗漏
    • 窗口数目巨大,计算量大
  • 基本思想:区域提议(region proposal)
    • 基于区域的方法 RCNN
  • 两阶段方法的演进(2014~2017)
  • 一阶段方法(2015~)
  • 新的趋势(2018~)

烂笔头 | OpenMMLab 第一讲-编程知识网

2.2 MMDetection

烂笔头 | OpenMMLab 第一讲-编程知识网

2.3 模块化设计

烂笔头 | OpenMMLab 第一讲-编程知识网


3 语义分割

烂笔头 | OpenMMLab 第一讲-编程知识网

烂笔头 | OpenMMLab 第一讲-编程知识网

3.1发展

本质上来说,也是一个分类问题。可以充分利用之前的分类网络。

  • 深度学习的突破:全卷积网络 FCN(2015)
  • 分割模型的进化(2015~)
    • UNet 编码器-解码器
    • DeepLab 空洞卷积
    • 局部信息歧义 👉 上下文的重要性
  • 在模型中捕捉上下文信息(2016~)
    • PSPNet 2016 不同尺度的池化
    • DeepLab v3 2017 不同尺度的空洞卷积

烂笔头 | OpenMMLab 第一讲-编程知识网

3.2 MMSegmentation

烂笔头 | OpenMMLab 第一讲-编程知识网

烂笔头 | OpenMMLab 第一讲-编程知识网


4 视频理解

识别视频中的体育运动、检索视频中的片段……

  • 时序动作检测:When + What
  • 时空动作检测:Where + When + What
  • 视频 = 空间 + 时间 = 外观 + 动作

烂笔头 | OpenMMLab 第一讲-编程知识网

4.1 发展

  • 从手工特征到卷积网络(~2014)
  • 从单流到双流(2014~)
    • 双流网络 Two Stream Networks 2014:图像和光流
    • 时序分段网络 TSN 2016:视频切割成多个片段 snippets
  • 大规模视频数据集的出现(2017~)
  • 从2D卷积到3D卷积(2017~)
    • I3D 2017:2D卷积膨胀到3D卷积
    • SlowFast 2019:视频整体变化缓慢,但动作高速变化;使用不同频率
  • 压缩3D网络(2018~)
    • S3D/R2+1D 2018:分解 3D 卷积核 👉 空间 2D + 时间 1D
    • CSN 2019/X3D 2020:减少通道之间的连接,分组卷积、分层卷积
  • 更大的数据(2019~)
  • 弱监督学习(2019~)

烂笔头 | OpenMMLab 第一讲-编程知识网

4.2 MMAction2

烂笔头 | OpenMMLab 第一讲-编程知识网


5 生成对抗模型

生成难以分辨的真实人脸、输入音频让图中的人说话、风格转化、动漫特效……

无中生有——生成对抗网络

5.1 发展

  • GAN 2014
  • DCGAN 2015:基于卷积和反卷积
  • WGAN 2017:改善了训练不稳定
  • BigGAN 2017/styleGAN 2018:大模型,大数据集
  • CycleGAN/pix2pix 2017:风格转化
  • SeFa 2020:可解释的模型

5.2 图像修复

  • 传统视觉:PatchMatch(2009)

  • 早期探索深度学习:Context Encoder(2016):编码解码+对抗训练

  • 更好的效果,更多样的深度模型

    • Global & Local(2017):在CE基础上,加局部对抗训练
    • DeepFill(2018)v2(2019)/Pconv(2018):Attention机制,单阶段👉多阶段

5.2.1 什么是对抗训练?

烂笔头 | OpenMMLab 第一讲-编程知识网

5.3 图像超分辨率

  • 视觉传统:基于相似匹配和字典学习
  • 卷积网络:SRCNN(2014)
  • 生成对抗网络:SRGAN(2016)/ESRGAN(2018)
  • 新的方向:MetaSR(2019):元学习

5.4 抠图

  • 传统视觉:Closed-Form Matting(2006)
  • 深度学习方法
    • Deep Image Matting(2017)
    • FBA Matting(2020):透明度、前景和背景

5.5 MMEditing

烂笔头 | OpenMMLab 第一讲-编程知识网


6 其他方向

烂笔头 | OpenMMLab 第一讲-编程知识网

7 参考

通用视觉框架OpenMMLab系列课程 第一讲 bilibil