0 前情提要
open-mmlab部分框架,加方法综述,亲测可看。
林达华主讲。
涉及:
- 图像分类 —— MMClassification
- 目标检测 —— MMDetection
- 图像分割 —— MMSegmentation
- 行为识别 —— MMAction2
- 时序动作检测
- 时空动作检测
- 生成对抗系列——图像编辑 —— MMEditing
- 图像修复
- 超分辨率
- 抠图
没找到ppt。
计算机视觉
困难:
- 同类物体外观差异巨大
- 不同物体外观相似
- 拍摄环境的影响
1 图像分类
人工定义 👉 机器学习
1.1 发展
- 图像特征和分类器(1990s~2012)
- 深度学习(2012~)
- 网络结构的演进(2012~2017+)
- 新的趋势(2017~)
1.2 MMClassification
2 目标检测
2.1 发展
- 基本思想:滑窗检测
- 准确,不易遗漏
- 窗口数目巨大,计算量大
- 基本思想:区域提议(region proposal)
- 基于区域的方法 RCNN
- 两阶段方法的演进(2014~2017)
- 一阶段方法(2015~)
- 新的趋势(2018~)
2.2 MMDetection
2.3 模块化设计
3 语义分割
3.1发展
本质上来说,也是一个分类问题。可以充分利用之前的分类网络。
- 深度学习的突破:全卷积网络 FCN(2015)
- 分割模型的进化(2015~)
- UNet 编码器-解码器
- DeepLab 空洞卷积
- 局部信息歧义 👉 上下文的重要性
- 在模型中捕捉上下文信息(2016~)
- PSPNet 2016 不同尺度的池化
- DeepLab v3 2017 不同尺度的空洞卷积
3.2 MMSegmentation
4 视频理解
识别视频中的体育运动、检索视频中的片段……
- 时序动作检测:When + What
- 时空动作检测:Where + When + What
- 视频 = 空间 + 时间 = 外观 + 动作
4.1 发展
- 从手工特征到卷积网络(~2014)
- 从单流到双流(2014~)
- 双流网络 Two Stream Networks 2014:图像和光流
- 时序分段网络 TSN 2016:视频切割成多个片段 snippets
- 大规模视频数据集的出现(2017~)
- 从2D卷积到3D卷积(2017~)
- I3D 2017:2D卷积膨胀到3D卷积
- SlowFast 2019:视频整体变化缓慢,但动作高速变化;使用不同频率
- 压缩3D网络(2018~)
- S3D/R2+1D 2018:分解 3D 卷积核 👉 空间 2D + 时间 1D
- CSN 2019/X3D 2020:减少通道之间的连接,分组卷积、分层卷积
- 更大的数据(2019~)
- 弱监督学习(2019~)
4.2 MMAction2
5 生成对抗模型
生成难以分辨的真实人脸、输入音频让图中的人说话、风格转化、动漫特效……
无中生有——生成对抗网络
5.1 发展
- GAN 2014
- DCGAN 2015:基于卷积和反卷积
- WGAN 2017:改善了训练不稳定
- BigGAN 2017/styleGAN 2018:大模型,大数据集
- CycleGAN/pix2pix 2017:风格转化
- SeFa 2020:可解释的模型
5.2 图像修复
-
传统视觉:PatchMatch(2009)
-
早期探索深度学习:Context Encoder(2016):编码解码+对抗训练
-
更好的效果,更多样的深度模型
- Global & Local(2017):在CE基础上,加局部对抗训练
- DeepFill(2018)v2(2019)/Pconv(2018):Attention机制,单阶段👉多阶段
5.2.1 什么是对抗训练?
5.3 图像超分辨率
- 视觉传统:基于相似匹配和字典学习
- 卷积网络:SRCNN(2014)
- 生成对抗网络:SRGAN(2016)/ESRGAN(2018)
- 新的方向:MetaSR(2019):元学习
5.4 抠图
- 传统视觉:Closed-Form Matting(2006)
- 深度学习方法
- Deep Image Matting(2017)
- FBA Matting(2020):透明度、前景和背景
5.5 MMEditing
6 其他方向
7 参考
通用视觉框架OpenMMLab系列课程 第一讲 bilibil