高级检索结果页
欢迎来到工程科技数字图书馆
登录 | 注册
 
您当前的位置:图书 > 计算机视觉十讲

计算机视觉十讲

计算机视觉是人工智能的重要分支,其研究是计算机系统智能化的第一步,也是实现人工智能的桥梁。本书面向计算机视觉,聚焦前沿算法理论,分别讲述了图像分类、检测、生成、视频处理等计算机视觉领域的研究重点,也对计算机视觉的基本概念和计算机视觉研究的预备知识进行了简要介绍,帮助读者在构建完整的计算机视觉知识框架的同时,打下较为坚实的基础,为进一步在计算机视觉和相关领域提出新设想、开发新算法、解决新问题创造良好的条件。本书可作为人工智能专业和计算机类相关专业的低年级研究生学习计算机视觉的参考书,也可作为从事计算机视觉技术研究工作的科研人员的自学用书。

封面
前折页
书名页
版权
计算机科学前沿丛书编委会
丛书序
“十讲”序
推荐序
前言
第1讲 底层视觉
 1.1 底层视觉概述
  1.1.1 底层视觉定义
  1.1.2 传统底层视觉方法
 1.2 基于数学模型的底层视觉方法
  1.2.1 全变分模型
  1.2.2 稀疏和低秩模型
  1.2.3 小结
 1.3 基于深度学习的底层视觉方法
  1.3.1 图像去噪
  1.3.2 图像超分辨率
  1.3.3 基于VGG模型的图像超分辨率方法
  1.3.4 图像去模糊
 1.4 底层视觉的挑战与展望
 参考文献
第2讲 图像质量评价
 2.1 全参考/部分参考型图像质量评价
  2.1.1 全参考型图像质量评价
  2.1.2 部分参考型图像质量评价
 2.2 无参考型图像质量评价
  2.2.1 基于统计学的无参考型图像质量评价
  2.2.2 基于深度学习的无参考型图像质量评价
 2.3 图像美学质量评价
  2.3.1 大众化图像美学评价
  2.3.2 个性化图像美学评价
 2.4 总结与展望
 参考文献
第3讲 图像分割
 3.1 图像分割概述
  3.1.1 早期图像分割
  3.1.2 语义分割
  3.1.3 实例分割和全景分割
  3.1.4 其他分割问题
 3.2 图像语义分割
  3.2.1 背景与问题
  3.2.2 基于传统特征的图像语义分割
  3.2.3 基于深度特征的图像语义分割
 3.3 图像实例分割
  3.3.1 问题定义
  3.3.2 两阶段实例分割
  3.3.3 一阶段实例分割
  3.3.4 基于Transformer的实例分割
 3.4 图像全景分割
  3.4.1 问题定义
  3.4.2 子任务分离的全景分割
  3.4.3 子任务统一的全景分割
 3.5 弱监督图像分割
  3.5.1 基于超像素的方法
  3.5.2 基于分类网络的方法
 3.6 跨域图像分割
  3.6.1 基于风格迁移的输入级图像对齐
  3.6.2 基于域不变特征发掘的中间级特征对齐
  3.6.3 基于标签分布发掘的输出级预测结果对齐
 3.7 医疗图像分割
  3.7.1 全监督医疗图像分割
  3.7.2 弱监督医疗图像分割
 参考文献
第4讲 目标检测
 4.1 目标检测概述
  4.1.1 目标检测的概念
  4.1.2 目标检测的研究意义
  4.1.3 目标检测的发展路线
  4.1.4 小结
 4.2 非深度学习目标检测方法
  4.2.1 图像匹配方法
  4.2.2 机器学习方法
  4.2.3 小结
 4.3 深度学习目标检测方法
  4.3.1 深度学习简介
  4.3.2 深度学习模型
  4.3.3 基于深度学习的方法框架
 4.4 评价指标和数据集
  4.4.1 数据集
  4.4.2 评价指标
 4.5 讨论与展望
  4.5.1 目标检测面临的挑战
  4.5.2 目标检测的发展趋势
 参考文献
第5讲 目标跟踪
 5.1 引言
 5.2 目标跟踪概述
  5.2.1 目标跟踪的基本概念
  5.2.2 目标跟踪的分类方式
  5.2.3 目标跟踪的研究意义
  5.2.4 小结
 5.3 单目标跟踪
  5.3.1 传统方法
  5.3.2 深度学习方法
  5.3.3 数据集与评价指标
  5.3.4 小结
 5.4 多目标跟踪
  5.4.1 多目标关联技术
  5.4.2 一体化多目标跟踪技术
  5.4.3 数据集与评价指标
  5.4.4 小结
 5.5 其他跟踪问题
  5.5.1 视频目标检测与多目标跟踪
  5.5.2 视频实例分割中的跟踪问题
  5.5.3 半监督视频物体分割
  5.5.4 小结
 5.6 应用
  5.6.1 目标跟踪与安防监控
  5.6.2 目标跟踪与智能机器人
  5.6.3 目标跟踪与自动驾驶
  5.6.4 无人机精准跟踪
  5.6.5 跟踪辅助视频标注
 5.7 总结与展望
  5.7.1 目标跟踪面临的挑战
  5.7.2 目标跟踪的发展趋势
  5.7.3 小结
 参考文献
第6讲 行人重识别
 6.1 行人重识别的定义与常用方法
  6.1.1 背景与问题
  6.1.2 常用方法
 6.2 行人重识别中的小样本问题
  6.2.1 弱监督建模
  6.2.2 无监督建模
  6.2.3 迁移学习建模
 6.3 行人重识别中的开放性建模问题
  6.3.1 遮挡问题
  6.3.2 跨模态问题
  6.3.3 换装问题
  6.3.4 其他问题
 参考文献
第7讲 视频行为识别
 7.1 引言
 7.2 视频行为识别数据集
  7.2.1 通用行为识别数据集
  7.2.2 骨架行为识别数据集
  7.2.3 群体行为识别数据集
  7.2.4 时域行为定位数据集
  7.2.5 时空行为定位数据集
  7.2.6 音视频行为定位数据集
 7.3 视频行为分类
  7.3.1 基于手工特征的视频行为分类方法概述
  7.3.2 基于深度学习的视频行为分类方法概述
  7.3.3 常用方法
 7.4 行为定位
  7.4.1 时域行为定位
  7.4.2 时空行为定位
 7.5 骨架行为识别
  7.5.1 早期骨架行为识别方法
  7.5.2 基于深度学习的骨架行为识别
  7.5.3 总结与展望
 7.6 多模态行为识别
  7.6.1 基于文本的视频定位
  7.6.2 音视频行为识别
 7.7 交互及组群行为识别
  7.7.1 交互行为识别
  7.7.2 组群行为识别
  7.7.3 群体行为识别的未来研究趋势
 参考文献
第8讲 视觉与语言
 8.1 视觉与语言的定义
  8.1.1 背景与意义
  8.1.2 典型任务与方法
 8.2 视觉--语言的典型框架
  8.2.1 传统方法
  8.2.2 预训练方法
  8.2.3 其他方面
 8.3 视觉--语言的语义关联与建模
  8.3.1 注意力机制建模
  8.3.2 图结构建模
  8.3.3 生成式建模
  8.3.4 其他建模
 8.4 视觉--语言的预训练技术
  8.4.1 单模态主干网络
  8.4.2 视觉与语言架构
  8.4.3 预训练任务与下游任务
  8.4.4 预训练数据集
 8.5 视觉--语言发展趋势与展望
 参考文献
第9讲 图像的三维重建
 9.1 背景介绍
 9.2 传统三维重建方法回顾
  9.2.1 经典多视点几何三维重建
  9.2.2 经典光度立体三维重建
  9.2.3 常见数据采集设备
 9.3 深度学习对基于不同形状表达的三维重建
  9.3.1 基于体素的显式三维表达
  9.3.2 基于多边形网格的显式三维表达
  9.3.3 基于隐式辐射场的三维表达
 9.4 三维重建与三维生成
  9.4.1 基于扩散生成大模型分数蒸馏的三维生成
  9.4.2 基于预训练三维重建模型和扩散生成模型的三维生成
 参考文献
第10讲 SLAM
 10.1 基础知识
  10.1.1 相机模型
  10.1.2 多视图几何原理
 10.2 SLAM的分类
  10.2.1 基于滤波的SLAM
  10.2.2 基于优化的SLAM
  10.2.3 基于深度学习的SLAM
 10.3 视觉SLAM
  10.3.1 初始化
  10.3.2 前台实时跟踪
  10.3.3 后端优化
  10.3.4 重定位
  10.3.5 回路闭合
 10.4 视觉惯性SLAM
  10.4.1 IMU模型
  10.4.2 前端模块
  10.4.3 后端模块
 10.5 融合深度信息的SLAM
  10.5.1 RGB-D SLAM
  10.5.2 激光视觉惯性SLAM
 10.6 SLAM发展趋势与展望
 参考文献
后折页
封底

机工科技数字图书馆