本书注重对新一代人工智能相关理论和技术进行深入的原理讲解,共计19 章,囊括了深度学习的基础理论、深度学习的优化问题、各种卷积操作、损失函数、经典的卷积神经网络结构、目标识别和度量学习算法、深度学习目标检测技术、图像分割算法、生成对抗网络、蒸馏学习、长尾学习技术、图像增广技术,以及大模型相关的Transformer技术、预训练技术、大语言模型、视觉-语言模型及视觉大模型等技术。
本书既可作为高等学校人工智能、智能科学与技术、计算机科学与技术、数据科学与大数据技术等专业的教材,也可作为人工智能领域的科研人员、业界人士、高校教师和爱好者的参考书,以系统掌握新一代人工智能的相关理论和技术。
封面
前折页
书名页
版权
前言
第1章 绪论
1.1 人工智能的概念及其发展现状
1.1.1 人工智能的概念与定义
1.1.2 新一代人工智能
1.1.3 人工智能、深度学习与机器学习的关系辨析
1.1.4 人工智能产业发展现状
1.1.5 深度学习研究的代表性学者
1.2 人工智能的主要发展历程
1.3 深度学习/新一代人工智能的研究与应用领域
1.3.1 物体分类/图像分类
1.3.2 目标检测
1.3.3 图像分割
1.3.4 自然语言理解
1.3.5 人脸识别
1.3.6 文字识别
1.3.7 医学图像分析
1.3.8 行人重识别和步态识别
1.4 结束语
本章参考文献
第2章 数据思维
2.1 新一代人工智能时代数据的重要性
2.1.1 人工智能时代数据的重要性
2.1.2 广义的数据思维概述
2.2 数据思维中的常见错误与陷阱
2.2.1 过分相信数据
2.2.2 过分相信模型和算法
2.3 深度学习/新一代人工智能研究的16个经典数据集介绍
2.3.1 ImageNet数据集
2.3.2 ILSVRC数据集——ImageNet竞赛数据集
2.3.3 CIFAR-10与CIFAR-100数据集
2.3.4 CUB-200数据集
2.3.5 iNaturalist数据集
2.3.6 PASCAL VOC数据集
2.3.7 MS COCO数据集
2.3.8 CityScapes数据集
2.3.9 LVIS数据集
2.3.10 VGG-Face2数据集
2.3.11 MS-Celeb-1M(MS1M)数据集
2.3.12 KoDF(算法生成的人脸视频)数据集
2.3.13 ICDAR 2013、2015和2017数据集
2.3.14 RCTW和MTWI中文场景文本数据集
2.3.15 ShopSign数据集
2.3.16 OracleBone-8000数据集——AI与古文字研究结合之作
2.4 结束语
本章参考文献
第3章 人工神经网络
3.1 人工神经网络的前向计算
3.2 人工神经网络的误差反向传播原理
3.2.1 输出层神经元求导
3.2.2 隐层神经元求导
3.2.3 权值和偏移量求导
3.3 人工神经网络实现
3.3.1 人工神经网络的前向传播算法实现
3.3.2 人工神经网络的误差反向传播和权值更新算法实现
本章参考文献
第4章 卷积神经网络
4.1 卷积神经网络原理
4.1.1 卷积运算
4.1.2 卷积核的物理意义
4.1.3 卷积神经网络中卷积核/滤波器的特点
4.1.4 卷积神经网络与人工神经网络的区别与联系
4.2 经典的卷积神经网络介绍
4.2.1 卷积神经网络的前向计算示例
4.2.2 两个经典的卷积神经网络介绍
4.3 卷积神经网络的误差反向传播原理
4.3.1 Softmax交叉熵损失求导
4.3.2 损失函数对输出层神经元激活前的值求偏导
4.3.3 损失函数对隐层神经元激活前的值求偏导
4.3.4 损失函数对隐层神经元激活后的值求偏导及权值求偏导
4.3.5 卷积神经网络的池化操作涉及的神经元值偏导求法
4.3.6 卷积操作涉及的输入矩阵中的元素和卷积核中权值的偏导计算方法
4.3.7 卷积神经网络的误差反向传播总结
本章参考文献
第5章 常见卷积操作与经典卷积神经网络
5.1 常见的卷积操作介绍
5.1.1 卷积操作的输出尺寸
5.1.2 1×1卷积操作
5.1.3 空洞卷积
5.1.4 转置卷积/反卷积
5.1.5 反池化
5.1.6 PixelShuffle像素重排列上采样
5.1.7 分组卷积
5.1.8 深度可分离卷积
5.2 经典的卷积神经网络介绍
5.2.1 VGG神经网络
5.2.2 InceptionNet
5.2.3 ResNet神经网络
5.2.4 其他神经网络
本章参考文献
第6章 神经网络优化
6.1 激活函数
6.1.1 常见激活函数
6.1.2 Sigmoid激活函数与Softmax激活函数的特点对比
6.1.3 激活函数选择策略
6.2 权值初始化
6.2.1 权值初始化概述
6.2.2 Xavier权值初始化与He权值初始化
6.3 神经网络的神经元值归一化与权值归一化
6.3.1 人工神经网络的神经元值批归一化/规范化
6.3.2 深度神经网络的神经元值批归一化/规范化
6.3.3 神经网络的权值归一化/规范化
6.4 神经网络的正则化
6.5 梯度更新策略与超参优化
6.5.1 神经网络中的偏导值和梯度的概念
6.5.2 基础梯度下降法
6.5.3 高级梯度下降法
本章参考文献
第7章 孪生神经网络
7.1 孪生神经网络介绍
7.2 孪生神经网络结构
7.2.1 经典孪生网络结构
7.2.2 双通道孪生神经网络
7.3 孪生神经网络实现
7.3.1 度量学习/对比损失模式下的孪生神经网络实现技术
7.3.2 二分类模式下的孪生神经网络结构
7.3.3 孪生神经网络的训练
7.4 Triplet Loss/FaceNet算法
7.4.1 Triplet Loss
7.4.2 Triplet Loss的难例选择算法
7.5 SiamFC目标追踪算法
7.5.1 SiamFC的输入图像特点
7.5.2 SiamFC的神经网络结构
7.5.3 SiamFC的损失函数改进
本章参考文献
第8章 蒸馏网络
8.1 蒸馏网络介绍
8.2 带温度的Softmax激活函数
8.2.1 Softmax激活函数
8.2.2 带温度的Softmax激活函数
8.3 蒸馏网络结构
8.4 蒸馏学习过程
8.5 总结
本章参考文献
第9章 损失函数
9.1 损失函数简介
9.1.1 损失函数的概念
9.1.2 损失函数设计的一般原则
9.1.3 损失函数的分类体系
9.2 十种常见的损失函数
9.2.1 L1损失函数
9.2.2 L2损失函数
9.2.3 Smooth L1损失函数
9.2.4 Huber损失函数
9.2.5 交叉熵损失函数
9.2.6 二元交叉熵损失函数
9.2.7 焦点损失函数
9.2.8 Center Loss函数
9.2.9 Hinge损失函数
9.2.10 Dice Loss函数
9.2.11 Tversky损失函数
9.3 最新损失函数
9.3.1 Triplet Loss
9.3.2 Multi-Similarity Loss
9.3.3 CosFace损失
9.4 KL散度与JS散度
本章参考文献
第10章 深度学习常用的图像增广技术
10.1 图像增广概述
10.1.1 图像增广的概念
10.1.2 图像增广技术归类
10.2 简单的图像变换技术
10.3 RandAugment图像增广技术
10.4 MixUp图像合成技术
10.5 CutMix图像合成技术
10.6 AugMix图像合成技术
本章参考文献
第11章 YOLO系列目标检测算法
11.1 深度学习目标检测综述
11.1.1 目标检测的问题定义
11.1.2 基于深度学习的目标检测算法归类
11.2 YOLO目标检测算法原理
11.2.1 YOLO目标检测算法的整体流程
11.2.2 YOLO目标检测算法的数据准备和目标矩阵构造
11.2.3 YOLO目标检测算法的神经网络结构
11.2.4 YOLO目标检测算法的损失函数
11.2.5 YOLO目标检测算法的其他技术细节
11.2.6 YOLO目标检测算法的整体训练流程
11.3 YOLO系列目标检测算法的发展历程
本章参考文献
第12章 Faster R-CNN系列目标检测算法
12.1 R-CNN目标检测算法
12.2 Fast R-CNN目标检测算法
12.3 Faster R-CNN目标检测算法
12.3.1 Faster R-CNN的整体流程
12.3.2 Faster R-CNN的目标矩阵和预测矩阵构造(输入和输出)
12.3.3 Faster R-CNN的参照框设置
12.3.4 Faster R-CNN的标注框预处理
12.3.5 Faster R-CNN的区域建议框回归学习设置
12.3.6 Faster R-CNN的神经网络结构
12.3.7 Faster R-CNN所使用的损失函数
12.3.8 Faster R-CNN的整体训练流程及实现细节
12.3.9 总结
12.4 Mask R-CNN目标检测/图像分割算法
12.4.1 像素级标注数据准备
12.4.2 ROI Align池化技术/采样技术
12.4.3 FPN技术
12.4.4 总结
本章参考文献
第13章 基于深度学习的图像分割技术
13.1 全卷积网络
13.1.1 语义分割与实例分割的概念
13.1.2 图像的像素级标注
13.1.3 用于语义分割的全卷积网络
13.2 U-Net
13.2.1 U-Net语义分割网络简介
13.2.2 U-Net语义分割网络的代码实现
13.3 DeepLabs等前沿分割算法
13.3.1 DeepLabs语义分割算法
13.3.2 Mask R-CNN算法简介
本章参考文献
第14章 生成对抗网络(GAN)
14.1 原始GAN/朴素GAN
14.1.1 GAN的生成器、判别器神经网络结构和主要损失函数
14.1.2 原始GAN的核心思想
14.1.3 GAN中生成器与分类器的交替训练过程
14.1.4 原始GAN的变体
14.2 DCGAN
14.2.1 DCGAN介绍
14.2.2 DCGAN的生成器模型
14.2.3 DCGAN的判别器模型
14.2.4 DCGAN的训练流程
14.3 BEGAN
14.3.1 BEGAN介绍
14.3.2 BEGAN的编码模块和解码模块神经网络结构
14.3.3 BEGAN的生成器与判别器的神经网络结构
14.3.4 BEGAN的训练流程
14.4 基于GAN的关系型/表格型数据生成技术
本章参考文献
第15章 长尾学习
15.1 长尾分布和长尾学习背景介绍
15.1.1 长尾分布的概念及其与不均衡分布的联系与区别
15.1.2 长尾需求与长尾场景
15.1.3 二八定律与长尾理论/长尾效应
15.1.4 SEO中的长尾关键词
15.1.5 长尾学习与不均衡学习
15.2 代表性长尾学习算法
15.2.1 数据平衡类长尾学习方法
15.2.2 损失重加权类长尾学习方法
15.2.3 解耦学习类长尾学习方法
本章参考文献
第16章 Transformer架构原理
16.1 自注意力机制
16.1.1 向量之间的点乘与余弦相似度
16.1.2 自注意力机制的原理
16.1.3 自注意力机制的神经网络表示与实现
16.1.4 自注意力机制的矩阵运算表示与实现
16.1.5 自注意力机制的实现细节
16.1.6 多头自注意力机制
16.2 Transformer架构
16.2.1 Transformer Encoder神经网络架构
16.2.2 Transformer Decoder神经网络架构
16.2.3 Transformer的整体神经网络架构
16.2.4 Transformer中的位置编码
16.3 Transformer的基础应用——BERT自然语言处理模型
本章参考文献
第17章 大语言模型
17.1 大模型发展现状及其影响和意义
17.1.1 大模型发展现状
17.1.2 大模型的影响和意义
17.2 大模型的核心技术
17.3 大模型的应用方法
本章参考文献
第18章 视觉Transformer模型
18.1 视觉Transformer架构ViT
18.1.1 ViT模型架构及原理
18.1.2 ViT技术的优缺点
18.2 Swin Transformer架构
本章参考文献
第19章 语言-视觉预训练模型和视觉大模型
19.1 语言-视觉预训练模型——CLIP
19.1.1 CLIP模型架构及原理
19.1.2 CLIP技术的优缺点
19.2 视觉预训练技术(MAE)
19.2.1 MAE模型的模型架构及流程
19.2.2 MAE技术的优缺点
19.3 DINO v2视觉大模型
19.3.1 DINO模型架构
19.3.2 DINOv2预训练视觉大模型
本章参考文献
后折页
封底
机械工业出版社 京icp备14043556号-1 (署)网出证(京)字第214号 Copyright (C) 2001 CmpBook. All Rights Reserved