高级检索结果页
欢迎来到工程科技数字图书馆
登录 | 注册
 
您当前的位置:图书 > 大语言模型全链路解析:从架构设计、训练优化到应用开发

大语言模型全链路解析:从架构设计、训练优化到应用开发

  • 相关图书推荐
  • 相关课程推荐
  • DeepSeek实用技巧
  • DeepSeek与AI办公提效
  • AI通识与DeepSeek提问逻辑
  • Deepseek高效使用技巧
  • 计算机组装与维护教程
  • C语言程序设计
  • Python编程基础与应用
  • Java算法从菜鸟到达人
  • deepseek高效辅助课题申报
  • AI辅助教学
  • deepseek高效辅助论文写作

内容简介
这是一本系统讲解大语言模型全链路技术的实战指南,以“基础理论—技术实践—产业应用—未来发展”为逻辑主线,覆盖从技术原理、架构设计、训练优化到应用开发和产业落地的完整知识体系。
本书是资深人工智能与算法工程专家在腾讯的大模型实战经验总结,内容分为四篇。
第一篇 初识大语言模型。梳理大语言模型发展历程与核心概念,解析预训练与微调机制,对比传统循环神经网络与Transformer架构差异,结合数学知识为零基础读者构建认知框架。
第二篇 大语言模型全解析。遵循“基础架构—训练方法—技术案例—后训练优化—评测体系—性能提升”的逻辑链条展开,聚焦DeepSeek的技术突破,系统讲解预训练目标设计、后训练优化(SFT/RLHF)、模型评测体系,并深入分析推理性能瓶颈及在硬件加速与算法层面的优化方案。
第三篇 大语言模型应用开发及实践。紧扣真实场景落地需求,详解提示工程、思维链、检索增强生成及智能体开发的全流程方法论与工具链整合策略。
第四篇 大语言模型的未来发展。前瞻性地探讨多模态融合(如视觉-语言指令微调)、具身智能与通用人工智能(AGI)的演进路径,为技术决策者提供战略级行业洞察。
大语言模型正以颠覆性力量重塑人工智能的边界。本书致力于成为连接理论探索与工程实践的坚实桥梁——无论你是希望夯实技术根基的工程师,还是谋划未来布局的战略决策者,都能从中获得启发,在通往通用智能的浪潮中,走出属于自己的创新路径。

封面
前折页
书名页
版权
前言
第一篇 初识大语言模型
 第1章 走近大语言模型
  1.1 大语言模型的发展历程
  1.2 语言模型的核心概念
   1.2.1 基础概念
   1.2.2 分词
   1.2.3 词向量
   1.2.4 从静态词向量到深度神经网络
  1.3 预训练和微调
   1.3.1 预训练
   1.3.2 预训练阶段的模型
   1.3.3 微调
   1.3.4 提示学习和指示学习
 第2章 探索大语言模型的关键技术
  2.1 大语言模型的基础知识
   2.1.1 机器学习基础知识
   2.1.2 数学基础知识
  2.2 在Transformer之前的常用模型
   2.2.1 循环神经网络
   2.2.2 编码器-解码器架构
  2.3 Transformer
   2.3.1 Transformer架构
   2.3.2 位置编码
   2.3.3 层归一化
   2.3.4 激活函数
  2.4 解码策略
   2.4.1 概率最大化方法
   2.4.2 采样方法
  2.5 嵌入技术
   2.5.1 嵌入技术简介
   2.5.2 嵌入的价值
   2.5.3 主流的嵌入训练方法
   2.5.4 扩展嵌入序列的长度
  2.6 扩展法则和涌现能力
   2.6.1 扩展法则——大语言模型时代的摩尔定律
   2.6.2 涌现能力
第二篇 大语言模型全解析
 第3章 大语言模型的架构及训练方法
  3.1 大语言模型的主流架构
   3.1.1 仅解码器架构
   3.1.2 仅解码器架构的优势
  3.2 数据准备
   3.2.1 数据收集
   3.2.2 数据预处理
  3.3 大语言模型训练
   3.3.1 无监督预训练
   3.3.2 后训练
  3.4 增量训练
   3.4.1 增量训练语料的清洗
   3.4.2 增量训练模型的评测
   3.4.3 训练方法
  3.5 常见的训练策略
   3.5.1 数据并行
   3.5.2 模型并行
   3.5.3 流水线并行
   3.5.4 混合并行
 第4章 DeepSeek模型创新揭秘
  4.1 DeepSeek是中国AI领域的“斯普特尼克时刻”
  4.2 DeepSeek系列模型的技术创新
   4.2.1 混合专家模型
   4.2.2 多头潜在注意力机制
   4.2.3 多词元预测
  4.3 基于人类反馈的强化学习
   4.3.1 强化学习的基础知识
   4.3.2 强化学习在大语言模型中的应用
   4.3.3 强化学习在提升模型推理能力中的应用探讨
 第5章 模型编辑
  5.1 模型编辑简介
   5.1.1 模型编辑的思想和定义
   5.1.2 模型编辑的特性
  5.2 模型编辑的经典方法
   5.2.1 外部拓展法
   5.2.2 内部修改法
  5.3 模型编辑的应用
   5.3.1 精准模型更新
   5.3.2 保护被遗忘权
   5.3.3 提升模型安全
 第6章 大语言模型微调
  6.1 微调简介
   6.1.1 微调的原理及进展
   6.1.2 微调流程
  6.2 参数高效微调——参数附加方法
   6.2.1 参数附加方法分类
   6.2.2 引入额外提示——加在输入
   6.2.3 模型参数微调——加在模型
   6.2.4 调整模型输出分布——加在输出
  6.3 参数高效微调——参数选择方法
   6.3.1 基于规则的方法
   6.3.2 基于学习的方法
  6.4 参数高效微调——低秩适应方法
   6.4.1 低秩适应
   6.4.2 低秩适应方法改进
 第7章 大语言模型评测
  7.1 大语言模型评测概述
   7.1.1 评测的必要性
   7.1.2 评测的关键要素
   7.1.3 评测的维度
   7.1.4 评测的方法论
  7.2 评测平台和评测基准
   7.2.1 评测平台
   7.2.2 评测基准
 第8章 推理性能优化
  8.1 问题分析
  8.2 大语言模型推理框架
  8.3 硬件层面的计算加速
   8.3.1 架构设计
   8.3.2 高性能计算框架
   8.3.3 硬件加速
  8.4 算法层面的计算加速
   8.4.1 精简注意力
   8.4.2 计算优化
   8.4.3 I/O优化——FlashAttention技术
   8.4.4 模型压缩
第三篇 大语言模型应用开发及实践
 第9章 从应用场景到开发理论框架
  9.1 大语言模型的应用
   9.1.1 生产力场景
   9.1.2 生活娱乐场景
  9.2 大语言模型应用的工作流程
   9.2.1 处理输入
   9.2.2 理解输入
   9.2.3 生成响应
   9.2.4 输出处理
   9.2.5 反馈学习
  9.3 大语言模型应用的开发流程
   9.3.1 大语言模型应用开发和传统AI开发的差异
   9.3.2 大语言模型应用开发要点
  9.4 大语言模型应用开发面临的挑战
   9.4.1 性能的关键问题与解决方案
   9.4.2 大语言模型逻辑推理困境与解决方案
 第10章 提示工程
  10.1 提示工程简介
   10.1.1 什么是提示
   10.1.2 提示的重要性
   10.1.3 提示工程的技术框架
  10.2 上下文学习
   10.2.1 上下文学习简介
   10.2.2 从梯度视角解释上下文学习
  10.3 提示自适应优化
  10.4 设计提示词的准则与模板解析
   10.4.1 提示词关键准则
   10.4.2 万能模板的底层逻辑与构成
 第11章 思维链构建
  11.1 思维链简介
   11.1.1 思维链核心内涵与价值
   11.1.2 思维链的技术实现与优势
  11.2 思维链的应用
  11.3 思维链的变体
   11.3.1 零样本思维链
   11.3.2 自动思维链
   11.3.3 长思维链
   11.3.4 多模态思维链
  11.4 思维链的训练方式
   11.4.1 过程监督奖励模型
   11.4.2 蒙特卡洛树搜索
   11.4.3 监督微调
   11.4.4 基于规则的强化学习
  11.5 思维链提示技术的优势和局限性
   11.5.1 思维链提示技术的优势
   11.5.2 思维链提示技术的局限性
 第12章 检索增强生成
  12.1 检索增强生成简介
   12.1.1 诞生背景
   12.1.2 工作流程
  12.2 问答场景检索增强生成实践
   12.2.1 提问分类
   12.2.2 数据处理
   12.2.3 检索
   12.2.4 数据增强
   12.2.5 生成
  12.3 检索增强生成与有监督微调对比
  12.4 未来趋势
 第13章 智能体开发
  13.1 大语言模型和智能体结合的核心价值与技术瓶颈
   13.1.1 大语言模型和智能体结合的核心价值
   13.1.2 大语言模型和智能体结合的技术瓶颈
  13.2 大语言模型驱动的智能体
   13.2.1 大语言模型驱动的智能体的架构
   13.2.2 关键突破:从以人类为中心到自主进化
  13.3 智能体的技术实现框架
   13.3.1 核心模块解析
   13.3.2 工业实践范例:智能客服
  13.4 智能体多元化落地
   13.4.1 单智能体场景
   13.4.2 多智能体场景
   13.4.3 人机交互场景
第四篇 大语言模型的未来发展
 第14章 大语言模型的发展方向
  14.1 开源之争和盈利模式
  14.2 通往AGI的道路
   14.2.1 AGI的核心概念
   14.2.2 当前的演进路径
   14.2.3 未来展望
  14.3 技术思考
   14.3.1 广度模态扩充
   14.3.2 深度智能提升
  14.4 大语言模型的核心问题和前景
   14.4.1 核心问题
   14.4.2 前景
 第15章 多模态融合
  15.1 多模态指令微调
   15.1.1 多模态大语言模型学习范式
   15.1.2 视觉-语言指令微调数据
  15.2 多模态上下文学习
  15.3 多模态思维链
   15.3.1 推理构建视角
   15.3.2 结构化推理视角
   15.3.3 信息增强视角
   15.3.4 目标粒度视角
   15.3.5 多模态思维链视角
   15.3.6 测试扩展视角
  15.4 多模态辅助推理能力
   15.4.1 推理分类
   15.4.2 通过多模态改善推理
后折页
封底

机工科技数字图书馆