工程科技数字图书馆

您当前的位置：图书 > 数据中心级计算：基础架构、设计原理与管理策略

数据中心级计算：基础架构、设计原理与管理策略

ISBN：978-7-111-78747-1

版印次：1-1

作者：李超过敏意

出版时间：

定价：

在线阅读

内容简介
目录

本书以其对现代数据中心的系统化阐述而独具特色，通过“剥洋葱”的方式将数据中心级计算面临的设计要点逐层展现在读者面前。全书跨越从硬件基础设施到软件管理框架的完整技术栈，并深度融合可扩展性、可持续性、可管理性三大核心设计思想，构建了一套层次清晰、相互关联的知识体系。书中借助丰富案例，不仅全面梳理了资源管理、能耗优化等重要方向的核心内容，还前瞻性地讨论了当前技术热点与未来研究方向。本书对计算机系统相关课程教学具有重要参考价值，同时也为科研人员投身算力优化与绿色计算等方面研究提供了宝贵指南。

封面
前折页
书名页
版权
序
前言
本书导读
作者简介
第一部分基础概念
第1章绪论
1.1 什么是数据中心
1.1.1 数据中心的功能
1.1.2 数据中心的组成
1.2 历史背景和发展轨迹
1.2.1 微观：从集成电路到处理器
1.2.2 宏观：从服务器到数据中心
1.2.3 数据中心研发概述
1.2.4 国内外政策摘要
1.2.5 发展趋势及统计
本章小结
练习思考
参考文献和引申阅读
第2章数据中心级计算
2.1 浅谈计数与排序
2.2 系统设计抽象
2.2.1 计算抽象
2.2.2 系统分层
2.2.3 设计考量
2.3 数据中心级计算全貌：以云为例
2.3.1 云计算栈
2.3.2 云计算系统宏观分析
2.3.3 云计算系统微观分析
2.4 案例：数据中心级计算服务
2.4.1 互联网搜索引擎
2.4.2 大数据批式处理
2.4.3 大数据流式处理
2.5 关键设计目标
2.5.1 服务等级
2.5.2 资源消耗
2.5.3 总体成本
2.5.4 在线时长
2.5.5 容灾备份
本章小结
练习思考
参考文献和引申阅读
第二部分系统架构
第3章核心计算设施
3.1 服务器和数据中心
3.1.1 服务器作为基础单元
3.1.2 数据中心层次化结构
3.2 服务器内部综合计算环境
3.2.1 异构计算单元
3.2.2 高速设备互连
3.3 数据中心访存层级扩展
3.3.1 内存技术概述
3.3.2 内存性能增强
3.3.3 内存层级扩展
3.3.4 统一内存访问
3.3.5 存算分离架构
3.4 数据中心存储系统简介
3.4.1 直连存储系统
3.4.2 网络接入存储
3.4.3 存储区域网络
3.4.4 分布式对象存储
3.5 数据中心网络拓扑结构
3.5.1 机房数据通信概述
3.5.2 机房结构化布线
3.5.3 典型网络拓扑结构
3.5.4 网络通信的影响
3.6 资源共享与融合
3.6.1 虚拟化计算环境
3.6.2 资源容器
3.6.3 超融合基础设施
本章小结
练习思考
参考文献和引申阅读
第4章基础支撑设施
4.1 组成总览
4.1.1 一幅图全貌
4.1.2 机房规模和结构
4.2 机房供电
4.2.1 层次化供电架构
4.2.2 双路供电模式
4.2.3 供电负荷管控
4.3 储能备电
4.3.1 不间断电源
4.3.2 层次化储能架构
4.4 供电通路能损
4.4.1 电力转换能损
4.4.2 储能设备能损
4.5 用电容量规划
4.5.1 功耗容量成本
4.5.2 PDU功率分配
4.5.3 峰值功耗应对
4.5.4 超额认购建模
4.6 制冷系统
4.6.1 系统概览
4.6.2 气流规划
4.6.3 评估指标
4.6.4 优化途径
本章小结
练习思考
参考文献和引申阅读
第5章系统部署模式
5.1 中央部署场景
5.1.1 部署模型
5.1.2 部署层级
5.1.3 部署效益
5.1.4 裸机服务器
5.2 边缘部署场景
5.2.1 边缘计算简介
5.2.2 边缘数据中心
5.2.3 雾计算与Cloudlet
5.2.4 系统优化视角
5.3 案例：模块化数据中心
5.3.1 概念及现状
5.3.2 容量规划
5.3.3 特殊运维实践
本章小结
练习思考
参考文献和引申阅读
第三部分理念思想
第6章可扩展性设计要求
6.1 可扩展性问题
6.1.1 什么是可扩展性
6.1.2 可扩展性的一般定义
6.1.3 超线性加速比
6.2 可扩展计算研究
6.2.1 系统扩展模式
6.2.2 资源利用瓶颈
6.2.3 横向扩展的体系结构
6.2.4 集群负载均衡
6.2.5 墙与性能瓶颈
6.3 案例：暗硅效应
6.3.1 芯片级的暗硅
6.3.2 设施级的暗硅
本章小结
练习思考
参考文献和引申阅读
第7章可持续性设计要求
7.1 可持续性问题
7.1.1 什么是可持续性
7.1.2 可持续性要素
7.1.3 可持续发展理念
7.1.4 碳足迹与碳中和
7.2 可持续计算
7.2.1 能效优先的设计
7.2.2 可持续计算层次
7.2.3 系统生命周期管理
7.2.4 学术界里程碑事件
7.2.5 业界评估与实践
7.3 案例：新能源绿色数据中心
7.3.1 新能源集成方式
7.3.2 代表性原型系统
7.3.3 绿色数据中心设计要点
本章小结
练习思考
参考文献和引申阅读
第8章可管理性设计要求
8.1 可管理性简介
8.1.1 一般概念
8.1.2 运维管理
8.2 同构与异构问题
8.2.1 工艺异构
8.2.2 架构异构
8.2.3 系统异构
8.2.4 应用异构
8.3 局部与全局问题
8.3.1 全栈设计
8.3.2 跨层优化
8.4 动态与变化问题
8.4.1 同步/异步
8.4.2 非确定性
8.5 计算机系统自主管理
8.5.1 传统启发式系统管理
8.5.2 基于反馈控制的管理
8.5.3 基于机器学习的管理
8.5.4 自主计算概念和模型
8.6 案例：数据中心节点功耗控制
8.6.1 数据中心的层级化功耗控制
8.6.2 负载均衡和功耗调控
本章小结
练习思考
参考文献和引申阅读
第四部分优化方法
第9章资源利用
9.1 集群作业调度
9.1.1 负载基本问题
9.1.2 批处理作业
9.1.3 一般作业调度方法
9.2 数据中心中的虚拟机
9.2.1 核心操作概述
9.2.2 弹性伸缩机制
9.2.3 容器资源管理
9.3 虚拟机分配
9.3.1 虚拟机供给方式
9.3.2 资源计费模型
9.3.3 虚拟机超额分配
9.3.4 虚拟机分配机制
9.3.5 虚拟机装箱问题
9.4 负载迁移整合
9.4.1 虚拟机热迁移
9.4.2 虚拟机整合
9.5 虚拟处理器调度
9.5.1 一般调度规则
9.5.2 虚拟SMP调度
9.5.3 Xen调度策略
9.6 作业混部与调优
9.6.1 延时敏感型任务
9.6.2 尽力而为型任务
9.6.3 任务干扰与隔离
9.7 空闲资源挖掘与发现
9.7.1 资源闲置问题
9.7.2 资源利用开销
9.7.3 资源碎片与整合
9.8 跨数据中心资源利用
9.8.1 全局资源弹性
9.8.2 数据中心跨域资源管理
本章小结
练习思考
参考文献和引申阅读
第10章电能管理
10.1 分析模型
10.1.1 电都用在哪里
10.1.2 处理器功耗模型
10.1.3 内存功耗模型
10.1.4 磁盘功耗模型
10.1.5 散热设计功耗
10.1.6 制冷功耗建模
10.2 功耗管理基础
10.2.1 配置接口ACPI
10.2.2 处理器休眠与S状态
10.2.3 处理器调控与C状态
10.2.4 性能调节与P状态
10.2.5 软硬协同的管理机制
10.3 电能管理策略
10.3.1 升频还是降频
10.3.2 负载调度还是硬件调控
10.3.3 功率封顶与整形
10.3.4 功耗管理延时开销
10.4 能耗匀增的计算
10.4.1 EP的基本概念
10.4.2 深入分析EP
10.4.3 设施级EP
10.5 能耗驱动的系统优化
10.5.1 应用特征感知
10.5.2 时空参数调优
10.5.3 异构架构优化
10.6 特殊电能管理机制
10.6.1 近似计算
10.6.2 间歇计算
10.6.3 计算冲刺
10.6.4 电能缓冲
10.6.5 负载跟随
10.7 能耗管理分类
10.7.1 分层管理视角
10.7.2 功耗管理区间
本章小结
练习思考
参考文献和引申阅读
第11章观测感知
11.1 基础设施管理系统
11.1.1 基础设施管理
11.1.2 带内带外监控
11.2 资源绘像与监控
11.2.1 资源绘像简介
11.2.2 资源监控内容
11.2.3 资源监控方式
11.2.4 性能事件计数
11.2.5 功耗能耗监控
11.3 观测工具
11.3.1 分布式追踪记录设施
11.3.2 观测粒度问题
11.3.3 软硬件绘像工具发展
11.3.4 资源绘像分析进展
11.4 案例：异构计算平台监测
11.4.1 GPU感知工具介绍
11.4.2 典型感知参数
11.5 案例：HPC数据中心监测
11.6 案例：IDC数据中心监测
11.6.1 谷歌持续绘像接口
11.6.2 谷歌分布式追踪记录设施
11.6.3 谷歌大规模性能度量机制
本章小结
练习思考
参考文献和引申阅读
第12章稳定运行
12.1 异常运行状况的产生
12.1.1 一般故障分析
12.1.2 极限任务负载
12.1.3 极限系统配置
12.1.4 设计风险评估
12.2 构建高可用的计算集群
12.2.1 冗余供电容量
12.2.2 数据副本管理
12.2.3 检查点及设置
12.2.4 故障域和容错
12.2.5 系统综合感知
12.3 案例：供电引发的运行风险
12.3.1 能耗攻击
12.3.2 功耗攻击
12.3.3 功率抢夺
12.4 设备老化与处理
12.4.1 计算设备老化问题
12.4.2 老化服务器处理
12.4.3 基础设施老化问题
本章小结
练习思考
参考文献和引申阅读
第13章管理框架
13.1 数据中心中间件
13.1.1 中间件的概念
13.1.2 中间件的类型
13.1.3 中间件对比调度器
13.2 调度器的组织架构
13.2.1 中央式调度架构
13.2.2 分布式调度架构
13.2.3 混合式调度架构
13.3 资源分配模式
13.3.1 集中式资源分配
13.3.2 层级式资源分配
13.3.3 全局式资源分配
13.4 调度框架优化
13.4.1 任务队列管理
13.4.2 调度冲突优化
13.4.3 管理模糊性思考
13.5 案例：企业级调度框架
13.5.1 Omega和Autopilot
13.5.2 Apollo和Hydra
本章小结
练习思考
参考文献和引申阅读
第五部分未来展望
第14章综合优化
14.1 软件定义的方法
14.1.1 软件定义的概念
14.1.2 软件定义的数据中心
14.2 大数据分析驱动的方法
14.2.1 日志分析和挖掘
14.2.2 数据驱动的系统管理
14.3 人工智能辅助的设计
14.3.1 基于机器学习的系统优化
14.3.2 数据中心智能化运维
14.4 数据中心负载时间序列预测
14.4.1 传统时间序列预测方法
14.4.2 机器学习方法
本章小结
练习思考
参考文献
第15章趋势讨论
15.1 计算技术历史视角回望
15.1.1 机器视角
15.1.2 用户视角
15.2 数据中心未来趋势观察
15.2.1 硬件设施角度观察
15.2.2 软件系统角度观察
15.2.3 核心价值角度观察
15.3 资源高效的数据中心
15.3.1 资源利用的三个维度
15.3.2 高维视角
15.3.3 回顾三个维度
15.3.4 系统设计有奇点吗
15.4 结语
参考文献
读者技术预测表
附录
附录A 计算层补充点
附录B 设施层补充点
附录C 仿真评估方法
附录D 工程伦理讨论
主要概念和术语索引
重要英文缩写说明
推荐阅读
后折页
封底