内容简介
本书是Python数据分析与挖掘领域的公认的事实标准,前两版销售超过15万册,被国内100余所院校采用为教材,同时也被广大数据科学工作者奉为经典。
本书以真实项目案例为驱动,以真实的行业应用为依托,帮助读者快速掌握数据分析与挖掘的相关技术、流程与方法。本书精选了7个经典实战案例,涵盖了房地产、零售、互联网等多个领域,将Python编程知识、数据分析与挖掘知识和行业知识融合,让读者在实践中快速地掌握针对不同行业的数据挖掘方法。
本书不仅适合零基础的读者自学,还适合作为相关专业的教材。为了帮助读者更加高效地掌握本书的内容,本书提供了以下附加价值:
(1)上机环境:提供相关工具的环境配置文件,省去配置环境的烦琐操作,方便省心。
(2)数据文件:提供各个案例配套的数据文件,开箱即用,增强实操性。
(3)程序代码:提供书中代码的电子文件,代码导入环境即可运行,学习效果立竿见影。
(4)教学课件:提供配套的PPT课件,使用本书作为教材的老师可以申请,节省备课时间。
通过学习本书,读者可以理解数据分析与挖掘的原理,迅速掌握大数据技术的相关操作,为后续数据分析、数据挖掘、深度学习的实践打下良好的技术基础。
封面
前折页
书名页
版权
前言
基础篇
第1章 数据挖掘基础
1.1 某知名连锁餐饮企业的困惑
1.2 从餐饮服务到数据挖掘
1.3 数据挖掘的基本任务
1.4 数据挖掘的建模过程
1.4.1 目标定义
1.4.2 数据采集
1.4.3 数据探索
1.4.4 数据预处理
1.4.5 挖掘建模
1.4.6 模型评价
1.5 常用的数据挖掘建模工具
1.6 小结
第2章 Python数据分析简介
2.1 搭建Python开发平台
2.1.1 需要考虑的问题
2.1.2 基础平台的搭建
2.2 Python使用入门
2.2.1 运行方式
2.2.2 基本命令
2.2.3 数据结构
2.2.4 库的导入与添加
2.3 Python数据分析工具
2.3.1 NumPy
2.3.2 SciPy
2.3.3 Matplotlib
2.3.4 pandas
2.3.5 StatsModels
2.3.6 scikit-learn
2.3.7 Keras
2.3.8 Gensim
2.3.9 TensorFlow
2.3.10 PyTorch
2.3.11 PaddlePaddle
2.3.12 XGBoost
2.4 配套附件使用设置
2.5 小结
第3章 数据探索
3.1 数据质量分析
3.1.1 缺失值分析
3.1.2 异常值分析
3.1.3 一致性分析
3.2 数据特征分析
3.2.1 分布分析
3.2.2 对比分析
3.2.3 统计量分析
3.2.4 周期性分析
3.2.5 贡献度分析
3.2.6 相关性分析
3.3 Python的主要数据探索函数
3.3.1 基本统计特征函数
3.3.2 拓展统计特征函数
3.3.3 统计绘图函数
3.4 小结
第4章 数据预处理
4.1 数据清洗
4.1.1 缺失值处理
4.1.2 异常值处理
4.1.3 重复值处理
4.2 数据集成
4.2.1 实体识别
4.2.2 冗余属性识别
4.3 数据变换
4.3.1 简单函数变换
4.3.2 数据规范化
4.3.3 连续属性离散化
4.3.4 属性构造
4.3.5 小波变换
4.4 数据归约
4.4.1 属性归约
4.4.2 数值归约
4.5 Python的主要数据预处理函数
4.6 小结
第5章 挖掘建模
5.1 分类与预测
5.1.1 实现过程
5.1.2 常用的分类与预测算法
5.1.3 回归分析
5.1.4 决策树
5.1.5 人工神经网络
5.1.6 分类与预测算法评价
5.1.7 Python的分类预测模型
5.2 聚类分析
5.2.1 常用的聚类分析算法
5.2.2 k均值聚类算法
5.2.3 聚类分析算法评价
5.2.4 Python的主要聚类分析算法
5.3 关联规则
5.3.1 常用的关联规则算法
5.3.2 Apriori算法
5.4 时序模式
5.4.1 时间序列算法
5.4.2 时间序列的预处理
5.4.3 平稳时间序列分析
5.4.4 非平稳时间序列分析
5.4.5 Python的主要时序模式算法
5.5 离群点检测
5.5.1 离群点的成因及类型
5.5.2 离群点检测方法
5.5.3 基于统计模型的离群点检测方法
5.5.4 基于聚类的离群点检测方法
5.6 小结
实战篇
第6章 房屋租金影响因素分析与预测
6.1 背景与挖掘目标
6.2 分析方法与过程
6.2.1 数据预处理
6.2.2 数据探索
6.2.3 模型构建
6.3 上机实验
6.4 拓展思考
6.5 小结
第7章 商超客户价值分析
7.1 背景与挖掘目标
7.2 分析方法与过程
7.2.1 数据探索与预处理
7.2.2 模型构建及结果分析
7.3 上机实验
7.4 拓展思考
7.5 小结
第8章 商品零售购物篮分析
8.1 背景与挖掘目标
8.2 分析方法与过程
8.2.1 数据探索分析
8.2.2 数据预处理
8.2.3 模型构建
8.3 上机实验
8.4 拓展思考
8.5 小结
第9章 基于水色图像的水质评价
9.1 背景与挖掘目标
9.2 分析方法与过程
9.2.1 分析流程
9.2.2 数据预处理
9.2.3 模型构建
9.2.4 水质评价
9.3 上机实验
9.4 拓展思考
9.5 小结
第10章 家用热水器用户行为分析与事件识别
10.1 背景与挖掘目标
10.2 分析方法与过程
10.2.1 数据探索分析
10.2.2 数据预处理
10.2.3 模型构建
10.2.4 模型检验
10.3 上机实验
10.4 拓展思考
10.5 小结
第11章 电视产品个性化推荐
11.1 背景与挖掘目标
11.2 分析方法与过程
11.2.1 分析流程
11.2.2 数据预处理
11.2.3 分析与建模
11.2.4 模型评价
11.3 上机实验
11.4 拓展思考
11.5 小结
第12章 天问一号事件中的网民评论情感分析
12.1 背景与挖掘目标
12.2 分析方法与过程
12.2.1 分析流程
12.2.2 数据说明
12.2.3 数据探索
12.2.4 文本预处理
12.2.5 绘制词云图
12.2.6 使用朴素贝叶斯构建情感分析模型
12.2.7 模型评价
12.2.8 模型优化
12.3 上机实验
12.4 拓展思考
12.5 小结
提高篇
第13章 基于TipDM大数据挖掘建模平台实现商超客户价值分析
13.1 平台简介
13.1.1 “共享库”模块
13.1.2 “数据连接”模块
13.1.3 “数据集”模块
13.1.4 “我的工程”模块
13.1.5 “个人组件”模块
13.2 快速构建数据挖掘工程
13.2.1 数据源配置
13.2.2 数据探索与处理
13.2.3 模型构建与结果分析
13.3 小结
推荐阅读
后折页
封底
机械工业出版社 京icp备14043556号-1 (署)网出证(京)字第214号 Copyright (C) 2001 CmpBook. All Rights Reserved