这是一本指导中高级从业者高质量落地现代推荐系统,围绕现代推荐系统核心技术展开深度解读的专业工具书,又是一套完整的推荐系统高质量落地解决方案。本书基于推荐算法工程师实际工作场景规划内容,融合了作者在阿里巴巴、58同城等多家大厂做推荐系统设计和优化的经验,是一本方法和实践兼具的好书。
本书不针对零基础从业者,而是以帮助初级算法工程师向中高级进阶为目标。书中从底层剖析推荐系统在实际业务场景中可能出现的各种问题,直指问题的本质,并按照推荐系统工作流程逐一破解。
本书共包括11章:
第1章 主要介绍推荐系统在各个互联网业务场景中的落地情况,包括构建推荐系统可能面临的问题,以及电商、视频、电子书、广告系统、信息流、拉活促销等相关推荐系统落地指导。
第2章 介绍现代推荐系统的整体架构,以帮助读者从宏观层面整体了解推荐系统。
第3章 对推荐系统所需要的数据和特征处理进行深度剖析,包括数据的收集、非结构化数据的结构化清洗、连续特征处理和离散特征处理等重点内容。
第4章 对推荐系统的在线指标和离线指标,以及AB实验的设计进行深度讲解。
第5章和第6章,主要对机器学习和神经网络的设计和调参进行详细解读。这是本书的重点,也是很多推荐算法工程师的痛点。这部分包括XGBoost的重要参数调优、集成学习最DA化推荐效果利用、DNN网络深度和宽度的影响、激活函数的选择、优化器选择、损失函数、过/欠拟合等内容。
第7~9章 分别对召回层、精排层、粗排层进行详细解读,包括5种召回方案、4种精排建模方式、2种粗排设计方案,以及模型可解释性、近离线计算等重点内容。
第10章 主要介绍精排模型的分析方法,重排模型(PRM、生成式重排模型)和混排(混排的原理和强化学习在混排的应用)的原理。
第11章 主要介绍冷启动链路的设计,主要包括新用户如何冷启动、新物料如何冷启动和冷启动涉及的流量分配算法。这是本书的特色内容。
封面
前折页
书名页
版权
前言
第1章 什么是推荐系统
1.1 深度理解推荐系统
1.2 企业在构建推荐系统时会面临哪些问题
1.3 4类主流推荐系统构建点拨
1.3.1 电商是怎么做推荐系统的
1.3.2 视频网站是怎么做推荐系统的
1.3.3 推荐系统是怎么应用于广告业务的
1.3.4 推荐系统是怎么应用于信息流的
1.4 推荐系统怎么拉活促销
1.5 架构和模型在推荐系统落地中的作用
第2章 推荐系统架构
2.1 推荐系统架构概述
2.2 召回层概述
2.2.1 非个性化召回
2.2.2 个性化召回
2.3 粗排层概述
2.3.1 双塔粗排
2.3.2 交叉粗排
2.4 精排层概述
2.5 重排层概述
2.6 冷启动环节
2.6.1 用户冷启动
2.6.2 物料冷启动
第3章 构建推荐系统的特征
3.1 怎么收集数据
3.2 怎么清洗数据
3.2.1 物料侧数据
3.2.2 用户侧数据
3.2.3 内容侧数据
3.2.4 交叉数据
3.3 怎么处理连续特征
3.3.1 标准化
3.3.2 无监督分箱
3.3.3 有监督分箱
3.4 怎么处理离散特征
第4章 为推荐系统选择评价指标
4.1 不同业务的线上指标
4.2 精排层应该选择什么评价指标
4.3 召回层应该选择什么评价指标
4.4 重排层应该选择什么评价指标
4.5 怎么设计合理的AB实验
第5章 机器学习模型调参
5.1 决策树调参
5.2 随机森林调参
5.3 XGBoost调参
5.4 LightGBM调参
5.5 全局优化调参
5.5.1 网格搜索
5.5.2 贝叶斯调参
5.6 利用集成学习提高推荐效果
第6章 神经网络模型调参
6.1 怎么对DNN调参
6.1.1 DNN的深度和宽度调参
6.1.2 DNN激活函数的选择
6.2 怎么为神经网络选择优化器
6.3 怎么为神经网络选择损失函数
6.4 怎么解决神经网络的拟合问题
第7章 个性化召回层样本选择和模型选择
7.1 协同过滤召回
7.1.1 传统协同过滤
7.1.2 协同过滤的改进
7.1.3 协同过滤优缺点
7.2 双塔召回
7.2.1 DSSM模型
7.2.2 Youtube召回模型
7.2.3 Facebook召回模型
7.2.4 FM召回
7.2.5 MIND模型
7.2.6 ESAM模型
7.3 Word2vec在召回中的应用
7.3.1 基于Word2vec的经典召回模型
7.3.2 Airbnb召回模型
7.3.3 “随机游走”在召回中的应用
7.4 基于图网络的召回
7.4.1 Graph Sage
7.4.2 PinSage
7.4.3 GraphTR
7.5 基于树网络的召回
7.5.1 TDM树召回
7.5.2 DR
第8章 精排层的样本选择和模型选择
8.1 传统DNN建模
8.1.1 Youtube DNN精排模型
8.1.2 Wide&Deep
8.2 交叉模型
8.2.1 FM模型家族
8.2.2 DCN系列模型
8.3 偏置问题
8.3.1 位置偏置
8.3.2 曝光偏置
8.3.3 热门偏置
8.3.4 选择偏置
8.3.5 服从性偏置
8.3.6 不平等偏置
8.4 模型可解释性
8.4.1 FiBiNET
8.4.2 夏普利值
8.4.3 SHAP
8.5 因果场景
8.5.1 提升模型建模方式
8.5.2 基于树模型的因果模型
8.5.3 标签转换法
8.5.4 提升模型的评价指标
8.5.5 因果模型应用于偏置消除
8.6 序列建模
8.6.1 DIN
8.6.2 DIEN
8.6.3 MIMN
8.6.4 SIM
8.7 多目标建模
8.7.1 MMOE
8.7.2 ESMM+MMOE
8.7.3 SNR
8.7.4 CGC
8.7.5 PLE
8.7.6 多目标模型的损失优化
第9章 粗排层的样本选择和模型选择
9.1 蒸馏
9.2 工程优化
第10章 重排层的设计与实现
10.1 精排数据分析
10.2 模型重排
10.2.1 PRM
10.2.2 生成式重排机制
10.3 混排
10.3.1 混排公式推导
10.3.2 强化学习在混排中的应用
第11章 冷启动环节的设计与实现
11.1 用户冷启动
11.2 物料冷启动
11.3 PID算法
推荐阅读
后折页
封底
机械工业出版社 京icp备14043556号-1 (署)网出证(京)字第214号 Copyright (C) 2001 CmpBook. All Rights Reserved