计算广告投放点击率CTR预估场景之GBDT+LR排序模型

gbdt+lr, 在很多算法大赛场景与公司的推荐 广告等ctr业务场景里面广泛应用 , 最近在做短视频场景下的排序模型的时候 , 引入了gbdt做组合特征 , 送给lr 或者fm再做点击率预估 , 后续准备围绕ctr场景 , 结合手上的一些工作以及各位博客大牛的资料 , 整理一些个人总结和心得 。 这里引用以为博客对Facebook那片论文的解读:Practical Lessons from Predicting Clicks on Ads at Facebook
参考链接:
文中对gbdt构造离散化的组合特征做了一些说明 , 一般网上都强调了每棵树的叶子节点代表了新构造出来的feature , 当某个输入一维向量x(x是包含一系列原始特征维度的一维向量)最终落入到某个leaf叶子节点上时 , 可认为原始输入x映射得到该节点对应的新特征 , 同时该leaf的index 就作为特征的新的值 , 用于后续的one-hot 编码 , 后续lr 或者fm就可以直接方便的使用 。
而在原始输入x 从每棵树的root节点 沿某条路径一直走到最终的一个叶子节点 , 根据决策树的分裂原理 , 该条路径上的每个中间节点 都可以认为是在某个属性上的分裂规则 , 这里给出了某本书上 通过决策树如何进行特征组合的一个简单例子 , 解释了每个叶子节点所代表的特征组合含义 , 放到gbdt场景下 , 本质一样 , 明白了该例子 , 对于初学者来说 , 应该能够直观的理解gbdt的每颗子树是如何基于原始输入向量X , 得到每棵子树对应的的M个组合特征 。 每个叶子节点 , 其含义是代表了从根节点到该叶子节点的一条路径 , 即若干个不同维度的特征的组合方式
计算广告投放点击率CTR预估场景之GBDT+LR排序模型文章插图
计算广告投放点击率CTR预估场景之GBDT+LR排序模型文章插图
【计算广告投放点击率CTR预估场景之GBDT+LR排序模型】待续