京东推荐系统中的兴趣拓展如何驱动业务持续增长( 三 )


所以 , 基于我刚刚提到的 , 在用户行为失效的这个情况下 , 那么知识图谱这种东西就显得尤为重要 。 我们构建了一个商品之间的知识图谱 。
京东推荐系统中的兴趣拓展如何驱动业务持续增长文章插图
在右侧的图中 , 最底下这层是基础的商品 , 就是我刚刚提到的京东场景下数十亿的 SKU 的这些基础的商品 。 那么这层商品 , 其实它的各个商品都是各异的 , 再上一层 , 是我们需要算法能够抽取出来的 , 就是最主要是通过商品的一些的标题、描述 , 以及一些商详页一些属性 , 甚至包括用户评论的一些属性 , 一些信息 , 去抽取出来上一层的实体 。 这个实体的概念其实主要是在用户感知的概念里头 , 它是唯一的一个商品的集合 。 所以它的基础过程 , 第一步是基于标题、上下文的文本描述抽取出的这个过程 , 第二步是基于一些用户行为所做的一些具促之类或者是说一些数据清洗之类的逻辑去做的一个实体 。 实体再上面一层 , 我们叫概念层 , 这个概念层体现出来的也是一些用户关注的商品的属性 , 比如说这里举个手机的例子来说 , 那可能它关注这个手机的主打的功能是不是拍照 , 是不是全面屏 , 是不是带 5G , 也就是类似于这种用户特别关注的某一个属性 , 我们叫概念层 。
再上面一层才是手机 , 所以其实你可以看到这是一个从细到粗、逐步抽象出来的知识网络的结构 。 所以它结合了一些商品抽取的信息 , 也结合了一些用户的行为 , 那么有了这个基础的商品层次的结构之后 , 我们很多的关系构建就不需要基于最底下这层 , 因为最底下这层的量级是特别大的 , 数十亿级别的 , 在这个级别下面的东西其实没有泛化能力 , 如果说你想去做基于行为 , 或者基于其他方式去构建 , 构建出来的数据都会是特别稀疏的 , 所以我们更多的关系是基于上面那三层 , 尤其是中间那两层构建的一些商品的信息 。
这里举一下基于这个图谱 , 我们在推荐中大概应用的方式 。
京东推荐系统中的兴趣拓展如何驱动业务持续增长文章插图
正如我前面所讲 , 如果基于最初始的协同过滤来说 , 用户的每一个行为 , 比如他过去某一个点击或者某个购买 , 你是基于某个孤立的行为去构建用户之间或者商品之间的关联关系的 , 其实这种构建的是你认为用户的每个行为都是孤立的 , 它其实并没有充分地利用户行为的关联关系 。 我们刚刚提到 , 用户的兴趣其实涉及到用户的演化过程 , 你基于孤立行为是刻画不出来用户的演化过程的 。
所以 , 第一个自然反应是 , 我把这个孤立的行为 , 变成一个连续的行为 , 我把整个的用户行为建成一个链 , 基于这个链去做用户行为刻画 。 但是基于这个链刻画 , 碰到的第一个问题就是组合爆炸的问题 。 正如刚刚提到 , 这个链条如果你用到的是最底层商品的集合 , 它就面临着数据稀疏的问题 。 所以如果说数据特别稀疏 , 那其实输入的就跟噪音差不多 。 因此 , 大家看到我们第三步做的过程 , 上面那条链还是用户的基础行为 , 下面那条链是我们刚刚提到的那个图里面 , 从下往上数第三层 , 就是Concept 概念 。 你可以看到商品的个数特别多 , 但是用户的跳转行为 , 它的Concept 其实只有三个 , 它主要是围绕着C2 那个Concept 在跳转的 , 整个过程就把用户的行为降维了 , 基于下面这个链条去做建模 , 去做用户兴趣的刻画和跳转 , 那么召回来的东西就可以基于正常的建模的方式去做操作了 。 不管你是CF 的方法也好 , 还是其他的模型化的方法也好 , 都是能够工作的 。
上图右侧的图 , 其实刚刚已经大概提了 , 其实就是说在一个用户跟一个商品发生关联之后 , 那么基于商品的知识图谱 , 你就可以建立出来很多关联 。 这是在召回方面我们所做的一个创新 , 其实最主要的工作就是知识图谱的构建 。