如何解决垂直问答社区初期冷启动的问题

垂直问答社区,需要的是能有精准的人可以解决精准的人的问题,不是泛泛的解答,讲求提问和回答的质量,因此在前期的内容回答上,可以雇人回答,缺少提问人群时,就安排人进行提问,同时在营销上,在相关搜索引擎和网站投放广告,搞营销推广活动,提高媒体曝光率,同时邀请头部用户,优质用户首先入驻,靠他们口碑提高知名度 。
如何解决冷启动问题?在缺乏有价值数据的时候,如何有效地满足业务需求的问题,就是“冷启动问题”。为了沟通方便,下面统一从推荐系统的角度来讲“冷启动问题”,其他业务场景同理 。
冷启动问题是机器学习系统中十分常见、无法回避的问题,因为任何机器学习系统都要经历从无到有的过程 。试想,你作为一个新用户,在没有用户数据的情况下,淘宝如何给你个性化推荐商品,抖音如何给你个性化推荐视频呢?
具体地讲,根据数据匮乏情况的不同,冷启动问题主要分为 3 类:
说“解决”可能是过于绝对和自信了,但面对没有数据的情况,我们并不是完全没有办法 。
在讲具体的解决方法之前,我还是希望站在更高维度,帮助大家构建一个数据分析师/算法工程师该有的思维模型——可以从哪些角度来解构数据/算法相关的问题,那么以后无论遇到什么问题,都可以做到考虑全面 。抓到要害 。
冷启动问题是因为数据缺乏导致的,与工程实现无关 。根据上面的思维导图,我们来从数据、算法和产品三个角度来思考 。
首先思考数据,能够帮助我们了解现状,知道手上有哪些底牌 。数据一般包括用户数据和物品数据 。
按数据来源的不同,考虑: 内部数据 、 外部数据。
内部数据包括: 本产品线的数据 、 其他产品线的数据。
注意,在冷启动问题中,对于数据是“缺乏”而非“没有” 。这意味着我们手上可能还是有一些数据的 。
另外,如果公司还有其他业务线,那么其他业务线的数据也可以拿过来使用 。例如用户在美团已经积累了外卖数据,可以根据消费金额、家庭地址等分析得出用户的消费水平,那么在用户第一次使用美团的酒店服务时,也可以推荐出符合消费习惯的酒店 。
常见获取数据的手段包括: 爬虫 、 平台对接。
那 DMP 的数据是哪里来的呢?数据交换 。通过合作的方式,企业给 DMP 提供用户的一些基本数据,DMP 对数据进行分析、挖掘,给企业提供更加全方位的用户信息 。这样一来,企业就能获取到本来完全得不到的用户兴趣、收入水平、广告倾向等一系列高阶特征 。
在梳理完数据现状之后,接下来考虑算法的问题 。
推荐系统的目标就是推荐给用户正确的商品,评价方式可以是点击率、在线观看时长等 。在解决冷启动问题的过程中,无论用什么算法,算法的优化目标都要与总体目标一致 。
算法可以从实现方式的不同,分为 3 类: 基于规则 、 基于ML/DL 、 探索与利用。
基于规则的算法,一般给出的都是榜单类型的推荐结果 。
在用户冷启动场景下,可以使用“热门排行榜”、“最新流行趋势榜”、“最高评分榜”等作为默认的推荐列表,实现 非个性化推荐。在章节2.1.1、内部数据里也提到过,可以根据专家意见建立一些针对于不同年龄段、不同性别的用户的个性化榜单,然后在用户完成注册后,根据注册时填写的信息进行 粗粒度的个性化推荐。另外,在 LBS(Location ba