第一类:基于内容的推荐
这类算法是基于所分析数据的一系列不相关的特征数据或者类似性质,寻找较高属性相似度的数据。在计算时,需要对原始数据通过特征提取的方法获得对象内容特征数据,系统基于用户所操作对象的特征提取用户的兴趣。
最著名的基于内容的推荐系统由PandoraRadio所使用。PandoraRadio的工作人员会为每一首歌从各个方面打上标签(作曲、演唱、年代、曲风等,据称有上百个标签),并且用户的反馈也会对这些标签的权重有所影响。而PandoraRadio则会依据这些标签来为用户推荐歌曲。
目前,这种基于内容的推荐系统使用范围并不广,这一系统的主要障碍在于特征提取。以PandoraRadio为例,他们需要成立一个专门的团队,负责听每一首歌,并打上标签。这样的人力成本投入过高,且扩展性不够。
第二类:协同过滤
协同过滤推荐是当前使用较多的技术,其基本思想非常易于理解,我觉得可以总结为“物以类聚,人以群分”,简单来说就是类似的人喜欢类似的商品,而喜欢相似商品的人,往往也有着一些共同点。互联网上用户的一举一动,都可能被背后的计算机系统记录下来,用作协同过滤分析的数据。
以一个比较简单的例子来说明协同过滤的原理。下表为4个人对于6部电视剧的评价结果。可以看到,没有任何两个人的打分结果是一样的,也没有一部电视剧的得分结果是相同的。
但是,如果把某一位用户的评分当作一个多维向量的话,我们就可以得到4个向量,并看作用户的特征。
Ben=[5,5,3,0,5,5]
Tom=[5,0,4,0,4,4]
John=[0,3,0,5,4,5]
Fred=[5,4,3,3,5,5]
在六维空间里,这4个向量的夹角即代表了用户的相似度,夹角越小,相似度越高。在例子来源处详细介绍了利用矩阵的奇异值分解法计算向量相似度的方法,得到的结果如右上图所示,可见Ben与Fred对电视剧的口味最为相似。
协同评价推荐系统的最大优点在于,计算机不需要真正地“理解”其所推荐的内容,而且是依赖于大量人群的交互数据。在这个信息爆炸、计算机能力充足的时代,协同评价系统得到了非常广泛的应用。但协同评价同样有着一定的局限性:
依赖于大量的数据,当数据量较少(新品)时,推荐精度不够;
当前的推荐系统需要处理数以百万计的客户及商品,其计算量非常庞大,对于计算能力及算法的要求非常高;
相对于数以百万计的商品,大部分消费者的交互数据只会涉及其中不到1%的商品,也就意味着交互数据矩阵极为稀疏(99%以上为空),算法设计困难。
不管是哪种推荐系统,依靠的都是丰富的消费者应用数据,并据此作出满足消费者潜在隐性需求的推荐。可以说,相对于其他的关联销售方式,推荐系统能够从某种程度上“理解”消费者的需求,因而也会受到越来越多的重视。
想认识全国各地的创业者、创业专家,快来加入“中国创业圈”
|