首页 > 科技 >

金地毯商业 AI推荐系统研究报告(6)

2018-07-02 14:16:03 网络整理 阅读:193 评论:0

另外,通过消息队列还能实现系统解耦,这使得各个系统间可以相对独立运行。

5.2建立喜好词关键表

在数据库中,我们为每个用户维护一个map,也就是建立“key-value”键值对,key对应用户喜好词,value对应喜好程度。

每个新闻会有对应的关键词和Tf-idf值。当用户浏览一篇新闻时,系统会将这篇新闻的关键词和Tf-idf值插入到用户喜好此列表里。如果用户浏览了包含与原有相同关键词的新闻,Tf-idf值会自动相加并更新原有值。同时考虑数据库存储问题,根据具体需求为关键词量设定一个上限。

当然,除了存储问题,这里还有一个新问题:用户兴趣是否会变化呢?

比如在某某手机的发布会前或是世界杯,用户只在这段时间集中关注某一话题,但之后可能完全不在意了,那么在喜好词列表里,如何体现用户兴趣迁移呢?

这里引入一个新概念——衰减机制。每一个Tf-idf值乘上一个衰减因子, 同时在喜好列表中设定一个阈值L,当Tf-idf减少到小于L的时候,关键词直接删除。

总结:未来思考

一个人在群体中的重要性和影响力以及人与人之间一直是难以通过几个参数或几个模型就能判别的,它们均是一个不规则的非线性模型。

..数据对于深度挖掘人与人之间的关系来说其实是微不足道的,在现实生活中,人与人之间的关系本来就难以定论,存在着表层关系与深层关系。

表层关系具体是指社会赋予你们的关系,比如同事、上下属、同学等,深层关系则是指你们除了是同事以外,可能私下里是有着相同的兴趣爱好的朋友。

表层关系通常可以用数据挖掘定义,比如两个人的通话记录(这里不是指通话内容,而是打电话的时间、时长等)、位置信息等,但是外部信息数据通常会根据个人习惯而产生误差。

其实,对推荐系统的理解等价于对人性的理解;挖掘人与人的关系、人与物的关系、物与物的关系。

除了人们主动表达的需求,我认为最重要的,其实是人性的欲望。所谓道生一,一生二,三生万物,万物由道生出,而欲望乃道的其中一个产物。所以欲望通常不会平白无故的产生,欲望与欲望之间也不会毫无关联,个人的成长经历及生活环境造就了一个人的性格,让他养成了一些习惯。

习惯通常是有形无意识表达,而欲望通常是无意识无形表达。金地毯商业认为,把习惯与欲望结合起来就是对人性的建模。大数据时代,通过大量的用户成长数据与环境数据或许可以适当挖掘其中规则,但更加深入的,其实是要推导因果的关系。

相关文章