首页 > 科技 >

金地毯商业 AI推荐系统研究报告(4)

2018-07-02 14:16:03 网络整理 阅读:193 评论:0

§用户行为:浏览网页、点击、收藏、购买、点赞、关注等行为。

§用户行为结果:产生的话题、搜索关键词及反馈(评论/打分)等。

每种类型的数据可以抽象为一种特征,获取方式可来源于目标网站或社交网络。

3.2后台日志系统

日志系统主要是用来记录系统运行的轨迹,在记录的同时,跟踪分析错误,审计系统运行的流程。

日志记录的内容通常分为两大类,一是面向用户,二是面向开发者,这里我们更多关注第一类。

用户行为都会存储在日志数据库中,由于用户产生的数据量巨大且速度快,为了保证数据传输的稳定性,可以嵌入高吞吐量分布式消息系统——Kafka。

同时为了提高数据处理效率,通常会设定日志内容边界对检测出的无效数据源(例如..数据)先做过滤。当然经过筛选后的数据也并非规整,这就需要对数据进行一定层级的分级分类和格式规范了。

比如用户点击行为,会生成相应的点击日志,用户的每次查询会生成一个展示日志,与此同时会有一个并行的程序将归并点击日志与展示日志。

3.3推荐系统算法

有了前端展示后和后端数据之后,那么如何实现他俩的交互呢,这中间需要一个连接的桥梁——推荐系统算法。

推荐系统算法可以抽象为一个规则,只有把这个规则定义好,前端才知道哪些数据该展示并如何展示,后端数据库也知道哪些数据有价值。否则,如果将所有日志内容输出,不仅会增大用户信息检索的困难,系统也就失去了自身意义。

总的来说,推荐系统的实质就是一个用户行为特征与物品特征匹配的过程。

用户端特征包含用户自身、用户行为和用户行为结果三部分;物品特征包含标签、内容(关键词)等。

推荐结果均是基于用户特征及物品特征原始数据,在不同维度(时间、多样性、流行度等)上,根据用户需求赋予权重并进行处理(筛选、排序等)后的结果。即遵循用户—特征—物品过程。当推荐系统生成初始结果后,在通过过滤、排名算法生成最终推荐结果和推荐理由。

相关文章