|||
当复杂科学遇上机器学习
---透过场景信息理解用户决策行为
随着近几年来社交媒体的流行,信息的产生、传播、分享变得越发容易。人们只需要通过发布微信息,更新自己的社交状态就能同来自世界各地的人们通信, 交朋友,甚至进行商业贸易。电子商务的盛行,网络购物正逐渐地成为人们生活中不可或缺的一部分,也在颠覆着传统的产业结构。然而,人们在受益于信息爆炸所带来的便利的同时,也在面临信息过载所带来的困扰:该如何从庞大的信息池中获取有价值的资源呢? 推荐系统的出现正是为了解决这个问题,也在逐渐成为很多商业应用的重要组件,自动地通过分析用户偏好,为人们推送最为喜欢, 符合个人口味的信息。
推荐系统需要面对的一个重要的问题是, 如果用户产生了一次转化(conversion, 比如购买, 注册等), 且该用户在转化之前看过大量不同频道(比如搜索, 展示, 社交等等)的信息或者物品, 那么我们如何衡量不同频道的信息对这次转化的贡献呢? 将该问题称作归因(Attribution)问题[1], 如图1所示:
通常我们会更加侧重两方面的信息,即“最后阅读获胜”(Last ViewWin)和“最后点击获胜”(Last Click Win)。前者会把转化归因于这个用户最后一次阅读的频道, 后者会归因于最后一次点击物品所属的频道。以上两种方式可被称作为Last-Touch Attribution。这种方法很简单,只关注某次转化上一步相关的因素,但是忽略了除最后一个频道以外的所有其他频道所带来的影响,如果我们能够更加细致的理解并刻画用户和其他频道之间的关系的话,我们能够产出更为丰富的行为信息以供他用.
实际上, 每个频道都对用户最终的转化产生了影响, 这种考虑多个频道的影响的模型称之为多点归因模型(Multi-Touch Attribution Model)。针对多点归因问题,我们的方法是利用矩阵分解算法[2] 刻画用户和场景因素之间的作用关系,以达到衡量来自不同频道的信息对用户决策行为所产生的影响。以用户对电影评分为例,下图描述了用户在评论某部电影的时候可能考虑的因素:
图1. 不同频道信息对用户决策行为产生的影响
通过分析电影发行年份,电影风格,以及电影风格的多样性和用户电影评分之间的关系,我们可以发现几个比较有意思的现象: 如图2所示,发行时间越接近当前时间的电影会更受用户亲睐,更愿意贡献自己的偏好信息;图3表现了电影风格多元化对用户评分决策的影响,我们可以看到电影风格并非越多元越好,涉足太多类型的话会影响用户的判断,反而风格种类在1-2种的电影会更受用户的喜爱。
图2. 电影发行年份对用户评分意愿的影响
图3. 电影风格多元化对用户评分的影响
用户的决策过程,就好比裁判需要根据运动员的综合表现,对每个项目分别进行打分,然后综合考虑这些项目得分给出一个最终分值来评价运动员的表现。我们之所以采用矩阵分解来刻画用户的决策过程中与其他频道信息之间的作用关系,主要有几点考虑:将任何实体重表述为特征向量更同意衡量两个实体之间的作用强度;能够非常便捷地融入不同的场景信息,根据已观测的决策信息衡量用户对这些信息的偏好。我们以电影评分为例,分别单独刻画用户和其他场景信息之间的相互作用,然后通过线性融合构成最终的用户评分。我们的算法也因此取名为 Multi-linear interactive matrix factorization (MLIMF)[3],可理解为多因子模型的一个具体实现。这也是我们组在计算机类的期刊上做的初步尝试。
当机器学习的精准性遇到复杂科学的解释力,结果,妙不可言~
论文信息:Lu Yu, Chuang Liu,Zi-Ke Zhang*. Multi-Linear Interactive Matrix Factorization. Knowledge-Based Systems 85 (2015)307-315
免费下载:2015KBS-Multi-linear interactive matrix factorization
[1]. Xuhui Shao, Lexin Li, Data DrivenMulti-Touch Attribution Models. KDD’09
[2] Yehuda Koren et al. MatrixFactorization Techniques for Recommender Systems, IEEE Computer Society.
[3] Lu Yu, Chuang Liu,Zi-Ke Zhang*. Multi-Linear Interactive Matrix Factorization.Knowledge-Based Systems 85 (2015) 307-315.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-9 05:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社