新媒易动态
NEWS CENTER
NEWS CENTER
2019-03-31
事情是这样发生的:
我们使用了LinkedIn经典的“魔法数字”案例,也就是“1周内增加5个社交好友的用户更容易留存”。
但是这个结论是如何的出来的呢?
1周内可能发生很多事情,比如用户年龄段的改变、地理位置的改变、偏好的改变等等,我们是如何将最终的留存率“归功于”社交好友数量的呢?而且这5位社交好友是否同等重要呢?
这就是归因问题。
归因的正面作用,它可能是全部数据分析要解决的唯一问题——解释“为什么”,但反面作用,归因不当将会摧毁整个分析的可信度。而且,很可能我们从原始数据的收集和整理方法中,就已经定下了一个大败局——终将“溃于蚁穴”。
为了解决这样的问题,在数据平台上通常会提供几种归因的方案供客户选择:
也就是用户第一次做某件事,在数据中通常表现为时间最早、顺序号最小等等。当然,这是理想情况。在现实中由于种种原因,我们无法从用户的最终转化一直向前追溯,直至真实的“首次互动”。遇到这种情况,也就只好采用能追溯到的、并且与业务相关的首次行为了。
比如:在用户的一次购买转化中,我们可以用订单号追踪;没有订单号,可以用账号;账号没有,可以用访问会话(Session ID);会话没有,可以用设备ID;如果实在是什么都没有了,那么用户以前的行为,我们只好当它不存在。
也就是用户最后一次做某件事,对应的在数据中就表现为时间最近、顺序号最大等等。同样,在最终互动中也存在“数据问题”——直接访问流量(Direct Traffic),也就是那些找不到前置行为却完成了转化的流量。为了排除它们的干扰,有时也采用最终非直接互动归因。
也就是平均分。比如前面的LinkedIn的例子,如果用户添加了5个社交好友并留存下来,那么前面的5个社交好友“同等重要”,全都是促成最终结果的重要因素。
也就是给多个促成因素分配一定的权重。
比如:如果用户从某商城中看了许多商品才下单,在订单页点击了提交按钮,在支付页点击了支付按钮,在订单完成页点击了查看订单详情按钮。一套动作下来,这笔订单应当归功于那个按钮呢?
显然在随意浏览的过程中,点击行为没有那么重要。相比之下,后边的三个按钮就重要得多。
那么怎么定权重呢?前面的线性相当于等权,还有时间衰减模型、U型/W型/Z型模型。这方面文章很多,不再展开。
以上几种方法是比较简单易懂的,而且可以想象计算量与计算复杂度都不大。但是对于归因这么重要的一件事,只有这些简单粗暴的办法么?