当前位置：首页 >新媒易动态 >视频号购买

一个成熟的推荐系统评估体系应该综合考虑评估的效率和正确性，利用较少的资源位，快速筛选出效果更好的模型

2023-07-04

推荐系统的评估体系

核心要点：一个成熟的推荐系统评估体系应该综合考虑评估的效率和正确性，利用较少的资源位，快速筛选出效果更好的模型。

对于一个公司来说，最公正和合理的评估方法及时进行线上测试，评估模型是否能够更好达成公司或者团队的商业目标。

但是光使用线上A/B的测试方法要占用宝贵且有限的线上流量字眼，并且可能会对用户体验造成伤害。

所以，正是由于线上测试的种种限制，“离线测试”才成了策略产品退而其其次的选择。离线测试可以利用近乎无限的计算资源，快速得到评估结构，从而实现模型的快速迭代化。

所以，并不是一种单一的评估体系即可满足所有的评价场景和标准，作为策略产品，应该深刻的知晓和运用每一种评估方法去做到评测效率和正确性的平衡。

从上图可以看出，在线上A/B测试（最接近线上真实环境）和传统的离线评估（评测的效率最高）之间，还有Replay和Interleaving等测试方法。

这种多层级的评估测试方法共同构成了完整的推荐系统评估体系，做到评测实现计算效率和线上真实性反馈的平衡。

1）评估效率适用场景

可以看的出来离线评估需要快速验证模型的思想和提升效率，因此存在更多筛选的模型和验证改正思想的时候。

由于数量巨大，“评估效率”就成为了最为关键的考虑因素，线上反馈的“真实性”就没有那么苛刻和高要求，这时候就应该选择效率更高的离线评估法则。

2）线上真实性反馈适用场景

候选模型被一层层筛选出来之后，接近正式上线接单，评估方法对于是否能够真实反馈线上环境更加重要。

在模型正式上线前就需要做最接近真实产品体验的A/B测试做模型评估，产生最具说服力的——业务商业指标，才能进行模型上线，完成模型迭代优化过程。