新媒易动态
NEWS CENTER
NEWS CENTER
2023-07-30
根据后处理办法的CTR校准,首先在体系架构上需求单独加一个校准模块,将CTR预估和CTR校准完全解耦开。此种办法愈加灵活即插即用。根据先验知识的端到端的优化办法,全体周期太长,无法快速呼应线上环境的剧烈改变,尤其是在大促期间线上环境改变十分频频,咱们需求愈加简便活络的模型校准才能,此刻后处理办法就很合适。
后处理办法都是根据后验CTR来进行校准,前面也说到了单次实在点击概率不可被观测,那么咱们只能使用后验CTR来代替实在点击概率进行校准。这里就衍生出一个新问题,如何去计算后验CTR。读者或许觉得这很简单,直接计算引荐内容的点击曝光次数然后进行计算。这种计算办法会导致单个内容的CTR是一个统一的值,原本不同用户对于该内容的爱好度应该是不一样的,但是现在变成了千人一面。咱们需求计算后验CTR,但是后验CTR的计算却很有技巧。
如何计算后验CTR(Actr)
现在职业里通用的做法一般是以恳求PV为根本维度,将各类特征类似的恳求PV划分为一个簇,然后计算该簇的后验CTR作为所有划分到该簇里边PV的实在点击概率。这里咱们认为特征类似的恳求对应的用户行为也会比较类似,CTR上的表现也会比较一致。依照特征类似性咱们能够将恳求分为K个簇,分别计算每个簇的CTR。K不能太大,否则单个簇里边的数据就会很稀少,咱们需求确保单个簇内的数据量是相信的,当数据小于某一个阈值时咱们就需求进行簇之间的兼并。
当咱们计算出Actr后,咱们就能够根据Actr进行Pctr的纠偏了。下面介绍职业里比较常见的两种办法:
办法一:根据负样本采样率调整CTR
本文Part2里边说到预估CTR存在误差一部分原因是因为正负样本有偏采样导致的,所以CTR校准中一种办法是根据负样本采样率来调整CTR。Facebook公开的论文《Practical Lessons from Predicting Clicks on Ads at Facebook》里边说到一种根据负采用率来进行CTR纠偏的计算公式,计算公式如下:
同时该论文还说到在Facebook的实际事务应用中负采样率为0.025时作用最好。
办法二:保序回归
保序回归法现在是业界最常用的校准办法。常见的算法是保序回归平滑校准算法(Smoothed Isotonic Regression,SIR)。全体执行步骤如下:
Step1—区间分桶
首先将Pctr值从小到大进行排序,然后依照区间分为K个桶。假定咱们分为100个桶:(0,0.01], (0.01,0.02], (0.02,0.03],…, (0.99,1]。这里咱们认为精排模型给出的Pctr值是具有参阅意义的,同一个区间里的PV恳求具有近似的实在点击率,每一个区间可作为一个合理的校准维度(分簇维度)。然后实际应用时,咱们再计算每一个桶里的后验CTR值。比方今天线上一共有1000次预估的Pctr落在了桶 (0.02,0.03]之间,然后咱们计算这1000个预估的后验CTR,假定后验CTR为0.23%。关于每个桶里Pctr和Actr平均值的计算公式如下:
Step2—桶间兼并
如果说后验CTR的值超出了对应分桶的PCTR取值区间怎么办?假如原本分桶在(0.02,0.03]之间结果的后验CTR为0.35%,这时已经进入到了下一个桶里了(0.03,0.04]。如果咱们将原本Pctr在(0.02,0.03]桶里边的值往下一个桶里的区间值进行校准,这就破坏了原有桶之间的顺序,保序回归的根本逻辑是不能破坏原有Pctr的顺序。此刻咱们需求把(0.02,0.03]和(0.03,0.04]桶进行兼并得到新的桶(0.02,0.04],再重新对落入两个桶里的数据进行后验CTR计算,得到新桶里边的 Actr和Pctr平均值。咱们以Pctr为x轴,Actr为y轴,终究得到一个如下图所示单调递增的散点图: