新媒易动态
NEWS CENTER
NEWS CENTER
2023-07-30
们需求根据上述散点图去结构一个校准函数,输入x值今后就可以输出校准后的y值。如果直接拟合一个y = kx + b函数,终究预估的结果不够滑润。现在业界的规范做法都是结构分段校准函数。
如上图所示,咱们将两个桶之间坐标点连接起来,然后去结构一个分段的y = kx + b校准函数,假设Pctr总共分为了100个桶,那么终究就结构100个分段校准函数,这样既确保单调性,又确保滑润地校准。分段的校准函数怎么得出,这儿就是根底的初中数学常识,已知两点坐标计算对应的y = kx + b。
保序回归法的整体思维就是:不改动原有数据的Pctr排序,仅在原有Pctr的排序上进行纠偏。终究纠偏出来的CTR数据分布的单调性不变,AUC目标不变。
自身由于特征挑选和样本采样导致的CTR误差,需求根据先验常识的特征调整和根据负样本采样率的办法来对CTR进行纠偏。如果精排模型输出的Pctr和Actr差异很大,这种是无法依托校准模块来进行纠偏的。
当咱们运用上述的办法对CTR进行纠偏今后,咱们运用什么目标来评估纠偏作用的好坏了?一般咱们运用PCOC和Calibration-N两大目标。
PCOC(Predict Click Over Click)
PCOC = Pctr / Actr
PCOC目标越接近于1,意味着CTR预估的越精确。PCOC > 1,则代表CTR被高估;PCOC < 1,则代表CTR被轻视。但PCOC目标是计算一切PV的Pctr和Actr作用,这儿面或许会存在一定的计算误差。假设样本里有50%PV的CTR被高估了,50%PV的CTR被轻视了,终究二者汇总在一起时PCOC或许还是趋近于1。
Calibration-N
为了解决上述PCOC目标或许存在的计算误差,咱们运用一个新的目标Cal-N。首先将计算样本分为几个簇,然后依照簇别离去计算PCOC目标,再别离计算各个簇PCOC目标与规范值1之间的误差,最终进行汇总。这种计算方式就可以避免独自的PCOC目标里或许存在的计算误差。
怎么去将样本分簇?其实这儿的分簇办法和Part2.2里边怎么分簇去计算后验CTR的逻辑是一样的,二者保持一致即可。
一起在广告业务中,咱们可以根据广告主已经帮咱们分好的簇进行计算。由于广告业务中,整个广告层级是分为:方案 (Campaign)-单元(Group)-构思(Creative)。广告主一般都是在整个方案或单元维度观察整个作用,所以咱们在进行PCOC目标计算时,就可以将每个投放单元视为一个簇。