仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

编码后的特征值可以做为入参来生成预测模型

2024-09-12

用户—>“物品”—>物品

该途径中心加入了“物品”,该“物品”与用户有某种相关的联系,最常见的便是用户消费过该“物品”。根据这个联系,又可以延伸出两种常见的匹配方法:

a、让物品等于“物品”,即给用户引荐他曾经消费过的物品。这种计划尽管简略,但运用场景有限,仅在生鲜电商、音乐这类需重复消费同一物品的渠道运用较多;

b、让物品类似于“物品”,即给用户引荐他曾经消费过的类似物品,这儿触及类似度的核算(余弦类似度、jaccard定理),感兴趣可进一步了解根据物品的协同过滤(Item-CF)。这种计划体系程序不算杂乱,偏核算核算。别的这种计划下,由于会不断得给用户引荐他感兴趣的类似且不重复的物品,因此合适物品丰厚且用户个性化需求激烈的渠道,比方电商和内容渠道;

用户—>“用户”—>物品

该途径中心加入了“用户”,该“用户”与用户有某种相关的联系,常见有:

a、用户和“用户”是老友联系,即给用户引荐他的老友消费过/出产的物品,比方微信视频号在冷启动阶段便是偏重运用了这一计划;

b、用户和“用户”是关注联系,即给用户引荐他的关注的账号消费过/出产的物品,这种计划在内容、社区渠道运用广泛;

c、用户和“用户”是类似联系,即给用户引荐与他类似的用户消费过的物品,这儿也触及类似度的核算,感兴趣可进一步了解根据用户的协同过滤(User-CF)。这种计划下,由所以提前核算好用户之间的类似性,只要新物品一旦被某个用户消费,该物品就会立即被引荐给其他类似用户,对新物品非常友爱,因此合适物品更新速度快且用户个性化需求不那么激烈的渠道,比方新闻类渠道。

(4)用户—>概念—>物品

该途径中心加入了概念,这儿的概念是从用户或物品中提取出的抽象的东西,常见有:

a、标签,是一种事务上可解释的概念,比方某个长视频带有综艺、沈腾、喜剧等标签。前期一般由人工对物品进行提取,当积累必定数据量后也可由机器学习主动提取。然后假如某个用户常常消费某个标签的物品,那该用户也会通过数据核算的方法,被打上该标签偏好,所以会给用户引荐他所偏好的标签物品。这种计划和前面的物品类似于“物品”其实是同一种思维;

b、向量,是一种事务上不可解释的概念。前面说到的“物品”、“用户”、标签,都是为了让用户和物品之间树立联系。从技术的视点,也可以根据历史的用户行为数据,为用户和物品之间构建联系,仅仅中心的这个连接点由隐向量K来完成(Embedding、隐向量模型/隐语义模型(LFM)/矩阵分化模型、双塔模型)。比较前面说到的计划,这种计划能在必定程度上处理用户-物品矩阵数据稀疏的问题,但中心思维一致;

c、特征,是一种事务上可解释的概念。特征和标签的主要区别在于,标签更多是描写物品和用户的静态特点,而特征是万物皆可描写,你可以这样了解,只要是渠道的数据资源,均可转化成特征,比方单特征(静态特点、请求特点、画像)、衍生特征(占比、转化率)、穿插特征(穿插特征有时是为了拓展特征量,不必定具有事务含义)、实时特征(接口入参)。

那特征可以用来干什么呢?编码后的特征值可以做为入参来生成预测模型(逻辑回归、决策树算法、深度学习),预测前面说到的一切用户中心目标,比方点击率、转化率、逗留时长等。这种计划在体系程序上最杂乱,数据资源要求也非常高,但作用也是最佳的。

别的,匹配途径的作用评估,除了上线后看用户的行为目标外(裁判员给分),也需求在上线前评估这些途径的作用(教练员给分)。以上所说到的协同过滤、隐语义模型、逻辑回归等均属于分类使命,针对分类使命,常见的离线作用目标有混杂矩阵(召回率、精准率、准确率)、AUC等。

4. 找到“更好/足够好”的物品后,怎么更有用得呈现在用户面前

为用户找到物品,使命还远没有结束。咱们前面完成的使命是:在每一个人进来房间后给他找到他喜爱的物品。但是,找多久呢?物品呈现足够明晰吗?用户拿取便利吗?等。究竟评价引荐体系的中心目标是用户行为,咱们一切的设计需求为相关目标的达到所服务。

这儿展开谈谈找多久的问题。移动互联网用户体验的及格线大致0.5秒,也便是等人一来,程序最多只能转0.5秒,就得把物品给出来。

在前面说到的匹配途径,咱们说到特征那里作用是最好的,但是由于其模型杂乱,假如只采用这个计划,等程序转出来,用户早就对你say byebye了。因此,为了确保作用,又确保程序转得快,构架采用了召回层——>粗排层——>精排层的方法来进行。

相关推荐