百都网络小编 发布于 年月日 评论() 阅读()
什么叫长得像?
简单来说:广告给定一个优质的种子用户,系统需要自动找到相似的人放进去。以栗子为例。如果广告提供的种子人群是有一定信用卡的客户,那么相似人群在某些方面与种子人群相似。如果类似的人没有卡,那么他们开卡的可能性很大。
为什么要长得像?
存在的问题:人群标签组合无法全面覆盖,人群标签挖掘成本过高,无法支持人群分级定价等。lookalike可以简单、直接、漂亮的解决这些问题。
。怎么看起来?
().基于用户特征的矩阵分解方法
通过分解用户特征矩阵,我们可以得到用户主题矩阵,如下图所示:
用户U与种子S的相似度定义如下(其中U为用户的话题分布,Si为种子用户I的话题分布):
种子用户的平均话题分布在哪里。因此,遍历所有人,计算每个用户与种子集的相似度,取排名较高的一个作为扩展种群。
().基于监督LR模型
我们把种子用户作为正例,随机用户作为下采样后的负例,每个种子单独训练一个LR模型。然后我们用这个模型来预测所有用户。我们认为预测值越大,与种子用户越相似。用户和种子S之间的相似度定义如下(其中U是用户特征向量,W和B是LR模型的参数):
遍历整个人群,计算所有用户的相似度,取top n扩大人群。在工程实现中,需要倒排索引。但随着广告 master的增多,系统的弊端也逐渐暴露出来:倒排索引占用的空间不断上升,导致索引更新周期过长,每个用户的lookalike ID都要根据相似度进行截断,这将加剧马太效应,对广告 master拓展新用户非常不利。与此同时,用于离线模型训练和预测的机器数量也在增加。
().在线相似模型
在()的基础上,摒弃了原来每个种子单一模型的思路,所有种子用户联合建模。具体网络结构如下:
广告在线召回的过程是:首先从前排索引中获取用户嵌入,然后将用户嵌入向量与looklike嵌入矩阵相乘得到用户与每个广告的相似度,然后根据每个广告扩展倍数的阈值截断并随机保留N个lookalike ID,将它们对应的/[/k6]
摘要
本文主要给出了广告智能定向中相似技术的定义、需要解决的问题以及具体的工程实现。
来源:计算广告
微海报作者:徐州百都网络 | 来源: | 发布于:2022-03-22 11:05:30