论文解读:广告间排序和广告内创意优选联合优化(CACS)

论文解读:广告间排序和广告内创意优选联合优化(CACS)

  • 1、摘要
  • 2、实现
    • 2.1、软标签序学习蒸馏方法 (List-wise Ranking Distillation)
    • 2.2、Adaptive Dropout Network (自适应 Dropout 网络)
  • 3、实验
    • 3.1、在线效果
    • 3.2、离线效果
  • 参考

1、摘要

广告创意是展示商品内容、传达商家营销信息的直接载体。商家通常会为一个商品创作多种不同的创意,由于不同用户的关注点不同,这些候选创意所对应的投放效果则相差甚远。创意优选的目的是学习用户对于广告创意的偏好,为用户挖掘及展现最具吸引力的广告创意内容以最大化广告收益。然而,目前业内普遍的做法是将创意优选放在排序阶段之后,这将导致排序模型无法感知到广告创意,即广告内的创意选择无法影响广告间的排序,一个好的创意排在前面,会影响后面广告间的排序。针对这些问题,本文提出了一种新颖的创意优选级联结构(Cascade Architecture of Creative Selection,简称CACS),在广告排序阶段之前构建创意优选模型,以实现广告内创意优选和广告间排序的联合优化。
理想的多阶段架构应该是召回、创意优选、排序,即先进行广告内的创意优选,然后排序阶段可以感知最优创意,从而使得系统收益最大化。但理想的架构会面临性能和效果的双重挑战,

  • 性能方面:创意优选前置打分个数量级的扩大,计算开销显著增加;
  • 效果方面:创意优选前置会面临更多没有机会展现的创意或者展现机会较少的创意,加剧了数据稀疏问题,使得基于历史反馈的学习策略有很大挑战且内容侧与id侧特征的联合学习尤为重要。

考虑创意优选前置所带来的效率和效果问题,主要做了以下工作:

  1. 设计一个经典的双塔结构来降低计算成本,并允许创意优选模型生成的创意表征与下游排序模型共享,避免重复计算;
  2. 提出一种基于软标签序学习蒸馏方法,从强大的排序模型中提取知识来指导创意优选模型中广告内创意序的学习(学习同一个广告内创意的相对顺序而不是绝对分数);
  3. 设计一种自适应 dropout 网络,鼓励模型以一定概率忽略 ID 特征,而偏向于内容特征,来平衡 ID 特征的记忆性和内容特征的泛化性,以学习创意的多模态表示。

2、实现

CACS 的总体框架如下图所示,提出了一个基于双塔模型 soft label list-wise loss,用来预测广告中创意的相对顺序,而不是预测绝对点击率。对于 Ad 塔,考虑到一个创意包含多个异质模态特征,设计了一个自适应 dropout 网络来学习多模态创意表征。值得注意的是,创意表征与下游排序模型共享。

2.1、软标签序学习蒸馏方法 (List-wise Ranking Distillation)

训练创意优选模型,最直接的方法是预测点击率。但是存在两个问题:

  1. 创意选择只需要学习同一个广告内不同创意的相对顺序,而不需要准确预测 CTR 值;
  2. 很大比例的创意无法得到充分展示,简单的双塔模型难以优化 CTR预估。
    文章将这一任务视为一个序学习问题,以对同一个广告内的创意进行排序。受蒸馏学习的启发,提出了一种软标签序学习蒸馏方法,从教师模型(排序模型)中提取知识来指导学生模型(CACS)的学习。由于排序模型泛化能力更强大,能够较为准确地预测创意的点击率,所以利用排序模型来预测每条广告中创意的点击率,并将 CTR 值作为离线训练阶段创意序的 label。

2.2、Adaptive Dropout Network (自适应 Dropout 网络)

多模态创意表征的建模细节如下图所示

首先考虑内容特征,对于输入的图文特征,设计两个编码器,将图像和标题特征映射到公共空间中。对于不同类别的广告,用户对图片和标题的关注度是不同的,因此使用一种简单的注意力机制来学习图片和创意标题的动态权重。此外,融合创意 ID 特征和内容特征是关键,现有的方法通常使用注意力来学习不同模态的动态权重。但实验中发现,细粒度的 ID 强特征(比如 image_id )在多模态信息融合中会占据主导作用,导致内容信息无法有效训练,为了缓解该问题,在 Ad 侧多模态信息融合时我们提出了自适应 Dropout 网络,在训练过程中 ID 特征的 embedding 以一定的概率进行 drop,迫使模型学习图文信息的表征,drop 比例可以根据创意的展现 pv 量进行设置,考虑到 ID 特征经过一定次数的更新后,表征会逐渐趋于稳定,所以 pv 越高drop 比例可以越高。

3、实验

3.1、在线效果

精排后优选相比随机优选 CTR+2.2%、RPM+2.2%,精排前优选相比随机优选 CTR+5.3%,RPM+5.2%,说明广告商品之间采用最优创意进行 pk 比采用平均创意 pk,能够更有效地选出优质广告。而且,由于采用高效双塔模型,相比精排后的复杂优选模型,性能开销上增加并不明显,rt增幅在5%左右

3.2、离线效果

采用 sCTR 来离线评估不同优选模型的有效性,,主要思想是离线对每条样本的 ad 进行创意优选,如果选出创意与在线一致(样本中展现的创意)则认为这条样本是新模型产出的,统计这些样本的 ctr 来模拟新模型的效果记作 sCTR。

1、多模态信息有效性对比
引入内容特征是常见的解决冷启动问题的方法,如表上半部分所示,通过对比纯 ID 特征和内容侧特征,在展现次数较少(0~1000)时,加入图像特征能够有效提高优选效果,因为图像特征的泛化性更强,在低频时表现更好。然而随着展现次数的增加,仅使用id特征的模型由于记忆能力较强,效果变得越来越好,最后反超仅使用内容特征的模型。说明引入内容侧特征对于低频 Ad 的优选是有效的,但是会影响高频 Ad 的效果。
2、多模态融合方式对比
为了平衡低频 Ad 和高频 Ad 的优选效果,在优选模型中同时引入了 ID 特征和 Content 特征,并探究了不同的多模态信息融合策略。对比表下半部分的效果,可以看出两类特征同时加入模型,能够在低频部分取得正向收益,同时在高频部分取得接近持平的效果。而 CACS 模型在低频和高频时都能有效的提高优选效果,由于对部分 ID 特征进行 drop,迫使模型更好地学习图像表征,所以对低频 Ad 优选比较友好;对于高频部分,引入 drop 机制能一定程度缓解过拟合风险,优选效果有小幅提升;

参考

论文解读:广告间排序和广告内创意优选联合优化(CACS)

论文解读:广告间排序和广告内创意优选联合优化(CACS)

  • 1、摘要
  • 2、实现
    • 2.1、软标签序学习蒸馏方法 (List-wise Ranking Distillation)
    • 2.2、Adaptive Dropout Network (自适应 Dropout 网络)
  • 3、实验
    • 3.1、在线效果
    • 3.2、离线效果
  • 参考

1、摘要

广告创意是展示商品内容、传达商家营销信息的直接载体。商家通常会为一个商品创作多种不同的创意,由于不同用户的关注点不同,这些候选创意所对应的投放效果则相差甚远。创意优选的目的是学习用户对于广告创意的偏好,为用户挖掘及展现最具吸引力的广告创意内容以最大化广告收益。然而,目前业内普遍的做法是将创意优选放在排序阶段之后,这将导致排序模型无法感知到广告创意,即广告内的创意选择无法影响广告间的排序,一个好的创意排在前面,会影响后面广告间的排序。针对这些问题,本文提出了一种新颖的创意优选级联结构(Cascade Architecture of Creative Selection,简称CACS),在广告排序阶段之前构建创意优选模型,以实现广告内创意优选和广告间排序的联合优化。
理想的多阶段架构应该是召回、创意优选、排序,即先进行广告内的创意优选,然后排序阶段可以感知最优创意,从而使得系统收益最大化。但理想的架构会面临性能和效果的双重挑战,

  • 性能方面:创意优选前置打分个数量级的扩大,计算开销显著增加;
  • 效果方面:创意优选前置会面临更多没有机会展现的创意或者展现机会较少的创意,加剧了数据稀疏问题,使得基于历史反馈的学习策略有很大挑战且内容侧与id侧特征的联合学习尤为重要。

考虑创意优选前置所带来的效率和效果问题,主要做了以下工作:

  1. 设计一个经典的双塔结构来降低计算成本,并允许创意优选模型生成的创意表征与下游排序模型共享,避免重复计算;
  2. 提出一种基于软标签序学习蒸馏方法,从强大的排序模型中提取知识来指导创意优选模型中广告内创意序的学习(学习同一个广告内创意的相对顺序而不是绝对分数);
  3. 设计一种自适应 dropout 网络,鼓励模型以一定概率忽略 ID 特征,而偏向于内容特征,来平衡 ID 特征的记忆性和内容特征的泛化性,以学习创意的多模态表示。

2、实现

CACS 的总体框架如下图所示,提出了一个基于双塔模型 soft label list-wise loss,用来预测广告中创意的相对顺序,而不是预测绝对点击率。对于 Ad 塔,考虑到一个创意包含多个异质模态特征,设计了一个自适应 dropout 网络来学习多模态创意表征。值得注意的是,创意表征与下游排序模型共享。

2.1、软标签序学习蒸馏方法 (List-wise Ranking Distillation)

训练创意优选模型,最直接的方法是预测点击率。但是存在两个问题:

  1. 创意选择只需要学习同一个广告内不同创意的相对顺序,而不需要准确预测 CTR 值;
  2. 很大比例的创意无法得到充分展示,简单的双塔模型难以优化 CTR预估。
    文章将这一任务视为一个序学习问题,以对同一个广告内的创意进行排序。受蒸馏学习的启发,提出了一种软标签序学习蒸馏方法,从教师模型(排序模型)中提取知识来指导学生模型(CACS)的学习。由于排序模型泛化能力更强大,能够较为准确地预测创意的点击率,所以利用排序模型来预测每条广告中创意的点击率,并将 CTR 值作为离线训练阶段创意序的 label。

2.2、Adaptive Dropout Network (自适应 Dropout 网络)

多模态创意表征的建模细节如下图所示

首先考虑内容特征,对于输入的图文特征,设计两个编码器,将图像和标题特征映射到公共空间中。对于不同类别的广告,用户对图片和标题的关注度是不同的,因此使用一种简单的注意力机制来学习图片和创意标题的动态权重。此外,融合创意 ID 特征和内容特征是关键,现有的方法通常使用注意力来学习不同模态的动态权重。但实验中发现,细粒度的 ID 强特征(比如 image_id )在多模态信息融合中会占据主导作用,导致内容信息无法有效训练,为了缓解该问题,在 Ad 侧多模态信息融合时我们提出了自适应 Dropout 网络,在训练过程中 ID 特征的 embedding 以一定的概率进行 drop,迫使模型学习图文信息的表征,drop 比例可以根据创意的展现 pv 量进行设置,考虑到 ID 特征经过一定次数的更新后,表征会逐渐趋于稳定,所以 pv 越高drop 比例可以越高。

3、实验

3.1、在线效果

精排后优选相比随机优选 CTR+2.2%、RPM+2.2%,精排前优选相比随机优选 CTR+5.3%,RPM+5.2%,说明广告商品之间采用最优创意进行 pk 比采用平均创意 pk,能够更有效地选出优质广告。而且,由于采用高效双塔模型,相比精排后的复杂优选模型,性能开销上增加并不明显,rt增幅在5%左右

3.2、离线效果

采用 sCTR 来离线评估不同优选模型的有效性,,主要思想是离线对每条样本的 ad 进行创意优选,如果选出创意与在线一致(样本中展现的创意)则认为这条样本是新模型产出的,统计这些样本的 ctr 来模拟新模型的效果记作 sCTR。

1、多模态信息有效性对比
引入内容特征是常见的解决冷启动问题的方法,如表上半部分所示,通过对比纯 ID 特征和内容侧特征,在展现次数较少(0~1000)时,加入图像特征能够有效提高优选效果,因为图像特征的泛化性更强,在低频时表现更好。然而随着展现次数的增加,仅使用id特征的模型由于记忆能力较强,效果变得越来越好,最后反超仅使用内容特征的模型。说明引入内容侧特征对于低频 Ad 的优选是有效的,但是会影响高频 Ad 的效果。
2、多模态融合方式对比
为了平衡低频 Ad 和高频 Ad 的优选效果,在优选模型中同时引入了 ID 特征和 Content 特征,并探究了不同的多模态信息融合策略。对比表下半部分的效果,可以看出两类特征同时加入模型,能够在低频部分取得正向收益,同时在高频部分取得接近持平的效果。而 CACS 模型在低频和高频时都能有效的提高优选效果,由于对部分 ID 特征进行 drop,迫使模型更好地学习图像表征,所以对低频 Ad 优选比较友好;对于高频部分,引入 drop 机制能一定程度缓解过拟合风险,优选效果有小幅提升;

参考