English
Log In
You can then view all documents
GroMore/功能说明/A/B测试
A/B测试
Last updated 2023-11-02 15:46:08

一、功能介绍

开发者可在同一广告位/同一流量分组下,配置A、B两组不同瀑布流,或在A、B组中创建不同的流量分组,并通过对比两组收益差异,确定更优的瀑布流配置/流量分组方案。

两种使用方法对应的AB测试类型


二、主要应用场景

A/B测试主要应用场景包含但不限于:

常见测试内容

AB测试类型

变量(A/B差异)

其他配置(保持一致)

建议关注指标(判断效果)*

有无穿山甲bidding

AB测试(瀑布流)

A组:全标准代码位
B组:穿山甲bidding+标准代码位

1. 标准代码位个数、排序、设价一致;
2. 串并行+超时设置一致;

arpu

是否使用请求加速器

AB测试(瀑布流)

A组:固定数量/相同价格并行请求
B组:请求加速器

“并行请求数”、“单次并行请求超时时长”和“瀑布流总请求超时时长”保持一致;

填充耗时、流量填充量

是否使用流量分组

AB测试(流量分组)

A组:原配置
B组:使用流量分组,分组间配置形成差异(如高价组以密集高价ecpm为主,低价组以密集低价ecpm为主)

串并行/超时设置一致

arpu

注*:如复用则建议参考预估数据,api数据可能会拆分不准,详见注意事项。

其他测试场景如下:

① 不同adn、不同设价代码位、不同请求排序、不同层数之间的对照;

② 不同串并行请求方式、不同超时请求时长设置之间的对照;

③使用用户展示控制功能与不使用用户展示控制功能之间的对照。


三、注意事项

① 版本要求:建议使用融合 SDK5350及以上版本。

② 测试要求:为确保数据结论稳定,建议测试周期≥7天 且 每组测试累计show≥3w,或者去重DAU累计>5K,测试期间不建议更改瀑布流配置

③ 配置建议:保证变量唯一性,除测试变量外,其他配置应保持一致。如想测试瀑布流层数对收益的影响时,应只保留两组在层数上的差异,串并行请求行数和超时时长设置等配置应保持一致。

代码位复用可能导致API数据不准:代码位分别在A、B组复用下,预估数据根据waterfall_id拆分,准确且不会混淆;但API数据根据预估数据按比例拆分,数据准确性有一定欠缺。如需采用API数据进行分析且能接受一定的数据偏差,可复用代码位;若想避免后续API数据分析时出现问题,不建议代码位复用,建议A、B组均新建代码位。

⑤ 为避免测试结果难以区分问题,现不支持两种AB测试类型共存,如需测试不同流量分组之间的AB测试,需确保默认分组/其他分组下无开启中的AB测试。


四、操作指引

1、创建A/B测试

在瀑布流详情页中,点击页面右上角的【创建A/B测试】,选择AB测试类型,填写测试名称,设置A/B组的流量分配比例,即成功创建A/B测试。

为提高配置效率,现支持【复制A组瀑布流配置至B组】,具体为以下2种方式: ① 复制所有A组代码位;② 仅复制A组开启代码位(不复制未启用代码位)。

2、开启A/B测试

在页面右上角切换到【B实验组】,新建/调整B组瀑布流配置,点击【开启AB测试】后立即生效。

需注意,为避免流量浪费,B组/B组下所有流量分组均有开启的代码位时, 才能开启AB测试。

3、分析测试数据

测试开启后,点击【查看A/B测试数据】可进入A/B测试数据分析页。

具体分以下两部分数据:

①A/B组数据对比表:

a. 当各ADN均在【广告网络】中配置了API数据返回时,则默认展示各ADN回传的API数据;

b. 若广告网络中配置不完整,则会默认展示预估数据。为确保数据准确且快捷可用,建议提前开启并返回各ADN的API数据;

②A/B测试趋势图:

a. 默认为分天数据,时间筛选为“今日”时会展示分小时数据;

b. 可切换右上角的【指标】,查看不同数据的变化趋势;

c. “今日”小时报表不支持API数据。

4、调整A/B组分配比例

测试过程中,可以点击【查看A/B测试数据】-【修改流量分配】来调整A/B组的流量比例,需注意:

①【修改流量比例】即时生效

② 调整流量比例后,测试数据会新增【流量分配比例2】数据,原数据在【流量分子比例1】中。因此,为了积累足够多的测试数据,不建议频繁调整流量分配比例。若需测试新的分配比例,建议关闭当前A/B测试,重建新的A/B测试。

5、结束A/B测试

可先对AB测试进行“置信度评估”,可查看达置信水平的单组dau量级(样本量评估)、最短测试时长(实验时间评估)。如样本量、实验时长已无风险,已得出A/B测试较置信的结论时,可点击【采用A】或【采用B】来结束此次测试。

置信度评估工具计算原理:根据样本量(dau)、A/B组arpu均值及方差,判断A/B组间整体arpu是否存在显著差异,如不存在则计算达到显著水平的样本量(dau)。

需要注意:

①确认后测试将立即结束,采用组的瀑布流将保留,放弃组的瀑布流可在历史测试页中查看;

②如需测试新的瀑布流,建议结束本次测试后重开一个新的A/B测试,不建议在当前测试中直接修改瀑布流,因为会导致修改前/后数据难以拆分,从而影响测试结果的准确性。

6、查看历史A/B测试

测试结束后,可点击【查看历史A/B测试】查看所有A/B测试类型的记录,具体可查看以下两类数据:

① 历史配置:在【A/B测试配置】点击【配置详情】查看;

② 数据结果:在【测试结果】点击【详情】查看。

7、用户反转

当前流量分配比例为55分流时,可以通过点击「修改流量分配」,勾选「用户反转」实现两组用户的交换。注意,用户反转需要满足当前实验比例、反转后的实验比例均为55分流,否则用户反转无法生效

五、常见问题

1、代码位可以A组复制到B组吗?

可以,但不建议代码位复用。预估数据根据waterfall_id拆分,不会混淆;API数据根据预估数据按比例拆分,数据准确性有一定欠缺。如能接受一定的数据偏差,可复用代码位;若想避免后续数据分析出现问题,不建议代码位复用,建议A、B组均新建代码位。

2、A/B测试创建后多久生效?

立即生效。创建、调整、结束A/B测试后均立即生效。

3、A/B测试数据可以导出吗?

可以。在【瀑布流管理页】中分别导出A组和B组的数据。【查看A/B测试数据】页中配置与数据(含历史数据)的导出功能暂不支持,已在规划中,相关更新敬请关注。

4、历史A/B测试配置怎么重新使用到新建A/B测试中吗?

目前暂不支持历史A/B测试直接复制并使用到新A/B测试中,相关功能已在规划中,相关更新敬请关注。

5、为什么有些代码位的填充率api>100%?

兜底代码位填充率api>100%,跟a组b组代码位复用有关,请求量api、返回量api数据拆分是基于a组b组埋点上报的请求量、返回量占比预估拆分的。如若要做严格的ab测试,则建议a组、b组使用不同代码位id。

6、为什么“置信度评估”中的建议样本量级异常高?

如建议样本量出现异常高值(如单组50w),建议检查流量质量。其原因是,可能流量中有较大一部分dau消耗极低(甚至为0),即对收益的贡献度极低,因此需要较大dau量级才能让消耗增幅/减幅更显著。


Contents
Contact us