一文详解 非标准AB实验

2年前 (2022-11-12)阅读2回复1
wly
wly
  • 总版主
  • 注册排名8
  • 经验值288180
  • 级别网站编辑
  • 主题57636
  • 回复0
楼主

导语|尺度AB尝试回因顺利,非尺度AB尝试劳心劳力,一文get非尺度AB尝试案例。本文做者:makinochen,腾讯PCG产物筹谋

1. AB尝试概要 1.1. AB尝试是什么

A/B尝试是一种在线对照尝试,即通过控造变量法来比照两个战略之间的效果。

1.2. 为什么要AB尝试

AB尝试的长处是可以帮忙营业快速验证营业假设与结论的因果关系,制止做决策没有可靠的数据支持。

1.3. AB尝试利用现状

以腾讯为例,PCG有TAB尝试平台,WXG有X尝试平台,CDG有天秤尝试平台。在PCG内部,早期有骡马、阿拉丁、OAS等尝试平台,如今次要是利用TAB尝试中台,营业尝试理论的效率和量量都有大幅提拔。

1.4. 营业侧碰着的AB尝试理论问题

AB尝试做为一种验证战略效果的东西,离不开东西的利用前提。本文以尝试阐发为切进点,从数据产物的视角,与各人一路切磋营业中常见的非尺度AB尝试案例。

2. AB尝试分类 2.1. AB尝试数据链路拆解

从数据链路来看AB尝试,次要包罗尝试分流、分流ID上报、营业数据上报、目标统计、目标查验、数据阐发、数据可视化。从数据消费与消费来看,前者属于数据基建,后者属于数据利用。数据基建是数据利用的底座,也是大部门尝试利用者日常平凡接触比力少的部门。

在AB尝试平台上阐发尝试组和对照组目标,可比的前提是: 差别尝试分组对应不异尝试目标的统计需要基于不异的数据链路。对目标统计拆开来看,一个营业目标凡是由【尝试ID与用户ID映射表】和【用户ID粒度营业中间表】联系关系统计。

从下图不难看出,一个尝试目标的数据链路本色是尝试组A的数据链路与尝试组B的数据链路合并到一路的。因而尝试数据链路中最值得存眷的是三个要素: 尝试分流、数据上报、统计链路,后面的尝试分类都是基于那三点。

2.2. 尺度AB尝试定义

基于数据链路的拆解,尺度AB尝试能够理解是尝试组和对照组的尝试分流、数据上报、统计链路是一致的。AB尝试中大部门是尺度AB尝试,即产物、战略改动后间接在尝试平台停止尝试及看测目标,无需对数据链路做额外改动。

例如产物UI尝试,改动产物的款式,但是尝试组的数据上报实体标识、实体描述、实体上报时机都没有改动,与对照组一致,数据链路没有影响,手艺口径没有改动,那一类能够理解为尺度AB尝试。

2.3. 尺度AB尝试揣度办法

尺度AB尝试的揣度办法很简单:对数据链路三要素做查抄。

1. 尝试组和对照组分流时机点、分流体例能否一致。纷歧致呈现的概率很小,但是我们也曾呈现过SRM反常,原因是尝试ID反常上报,如今改成TAB上报,那种情况几乎没有了。

2. 尝试组和对照组的营业数据上报能否一致。那种纷歧致情况具备特殊性,在特定类型尝试中几乎必现,例如框架晋级尝试。

3. 尝试组和对照组统计链路能否一致。那个纷歧致情况遍及发作在换链尝试中。

2.4. 非尺度AB尝试定义

尝试组和对照组的尝试分流、数据上报、统计链路三者有任何一项纷歧致,能够理解为非尺度AB尝试。非尺度AB尝试在尝试阐发上,凡是表示为尝试目标GAP大,营业不成回因,同时做N轮尝试频繁验证。差别营业的非尺度AB尝试场景良多,我把搜刮营业下常见的两类非尺度AB尝试与各人一路切磋下。

3. 非尺度AB尝试案例

在搜刮尝试场景下,非尺度AB尝试凡是因为数据上报改动或者统计链路不成复用招致的。数据上报改动凡是是上报时机的变革,数据阐发上极难感知,但是对手艺口径影响很大,招致数据颠簸很大。统计链路不成复用凡是是两个差别的页面,两套差别的统计计划,尝试前数据没有UNION到一路,招致SRM问题及目标差别大,不成看测。

常见的问题列举:

1. 手艺口径一致的前提下,尝试组为何比对照组的页面曝光UV、曝光PV大15%?

2. 手艺口技一致的前提下,尝试组为何比对照组的词条曝光UV、曝光PV大15%?

3. 尝试组是新页面,对照组是旧页面,为何尝试组目标没有数据?

3.1. 框架晋级尝试

框架晋级是每个产物都很难制止的问题,例如从H5框架晋级到HIPPY框架,晋级是新框架性能更好,兼容更多形态产物交互。理论上来说,框架晋级对营业目标的影响至少持平以至正向。

但现实上,框架晋级呈现负向的尝试良多,尝试回因难,频繁验证,对营业和阐发同窗来说是一个很大的挑战和消耗。在搜刮场景下,我们做过至少两次框架晋级尝试,与各人分享此中一个案例。

3.1.1. 尝试布景

尝试假设:尝试战略是晋级框架,陪伴实在验组新增一个模块,估量页面点击不降低。

尝试战略:对照组H5框架,尝试组HIPPY框架

尝试目标:页面曝光PV/UV,页面点击PV/UV,气候模块点击PV/UV

目标现状:

1. 尝试组曝光UV比对照组曝光UV大 xx%以上

3. 尝试组气候模块点击PV比对照组点击PV 大 xx%以上

4. 尝试组页面点击PV比对照组点击PV大 xx%以上

5. ...

3.1.2. 问题拆解

因为框架晋级做了多轮验证明验,我挑几个代表性问题与阐发思绪和各人切磋下:

1. 框架替代,为何会影响到页面曝光?页面内部有改动,估量不会影响页面曝光。同时分流时机在用户进进页面之前,莫非是影响用户留存了?

2. 新增卡片,为何气候点击次数变多?气候款式没有做改动,但是尝试组气候模块点击大良多,曝光没有变,莫非是框架及款式改动吸引了更多用户点击气候?

在问题切磋之前,我先弥补一个根本信息:目标、目标统计、数据上报三者的关系。

● 目标:目标是描述用户在什么场景下什么动做下行为表示体例。例如页面曝光PV,指在页面那个粒度下,用户呈现曝光的次数。

● 目标统计:凡是是基于SQL语法,对上报字段 module、action停止组合及揣度,统计目标。

● 数据上报:凡是是对页面内模块或者元素、发作的时机停止描述,那些描述通过字段停止表征。例如 module=”气候“,代表气候模块。action=”点击“,代表点击行为。

在框架晋级尝试中,目标的字段描述和上报时机都未要求改动,数据链路看起来是能够复用的,但现实仍是有问题的。

1. 曝光时机的抉择:

“曝光”的字面意思是代表用户看见页面,但是看见页面是什么时候看见?页面露出顶部、40%、仍是全数露出算看见?从统计上来看都是action=expose。曝光的时机点抉择,是形成页面曝光GAP的原因之一。即页面从恳求、加载、衬着、半屏可见、全屏可见,是有漏斗和折损的,抉择什么时机点表征曝光则是H5和HIPPY可比的前提。那类尝试建议抉择最靠前的时机点做为曝光停止统计,例如后台恳求。

2. 页面交互的差别:

页面的交互凡是指页面内点击分开、从下一页面扣边返回、压后台再回到页面、反常恢复、下拉刷新等。差别的页面交互下,H5和HIPPY框架的页面曝光时机未必一致,例如反常恢复的情况下,HIPPY从头曝光,H5不从头曝光。因而建议对齐差别交互情况下,H5与HIPPY的页面往重逻辑。

3. 模块大小的差别:

气候模块的统计是module=”气候“,action=‘”click“,尝试组和对照组都是那个手艺口径,但是气候模块的点击差别很大。在气候模块曝光一致的情况下,点击为何差别大?气候模块名称没做改动,用户构成没有变革,莫非是需求发作了变革?

其实H5版本的气候模块是头图全数区域,HIPPY版本的气候模块是太阳ICON所在区域,前者区域大,后者区域小。前者存在更多无效点击,后者是气候的实在点击。那里是模块的位置大小招致了点击范畴的变革,因而建议对齐有效模块的位置和大小。

3.1.3. 思绪总结

关于框架晋级类型尝试,自己无太多营业战略耦合,理论上不会对营业目标产生较大变革。但是假设尝试呈现很大GAP,建议从差别交互形式下的页面往重逻辑、页面的曝光时机、模块的上报位置与大小那些因素动身,逐个验证假设,对齐框架差别。

3.2. 产物换链尝试

比拟于框架晋级尝试,产物换链尝试没有那么复杂。简单来说,畴前序页面点击进进到下一个页面,尝试组和对照组的页面纷歧样,不是统一个页面类型和构造。

那可能会招致两个问题:

1. 引发SRM问题,尝试无法看测。假设分流时机点在进进A/B页面时,那么很可能因为现实生效用户比例纷歧致,引发SRM问题。

2. 页面A与页面B目标GAP相差大,目标无法比照。假设A/B页面数据底表没有UNION到一路,那么很可能线上统计代码只统计到了对照组,尝试组没有数据。

3.2.1. 尝试布景

以下图视频页尝试为例,视频底部有一个推词。用户点击视频页底部推词,能够跳转到一个搜刮成果页。尝试组与对照组的搜刮成果页别离是基于两个差别的营业框架开发,页面类型与页面构造皆不不异。

3.2.2. 问题拆解

常见问题如下:

1. 进进对照组和尝试组的搜刮PV,是以前端日记仍是办事端日记统计。

2. 进进对照组和尝试组的成果页点击PV,是以交互行为为主,仍是仅指点出行为。

3. 对照组与尝试组在交互上的庞大差别对有点行为的定义形成很大影响,例照实验组A“雪中行”页面要退出,需要点击右上角的‘x’。尝试组B”中国最新大学排名“要退出,只需要滑动即可。

4. 为了优化页面性能,尝试组有预加载,对照组没有。预加载最曲看的影响是视频页不异词条反复点击成果页,不会再从头恳求,那会招致尝试组搜刮PV变低良多。

3.2.3. 思绪总结

因而面临换链尝试,在尝试设想阶段,把换链对数据链路影响考虑进往就很有需要了。

1. 前置分流:分流时机不要在进进两个差别页面时,建议在更靠前的页面或者APP启动环节,降低SRM发作的风险。

2. 聚合底表:假设揣度两个承接页面的数据链路纷歧致,在尝试起头前,就应该对两个页面的底表停止UNION,以包管尝试目标的统计是基于统一条链路,平台能顺利看到数据。

4. 结尾

AB尝试是门槛较低但是较难用好的东西,在面临非尺度化的尝试场景下,需要深进一线的数据阐发和数据验证。数据基建对尝试影响不容轻忽,也是尝试阐发走不下往的一种摸索视角。

# 腾讯手艺曲播 #

腾讯工程师分享手艺干货:

扫码预约,get开播提醒

一篇文章进门专利写做(万字干货)

向上沟通报告请示,那4个要点或答应认为你助力

若何做需求治理?那8个tips你需要晓得

数据阐发十年,那些书对我实的有用

点个存眷,我们下期再见👋

0
回帖

一文详解 非标准AB实验 相关回复(1)

狂风之翼
狂风之翼
沙发
一文详解非标准AB实验:思路新锐、挑战传统方法,深化数据处理与实践分析技艺。
1个月前 (06-22 19:45)回复00
取消