流量效果差异显著性检验——方差分析(ANOVA)

网站分析中经常会遇到需要预判的问题,比如我们之前经常提到的跳出率指标就属于这类问题。跳出率是连接流量端到网站端的指标,它既可以衡量流量的质量,也可以衡量Landingpage的表现,当跳出率发生变化时首先需要判断是流量质量发生了问题,还是Landingpage自身的问题。之前我们的解决方法是凭经验,对比所有到达同一个Landingpage的流量跳出率。如果所有流量的跳出率都很差,就判断是页面自身的问题,如果一部分流量跳出率较好,则判断是另一部分流量的质量问题。然后选择对下一步的分析方向(页面或流量渠道)。

这种方法在大流量和较大指标差异时基本能准确判断。例如两个流量渠道10000次访问,90%和30%的跳出率差异,我们很容易做出判断。但对于较小的流量和较少的指标差异就很难做出判断了。例如网页中的咨询数据,或者来电数据,这些数据的量级要比访问量数据小很多,同时他们又比访问数据重要的多。这时需要一种方法来帮助我们准确的进行预判,这就是本篇文章要介绍的方差分析。

766642_4e79_2

方差分析(Analysis of Variance)简称ANOVA,主要用于分析多个样本数据间的差异显著性问题。方差分析的基本原理是认为不同样本数据间整体的数据差异(SSt )是由两种原因造成的,第一种原因是不可控的随机误差,也叫组内差异(SSw)。第二种原因是由可控的处理方式造成的,也叫组间差异(SSb)。方差分析通过分析这两种原因对数据间整体差异的影响程度来确定可控因素对结果影响力的大小。

具体到本篇文章的示例中,在线咨询页面是测试对象,每一个流量渠道都是一种测试方法。我们分别列出了5个流量渠道到达该页面后的咨询量数据,也就是测试结果。方差分析认为不同流量渠道之间咨询量数据的差异可能是因为随机误差造成的,也有可能是因为选择了不同的流量渠道造成的。我们需要分析这两类原因对咨询量数据间差异的影响大小,并确定流量渠道的选择对于咨询量数据间的差异是否有显著的影响。以下是5个流量渠道的咨询量数据图表。

数据表

方差分析应用条件

在开始使用方差分析之前,先来介绍下方差分析的应用条件。方差分析主要有三个使用条件:

  1. 可比性:各组样本数据随机产生,并且相互独立。否则样本数据不具可比性,不适合使用方差分析。
  2. 正态性:偏态分布资料不适用方差分析。(方差分析过程即使在违背正态性假设的情况下也非常有效,除非一个或多个分布高度倾斜或方差差异显著。)
  3. 方差齐性:样本方差没有显著差异,组间方差不齐不适用方差分析。这是应用条件中最重要的基本假定,如果不能满足就不能使用方差分析。

此外由于对于咨询量样本数据间的差异我们只检验一个因子:流量渠道的类型。因此使用单因子方差分析。

 

方差齐性检验(Hartley检验)

首先对5个流量渠道的咨询量样本数据进行方差齐性的检验,这里我们使用Hartley检验。

建立检验假设

  • H0:5个流量渠道咨询量样本数据方差相等;
  • H1:5个流量渠道咨询量样本数据方差不相等或不全相等。

计算F值

计算5个流量渠道咨询量样本数据的方差,并选择其中的最大值和最小值,使用Hartley检验计算F值。这种方法相对比较简单。找出将要比较的几个组内方差中最大值和最小值代入公式即可。

方差表1

5组数据中方差最大的是渠道4,为13.43。方差最小的为渠道2,为11.48。F值为1.16。

方差齐性公式1

确定P值并作出推断

通过查表获得临界值,95%置信区间临界值为2.53,0.40。(99%置信区间临界值为3.43,0.29)

方差齐性查表

95%的置信区间下F值1.16小于临界值 0.40<1.16<2.53。因此接受原假设,5个流量渠道咨询量样本数据的方差无显著差异。

 

方差分析

方差齐性检验完成后,开始进行方差分析。下面是5个流量渠道的咨询量样本数据,我们对数据进行了预处理(求和,求平方和等)以便后面的计算。

数据表1

建立检验假设

  • H0:5个流量渠道咨询量样本数据无差异;
  • H1:5个流量渠道咨询量样本数据存在显著差异。

 

计算平方和(组内和组间变异)

第一步对整体数据间的差异进行分解,计算整体数据差异(SSt ),组内差异(SSw)和组间差异(SSb)。简单的说就是5个流量渠道咨询量样本数据间的整体数据差异,随机误差和不同流量渠道造成的差异。

平方差公式1

 

计算自由度(组内和组间自由度)

自由度的计算公式为df=n-1。这里我们要分别计算整体数据自由度,组间自由度和组内自由度。下面的公式中dft是整体自由度,dfw是组内自由度,dfb是组间自由度。N表示一组的样本数据量,示例中每组样本数量为20。K表示实验次数,示例中是流量渠道的数量5。

自由度公式1

 

计算均方(组间和组内均方)

组内均方(MSw)为组内平方和(SSw)除以组内自由度(dfw),为722.76。组间均方(MSb)为组间平方和(SSb)除以组间自由度(dfb),为12.35。

组间均方1

计算F值

F值为组间均方(MSb)除以组内均方(MSw),经计算F值为58.51。

F值1

以下为方差分析表。

方差分析表

确定P值并作出推断

通过查表,自由度为95(组内自由度),4(组间自由度),95%置信区间的临界值为8.32,0.34。(99%置信区间临界值为19.50,0.25)

差异显著性查表

95%的置信区间下F值58.51大于临界值8.32<58.51。因此拒绝原假设,5个流量渠道咨询量样本数据存在显著差异。

 

Excel单因素方差分析

在Excel中提供了自动的方差分析方法。在数据——数据分析选项中选择”方差分析:单因素方差分析”,选择好数据区域并进行简单的设置后,Excel会自动给出方差分析的结果。以下是示例数据使用Excel单因素方差分析结果的截图。P值为8.186325E-25,小于0.05。F值与前面手动计算的结果一致为58.51,小于F crit临界值2.46。说明5个渠道的数据存在显著差异。

Excel方差分析

通过进行方差分析我们知道5个渠道间的咨询量数据在统计学上存在显著差异,因此下一步应首先对流量渠道进行分析。

—【所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载,但请注明转自“蓝鲸网站分析博客”。】—

Comments

  1. ariel says:

    计算均方(组间和组内均方)部分,MSw和MSb的值写反了。

  2. bob chang says:

    好像原假设不能接受,只能说现有数据不能推翻

Speak Your Mind

*