使用Google Analytics辨别虚假流量(三)

本篇文章是《使用Google Analytics辨别虚假流量》系列文章的第三篇。如果说前两篇文章中给出的12种辨别虚假流量的方法还比较偏理论。那么从本篇文章开始我们将理论与实际案例相结合,进入辨别虚假流量的实战部分。

在前面的文章中我们寻找虚假流量的方法基本是通过流量中的问题或异常来进行判断和推理。这种方法比较原始,而且未必准确。因此我们希望找到一种更加明确并且简单的方法来辨别虚假流量。因此在本篇文章中我们转换思路,直接寻找虚假流量产生的源头。通过虚假流量产生的原理并学习它们能做模仿什么,不能做模仿什么。进而再来有目的性的对流量进行分析,寻找虚假流量的蜘丝马迹。下面我们将通过几个具体案例来介绍虚假流量的产生过程,以及我们在分析中的关键突破点。

 

案例一:24小时访问量趋势分析

通过24小时中网站访问者的变化趋势来判别虚假流量的方法我们在第一篇文章中就曾经介绍过,按照访问者的作息时间在24小时中会出现三个访问高峰时间段,而午夜时段则会出现访问的低谷。因此如果流量在24小时中不符合这个趋势则十分可疑。例如午夜出现大量访问的情况。那么来看下面这个24小时变化趋势图,你能发现什么问题吗?

这张24小时流量趋势图基本符合上面的判断标准,在每天中也都出现了2-3个访问高峰。好像没有太大的问题。但它确是不折不扣的虚假流量。为什么这么说呢?请继续往下看。

虚假流量是如何模拟的

上面的截图是一张虚假流量工具中的24小时流量分享比率设置界面。在这里可以对一天中每个小时的流量占比进行手动设置和分配。也就是说,虚假流量可以很容易的模拟出真实的24小时访问变化趋势。这样,我们也就很难再通过单纯的24小时访问趋势发现流量的异常了。那么,我们前面介绍的方法是不是就不管用了呢?未必,下面我们依然通过24小时访问量变化趋势找出了流量的异常,并且最终验证了最初的判断。

 

分析中的方法及突破点

在这个案例中我们发现流量异常的突破点在流量的时间段上,也就是下面的10月1日——10月8日。首先,只有在正常的工作日才会有早上,下午和晚上的三个访问时间段高峰出现。而对于节假日,尤其是大型的节假日来说则不会出现这个规律。其次,在节假日中,访问者使用互联网的时间通常会比平时有所下降。而在下面的图表中十一长假期间依然保持了和工作日相同的访问规律就显得十分可疑。

我们将可疑的流量与网站的整体流量在十一期间的表现进行了对比,很快发现了问题并且验证了之前的假设。在十一期间早上和下午的两个访问高峰已经很模糊了,而晚上的访问高峰依然存在,并且比平时延续了更多的时间结束。在十一长假开始的几天用户来访的数量明显降低,随着长假的结束逐步恢复正常。

 

案例二:不同地域访问者行为分析

按访问者地域辨别虚假流量也是我们在第一篇文章中介绍的方法之一。最初我们假设访问者很难模拟大量不同地理位置的流量。因此可以按照流量所属的地理位置及分布来寻找虚假流量的痕迹。例如当流量大部分来自某一个固定的地域时,可能说明这些流量存在异常。但这可能只针对初级的虚假流量,对于本篇文章中的情况就不适用了。我们先来看下虚假流量是如何控制流量的地域来源的。

 

虚假流量如何模拟的

这是虚假流量工具用来设置流量所属地理位置的界面,相当专业。可以按国家,地区和省市对流量来源进行设置。因此,这也完全打破了我们之前对虚假流量地域的假设。虚假流量可以任意选择由不同地区产生访问。

 

分析中的方法及突破点

对于设置如此完善的虚假流量,我们但从地域或访问的分布数据上来看几乎无法发现破绽。这个案例中的突破点来自于我们对网站业务的理解。我们所分析的这个网站的业务有非常明显的地域属性。也只有特定地域的访问者才会对网站的业务感兴趣。因此当我们将不同地域的数据放在一起进行比较时,很快从每次访问页面浏览量,平均停留时间和跳出率三个指标中发现了异常。目标地域与非目标地域的访问者在不同的指标上都表现出了相同的访问特征。再进一步说就是全国网民都表现出了极度相似的访问特征。这里面明显存在问题。而这也是虚假流量目前无法模拟的一种情况,下面我们继续来介绍。

 

案例三:访问者页面访问行为分析

访问者的页面访问行为也是之前文章介绍过的方法。分为页面停留时间,访问者路径和点击分布等等。这部分也是虚假流量最难进行模拟的部分。因此,也就出现了在上个案例出出现的问题。不同城市的访问者有相似的停留时间和页面浏览量。下面我们先来看下虚假流量模拟访问者浏览行为的方法有几种,分别是如何操作的。

 

虚假流量如何模拟的

首先是虚假流量控制访问者的浏览模式和浏览深度的设置界面。默认状态下虚假流量会在每次访问时浏览三个页面,这三个页面可以是随机自动选择页面访问,也可以是单独页面的重复刷新,还可以重新访问或是访问指定的页面。

其次是设置虚假流量每次访问的单页停留时间,这里的设置比较粗糙,10秒一个区间。这也就是说当我们看到某些流量在页面停留时间上的变化基本都在10秒以内时,都需要特别关注。

 

分析中的方法及突破点

由于每次访问页面浏览量和页面停留时间在虚假流量中的设置比较简单。因此这两个指标也是我们辨别虚假流量的主要突破点。简单的按时间观察这两个指标的变化趋势就可以发现异常。在下面的图表中,虚假流量的每次访问页面浏览量几乎为一条直线,无任何变化,非常不自然,同时也与网站整体流量在该指标上的表现相差很大。

对于重复刷新的子页访问模式,我们的突破点在对浏览量和唯一身份浏览量两个指标的理解上。当这两个指标的比率接近2:1时,就很可能是单页刷新的访问。在下面的内容报告中,当我们对虚假流量在网站中的浏览量和唯一身份浏览量进行检查时发现了异常,不同页面间的浏览量与唯一身份浏览量相当有规律。结合页面停留时间和进入次数也可以确定这不是由于页面代码实施错误导致的。

——【所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载,但请注明转自“蓝鲸网站分析博客”。】——

 

Comments

  1. says:

    你好蓝鲸,我非常喜欢你对数据分析的独特看法,你的一篇文章“使用Google Analytics辨别虚假流量(三)“中,是如何来虚拟虚假流量的,那是个工具么?我想如果我知道了这个东西会对我很有帮助,所以希望你可以将这个秘密告诉我,我将受益终身,同时会对你心存感激。

  2. Jackie says:

    能否分享一下上面这个工具,我想知道现在他们除了这些以外还能做到什么程度,是不是GA中各种维度现在都能轻松模拟了?现在都是道高一尺魔高一丈,他们知道我们在什么,很容易就应对了,而我们不知道他们会有什么新花样,知己知彼很重要啊

  3. wx says:

    分析出虚假流量后,怎么进行预防呢

Trackbacks

  1. […] 注:文章来自蓝鲸网站分析博客,转载请注明出处。 […]

Speak Your Mind

*