采样是Google Analytics处理大量数据时的一种方法。可以快速完成查询并生成所需报告。如果你的网站每个月有几百万的综合浏览量,就需要用到采样。Google Analytics中的采样分为客户端采样和报告采样两种。
客户端采样
默认情况下Google Analytics会追踪网站的所有流量。但当网站流量超过一定量时,会产生一些问题。
1 超过Google Analytics数据库存储每日记录的上限。
2 在报告中触发自动采样。
客户端采样是通过手动修改网站的追踪代码,按照预先设定的百分比直接从网站中收集采样数据的。实施起来很简单,在追踪代码中调用_setSampleRate()然后设置一个采样百分比作为参数就可以了。设置客户端采样后,Google Analytics将不在追踪网站的所有流量,而是按照设定的采样比例收集流量数据。
客户端采样代码:
pageTracker._setSampleRate('80');//传统追踪代码的采样设置,采样率80%
_gaq.push(['_setSampleRate','80']);//异步追踪代码的采样设置,采样率80%
客户端采样时一个不可逆的过程,当设置了采样后,配置文件及报告中将只显示采样后的数据。而网站中未被采集的数据将无法找回。所以,你可以试着将采样数据发送到一个配置文件中,而将未采样的原始数据保留在另一个配置文件中。
<!—Bluewhale GA tracking code begin-->
<script type="text/javascript" src="http://www.google-analytics.com/ga.js"></script>
<script type="text/javascript">
var pageTracker = _gat._getTracker("UA-1111111-1");
pageTracker._trackPageview();
var pageTracker = _gat.getTracker("UA-1111111-2");
pageTracker._setSampleRate('80');
pageTracker._trackPageview();
</script>
<!-- Bluewhale GA tracking code end-->
报告采样
报告采样是另一种采样方法,无论之前是否设置了客户端采样,当报告中的数据满足一定条件时,采样都会被自动触发。当报告采样被触发后,报告的顶部会出现黄色的采样通知。例如:当对报告中的超过50万访次的度量进行维度交叉细分时,报告采样就会被触发。同时在报告顶部有黄色标记提示:此时报告中的部分数据为采样数据。
在采样报告中,一部分值是系统的估算值,而另一部分值是真实值。例如:在下面的采样报告中,总访问次数和报告记分卡中的值是真实值,而维度组合和访次的详细报告值是估算值。
采样数据可信度
在采样报告的详细报告中,每个数据后面都会有一个置信区间来表示数据的可信度,一般分为三种情况,完全可信,在某个范围内可信,和不可信。区间范围的大小表示数据的可信度。置信区间越小表示数据越可信。当置信区间为0时表示数据没有经过采样或估算,完全准确。不过这种情况一般不会出现在采样报告中。
在上图的采样报告中,第一个访次数据的置信区间显示大于0,表示已经很接近真实值了。第二个访次的数据是20,519,置信区间+/-2%,表示这个指标真实值的范围在20,109—20,929之间。
在某些情况下,采样报告的数据可信区间会显示为一个*号。这表示样本数据所占比例过小,这类数据不可信。
——【所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载,但请注明转自“蓝鲸网站分析博客”。】——





不得不承认GA的专业和强大,原先以为第三方工具当网站流量达到一定数量的时候会由于服务器压力等原因而无能为力,使用采样的方法很好的解决了这个问题,而大多数的网站分析都是基于趋势分析和比较分析的,很少会需要用到准确的数据,所以这里GA所提供的基于置信区间的采样数据已经绰绰有余了。
[回复]
有个小疑问:被自动触发的采样是按照什么标准来执行的?
是有一个固定的绝对值(比如40W)作为采集的样本量?
还是有一个固定的相对值(比如超过临界值后通通按80%来采集,如若仍超过临界值,循环80%抽取,直至降至临界值以下)?
估算值又是按照什么方法计算出来的?
[回复]
cloga 回复:
八月 17th, 2010 at 1:28 下午
GA对一个访问数(visits)大于50万的配置文件的细分数据采用数据抽样。
[回复]
网上书店 回复:
四月 15th, 2011 at 12:28 上午
@cloga, 问一下啊,楼主说的这个是官方的解释么?超过50万访次的细分数据就进行采样。
[回复]
还在 回复:
四月 1st, 2011 at 1:59 下午
@qingshan, 这还真是个问题。
另外,博客里显示的正负百分比叫误差区间而不是置信区间,比如误差区间是正负2%,置信区间是96%;
[回复]
还在 回复:
四月 1st, 2011 at 2:17 下午
@还在, 说错了,误差区间正负2%,置信度或置信水平是96%
[回复]
var pageTracker = _gat._getTracker(“UA-1111111-1″);
pageTracker._trackPageview();
var pageTracker = _gat.getTracker(“UA-1111111-2″);
pageTracker._setSampleRate(’80′);
请问蓝鲸,第二个是另一个账户吗?还是账户设置的另一个配置文件啊?
[回复]
宋天龙 回复:
九月 21st, 2010 at 6:35 下午
@宋天龙, 呵呵,是另一个配置文件
[回复]
博主 好久没在啊?
想问下GA的抽样灵活性如何?
其抽样是如何实现的?
随机抽样?
分组抽样?
可有更灵活的设置?
[回复]