细说Google Analytics中的流量来源

最近在查看一个网站的数据时发现,该网站流量来源中直接流量部分占了40%。这说明有近一半的访次属于直接访问!对照Google Analytics对直接流量的定义,确认该网站近期没有进行过大规模的线下推广活动后,我们马上就可以得出这样一条结论。访客对网站有很高的忠诚度。因为他们可以记住14个字母的英文二级域名,并且每次直接输入域名或从收藏夹中直接访问网站。但事实真的是这样吗?我有些怀疑。

Google Analytics对直接流量的定义。

通过点击书签或直接在浏览器中输入网址进入网站的访问者。直接流量可包括通过离线广告系列(如印刷材料和电视)引入的访问者。

诡异的直接流量来源

我怀疑的原因主要有3个:

流量来源目录1,网站的内容和服务都是针对国内用户的,并且很大众化。14个字母的英文二级域名访客真的记得住吗?(还记得那个故事吗?很多人每次上网都登录baidu.com,然后在里面输入网站名称,再在结果里点击访问。即使访问google也是如此。)

2,按照经验,40%的直接流量在行业中算是一个比较高的水平了。一般有两个产生原因。

A: 较新网站,搜索收录和外部链接都不多的情况下,大部分的来源都集中在直接访问。

B: 知名网站,比如sohu.com, qq.com等等。这些高知名度的网站,访客不仅会记下域名还会加入收藏。

3,直接流量并没有那么单纯,里面可能包含很多未知的访问来源。

上面的三个原因只是我的猜测,猜测不能写在报告中,更不能证明这40%的直接流量存在问题。我们还需要回到报告中,用数据来说话。按照直接流量的定义,访客收藏网站地址说明网站内容对访客有吸引力,访客愿意继续访问网站。而主动输入域名或从收藏夹中访问网站,都说明访客有主动访问网站的意愿。 所以我们从跳出率,访客类型和访问时长几个指标上对这40%的直接流量进行对比和分析。

跳出率报告对比

跳出率可以用来衡量网站内容与访客的匹配程度,当访客在网站上没有找到需要的内容时,就不会继续访问,并且直接离开网站。

直接流量与其他流量跳出率对比图


上面的截图中,高高的,飘在最上面的,绿色的曲线就是直接流量。直接流量的跳出率要高于搜索流量和推介流量,甚至高于整站的跳出率水平。

访客类型报告对比

直接流量与其他流量新访比例对比图

在访问者类型报告中,直接流量中有37%属于新访访,比非付费搜索的比例还要高。真不知道这些新访客是如何获得,记住,并准确输入这14个字母的网站二级域名的。

访问停留时间对比

直接流量与其他流量停留时间对比图

在访问停留时间上,直接流量中也有大部分访次的停留时间只有0-10秒。明显低于非付费搜索流量的水平。

通过上面三个报告的对比发现,40%的直接流量有较高跳出率,新访率和较短的访问停留时间。这些都不太符合直接流量的访客行为特征。并且说明Google Analytics对直接流量的定义也不够准确。

那么Google Analytics的直接流量里除了直接访问和收藏夹外还包含哪些来源的流量呢?先来看下Google Analytics是如何获得网站的流量来源,又是如何对不同的来源进行分类的。(这部分有点偏技术,并且有点复杂。看我能不能解释清楚)

Google Analytics中的三种流量来源

通常,在我们输入域名访问一个网站的时候,浏览器会向服务器发送一个HTTP请求,在这个请求的头部信息中会包含一个Referer字段,记录了本次请求的来源URL地址。

推介网站流量:

如果你通过点击http://webdataanalysis.net/上的友情链接访问我的博客,在HTTP请求的Referer字段中就会记录下这个URL地址。同时在页面加载后Google Analytics的追踪代码会向Google返回一条数据,参数中utmr也会记录到这个URL地址。

PS:webdataanalysis.net是一个很棒的网站数据分析博客。

HTTP头部Referer信息

搜索引擎流量

如果是通过搜索引擎呢?当我们在搜索引擎中查询关键词的时候,搜索结果页的URL里会带有我们当前搜索的关键词内容。比如,我在google搜索我的网站域名。搜索结果页的URL是这样的。

http://www.google.com/search?hl=en&q=bluewhale.cc&aq=f&aqi=g-s1g2&aql=&oq=&gs_rfai=

q是google 的查询参数,后面是我本次搜索的关键词。点击结果访问网站时,HTTP会把这个URL记录到Referer字段里。

HTTP头部搜索引擎的Referer信息

在ga,js文件中,会对每次Referer字段的URL进行比较,如果是搜索引擎就保存关键字信息。并一起发送回google的服务器。

直接访问流量:

如果是直接输入域名,或者是从收藏夹中访问,在HTTP的请求中就不会有Referer字段,同时Google Analytics的返回数据中utmr的值也会为空。

三种流量来源的记录方式都说完了,看起来还算清楚,HTTP头信息记录访问的Referer信息,Google Analytics按照Referer信息对来源进行判断,有Referer信息的算作推介来源,Referer信息与JS文件中的搜索名称匹配的保留关键字信息,并算作搜索来源。没有Referer信息的算作直接流量。看起来不会有什么问题的。但实际上并不是这么准确的。

PS:此外,在Google Analytics的流量来源饼图中有时还会有黄色的部分。这部分表示单独标记过的URL所产生的流量。

对流量来源造成影响的因素:

影响搜索引擎流量的因素:

Google Analytics依靠JS文件中的搜索引擎名称和查询参数列表来判断本次访问的来源,但JS文件中并没有覆盖所有的搜索引擎。所以当Google Analytics在找不到对应的搜索引擎名称,或者查询参数的时候,就会把这次访问归为推介网站来源。

影响推介网站流量的因素:

Google Analytics依靠Referer字段来获得访问的来源URL,并根据是否有Referer信息来对流量进行分类。但有时却无法获得这部分信息。比如:

1 点击Flash广告中的链接

2 点击包含在JS中的链接

3 使用鼠标拖拽链接打开页面

4 … …

Kevin Yang的博客中列举了各种可能丢失Referer的原因,并针对每个原因在不同的浏览器中进行了测试。

影响直接访问流量的因素:

所有丢失Referer信息的来源都会被Google Analytics算作直接流量。所以,直接访问流量的组成比较复杂。里面可能包含了部分推介来源的流量,这会使报告中的直接流量膨胀。同时当访问者首先通过搜索引擎或标记链接访问网站后,再次直接访问时,这部分直接流量又会被记录为之前的来源。 这些都会影响我们对直接流量属性的判断。

所以在开头的那个例子中,仅凭数据的解释和定义对数据进行分析是不够的。好像纸上谈兵。这时我们更多需要的是对行业的了解(这个指标在行业中表现如何?),对用户的了解(用户真的会这么做吗?),和怀疑的精神(数据究竟是如何产生的?)。

——【所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载,但请注明转自“蓝鲸网站分析博客”。】——

Comments

  1. xwf says:

    学习

  2. 一直有一个疑问,国内的GFW对于Google Analytics检测流量来源有影响吗? 比如访问者和网站主机分别在墙里墙外的情况….

  3. 精彩!我去实践一下!有结果再来讨论!

  4. 蓝鲸 says:

    @Scyan-天岸网站分析: 这个还真不太清楚。

  5. SEO says:

    想问一下,跳出率对比的那个图是怎么得到的?

  6. qingshan says:

    有个疑问,从收藏夹中直接访问某网站时,用httpwatch是看不到有referer信息的,但看cookie却发现utmcsr=referer(估计应该是cookie没刷新,记录的还是之前的来源),那么这种情况下不知道GA是如何判断此次访问的流量来源的??

    是计入直接来源里还是按utmcsr的信息记录为推介来源??

    • 蓝鲸 says:

      @qingshan, 直接访问是不会刷新前一次来源信息的,例如:你上次通过搜索或某广告访问网站,当下次直接访问时cookie中的信息仍然是来自搜索或广告。并计入相应的来源。

  7. Ti says:

    恩,学习了,继续关注

  8. renyoud says:

    “单独标记过的URL所产生的流量”… 这是什么意思阿,谢谢指教!

  9. SDJ says:

    我在一次分析中也遇到过这种问题,当时的直接流量竟然在广告投放期间,高达90%,当时怀疑是大量丢失refer的广告来源被归入到了直接流量中,但一直无法给出较好的解释,看了这篇文章,有了进一步的了解。
    蓝鲸老师,我转载一下您的这篇文章了啊。

  10. cc says:

    从搜索引擎进入本网站时,utmcsr=baidu|utmccn=(organic),但是进入网站后,随便点击一个连接进入下一个页面,utmcsr立即变成direct,不知道是怎么回事,按理说直接流量不会覆盖其他的方式的级别最低,但是还是覆盖了

  11. 木杉 says:

    在流量来源中选择“搜索引擎”可以看到百度的流量为A,但点击”baidu”时显示来源为B,差距很大。有人告诉我出现A的原因是包括了所有来源,而点击”baidu”时来源是关键词。我不懂的是搜索引擎流量不都是通过关键词来的吗,为什么会有这么大差异?

  12. 噜噜 says:

    通过关键词过来的流量,怎么看来源呢?

Trackbacks

  1. […] 所以在开头的那个例子中,仅凭数据的解释和定义对数据进行分析是不够的。好像纸上谈兵。这时我们更多需要的是对行业的了解(这个指标在行业中表现如何?),对用户的了解(用户真的会这么做吗?),和怀疑的精神(数据究竟是如何产生的?)。 本文来自 http://bluewhale.cc/2010-04-25/google-analytics-traffic-source-details.html […]

  2. 用户行为数据分析

    概述 本页面描述了想帮帮系统的一个简单的基于页面的数据统计系统 团队 PM:rick ENG:lih