使用本福德定律甄别数据造假(Benford’s Law)

数据造假的甄别在数据分析领域是一个热门的话题,也是对数据分析师的一项挑战。分析数据造假的方法有很多种。我们在前 […]

使用MS Access SQL进行简单的数据分析

本篇文章使用MS Access SQL对Lendingclub 2015年1月——6月的数据进行提取和简单的分 […]

使用Python分析纽约出租车搭乘数据

在纽约,出租车分为两类:黄色和绿色。黄色出租(Yellow TAXI)车可以在纽约五大区(布朗克斯区、布鲁克林 […]

使用python抓取新浪微博数据

本篇文章是python爬虫系列的第四篇,介绍如何登录抓取新浪微博的信息。并对其中的关键内容进行提取和清洗。 开 […]

《人人都是網站分析師|看穿網站流量的祕密》

时间过的真快,转眼已经到了2016年的尾声。QQ上接到机械工业出版社编辑的留言,要结算一笔版权输出的费用。我在 […]

使用python训练随机森林模型辨别可疑流量

通过数据分析辨别可疑和虚假流量的方法我们在之前的文章中曾经介绍过。本篇文章我们对这个方法进行自动化,介绍如何通 […]

使用python抓取并分析京东商品评论数据

本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化。下 […]

使用python抓取并分析数据—人人贷(urllib)

本篇文章是使用python抓取数据的第二篇,使用urllib方法对人人贷网站贷款列表页进行抓取。并从中获取贷款 […]

使用python抓取并分析数据—链家网(requests+BeautifulSoup)

本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓 […]

使用K-Means算法对数据进行聚类

K-Means是聚类算法的一种,以距离来判断数据点间的相似度并对数据进行聚类。前面的文章中我们介绍过K-Mea […]