5daofeng•2018-11-20 15:53:56•阅读次数:12263
以下是一些常见的外部数据分析和采集工具:
4.1 指数查询
百度指数
微指数
优酷指数
谷歌趋势
4.2 爬虫工具
火车头
Data Scraping
八爪鱼
4.3 社会化媒体监测与分析平台
新浪微舆情
外部数据分析的应用场景
最先对外部数据高度重视的先行者其实是政府机构,它们利用大数据舆情系统进行网络舆情的监测,但随着大数据时代的向前推进,外部数据的应用场景也越来越多,包括且不限如下方面:
舆情监测
企业口碑和客户满意度追踪
企业竞争情报分析
品牌宣传、广告投放及危机公关
市场机会挖掘、产品技术开发创意挖掘
行业趋势分析
接下来,笔者将以某互联网社区上近6年的文章数据作为实例,进行“360度无侧漏式”的数据分析,来“示范”下如何对外部数据进行挖掘,从中最大限度的“榨取”关于互联网产品、运营方面的insight。
外部数据分析实操案例
以某互联网社区的文章数据分析为例
在笔者下面的“数据发现之旅”中,会带着3个目的,主要是:
通过该社区的资讯文章中,发掘国内互联网发展的一些特征
发掘互联网某些栏目下的热点及其变动趋势
给笔者的内容创作予以写作风格定位和题材选取方面的指导
以下是笔者抓取的数据的原始形态,抓取了“标题”、“时间”、“正文”、“阅读量”、“评论量”、“收藏量”和“作者”这7个维度的数据,抓取时间区间是2012.05.17~2017.07.31,文章数据共计33,412条。
数据的原始形态
然后,笔者对数据进行了清洗,主要是“阅读量”,将“k(1000)“、“万(10000)”、“m(1000000)”变成了相应的数字,便于后续的数值计算和排序。同时,新增3个维度,即文章所属的栏目“类别”、“正文字数”和“标题字数”。
6.1全局纵览
6.1.1 各栏目下的文章数量分布情况
首先,先对各个栏目下的文章数量进行基础性的描述性分析,看看10个栏目类别下的文章数量分布。
文章数量分布