5daofeng•2018-11-20 15:53:56•阅读次数:15807
6.1.4 文本中一线~五线城市提及次数的地理分布
在该部分,笔者先列出了一个国内一、二、三、四、五线城市的城市名录,然后在经过分词处理的333,94篇文本数据中统计这些城市的提及次数(不包含简称和别称)。
最后制成一张反映城市提及次数的地理分布地图,进而间接的了解各个城市互联网的发展状况(一般城市的提及跟互联网产业、产品和职位信息挂钩,能在一定程度上反映该城市互联网行业的发展态势)。
经处理,制成的数据地图如下:
数据地图
上图反映的结果比较符合常识,北上深广杭这些一线城市/互联网重镇的提及次数最多。其次是成都、天津、重庆、苏州和青岛这些二线城市,再次是哈尔滨、大连。
总结起来的一句废话就是——互联网发达的城市主要集中在东南沿海。
上面的数据分析大多数是基于数值型数据的描述性分析,接下来,笔者将利用其中的文本数据做深入的文本挖掘。
6.2 针对“产品运营&数据分析”栏目的专项文本挖掘
因为笔者关注的领域主要是数据分析和产品运营,平时写的文章也大都集中在这两块,所以笔者把这两个板块的数据单独拎出来,从文本挖掘角度,做一系列由浅入深的数据分析。
6.2.1 高频词汇TOP200
首先是文本挖掘中最常规的高频词分析,笔者从中获取了TOP200词汇。
可以看到,大部分是跟“运营”息息相关的词汇,比如“用户”、“运营”、“内容”、“APP”、“营销”、“微信”等词汇。
单独看其中的高频词TOP30,可以发现,这些词大部分跟新媒体运营(“内容”、“微信”、“微博”、“文章”等)、用户(“用户”、“粉丝”、“需求”、“社群”、“客户”、“消费者”等)有关系。
高频词TOP30
将这TOP200高频词制成关键词云,直观的看到其中重要的信息。
关键词云
6.2.2 Bicluster文本聚类分析
刚才笔者提到了基于关键词归纳主题的做法,在上面的高频词中,这种主题特征不甚明显,因而笔者采用更强有力的Bicluster文本聚类分析,从“数据分析&产品运营”的数千篇文章中“析出”若干“子主题”,并进行“发布年份”&“主题构成”之间的关联分析。
基于谱联合聚类算法(Spectral Co-clusteringalgorithm)的文档聚类,这部分的原理涉及到艰深的数学和算法知识,可能会引起小伙伴们的阅读不适感,如果是这样,请快速跳过,直接看后面的操作和结果。
先将待分析的文本经TF-IDF向量化构成了词频矩阵,然后使用Dhillon的谱联合聚类算法(Spectral Co-clusteringalgorithm)进行双聚类(Biclusters)。
所得到的“文档-词汇”双聚类(Biclusters)会把某些文档子集中的常用词汇聚集在一起,由若干个关键词构成某个主题。