首页 > 增长黑客 > 正文

数据驱动增长?别扯了,先解决数据从哪儿来

5daofeng2018-11-20 15:53:56阅读次数:12261

现在互联网上关于“增长黑客”的概念很火,它那“四两拨千斤”、“小投入大收益”的神奇法力令无数互联网从业者为之着迷。 一般来说,“增长黑客”主要依赖于企业的内部数据(如企业自身拥有的销售数据、用户数据、页面浏览数据等),以此为依据进行数据分析和推广策略拟定。但是,如果遇到如下几种情况,“增长黑客”就捉襟见肘了: 假如一家初创公司,自己刚起步,自身并没有还积累数据,怎么破? 就算有数据,但自己拥有的数据无...


6.1.4 文本中一线~五线城市提及次数的地理分布


在该部分,笔者先列出了一个国内一、二、三、四、五线城市的城市名录,然后在经过分词处理的333,94篇文本数据中统计这些城市的提及次数(不包含简称和别称)。


最后制成一张反映城市提及次数的地理分布地图,进而间接的了解各个城市互联网的发展状况(一般城市的提及跟互联网产业、产品和职位信息挂钩,能在一定程度上反映该城市互联网行业的发展态势)。


经处理,制成的数据地图如下:


数据地图


上图反映的结果比较符合常识,北上深广杭这些一线城市/互联网重镇的提及次数最多。其次是成都、天津、重庆、苏州和青岛这些二线城市,再次是哈尔滨、大连。


总结起来的一句废话就是——互联网发达的城市主要集中在东南沿海。


上面的数据分析大多数是基于数值型数据的描述性分析,接下来,笔者将利用其中的文本数据做深入的文本挖掘。


6.2 针对“产品运营&数据分析”栏目的专项文本挖掘


因为笔者关注的领域主要是数据分析和产品运营,平时写的文章也大都集中在这两块,所以笔者把这两个板块的数据单独拎出来,从文本挖掘角度,做一系列由浅入深的数据分析。


6.2.1 高频词汇TOP200


首先是文本挖掘中最常规的高频词分析,笔者从中获取了TOP200词汇。


可以看到,大部分是跟“运营”息息相关的词汇,比如“用户”、“运营”、“内容”、“APP”、“营销”、“微信”等词汇。


单独看其中的高频词TOP30,可以发现,这些词大部分跟新媒体运营(“内容”、“微信”、“微博”、“文章”等)、用户(“用户”、“粉丝”、“需求”、“社群”、“客户”、“消费者”等)有关系。


高频词TOP30


将这TOP200高频词制成关键词云,直观的看到其中重要的信息。


关键词云


6.2.2 Bicluster文本聚类分析


刚才笔者提到了基于关键词归纳主题的做法,在上面的高频词中,这种主题特征不甚明显,因而笔者采用更强有力的Bicluster文本聚类分析,从“数据分析&产品运营”的数千篇文章中“析出”若干“子主题”,并进行“发布年份”&“主题构成”之间的关联分析。


基于谱联合聚类算法(Spectral Co-clusteringalgorithm)的文档聚类,这部分的原理涉及到艰深的数学和算法知识,可能会引起小伙伴们的阅读不适感,如果是这样,请快速跳过,直接看后面的操作和结果。


先将待分析的文本经TF-IDF向量化构成了词频矩阵,然后使用Dhillon的谱联合聚类算法(Spectral Co-clusteringalgorithm)进行双聚类(Biclusters)。


所得到的“文档-词汇”双聚类(Biclusters)会把某些文档子集中的常用词汇聚集在一起,由若干个关键词构成某个主题。

(编辑:5daofeng)
5daofeng
分享到:0