首页 > 增长黑客 > 正文

数据驱动增长？别扯了，先解决数据从哪儿来

5daofeng•2018-11-20 15:53:56•阅读次数：12261

现在互联网上关于“增长黑客”的概念很火，它那“四两拨千斤”、“小投入大收益”的神奇法力令无数互联网从业者为之着迷。一般来说，“增长黑客”主要依赖于企业的内部数据（如企业自身拥有的销售数据、用户数据、页面浏览数据等），以此为依据进行数据分析和推广策略拟定。但是，如果遇到如下几种情况，“增长黑客”就捉襟见肘了：假如一家初创公司，自己刚起步，自身并没有还积累数据，怎么破？就算有数据，但自己拥有的数据无...

6.1.4 文本中一线~五线城市提及次数的地理分布

在该部分，笔者先列出了一个国内一、二、三、四、五线城市的城市名录，然后在经过分词处理的333,94篇文本数据中统计这些城市的提及次数（不包含简称和别称）。

最后制成一张反映城市提及次数的地理分布地图，进而间接的了解各个城市互联网的发展状况（一般城市的提及跟互联网产业、产品和职位信息挂钩，能在一定程度上反映该城市互联网行业的发展态势）。

经处理，制成的数据地图如下：

数据地图

上图反映的结果比较符合常识，北上深广杭这些一线城市/互联网重镇的提及次数最多。其次是成都、天津、重庆、苏州和青岛这些二线城市，再次是哈尔滨、大连。

总结起来的一句废话就是——互联网发达的城市主要集中在东南沿海。

上面的数据分析大多数是基于数值型数据的描述性分析，接下来，笔者将利用其中的文本数据做深入的文本挖掘。

6.2 针对“产品运营&数据分析”栏目的专项文本挖掘

因为笔者关注的领域主要是数据分析和产品运营，平时写的文章也大都集中在这两块，所以笔者把这两个板块的数据单独拎出来，从文本挖掘角度，做一系列由浅入深的数据分析。

6.2.1 高频词汇TOP200

首先是文本挖掘中最常规的高频词分析，笔者从中获取了TOP200词汇。

可以看到，大部分是跟“运营”息息相关的词汇，比如“用户”、“运营”、“内容”、“APP”、“营销”、“微信”等词汇。

单独看其中的高频词TOP30，可以发现，这些词大部分跟新媒体运营（“内容”、“微信”、“微博”、“文章”等）、用户（“用户”、“粉丝”、“需求”、“社群”、“客户”、“消费者”等）有关系。

高频词TOP30

将这TOP200高频词制成关键词云，直观的看到其中重要的信息。

关键词云

6.2.2 Bicluster文本聚类分析

刚才笔者提到了基于关键词归纳主题的做法，在上面的高频词中，这种主题特征不甚明显，因而笔者采用更强有力的Bicluster文本聚类分析，从“数据分析&产品运营”的数千篇文章中“析出”若干“子主题”，并进行“发布年份”&“主题构成”之间的关联分析。

基于谱联合聚类算法（Spectral Co-clusteringalgorithm）的文档聚类，这部分的原理涉及到艰深的数学和算法知识，可能会引起小伙伴们的阅读不适感，如果是这样，请快速跳过，直接看后面的操作和结果。

先将待分析的文本经TF-IDF向量化构成了词频矩阵，然后使用Dhillon的谱联合聚类算法（Spectral Co-clusteringalgorithm）进行双聚类（Biclusters）。

所得到的“文档-词汇”双聚类（Biclusters）会把某些文档子集中的常用词汇聚集在一起，由若干个关键词构成某个主题。

<<<1 2 3 4 5 6 7 8 9 10 11 >>>

(编辑：5daofeng)

5daofeng

分享到：

推荐资讯

最新资讯

联系爱运营

敬请关注网站运营官方微信（iyunyingorg），随时交流运营知识。

网站运营