首页 > 增长黑客 > 正文

数据驱动增长？别扯了，先解决数据从哪儿来

5daofeng•2018-11-20 15:53:56•阅读次数：12264

现在互联网上关于“增长黑客”的概念很火，它那“四两拨千斤”、“小投入大收益”的神奇法力令无数互联网从业者为之着迷。一般来说，“增长黑客”主要依赖于企业的内部数据（如企业自身拥有的销售数据、用户数据、页面浏览数据等），以此为依据进行数据分析和推广策略拟定。但是，如果遇到如下几种情况，“增长黑客”就捉襟见肘了：假如一家初创公司，自己刚起步，自身并没有还积累数据，怎么破？就算有数据，但自己拥有的数据无...

正式分析之前，先对保存在Excel中的文本数据做一定的预处理，使用“乾坤大挪移”，将Excel中的文本数据按年份一条条的归到不同的文件夹下面，具体步骤如下图所示：

文本数据按年份

做好预处理后，进行正式的Bicluster文本聚类，结果如下：

Bicluster文本聚类

上面的分析结果中，Bicluster1的话题区分度不明显，且仅包含2个文档和16个关键词，所以排除掉这个主题，仅留下其他5个主题，排除噪声，从这些子话题中的主要关键词来归纳其要旨。

为了看得更清楚，笔者将这些数据整理成二维表格的形式：

二维表格

从上表可以看出，“数据分析&产品运营”下的子话题中，涉及“新媒体运营”的内容最多，占到文档总量的35.62%，其次是“APP运营”和“智能硬件”方面的话题，分别占到文档总量的23.72%和19.6%。而“数据分析”话题下的文档数最少。

将子话题和年份进行交叉分析，可以从中了解到各个子话题在各年份的信息分布量，从某种意义上讲，也就是话题热度。

从上表可以看到，“智能硬件”的子话题在2012和2013年的热度最高，而“APP运营”和“数据分析”在2016和2017年开始火了起来，而“新媒体运营”在近3年也是风光无限。

而单独从2016年来看，除了“智能硬件”方面的话题不火外，其他三个话题均有较高的热度，达到了近5年来热度峰值，看来2016年是个特殊的年份。

总体上，除了“智能硬件”这个子话题外，其他3个子话题热度都呈现出不断上升的趋势，当然，笔者假设2017年的4个月过完的时候还是如此。

6.2.3 基于“数据分析&产品运营”语境下的关联词分析

接下来进行的是基于Word Embedding的Word2vec词向量分析，将正文分词文本直接进行词向量模型训练，然后用来进行关联词分析。

Word2vec是Word Embedding(词嵌入)中的一种，是将文本进行词向量处理，将这些词汇映射到向量空间，变成一个个词向量（WordVector），以使这些词汇在便于被计算机识别和分析的同时，还具有语义上的关联性，而不仅仅是基于词汇之间的共现关系。

由此，通过Word2vec，我们可以查找到在“数据分析&产品运营”语境下的各个词汇的关联词。

先看看笔者最关心的“数据分析”，在“数据分析&产品运营”语境下有哪些词与之关联度最高，这里采用的method是’predict_output_word’，也就是把“数据分析”单个词当做语境，预测在“数据分析”语境下的关联词。（Report the probability distribution of the center word given the context words as input to the trainedmodel.）