首页 > 增长黑客 > 正文

数据驱动增长?别扯了,先解决数据从哪儿来

5daofeng2018-11-20 15:53:56阅读次数:15804

现在互联网上关于“增长黑客”的概念很火,它那“四两拨千斤”、“小投入大收益”的神奇法力令无数互联网从业者为之着迷。 一般来说,“增长黑客”主要依赖于企业的内部数据(如企业自身拥有的销售数据、用户数据、页面浏览数据等),以此为依据进行数据分析和推广策略拟定。但是,如果遇到如下几种情况,“增长黑客”就捉襟见肘了: 假如一家初创公司,自己刚起步,自身并没有还积累数据,怎么破? 就算有数据,但自己拥有的数据无...


正式分析之前,先对保存在Excel中的文本数据做一定的预处理,使用“乾坤大挪移”,将Excel中的文本数据按年份一条条的归到不同的文件夹下面,具体步骤如下图所示:


文本数据按年份


做好预处理后,进行正式的Bicluster文本聚类,结果如下:


Bicluster文本聚类


上面的分析结果中,Bicluster1的话题区分度不明显,且仅包含2个文档和16个关键词,所以排除掉这个主题,仅留下其他5个主题,排除噪声,从这些子话题中的主要关键词来归纳其要旨。


为了看得更清楚,笔者将这些数据整理成二维表格的形式:


二维表格


从上表可以看出,“数据分析&产品运营”下的子话题中,涉及“新媒体运营”的内容最多,占到文档总量的35.62%,其次是“APP运营”和“智能硬件”方面的话题,分别占到文档总量的23.72%和19.6%。而“数据分析”话题下的文档数最少。


将子话题和年份进行交叉分析,可以从中了解到各个子话题在各年份的信息分布量,从某种意义上讲,也就是话题热度。


从上表可以看到,“智能硬件”的子话题在2012和2013年的热度最高,而“APP运营”和“数据分析”在2016和2017年开始火了起来,而“新媒体运营”在近3年也是风光无限。


而单独从2016年来看,除了“智能硬件”方面的话题不火外,其他三个话题均有较高的热度,达到了近5年来热度峰值,看来2016年是个特殊的年份。


总体上,除了“智能硬件”这个子话题外,其他3个子话题热度都呈现出不断上升的趋势,当然,笔者假设2017年的4个月过完的时候还是如此。


6.2.3 基于“数据分析&产品运营”语境下的关联词分析


接下来进行的是基于Word Embedding的Word2vec词向量分析,将正文分词文本直接进行词向量模型训练,然后用来进行关联词分析。


Word2vec是Word Embedding(词嵌入)中的一种,是将文本进行词向量处理,将这些词汇映射到向量空间,变成一个个词向量(WordVector),以使这些词汇在便于被计算机识别和分析的同时,还具有语义上的关联性,而不仅仅是基于词汇之间的共现关系。


由此,通过Word2vec,我们可以查找到在“数据分析&产品运营”语境下的各个词汇的关联词。


先看看笔者最关心的“数据分析”,在“数据分析&产品运营”语境下有哪些词与之关联度最高,这里采用的method是’predict_output_word’,也就是把“数据分析”单个词当做语境,预测在“数据分析”语境下的关联词。(Report the probability distribution of the center word given the context words as input to the trainedmodel.)


预测在“数据分析”语境下的关联词


在这种情况下,“数据分析”与自身的关联度不是1了,因为它可能在一段话里出现两次。

(编辑:5daofeng)
5daofeng
分享到:0