5daofeng•2018-11-20 15:53:56•阅读次数:15804
正式分析之前,先对保存在Excel中的文本数据做一定的预处理,使用“乾坤大挪移”,将Excel中的文本数据按年份一条条的归到不同的文件夹下面,具体步骤如下图所示:
文本数据按年份
做好预处理后,进行正式的Bicluster文本聚类,结果如下:
Bicluster文本聚类
上面的分析结果中,Bicluster1的话题区分度不明显,且仅包含2个文档和16个关键词,所以排除掉这个主题,仅留下其他5个主题,排除噪声,从这些子话题中的主要关键词来归纳其要旨。
为了看得更清楚,笔者将这些数据整理成二维表格的形式:
二维表格
从上表可以看出,“数据分析&产品运营”下的子话题中,涉及“新媒体运营”的内容最多,占到文档总量的35.62%,其次是“APP运营”和“智能硬件”方面的话题,分别占到文档总量的23.72%和19.6%。而“数据分析”话题下的文档数最少。
将子话题和年份进行交叉分析,可以从中了解到各个子话题在各年份的信息分布量,从某种意义上讲,也就是话题热度。
从上表可以看到,“智能硬件”的子话题在2012和2013年的热度最高,而“APP运营”和“数据分析”在2016和2017年开始火了起来,而“新媒体运营”在近3年也是风光无限。
而单独从2016年来看,除了“智能硬件”方面的话题不火外,其他三个话题均有较高的热度,达到了近5年来热度峰值,看来2016年是个特殊的年份。
总体上,除了“智能硬件”这个子话题外,其他3个子话题热度都呈现出不断上升的趋势,当然,笔者假设2017年的4个月过完的时候还是如此。
6.2.3 基于“数据分析&产品运营”语境下的关联词分析
接下来进行的是基于Word Embedding的Word2vec词向量分析,将正文分词文本直接进行词向量模型训练,然后用来进行关联词分析。
Word2vec是Word Embedding(词嵌入)中的一种,是将文本进行词向量处理,将这些词汇映射到向量空间,变成一个个词向量(WordVector),以使这些词汇在便于被计算机识别和分析的同时,还具有语义上的关联性,而不仅仅是基于词汇之间的共现关系。
由此,通过Word2vec,我们可以查找到在“数据分析&产品运营”语境下的各个词汇的关联词。
先看看笔者最关心的“数据分析”,在“数据分析&产品运营”语境下有哪些词与之关联度最高,这里采用的method是’predict_output_word’,也就是把“数据分析”单个词当做语境,预测在“数据分析”语境下的关联词。(Report the probability distribution of the center word given the context words as input to the trainedmodel.)
预测在“数据分析”语境下的关联词
在这种情况下,“数据分析”与自身的关联度不是1了,因为它可能在一段话里出现两次。