5daofeng•2018-11-20 15:53:56•阅读次数:12269
词汇分散图
从上图可以看出,在近4,500,000词汇量的文本中,“运营”、“微博”和“电商”在近6年里的提及次数极高,中间的间隙较少,贯穿始终,它们是作家谈论最多的三个词汇/话题。像“新媒体”、“微信公众号”、“用户运营”、“社群”等词汇,在头两年的提及热度不高,但后来居上,提及量呈现逐渐上涨的趋势。
而“BI”、“CRM”在近六年内呈零星分布,提及量较少,在“产品运营&数据分析”栏目中属于冷门话题。
6.2.5 利用DTM模型(Dynamic Topic Models )分析主题下的热点变迁
上面的分析是针对某个词汇的时间动态分析,这里笔者要分析的是某个话题随时间的变迁情况(This implements topics that change over time)。
笔者运用的模型是DTM模型 (Dynamic Topic Models ),它是“概率主题模型”家族中的一员,用于对语料库中主题演变进行建模。
它基于这样的假设:
蕴含时间因素的主题,尽管它包含的关键词会随着时间的变化而产生相应的变化,但它如构成要素不断更新换代的“忒修斯之船(The Ship of Theseus)”一般,即使同一主题下的开端和末尾中的主题词没有一个是相同的,但还是原先的主题,保留有相同的语境。(By having a time-basedelement to topics, context is preserved while key-words may change.)
首先,从“产品运营&数据分析”中“解析”出如下6个子话题,它们是“运营”、“商业模式”、“流量运营&数据分析”、“品牌营销&数据分析”、“电商运营”和“内容运营”,如下表所示:
产品运营&数据分析
笔者对Topic2,也就是“流量运营&数据分析”在2012.05~2017.07间的话题变迁情况感兴趣,于是将这6年间出现的主题词重新整合,制成下面的热力图:
热力图
上图中纵轴是主题词,横轴是年份,颜色由浅入深代表数值的由小到大。从中可以明显的看出,“流量运营&数据分析”子话题下的“数据”、“数据分析”、“运营”和“业务”在该话题中始终处于“核心地位”,保持较高且稳定的word_prob值。
而“渠道”、“游戏”、“互金”在近3年的word_prob值有了较大的提升,说明社区的作者在近期比较关注这3个主题词所代表的领域,间接表明它们在互联网中的话题热度呈现上升趋势。
6.2.6 利用ATM模型(Author-TopicModel)分析作家写作主题分布
在这个版块,笔者想了解“人人都是产品经理”上作家的写作主题,分析某些牛X作家喜欢写哪方面的文章(比如“产品运营”、“数据分析”、“新媒体运营”等)写作了啥,主题相似度的作者有哪些。
为此,笔者采用了ATM模型进行分析,注意,这不是自动取款机的缩写,而是author-topic model:
ATM模型(author-topic model)也是“概率主题模型”家族的一员,是LDA主题模型(Latent Dirichlet Allocation )的拓展,它能对某个语料库中作者的写作主题进行分析,找出某个作家的写作主题倾向,以及找到具有同样写作倾向的作家,它是一种新颖的主题探索方式。