首页 > 增长黑客 > 正文

数据驱动增长?别扯了,先解决数据从哪儿来

5daofeng2018-11-20 15:53:56阅读次数:12269

现在互联网上关于“增长黑客”的概念很火,它那“四两拨千斤”、“小投入大收益”的神奇法力令无数互联网从业者为之着迷。 一般来说,“增长黑客”主要依赖于企业的内部数据(如企业自身拥有的销售数据、用户数据、页面浏览数据等),以此为依据进行数据分析和推广策略拟定。但是,如果遇到如下几种情况,“增长黑客”就捉襟见肘了: 假如一家初创公司,自己刚起步,自身并没有还积累数据,怎么破? 就算有数据,但自己拥有的数据无...


词汇分散图


从上图可以看出,在近4,500,000词汇量的文本中,“运营”、“微博”和“电商”在近6年里的提及次数极高,中间的间隙较少,贯穿始终,它们是作家谈论最多的三个词汇/话题。像“新媒体”、“微信公众号”、“用户运营”、“社群”等词汇,在头两年的提及热度不高,但后来居上,提及量呈现逐渐上涨的趋势。


而“BI”、“CRM”在近六年内呈零星分布,提及量较少,在“产品运营&数据分析”栏目中属于冷门话题。


6.2.5 利用DTM模型(Dynamic Topic Models )分析主题下的热点变迁


上面的分析是针对某个词汇的时间动态分析,这里笔者要分析的是某个话题随时间的变迁情况(This implements topics that change over time)。


笔者运用的模型是DTM模型 (Dynamic Topic Models ),它是“概率主题模型”家族中的一员,用于对语料库中主题演变进行建模。


它基于这样的假设:


蕴含时间因素的主题,尽管它包含的关键词会随着时间的变化而产生相应的变化,但它如构成要素不断更新换代的“忒修斯之船(The Ship of Theseus)”一般,即使同一主题下的开端和末尾中的主题词没有一个是相同的,但还是原先的主题,保留有相同的语境。(By having a time-basedelement to topics, context is preserved while key-words may change.)


首先,从“产品运营&数据分析”中“解析”出如下6个子话题,它们是“运营”、“商业模式”、“流量运营&数据分析”、“品牌营销&数据分析”、“电商运营”和“内容运营”,如下表所示:


产品运营&数据分析


笔者对Topic2,也就是“流量运营&数据分析”在2012.05~2017.07间的话题变迁情况感兴趣,于是将这6年间出现的主题词重新整合,制成下面的热力图:


热力图


上图中纵轴是主题词,横轴是年份,颜色由浅入深代表数值的由小到大。从中可以明显的看出,“流量运营&数据分析”子话题下的“数据”、“数据分析”、“运营”和“业务”在该话题中始终处于“核心地位”,保持较高且稳定的word_prob值。


而“渠道”、“游戏”、“互金”在近3年的word_prob值有了较大的提升,说明社区的作者在近期比较关注这3个主题词所代表的领域,间接表明它们在互联网中的话题热度呈现上升趋势。


6.2.6 利用ATM模型(Author-TopicModel)分析作家写作主题分布


在这个版块,笔者想了解“人人都是产品经理”上作家的写作主题,分析某些牛X作家喜欢写哪方面的文章(比如“产品运营”、“数据分析”、“新媒体运营”等)写作了啥,主题相似度的作者有哪些。


为此,笔者采用了ATM模型进行分析,注意,这不是自动取款机的缩写,而是author-topic model:


ATM模型(author-topic model)也是“概率主题模型”家族的一员,是LDA主题模型(Latent Dirichlet Allocation )的拓展,它能对某个语料库中作者的写作主题进行分析,找出某个作家的写作主题倾向,以及找到具有同样写作倾向的作家,它是一种新颖的主题探索方式。

(编辑:5daofeng)
5daofeng
分享到:0