首页 > 增长黑客 > 正文

数据驱动增长?别扯了,先解决数据从哪儿来

5daofeng2018-11-20 15:53:56阅读次数:12259

现在互联网上关于“增长黑客”的概念很火,它那“四两拨千斤”、“小投入大收益”的神奇法力令无数互联网从业者为之着迷。 一般来说,“增长黑客”主要依赖于企业的内部数据(如企业自身拥有的销售数据、用户数据、页面浏览数据等),以此为依据进行数据分析和推广策略拟定。但是,如果遇到如下几种情况,“增长黑客”就捉襟见肘了: 假如一家初创公司,自己刚起步,自身并没有还积累数据,怎么破? 就算有数据,但自己拥有的数据无...


首先,先从文本中“析出”若干主题,经过探索,10个主题的区分度正好。根据各个主题下的主题词特征,笔者将这10个主题归纳为 :“行业动态”、“电商运营”、“商业模式”、“产品运营”、“社交媒体”、“互金产品”、“数据运营”、“用户研究”、“产品设计”和“新媒体运营”。


同时,在数据处理的过程中,模型建立了作者(author)、主题(topic)及文档(document)之间的映射关联关系,以dict的形式保存数据。


模型训练完毕,先看看笔者自己的写作主题分布吧。值得注意的是,这里的文档数据经过甄选,并不是全部的文档数据,因此数量会少于网站上所看到的文章数。


上面的“Docs”中的元素是文章对应的文档ID编号按照时间顺序排列的,“Topics”中的元素有两列,一列代表主题,一列代表主题的权重大小。


很明显,笔者的写作主题主要集中在“数据运营”、“新媒体运营”和“用户研究”这3个主题上,有些直接从标题即可看出,有些“潜藏”在文章的正文论述之中。


接下来,根据上述作者的写作主题分布,笔者找出与他们写作相似度最高的作家,为保持准确度,笔者有一个限制条件—发文数量不小于3篇。


结果以表格的形式展示,主要的维度有“作者(Author)”、“相似度得分(Score)”和“文档数量(Size)”。


6.2.7 LSI相似标题索引


最后,笔者想通过文章标题之间的语义相似关系来找到相同主题的文章,而这种语义相关性不仅仅是字面上的(不包含相同的词汇,但其中的词含义相近)。利过LSI(Latent Semantic Index,潜在语义索引)就可以做到这一点。


通过“词袋模型(bag-of-words)”将语句映射到特定的Vector Space Model (VSM)中,比较语句向量化后的余弦夹角值(介于0-1之间),值越大,就代表相似度越高。详细的原理推导,小伙伴们可以自行Google脑补。


从标题中找出主题相似的文章,检索感兴趣的内容,不仅仅是通过关键词检索,潜在语义分析。


在这里,笔者先后对如下三篇文章进行LSI语义索引:


当数据分析遭遇心理动力学:用户深层次的情感需求浮出水面(万字长文,附实例分析)


万字干货|10款数据分析“工具”,助你成为新媒体运营领域的“增长黑客”


运营实操 | 如何用聚类分析进行企业公众号的内容优化


从索引结果可以看到,搜寻到的语句和原语句之间即使没有包含相同的词汇,但语义上是相关的,分别从属于4“用户研究”、“运营实操根据”和“内容运营”这三个话题。


结语


拿分析实践为例,在“数据分析”栏目中,采用上述分析手段,发现相关文章大都是理论型和设想型的论述,缺少真实的数据分析实例支撑,真正投入到实际工作中的效果也未可知。


同时,很多是常规的、基础性的数值型分析,介绍的工具则是Excel、SQL、SPSS,难以满足当今大数据背景下的数据分析实践。

(编辑:5daofeng)
5daofeng
分享到:0