首页 > 增长黑客 > 正文

数据驱动增长？别扯了，先解决数据从哪儿来

5daofeng•2018-11-20 15:53:56•阅读次数：12259

现在互联网上关于“增长黑客”的概念很火，它那“四两拨千斤”、“小投入大收益”的神奇法力令无数互联网从业者为之着迷。一般来说，“增长黑客”主要依赖于企业的内部数据（如企业自身拥有的销售数据、用户数据、页面浏览数据等），以此为依据进行数据分析和推广策略拟定。但是，如果遇到如下几种情况，“增长黑客”就捉襟见肘了：假如一家初创公司，自己刚起步，自身并没有还积累数据，怎么破？就算有数据，但自己拥有的数据无...

首先，先从文本中“析出”若干主题，经过探索，10个主题的区分度正好。根据各个主题下的主题词特征，笔者将这10个主题归纳为：“行业动态”、“电商运营”、“商业模式”、“产品运营”、“社交媒体”、“互金产品”、“数据运营”、“用户研究”、“产品设计”和“新媒体运营”。

同时，在数据处理的过程中，模型建立了作者（author）、主题（topic）及文档（document）之间的映射关联关系，以dict的形式保存数据。

模型训练完毕，先看看笔者自己的写作主题分布吧。值得注意的是，这里的文档数据经过甄选，并不是全部的文档数据，因此数量会少于网站上所看到的文章数。

上面的“Docs”中的元素是文章对应的文档ID编号按照时间顺序排列的，“Topics”中的元素有两列，一列代表主题，一列代表主题的权重大小。

很明显，笔者的写作主题主要集中在“数据运营”、“新媒体运营”和“用户研究”这3个主题上，有些直接从标题即可看出，有些“潜藏”在文章的正文论述之中。

接下来，根据上述作者的写作主题分布，笔者找出与他们写作相似度最高的作家，为保持准确度，笔者有一个限制条件—发文数量不小于3篇。

结果以表格的形式展示，主要的维度有“作者（Author）”、“相似度得分（Score）”和“文档数量（Size）”。

6.2.7 LSI相似标题索引

最后，笔者想通过文章标题之间的语义相似关系来找到相同主题的文章，而这种语义相关性不仅仅是字面上的（不包含相同的词汇，但其中的词含义相近）。利过LSI（Latent Semantic Index，潜在语义索引）就可以做到这一点。

通过“词袋模型（bag-of-words）”将语句映射到特定的Vector Space Model (VSM)中，比较语句向量化后的余弦夹角值（介于0-1之间），值越大，就代表相似度越高。详细的原理推导，小伙伴们可以自行Google脑补。

从标题中找出主题相似的文章，检索感兴趣的内容，不仅仅是通过关键词检索，潜在语义分析。

在这里，笔者先后对如下三篇文章进行LSI语义索引：

当数据分析遭遇心理动力学：用户深层次的情感需求浮出水面（万字长文，附实例分析）

万字干货｜10款数据分析“工具”，助你成为新媒体运营领域的“增长黑客”

运营实操 | 如何用聚类分析进行企业公众号的内容优化

从索引结果可以看到，搜寻到的语句和原语句之间即使没有包含相同的词汇，但语义上是相关的，分别从属于4“用户研究”、“运营实操根据”和“内容运营”这三个话题。

结语

拿分析实践为例，在“数据分析”栏目中，采用上述分析手段，发现相关文章大都是理论型和设想型的论述，缺少真实的数据分析实例支撑，真正投入到实际工作中的效果也未可知。

同时，很多是常规的、基础性的数值型分析，介绍的工具则是Excel、SQL、SPSS，难以满足当今大数据背景下的数据分析实践。

<<<1 2 3 4 5 6 7 8 9 10 11 >>>

(编辑：5daofeng)

5daofeng

分享到：

推荐资讯

最新资讯

联系爱运营

敬请关注网站运营官方微信（iyunyingorg），随时交流运营知识。

网站运营