首页 > 增长黑客 > 正文

数据驱动增长？别扯了，先解决数据从哪儿来

5daofeng•2018-11-20 15:53:56•阅读次数：12262

现在互联网上关于“增长黑客”的概念很火，它那“四两拨千斤”、“小投入大收益”的神奇法力令无数互联网从业者为之着迷。一般来说，“增长黑客”主要依赖于企业的内部数据（如企业自身拥有的销售数据、用户数据、页面浏览数据等），以此为依据进行数据分析和推广策略拟定。但是，如果遇到如下几种情况，“增长黑客”就捉襟见肘了：假如一家初创公司，自己刚起步，自身并没有还积累数据，怎么破？就算有数据，但自己拥有的数据无...

从上面的条状图和环形图可以看出，“业界动态”这一栏目下的文章数量最多，为10,,452篇，占到了文章篇数总量的31.3%，其次是产品设计和产品运营，分别占到了总数的19.5%和16.87%，反倒是“产品经理”下的文章数量不多。

接下来，笔者统计了这10各栏目在过去的6年中的数量变化情况，如下面的热力图所示：

热力图

上面的热力图中，色块越深，对应的数值就越大，越浅则数值愈小。其中，互联网的“业界动态”一直是文章发布数量最多的栏目。

而“产品经理”的发文数量一路飙升（当然2017年还没过完），间接的可知该职位的热度（关注和写作偏好）蹭蹭的往上窜，成为“改变世界”、拿着高薪的产品经理，是无数互联网从业人员梦寐以求的工作。与此类似的是“产品运营”栏目，发文数量也在稳步上升。

另外，“产品设计”方面的文章主要集中在2012年，可以看出以“用户体验”、“UI设计”、“信息架构”和“需求规划”为主要活动的产品设计在2012年蓬勃发展，产生了大量基于实践经验的干货文章。

6.1.2 阅读数据分析

现在，笔者从“阅读量”、“点赞量”、“收藏量”、“正文字数”和“标题字数”这些能反映读者阅读偏好的数据着手，进行由浅入深的挖掘，从中发现阅读数据中的洞察。

在统计分析之前，先去掉若干有缺失值的数据，此时文本数据总量为33,394。

（1）文章数据的描述性分析

先对所有文章的各个维度进行描述性统计分析，获得这些数据的“初の印象”。

文章数据的描述性分析

上面的数据过多，为节省篇幅，笔者仅摘取部分数据进行解读：

从上表中，笔者发现，单篇文章阅读量的最大值是2,100,000！阅读数高得惊人！在后面的截图中，小伙伴们可以知晓具体是哪一篇文章如此之高的阅读热度。

读者的评论热情不高，绝大部分的文章没有评论，这可以从“平均值”、“中位数”和“标准差”这3项指标中看出。

绝大部分的文章字数不超过3000，篇幅短小精悍，当然大多数文章都有配图，写得太长，读者懒得看。

绝大部分的标题字数不超过20字，太短说不清楚，太长看着招人烦。

（2）文章聚类分析

在该部分，笔者选取 “阅读量”、“收藏量”、“评论量”、“标题字数”这4个维度作为此次聚类分析的特征（Feature），它们共同构造了一个四维空间，每一篇文章因其在这4个维度上的数值不同，在四维空间中形成一个个的点。

以下是由DBSCAN自动聚类形成的图像，因4维空间难以在现实中呈现，故以2维的形式进行展示。

文章聚类分析

从上图可以看出，此次聚类中，有少数的异常点，由上面的描述型分析可知，阅读量极大的那几篇文章的“嫌疑”最大，现在在源数据中“揪出”它们，游街示众，然后再“除掉”。

<<<1 2 3 4 5 6 7 8 9 10 11 >>>

(编辑：5daofeng)

5daofeng

分享到：

推荐资讯

最新资讯

联系爱运营

敬请关注网站运营官方微信（iyunyingorg），随时交流运营知识。

网站运营