首页 > 增长黑客 > 正文

数据驱动增长?别扯了,先解决数据从哪儿来

5daofeng2018-11-20 15:53:56阅读次数:15808

现在互联网上关于“增长黑客”的概念很火,它那“四两拨千斤”、“小投入大收益”的神奇法力令无数互联网从业者为之着迷。 一般来说,“增长黑客”主要依赖于企业的内部数据(如企业自身拥有的销售数据、用户数据、页面浏览数据等),以此为依据进行数据分析和推广策略拟定。但是,如果遇到如下几种情况,“增长黑客”就捉襟见肘了: 假如一家初创公司,自己刚起步,自身并没有还积累数据,怎么破? 就算有数据,但自己拥有的数据无...


从上面的条状图和环形图可以看出,“业界动态”这一栏目下的文章数量最多,为10,,452篇,占到了文章篇数总量的31.3%,其次是产品设计和产品运营,分别占到了总数的19.5%和16.87%,反倒是“产品经理”下的文章数量不多。


接下来,笔者统计了这10各栏目在过去的6年中的数量变化情况,如下面的热力图所示:


热力图


上面的热力图中,色块越深,对应的数值就越大,越浅则数值愈小。其中,互联网的“业界动态”一直是文章发布数量最多的栏目。


而“产品经理”的发文数量一路飙升(当然2017年还没过完),间接的可知该职位的热度(关注和写作偏好)蹭蹭的往上窜,成为“改变世界”、拿着高薪的产品经理,是无数互联网从业人员梦寐以求的工作。与此类似的是“产品运营”栏目,发文数量也在稳步上升。


另外,“产品设计”方面的文章主要集中在2012年,可以看出以“用户体验”、“UI设计”、“信息架构”和“需求规划”为主要活动的产品设计在2012年蓬勃发展,产生了大量基于实践经验的干货文章。


6.1.2 阅读数据分析


现在,笔者从“阅读量”、“点赞量”、“收藏量”、“正文字数”和“标题字数”这些能反映读者阅读偏好的数据着手,进行由浅入深的挖掘,从中发现阅读数据中的洞察。


在统计分析之前,先去掉若干有缺失值的数据,此时文本数据总量为33,394。


(1)文章数据的描述性分析


先对所有文章的各个维度进行描述性统计分析,获得这些数据的“初の印象”。


文章数据的描述性分析


上面的数据过多,为节省篇幅,笔者仅摘取部分数据进行解读:


从上表中,笔者发现,单篇文章阅读量的最大值是2,100,000!阅读数高得惊人!在后面的截图中,小伙伴们可以知晓具体是哪一篇文章如此之高的阅读热度。


读者的评论热情不高,绝大部分的文章没有评论,这可以从“平均值”、“中位数”和“标准差”这3项指标中看出。


绝大部分的文章字数不超过3000,篇幅短小精悍,当然大多数文章都有配图,写得太长,读者懒得看。


绝大部分的标题字数不超过20字,太短说不清楚,太长看着招人烦。


(2)文章聚类分析


在该部分,笔者选取 “阅读量”、“收藏量”、“评论量”、“标题字数”这4个维度作为此次聚类分析的特征(Feature),它们共同构造了一个四维空间,每一篇文章因其在这4个维度上的数值不同,在四维空间中形成一个个的点。


以下是由DBSCAN自动聚类形成的图像,因4维空间难以在现实中呈现,故以2维的形式进行展示。


文章聚类分析


从上图可以看出,此次聚类中,有少数的异常点,由上面的描述型分析可知,阅读量极大的那几篇文章的“嫌疑”最大,现在在源数据中“揪出”它们,游街示众,然后再“除掉”。

(编辑:5daofeng)
5daofeng
分享到:0