5daofeng•2018-11-20 15:53:56•阅读次数:15808
从上面的条状图和环形图可以看出,“业界动态”这一栏目下的文章数量最多,为10,,452篇,占到了文章篇数总量的31.3%,其次是产品设计和产品运营,分别占到了总数的19.5%和16.87%,反倒是“产品经理”下的文章数量不多。
接下来,笔者统计了这10各栏目在过去的6年中的数量变化情况,如下面的热力图所示:
热力图
上面的热力图中,色块越深,对应的数值就越大,越浅则数值愈小。其中,互联网的“业界动态”一直是文章发布数量最多的栏目。
而“产品经理”的发文数量一路飙升(当然2017年还没过完),间接的可知该职位的热度(关注和写作偏好)蹭蹭的往上窜,成为“改变世界”、拿着高薪的产品经理,是无数互联网从业人员梦寐以求的工作。与此类似的是“产品运营”栏目,发文数量也在稳步上升。
另外,“产品设计”方面的文章主要集中在2012年,可以看出以“用户体验”、“UI设计”、“信息架构”和“需求规划”为主要活动的产品设计在2012年蓬勃发展,产生了大量基于实践经验的干货文章。
6.1.2 阅读数据分析
现在,笔者从“阅读量”、“点赞量”、“收藏量”、“正文字数”和“标题字数”这些能反映读者阅读偏好的数据着手,进行由浅入深的挖掘,从中发现阅读数据中的洞察。
在统计分析之前,先去掉若干有缺失值的数据,此时文本数据总量为33,394。
(1)文章数据的描述性分析
先对所有文章的各个维度进行描述性统计分析,获得这些数据的“初の印象”。
文章数据的描述性分析
上面的数据过多,为节省篇幅,笔者仅摘取部分数据进行解读:
从上表中,笔者发现,单篇文章阅读量的最大值是2,100,000!阅读数高得惊人!在后面的截图中,小伙伴们可以知晓具体是哪一篇文章如此之高的阅读热度。
读者的评论热情不高,绝大部分的文章没有评论,这可以从“平均值”、“中位数”和“标准差”这3项指标中看出。
绝大部分的文章字数不超过3000,篇幅短小精悍,当然大多数文章都有配图,写得太长,读者懒得看。
绝大部分的标题字数不超过20字,太短说不清楚,太长看着招人烦。
(2)文章聚类分析
在该部分,笔者选取 “阅读量”、“收藏量”、“评论量”、“标题字数”这4个维度作为此次聚类分析的特征(Feature),它们共同构造了一个四维空间,每一篇文章因其在这4个维度上的数值不同,在四维空间中形成一个个的点。
以下是由DBSCAN自动聚类形成的图像,因4维空间难以在现实中呈现,故以2维的形式进行展示。
文章聚类分析
从上图可以看出,此次聚类中,有少数的异常点,由上面的描述型分析可知,阅读量极大的那几篇文章的“嫌疑”最大,现在在源数据中“揪出”它们,游街示众,然后再“除掉”。