5daofeng•2018-11-20 15:53:56•阅读次数:15806
首先,先从文本中“析出”若干主题,经过探索,10个主题的区分度正好。根据各个主题下的主题词特征,笔者将这10个主题归纳为 :“行业动态”、“电商运营”、“商业模式”、“产品运营”、“社交媒体”、“互金产品”、“数据运营”、“用户研究”、“产品设计”和“新媒体运营”。
同时,在数据处理的过程中,模型建立了作者(author)、主题(topic)及文档(document)之间的映射关联关系,以dict的形式保存数据。
模型训练完毕,先看看笔者自己的写作主题分布吧。值得注意的是,这里的文档数据经过甄选,并不是全部的文档数据,因此数量会少于网站上所看到的文章数。
上面的“Docs”中的元素是文章对应的文档ID编号按照时间顺序排列的,“Topics”中的元素有两列,一列代表主题,一列代表主题的权重大小。
很明显,笔者的写作主题主要集中在“数据运营”、“新媒体运营”和“用户研究”这3个主题上,有些直接从标题即可看出,有些“潜藏”在文章的正文论述之中。
接下来,根据上述作者的写作主题分布,笔者找出与他们写作相似度最高的作家,为保持准确度,笔者有一个限制条件—发文数量不小于3篇。
结果以表格的形式展示,主要的维度有“作者(Author)”、“相似度得分(Score)”和“文档数量(Size)”。
6.2.7 LSI相似标题索引
最后,笔者想通过文章标题之间的语义相似关系来找到相同主题的文章,而这种语义相关性不仅仅是字面上的(不包含相同的词汇,但其中的词含义相近)。利过LSI(Latent Semantic Index,潜在语义索引)就可以做到这一点。
通过“词袋模型(bag-of-words)”将语句映射到特定的Vector Space Model (VSM)中,比较语句向量化后的余弦夹角值(介于0-1之间),值越大,就代表相似度越高。详细的原理推导,小伙伴们可以自行Google脑补。
从标题中找出主题相似的文章,检索感兴趣的内容,不仅仅是通过关键词检索,潜在语义分析。
在这里,笔者先后对如下三篇文章进行LSI语义索引:
当数据分析遭遇心理动力学:用户深层次的情感需求浮出水面(万字长文,附实例分析)
万字干货|10款数据分析“工具”,助你成为新媒体运营领域的“增长黑客”
运营实操 | 如何用聚类分析进行企业公众号的内容优化
从索引结果可以看到,搜寻到的语句和原语句之间即使没有包含相同的词汇,但语义上是相关的,分别从属于4“用户研究”、“运营实操根据”和“内容运营”这三个话题。
结语
拿分析实践为例,在“数据分析”栏目中,采用上述分析手段,发现相关文章大都是理论型和设想型的论述,缺少真实的数据分析实例支撑,真正投入到实际工作中的效果也未可知。
同时,很多是常规的、基础性的数值型分析,介绍的工具则是Excel、SQL、SPSS,难以满足当今大数据背景下的数据分析实践。