基于LDA的公共文化主题提取与演化分析Extraction and Evolution Analysis of Public Culture Topic Based on LDA Model
刘仕阳,化柏林
摘要(Abstract):
[目的/意义]当前公共文化活动丰富多彩、各种新举措层出不穷,如何快速全面地了解公共文化发展的各类模式、最新动态,成为公共文化领域需要解决的一个问题。[方法/过程]采用scrapy爬虫获取各省级图书馆、文化馆官网所发布的活动资讯和新闻报道文本,经过预处理后对文本进行分词并使用TF-IDF算法提取关键词,结合LDA主题模型进行主题建模并分类。根据主题分类结果对所有文档进行主题标注,从时间和空间维度对文档主题进行统计分析和可视化展示。[结果/结论]从时间上看,个别主题近年来逐渐成为热点,相关新闻活动数量迅速增长;从省域分布角度来看,各省所反映的主题具有较强的差异性。
关键词(KeyWords): 公共文化服务;TF-IDF;LDA主题模型;主题演化;官网信息
基金项目(Foundation): 文化和旅游部重点实验室项目“公共文化智慧化模式聚类与动态展示系统研究”(项目编号:2020008)阶段研究成果之一
作者(Author): 刘仕阳,化柏林
参考文献(References):
- [1]杨林,王璐.公共文化服务的研究进展——基于共词聚类与战略坐标法的文献计量分析[J].经济与管理评论,2017,33(6):5-13.
- [2]李少惠,赵军义.公共文化服务研究的热点主题与演化路径分析[J].图书与情报,2017(4):122-129,71.
- [3]刘宇,周建新.公共文化服务与文化产业的协调发展分析——基于31个省域面板数据的实证[J].江西社会科学,2020,40(3):72-84.
- [4]王平,洪瑾.基于内容分析法的我国公共文化服务政策发展趋势研究[J].知识管理论坛,2018,3(5):35-50.
- [5]李少惠,王婷.我国公共文化服务政策的演进脉络与结构特征——基于139份政策文本的实证分析[J].山东大学学报(哲学社会科学版),2019(2):57-67.
- [6]曹树金,刘慧云,王雨.我国公共文化服务政策演进(2009-2018)[J].图书馆论坛,2019,39(9):39-47.
- [7]刘炜,张奇,张喆昱.大数据创新公共文化服务研究[J].图书馆建设,2016(3):4-8.
- [8]李广建,化柏林.公共文化服务大数据研究的体系与内容[J].图书馆论坛,2018,38(7):62-71.
- [9]曹健,秦荣环,孙会清,等.基于Hadoop的高校图书馆数字资源整合利用研究[J].图书馆工作与研究,2018(3):74-78,101.
- [10]曹磊,马春.国内外公共文化大数据应用实践研究[J].图书馆杂志,2015,34(12):9-15.
- [11]张智雄.信息抽取技术及其在数字图书馆中的应用前景分析[J].数据分析与知识发现,2004,20(6):1-5.
- [12]毕崇武,王忠义,宋红文.基于知识元的数字图书馆多粒度集成知识服务研究[J].图书情报工作,2017(4).
- [13]牟冬梅,陈倩,王丽伟.基于语义模型的数字图书馆知识组织信息抽取策略[J].图书情报工作,2009,53(15):21-25.
- [14]Jing L P,Huang H K,Shi H B.Improved Feature Selection Approach TFIDF in Text Mining[C]// Proceedings of International Conference on Machine Learning and Cybernetics,2002.[2021-01-20].https://ieeexplore.ieee.org/document/1174522.
- [15]李昌兵,庞崇鹏,李美平.基于权重的Apriori算法在文本统计特征提取方法中的应用[J].数据分析与知识发现,2017(9):88-94.
- [16]张韦.基于语义的Web主题提取的研究[J].中国电子商务,2011(10):20-21.
- [17]Blei D M,Ng A Y,Jordan M I,et al.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003(3):993-1022.
- [18]Blei D M,Lafferty J D.Correlated Topic Models[C]// Advances in Neural Information Processing Systems.MIT Press,2005.
- [19]Lambiotte R,Delvenne J C,Barahona M.Laplacian Dynamics and Multiscale Modular Structure in Networks[J/OL].[2021-01-20].https://arxiv.org/pdf/0812.1770v3.pdf.
- [20]Genism.Gensim教程[EB/OL].[2021-01-20].http://radimrehurek.com/gensim/auto_examples/tutorials/run_lda.html.
- [21]Asuncion A U,Welling M,Smyth P,et al.On Smoothing and Inference for Topic Models[C]// Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence,Montreal,QC,Canada,June 18-21,2009.AUAI Press,2009.
- [22]R?der M,Both A,Hinneburg A.Exploring the space of topic coherence measures[C]//Proceedings of the Eighth ACM International Conference on Web Search and Data Mining,2015:99-408.[2021-01-20].https://dl.acm.org/doi/10.1145/2684822.2685324.
- [23]Machine Learning Plus.主题模型教程[EB/OL].[2021-01-20].http://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/.