余璇
- 作品数:3 被引量:7H指数:1
- 供职机构:上海海事大学信息工程学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于词加权LDA模型的专利文献分类方法被引量:5
- 2019年
- 传统的主题模型在进行文本分类时,特征词多选取统计规律下的高频词,而在专利文献分类中,多数专业词汇往往被高频词所淹没,造成主题模型在专利文献分类的准确率不高。对此,提出一种基于词加权的有监督LDA主题模型用于专利文献的分类。从专业词与高频词的共现关系出发,利用KeyGraph算法选取特征表征能力更优的关键词,再利用互信息函数计算各关键词权重,建立专业词字典。在此基础上,建立一个有监督的LDA模型,将词加权扩展至LDA模型,并采用Gibbs Sampling进行参数估计。在专利文献上进行分类实验,与LDA模型及其两种变型模型相比,该模型分类准确率分别平均提高了4.62%、3.74%和3.26%。表明该模型选取的高区分度的专业词汇与主题关联度更高,分类效率和准确率均有明显提高。
- 孙伟刘文静葛丽阁余璇
- 关键词:LDA
- 基于互信息的文本分类改进方法研究被引量:1
- 2017年
- 传统的LDA主题模型没有考虑词频对主题分类的影响,使得主题分布向高频词倾斜。为了综合考虑词频和主题间的相关性,文中利用互信息能够表达变量间相关性的特点,在互信息基础上改进作为特征选择方法,利用评价函数评价特征词的权重值改进LDA算法分类过程,提高对主题分类贡献度高的特征词的作用。通过在新闻语料库上的分类实验证明了该方法的有效性,同时表明分类的准确率也有所提高。
- 余璇孙伟张翔
- 关键词:主题模型词频互信息
- 基于LDA模型的音频分类方法被引量:1
- 2017年
- 随着网络的发展海量音频文件涌现,音频分类系统也越来越普及。音频分类,尤其是语音和音乐的分类是提取音频结构和内容语义的重要手段,是基于内容的音频检索和分析的基础。介绍一种基于音频内容根据音频内容间的相似度对音频进行分类的方法。用每个音频的音高集代表该音频文件,以LDA主题模型对音频进行分类。
- 张翔孙伟余璇
- 关键词:相似度音频内容音高