沈崇玮
- 作品数:4 被引量:13H指数:3
- 供职机构:北京邮电大学计算机学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种改进的基于质心的文本分类算法被引量:3
- 2013年
- 文本分类是数据挖掘与信息检索领域的热点话题,近年来迅速发展。基于质心的方法是一种建模迅速且效果较好的文本分类方法,许多学者对该方法进行了深入研究并提出改进策略,不断提高算法效果。提出一种新的动态调整质心位置算法,该算法根据训练集中的每个样本文本动态的调整质心位置。并且针对海量数据处理瓶颈,运用当前两种并行计算框架MapReduce和BSP,提出了算法的并行策略。通过与其它算法在5种不同数据集中的对比实验,证明该方法确有较准确的分类效果。
- 陈震吴斌沈崇玮张忠辉王柏
- 关键词:文本分类并行计算
- 基于微博数据的用户影响力分析研究
- 近年来,随着互联网的飞速发展,网络已经成为人们日常生活中获取信息的主要渠道。微博作为近年来快速发展起来的网络新兴媒体,已积累上亿用户。微博平台包含信息量大,信息更新速度快,常常使用户淹没在信息的海洋,帮助用户找到影响力大...
- 沈崇玮
- 关键词:文本分析新词识别
- 一种改进的基于质心的文本分类算法
- 文本分类是数据挖掘与信息检索领域的热点话题,近年来迅速发展。基于质心的方法是一种建模迅速且效果较好的文本分类方法,许多学者对该方法进行了深入研究并提出改进策略,不断提高算法效果。本文提出了一种新的动态调整质心位置算法,该...
- 陈震吴斌沈崇玮张忠辉王柏
- 关键词:文本分类并行计算
- 基于领域划分的微博用户影响力分析被引量:7
- 2015年
- 近年来微博作为一种新兴的社交网络逐渐被广大用户使用。微博信息简短、更新迅速、包含信息量大,给微博用户获取信息带来了诸多不便,因此,利用影响力分析的手段找到具有较大影响力的微博用户具有重大意义。微博内容较传统的媒体信息具有较强的时效性和权威性,同时微博用语也极其不规范,这给微博用户影响力的分析带来了极大的困难。首先对获取的微博用户信息进行领域的划分,采用基于微博内容和用户关注的方式将用户归类到其所属的领域。其中,采用新词发现以及特征扩展的方法来提高划分结果的准确性。然后,对各个领域的用户进行影响力分析,提出3种影响力传播模型,用户最终的影响力大小根据3种模型的结果进行加权计算。最后对实验结果进行分析、比较,证明了计算用户影响力的方法能取得较优的结果。
- 刘金龙吴斌陈震沈崇玮
- 关键词:文本分析新词发现