杨林波
- 作品数:3 被引量:9H指数:2
- 供职机构:江南大学信息工程学院更多>>
- 发文基金:教育部科学技术研究重点项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于边界可信度相似的快速文本分类方法被引量:3
- 2009年
- 类别的中心和边界是类别的重要特征.利用训练样本的中心和边界作为分类准则,提出了一种基于边界可信度相似的快速文本分类算法。通过类别边界可信度调整文本与类别的相似性,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高了分类性能。实验结果表明该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率。
- 杨林波王士同
- 关键词:文本分类相似度
- 一种结合层次结构和KNN的Web文本分类方法被引量:2
- 2009年
- 在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这一局限性,结合KNN的优越性能,提出了一种结合层次结构和KNN的Web文本分类方法.该方法通过建立层次结构模型(树形结构),分类时先从层次结构模型获得相似度最大的k0个类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法,最后由一种改进的相似度计算方法决定最终的所属类别.实验表明,结合层次结构和KNN的方法在Web文本分类中能够获得较好的分类效果.
- 吴春颖王士同杨林波
- 关键词:KNNWEB文本分类
- 基于类别分布特征的快速文本分类方法被引量:4
- 2009年
- 中心和边界是类别分布的重要特征。利用训练样本类别分布特征,提出了一种基于类别分布特征的快速文本分类算法。依据类别分布特征调整文本与类别的相似度,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高分类的性能。实验结果表明,该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率。
- 杨林波王士同
- 关键词:文本挖掘文本分类信息检索