搜索到3077篇“ 中文文本“的相关文章
中文文本拼写纠错研究综述
2025年
中文文本拼写纠错(Chinese Spelling Correction,CSC)在自然语言处理(NLP)领域是一个关键的基础任务,可为其下游任务和研究提供支持。CSC任务领域的研究持续发展,主要分为基于N-Gram语言模型、深度学习和大语言模型的纠错方法。首先对N-Gram语言模型的特性和在文拼写纠错的应用进行了分析,揭示了其在捕捉上下文信息方面的优势。其次基于深度学习的方法通过深度神经网络提高了纠错的准确性,并被广泛应用于中文文本处理。同时,大语言模型的兴起为拼写纠错提供了新的思路,展示了其在处理复杂语言现象的巨大潜力。该综述对中文文本拼写纠错领域的研究现状进行了详细的阐述,为从事相关研究人员提供参考。
沈友志程春雷句泽东龚著凡
关键词:中文文本N-GRAM语言模型
一种中文文本语义解析与重构系统
发明公开了一种中文文本语义解析与重构系统,包括:文预处理模块用于生成文向量,字体查询模块用于处理概念相关度查询和词项的概念判断,以支撑查询语义扩展和概念检索的需求,语义资源模块用于对同义词词林资源进行包装,回应有关...
吕志坚徐冠宁熊蕊杜丽萍李瑛何余良
一种中文文本情感分类方法及装置
发明公开了一种中文文本情感分类方法及装置,用于解决现有的中文文本情感分类方法导致分类效果不佳的技术问题。发明包括获取待检测中文文本,并基于预置文处理工具,对待检测中文文本进行预处理,输出目标文;基于目标文,确定...
叶武剑杨泽朋刘怡俊
一种保护隐私的中文文本模糊搜索方法
发明属于隐私计算技术领域,提出了一种保护隐私的中文文本模糊搜索方法,包括如下步骤:步骤1、查询方把查询关键字拆分成单字集合和分词集合,且忽略星号关键字“*”,数据方将每条记录文拆分成单字集合和分词集合;步骤2、进行单...
杜丽刘伟朱笛郑吉毛建辉黄淇高文亮廖建华张兴魏源覃艺刘丹
ERNIE和序列标注结合的中文文本检错纠错
2025年
针对中文文本检错纠错研究任务,提出了基于知识增强的自然语言表示模型(enhanced representation through knowledge integration, ERNIE)与序列标注结合的中文文本检错纠错模型。该模型由检错和纠错两部分组成,检错阶段ERNIE使用全局注意力机制进行词向量编码输入到BiLSTM-CRF序列标注模型,双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)提取上下文的信息进行拼接生成双向的词向量,再通过条件随机场(conditional random field, CRF)计算联合概率增加对邻近词标签的依赖性优化整个序列,从而解决标注偏置等问题给出的错误标注。纠错阶段根据检错模型输出的结果采用不同策略分类纠错,将标注为错字、缺字的错误使用ERNIE掩码语言模型和混淆集匹配进行预测,对多字、乱序错误直接纠正。实验结果表明,引入序列标注根据错误类型进行分类纠错有效提升了纠错率,在SIGHAN数据集上测试F1达到了81.8%。
左壮壮王法玉陈洪涛
关键词:条件随机场
一种基于束搜索的中文文本对抗攻击方法
发明提供一种基于束搜索的中文文本对抗攻击方法,属于自然语言处理领域,该方法包括获取对抗样攻击的文数据集;对中文文本进行分词;随后对分词后的文使用文的字形、拼音、同义词等进行扰动,从而增强对抗样的语义保留性;最...
古天龙卿高军郝峰锐常亮
一种基于深度学习的中文文本语义压缩方法
一种基于深度学习的中文文本语义压缩方法,对于输入的一篇中文文本,经过系统模型,能够最大程度上压缩其语义。发明结合了双向长短期记忆网络(Bi‑LSTM)以及自注意力机制(Self‑Attention)优势,极大程度上改善...
钱丽萍钱江王寅生吴湾湾王倩
一种基于相似度进行中文文本纠错的实现方法
发明提供了一种基于相似度进行中文文本纠错的实现方法,其特征在于,包括如下步骤:进行词库编译;利用编译好的词库,使用字哈希对待检测文进行标记,得到一个待检测文对应的序列,记录id;使用双字哈希对序列进行计算处理,找出...
王宁张发雨孟奥党章王伦冯立二吴兴龙杨正云
特定中文文本合理性检测模型的构建方法和装置
公开的实施例提供一种特定中文文本合理性检测模型的构建方法和装置,该模型构建方法包括:根据两种不同粒度对已有的特定中文文本数据进行分词,构建先验知识词组库;基于先验知识词组库构建包含不同形式的目标函数的假设空间;通过最小...
陈正中刘丽钦袁晓娟刘丰恺魏明月王璐张世永张东雪远远李晨宇
一种中文文本的事件因果关系识别方法、装置及设备
说明书实施例涉及文处理技术领域,尤其涉及一种中文文本的事件因果关系识别方法、装置及设备。方案通过获取待识别的中文文本进行逐字识别并标注,通过采用新的编码方式对中文文本每个词进行编码,生成文编码,然后通过卷积神经...
刘小龙王晓燕孙福辉郭新刚苏航陈静古松原胡咏

相关作者

刘怀亮
作品数:88被引量:544H指数:13
供职机构:西安电子科技大学
研究主题:文本分类 复杂网络 维基百科 中文文本 语义
张雪英
作品数:104被引量:694H指数:17
供职机构:南京师范大学
研究主题:地理 中文文本 大数据 知识图谱 地理信息系统
张顺香
作品数:178被引量:123H指数:6
供职机构:安徽理工大学计算机科学与工程学院
研究主题:情感 文本 中文 情感分析 情感词典
张春菊
作品数:38被引量:353H指数:13
供职机构:合肥工业大学土木与水利工程学院
研究主题:中文文本 标注语料库 地名识别 地理实体 自然语言
袁方
作品数:91被引量:846H指数:15
供职机构:河北大学
研究主题:文本分类 中文文本分类 数据挖掘 WEB DEEP_WEB