搜索到3077 篇“ 中文文本 “的相关文章
中文文本 拼写纠错研究综述2025年 中文文本 拼写纠错(Chinese Spelling Correction,CSC)在自然语言处理(NLP)领域中 是一个关键的基础任务,可为其下游任务和研究提供支持。CSC任务领域的研究持续发展,主要分为基于N-Gram语言模型、深度学习和大语言模型的纠错方法。首先对N-Gram语言模型的特性和在中 文拼写纠错中 的应用进行了分析,揭示了其在捕捉上下文信息方面的优势。其次基于深度学习的方法通过深度神经网络提高了纠错的准确性,并被广泛应用于中文文本 处理中 。同时,大语言模型的兴起为拼写纠错提供了新的思路,展示了其在处理复杂语言现象中 的巨大潜力。该综述对中文文本 拼写纠错领域的研究现状进行了详细的阐述,为从事相关研究人员提供参考。 沈友志 程春雷 句泽东 龚著凡关键词:中文文本 N-GRAM语言模型 一种中文文本 语义解析与重构系统 本 发明公开了一种中文文本 语义解析与重构系统,包括:文本 预处理模块用于生成文本 向量,字体查询模块用于处理概念相关度查询和词项的概念判断,以支撑查询语义扩展和概念检索的需求,语义资源模块用于对同义词词林资源进行包装,回应有关... 吕志坚 徐冠宁 熊蕊 杜丽萍 李瑛 何余良一种中文文本 情感分类方法及装置 本 发明公开了一种中文文本 情感分类方法及装置,用于解决现有的中文文本 情感分类方法导致分类效果不佳的技术问题。本 发明包括获取待检测中文文本 ,并基于预置文本 处理工具,对待检测中文文本 进行预处理,输出目标文本 ;基于目标文本 ,确定... 叶武剑 杨泽朋 刘怡俊一种保护隐私的中文文本 模糊搜索方法 本 发明属于隐私计算技术领域,提出了一种保护隐私的中文文本 模糊搜索方法,包括如下步骤:步骤1、查询方把查询关键字拆分成单字集合和分词集合,且忽略星号关键字“*”,数据方将每条记录文本 拆分成单字集合和分词集合;步骤2、进行单... 杜丽 刘伟 朱笛 郑吉 毛建辉 黄淇 高文亮 廖建华 张兴 魏源 覃艺 刘丹ERNIE和序列标注结合的中文文本 检错纠错 2025年 针对中文文本 检错纠错研究任务,提出了基于知识增强的自然语言表示模型(enhanced representation through knowledge integration, ERNIE)与序列标注结合的中文文本 检错纠错模型。该模型由检错和纠错两部分组成,检错阶段ERNIE使用全局注意力机制进行词向量编码输入到BiLSTM-CRF序列标注模型中 ,双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)提取上下文的信息进行拼接生成双向的词向量,再通过条件随机场(conditional random field, CRF)计算联合概率增加对邻近词标签的依赖性优化整个序列,从而解决标注偏置等问题给出的错误标注。纠错阶段根据检错模型输出的结果采用不同策略分类纠错,将标注为错字、缺字的错误使用ERNIE掩码语言模型和混淆集匹配进行预测,对多字、乱序错误直接纠正。实验结果表明,引入序列标注根据错误类型进行分类纠错有效提升了纠错率,在SIGHAN数据集上测试F1达到了81.8%。 左壮壮 王法玉 陈洪涛关键词:条件随机场 一种基于束搜索的中文文本 对抗攻击方法 本 发明提供一种基于束搜索的中文文本 对抗攻击方法,属于自然语言处理领域,该方法包括获取对抗样本 攻击的中 文数据集;对中文文本 进行分词;随后对分词后的文本 使用中 文的字形、拼音、同义词等进行扰动,从而增强对抗样本 的语义保留性;最... 古天龙 卿高军 郝峰锐 常亮一种基于深度学习的中文文本 语义压缩方法 一种基于深度学习的中文文本 语义压缩方法,对于输入的一篇中文文本 ,经过系统模型,能够最大程度上压缩其语义。本 发明结合了双向长短期记忆网络(Bi‑LSTM)以及自注意力机制(Self‑Attention)优势,极大程度上改善... 钱丽萍 钱江 王寅生 吴湾湾 王倩一种基于相似度进行中文文本 纠错的实现方法 本 发明提供了一种基于相似度进行中文文本 纠错的实现方法,其特征在于,包括如下步骤:进行词库编译;利用编译好的词库,使用字哈希对待检测文本 进行标记,得到一个待检测文本 对应的序列,记录id;使用双字哈希对序列进行计算处理,找出... 王宁 张发雨 孟奥 党章 王伦 冯立二 吴兴龙 杨正云特定中文文本 合理性检测模型的构建方法和装置 本 公开的实施例提供一种特定中文文本 合理性检测模型的构建方法和装置,该模型构建方法包括:根据两种不同粒度对已有的特定中文文本 数据进行分词,构建先验知识词组库;基于先验知识词组库构建包含不同形式的目标函数的假设空间;通过最小... 陈正中 刘丽钦 袁晓娟 刘丰恺 魏明月 王璐 张世永 张东雪 远远 李晨宇一种中文文本 的事件因果关系识别方法、装置及设备 本 说明书实施例涉及文本 处理技术领域,尤其涉及一种中文文本 的事件因果关系识别方法、装置及设备。本 方案通过获取待识别的中文文本 进行逐字识别并标注,通过采用新的编码方式对中文文本 中 每个词进行编码,生成文本 编码,然后通过卷积神经... 刘小龙 王晓燕 孙福辉 郭新刚 苏航 陈静 古松原 胡咏
相关作者
刘怀亮 作品数:88 被引量:544 H指数:13 供职机构:西安电子科技大学 研究主题:文本分类 复杂网络 维基百科 中文文本 语义 张雪英 作品数:104 被引量:694 H指数:17 供职机构:南京师范大学 研究主题:地理 中文文本 大数据 知识图谱 地理信息系统 张顺香 作品数:178 被引量:123 H指数:6 供职机构:安徽理工大学计算机科学与工程学院 研究主题:情感 文本 中文 情感分析 情感词典 张春菊 作品数:38 被引量:353 H指数:13 供职机构:合肥工业大学土木与水利工程学院 研究主题:中文文本 标注语料库 地名识别 地理实体 自然语言 袁方 作品数:91 被引量:846 H指数:15 供职机构:河北大学 研究主题:文本分类 中文文本分类 数据挖掘 WEB DEEP_WEB