搜索到1094篇“ 文本预处理“的相关文章
文本预处理方法、装置、存储介质及电子设备
本公开涉及一种文本预处理方法、装置、存储介质及电子设备,所述方法包括:获取待处理文本;针对构建的拆分句数据集中的拆分句,将所述拆分句与所述待处理文本输入分类模型,得到所述分类模型输出的分类结果,所述分类结果表征该拆分句...
王天舒
基于TF-IDF文本特征的电力语音文本预处理方法
本发明涉及基于TF‑IDF文本特征的电力语音文本预处理方法,包括以下步骤:S1、通过零域和频域的卷积实现对文本的特征提取,零域类型的卷积为图像的像素点上的直接卷积,频域的卷积为图像的傅里叶变换,然后进行卷积;S2、通过对...
赵鑫黄昌达张梅武江波易多典
基于语音的文本预处理方法、装置、存储介质和电子设备
本发明涉及一种基于语音的文本预处理方法、装置、存储介质和电子设备,基于语音的文本预处理方法包括:获取对回答语音进行自动语音识别得到的转写文本,以及回答语音对应的问题语音进行自动语音识别得到的系统问题文本;拼接系统问题文本...
李浩斌冯明超
面向识别的长弯曲文本预处理算法
2024年
光学字符识别(Optical Character Recognition,OCR)是对文本图片进行扫描,然后对图像进行分析处理,获取到其中的文字内容的过程。但是目前的OCR算法对于弯曲的长文本普遍识别效果不佳,为此,提出了一种面向识别的长弯曲文本预处理算法,即在文本行识别之前添加长弯曲文本处理模块(Long Curve Text Processing,LCTP),以提升图像中所有文本行识别的准确率。首先,在进行文本区域检测后,获取单条长弯曲文本行并清除干扰信息;其次,根据单条长弯曲文本行的特征计算每条弯曲文本行的关键拐点;进而,使用关键拐点对单条文本行进行切分和融合;最后,将经过切分与融合后的文本行输入文本行识别模型中得到最终识别结果。通过手动采集长弯曲文本图像形成的数据集Long Curve Text与目前主流OCR框架PP-OCR和Tesseract OCR进行对比实验可知,LA、MED、NED指标均有提升,相比于PP-OCR,LA提升49.5%,MED和NED分别降低了44115和0.182;相比于Tesseract OCR,LA提升3.2%,MED和NED分别降低了30282和0.125。同时,也在Long Curve Text数据集中进行了消融实验以验证本文提出LCTP的有效性以及进行了LCTP各个结构的时间对比实验以验证本文提出LCTP的高效性。结果表明LCTP可以提高长弯曲文本识别准确率,总体上可以地获得更加准确、有效的识别结果。
刘新天冯杰朱明航马汉杰郑雅羽
关键词:干扰信息切分
基于文本分类模型的文本预处理方法、装置、介质及设备
本发明实施例公开了一种基于文本分类模型的文本预处理方法、装置、介质及设备,该方法先获取待预处理文本,然后将待预处理文本进行拆分,得到多个语句,再确定所有语句中含有关键信息的语句,最后对所有语句进行排序,以使所有含有关键信...
王月宝沈鹏黄明星毛小伟蒋佳佳黄平胡尧周晓波
基于笔画的文本预处理方法、装置以及存储介质
本申请公开了一种基于笔画的文本预处理方法、装置以及存储介质。其中,基于笔画的文本预处理方法,包括:获取待处理的语料文本;对语料文本进行特征提取以及文字笔画提取,确定任务特征向量以及笔画特征向量;以及根据任务特征向量以及笔...
张永兴 周健
一种超文本预处理器代码中的网页后门检测方法及装置
本公开揭示了一种超文本预处理器代码中的网页后门检测方法及装置,其中该方法包括如下步骤:根据触发的网页后门检测命令,获取超文本预处理器代码;将所述超文本预处理器代码转换为操作码;在所述操作码中识别出操作码保留关键字;在所述...
范宇河胡珀郑兴王放郭晶张强唐文韬杨勇
一种新型医疗文本预处理系统
本发明提供一种新型医疗文本预处理系统,其特征在于,包括:文本数据;文本预处理文本预处理的输出端单向连接于文本数据的输入端,文本预处理的输出端单向连接有mord2vec模型生成词向量,mord2vec模型生成词向量的输出...
张锋程振宁陈婕卿曾可姜会珍
文献传递
面向电信行业客户投诉的文本预处理与摘要技术研究
通信行业的高速发展带来了新兴业务的蓬勃增长与客户群体的不断扩张,在通信运营商不断追求客户至上、力争高质高效服务的同时,作为其核心业务线之一的客服中心,正面临海量冗杂的客户投诉与传统陈旧的处理方式间的摩擦考验。据调研过的某...
方楠
关键词:中文文本挖掘文本预处理文本聚类文本摘要
一种文本预处理方法、装置及存储介质
本发明公开了一种文本预处理方法和装置,通过构造特征信息表,通过特征信息表对用户自定义分词字典进行更新,通过加密算法对特征信息表和更新后的用户自定义分词字典进行加密;输入文本数据,通过特征信息表对文本数据进行匹配,保留文本...
刘晓芳昝景园赵建强张辉极

相关作者

张春霞
作品数:56被引量:0H指数:0
供职机构:北京理工大学
研究主题:信息抽取 智能信息处理 文本预处理 注意力 主题检测
李传艺
作品数:63被引量:71H指数:5
供职机构:南京大学软件学院
研究主题:裁判 法条 裁判文书 日志 向量
骆斌
作品数:220被引量:858H指数:14
供职机构:南京大学软件学院
研究主题:取证 法条 裁判 取证系统 软件工程
高岭
作品数:273被引量:774H指数:15
供职机构:西北大学
研究主题:网络 文化资源 能耗优化 能耗 关节点
黄瑞章
作品数:150被引量:176H指数:7
供职机构:贵州大学
研究主题:文本聚类 文本 神经网络 关系抽取 文本表示