搜索到208篇“ 后缀数组“的相关文章
一种基于改进BM算法与后缀数组的冗余字段过滤方法
本发明公开了一种基于改进BM算法与后缀数组的冗余字段过滤方法,涉及模式识别与数据清洗技术领域,包括以下步骤:S1、获取目标文本,并对所述目标文本进行预处理,以获取规范目标文本,且获取所述规范目标文本所对应的文本字符串,S...
徐春黄凯峰章晓智曹琪
基于诱导排序的藏文后缀数组构建算法
2024年
后缀数组、BWT、LCP数组是进行全文索引和文本压缩的重要数据结构,BWT和LCP数组通常由构造完成的后缀数组计算而来。基于诱导排序的SAIS算法是最快的后缀数组构造算法之一,本文对SAIS进行改进后提出了藏文后缀数组算法ITSBL,在诱导产生后缀数组的同时计算BWT而无须在内存中保存完整的后缀数组,结合藏文的音节结构特点对计算出的后缀数组进行处理,得到以藏文音节字为单位的藏文后缀数组和LCP数组,结果更符合藏文的使用习惯。相比单独计算后缀数组、BWT、LCP数组,ITSBL算法在较大文本下性能提升约10%,较小文本下提升约30%,具有一定的应用价值。
张学通彭展
关键词:藏文后缀数组
构造后缀数组的方法、终端设备及计算机可读存储介质
本申请适用于数据处理技术领域,提供了一种构造后缀数组的方法、终端设备及计算机可读存储介质,该构造后缀数组的方法包括:获取目标字符串的信息以及当前终端设备的信息;确定与目标字符串的信息以及当前终端设备的信息相匹配的目标后缀...
周杰农革
一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法
本发明公开了一种基于编辑距离和后缀数组的时间序列变长模体挖掘方法,步骤为:(1)对时间序列按照窗口长度和步长提取子序列;(2)对提取出的子序列经过SAX符号表示将子序列变成符号序列;(3)选择DC3后缀数组算法对符号序列...
王继民王涛孙家豪朱滢
一种基于后缀数组与单调栈的基因组组装预处理方法
本发明涉及一种基于后缀数组与单调栈的基因组组装预处理方法,其中基于后缀数组与单调栈的基因组组装预处理方法包括:首先在NCBI官方网站获取需要进行基因组组装的数据集,对数据集进行处理。将数据拼接后利用gSACA‑K算法计算...
陈宇由东亮
一种稀疏后缀数组的生成方法及系统
本发明提供一种稀疏后缀数组的生成方法及系统,涉及数据结构构造技术领域,包括:通过计算终端将源文件划分为长度为预设值的多个字符串;计算终端在预设值大于阈值时对各字符串进行排序得到字符串排序结果,随后将字符串排序结果中对应的...
孙荣卫
基于后缀数组的字符串快速匹配方法
本发明提供了一种基于后缀数组的字符串快速匹配方法。该方法包括两个阶段,第一个阶段首先利用二分查找将模式串在文本串中的出现位置限定在以模式串的首字符为起始字符的后缀数组可能存在的区间内;第二个阶段再在这个区间上进一步限定查...
路松峰
一种分块并行构造后缀数组的方法及系统
本申请实施例适用于数据处理技术领域,提供了一种分块并行构造后缀数组的方法及系统,所述方法包括:针对任一字符串,将用于存储字符串的后缀数组的存储单元划分为多个数据块;获取各个数据块的定位信息,根据定位信息将多个LMS子串分...
解静仪农革
一种基于改进BM算法与后缀数组的冗余字段过滤方法
本发明涉及一种基于改进BM算法与后缀数组的冗余字段过滤方法,针对现有技术的不足,设计引入改进型BM算法,通过增大模式串的移动距离,减少移动匹配的次数,由此提高匹配效率,极大地提高冗余字段的过滤效率,尤其针对中文环境的字符...
朱丹张坤邢苏霄章东润张熠徐晓丽
一种基于后缀数组与单调栈的基因组组装预处理方法
本发明涉及一种基于后缀数组与单调栈的基因组组装预处理方法,其中基于后缀数组与单调栈的基因组组装预处理方法包括:首先在NCBI官方网站获取需要进行基因组组装的数据集,对数据集进行处理。将数据拼接后利用gSACA‑K算法计算...
陈宇由东亮

相关作者

农革
作品数:52被引量:0H指数:0
供职机构:中山大学
研究主题:字符串 后缀数组 后缀 子串 索引
徐文涛
作品数:10被引量:0H指数:0
供职机构:中山大学
研究主题:后缀数组 计算机内存 子串 传输数据 DNA
刘卫国
作品数:61被引量:3H指数:1
供职机构:山东大学
研究主题:测序 向量化 哈希函数 多线程 超级计算机
涂锟
作品数:7被引量:3H指数:1
供职机构:中国科学技术大学计算机科学与技术学院
研究主题:串匹配算法 串匹配 分布式存储 后缀数组 静态博弈模型
顾乃杰
作品数:160被引量:343H指数:8
供职机构:中国科学技术大学
研究主题:龙芯3A 串匹配 龙芯 矩阵乘法 多播