搜索到196篇“ 数据词典“的相关文章
- 基于改进SO-PMI算法的电力大数据词典构建方法
- 2025年
- 在大规模文本数据中,许多词汇对的共现情况非常稀少,导致PMI值的计算不稳定。传统SO-PMI算法在计算PMI值时,往往只考虑了词汇对在文本中的共现情况,而忽略了电力大数据特殊的语义关系和上下文关系,导致所计算的词间关联度不够精确,进而影响了电力大数据词典构建的覆盖率、专业性及准确性。为此,文章提出了一种基于改进SO-PMI算法的电力大数据词典构建方法。首先,对电力大数据文本进行分词处理,并对分词结果进行词性标注。计算每个词在文本中的词频-逆文档频率(TF-IDF)值,以筛选出的特征词作为候选词。利用改进SO-PMI算法,计算候选词集中每一对词的PMI值,在此过程中充分考虑电力大数据的特殊语义关系,并引入特定上下文窗口进行平滑处理,得到更准确的词间关联度,有效解决未针对电力大数据特殊语义关系而导致关联度不准确的问题。基于准确的关联度筛选出与电力大数据领域相关的强关联词对,构建电力大数据词典。实验结果表明:采用该方法构建的词典平均覆盖率高达99.45%,其AUC值达到0.95。与传统方法相比,该方法在识别电力大数据领域相关词汇方面表现出更高的全面性和准确性,所构建的词典在覆盖性、专业性和准确性方面均展现出显著优势。
- 隋石妍董佳林潘伟
- 关键词:大数据分词
- 基于大数据词典构建的政策注意力聚焦识别与战略调整新能源车产业上市公司
- 2025年
- 文章创新性地设计了企业政策注意力聚焦识别方法,通过构建新能源车企业政策注意力聚焦词典,实现了对新能源车产业上市公司政策注意力聚焦的精准识别。新能源车产业政策可以划分为推广应用、市场引导和市场服务三个阶段,政策主题的热度演化与企业平均注意力聚焦的演化存在显著的关联性,产业链不同位置的新能源汽车企业对政策变化所做出的战略调整也显著不同。这些发现不仅为新能源汽车企业的战略制定提供了一定的思路,也为政策制定者引导企业注意力、优化政策设计提供了重要的参考。
- 晏军朱镇徐晓虎
- 一种数字工作包检修数据词典生成方法
- 本发明属于核电运行维护技术领域,具体涉及一种数字工作包检修数据词典生成方法。包括如下步骤:步骤1:检修数据词典的产生;步骤2:检修数据词典的维护;步骤3:检修数据词典的使用。本发明的有益效果在于:采用建立检修数据词典技术...
- 黄少华陆增圩刘怡麟李云应刘伟傅云事秦浩翔
- 一种面向多平台异构遥控数据词典的系统及方法
- 本发明属于GU无人机系统地面指挥控制领域,具体涉及一种面向多平台异构遥控数据词典的系统及方法。通过在加密的遥控字典中引入协议格式,提高了设计研发质量,降低了无人机遥控协议泄露的风险。
- 何仁军韩丽丽赖锐黄超陈蓓王维
- 基于数据词典的中文分词算法优化实现被引量:4
- 2022年
- 中文分词算法是中文自然语言理解的基础,文章运用C#语言实现了正向、逆向、最长词、最短词的分词算法,通过大量样本实例分析,对不同算法进行了比较,介绍了分词算法在新词发现、歧义发现中的应用,重点阐述了关系型数据库、文本文件等不同数据结构的数据词典对中文分词算法速度的影响,创新性地引入一种非常规的数据词典索引表,大大提升了分词算法的速度。
- 鲍曙光
- 关键词:中文分词新词发现歧义消除自然语言识别
- 一种面向多平台异构遥控数据词典的系统及方法
- 本发明属于GU无人机系统地面指挥控制领域,具体涉及一种面向多平台异构遥控数据词典的系统及方法。通过在加密的遥控字典中引入协议格式,提高了设计研发质量,降低了无人机遥控协议泄露的风险。
- 何仁军韩丽丽赖锐黄超陈蓓王维
- 模型驱动方法论在业务中台中的实践研究(三)——数据词典的制定和落地
- 2020年
- 数据词典是确保数据一致性的主要措施,通过编制数据词典确保数据一致性,避免重复甚至冲突的定义,是系统建设中重要的基础性工作,但是对于大型系统来说涉及的词汇量巨大,数据词典的编制面临着管理上、业务上等诸多困难,确保数据词典本身的质量是一个重要问题。文章在某大型央企的业务中台的建设过程中,对编制方法进行了研究,在该方法的指导下完成了词汇梳理工作,从中提炼编制了数据词典,并结合MDA方法论在业务中台项目实现落地。
- 李忠民高晓欣
- 关键词:模型驱动架构数据词典数据元
- 基于隐马尔科夫和主成分分析的电网数据词典构建被引量:3
- 2019年
- 电网企业拥有海量采用中文记录的非结构化文本信息,其中包含有大量重要的可靠性统计信息。但依靠人工对其进行挖掘不仅效率低而且准确性因人而异。如何高效、准确、智能地挖掘电网企业设备缺陷文本中重要的可靠性统计信息是目前亟待解决的问题。文章基于改式隐式马尔科夫算法对通过全过程技术监督工作采集的非结构化文本数据进行分句分词,制定研究非结构化数据的结构化表达规则。利用主成分分析、词向量以及深度神经网络等的自然语言处理算法对现有的问题描述文本中的同名词、同义词以及近义词等的语义相似度进行计算,并采用K阶近邻算法对降维后的词向量进行分类聚类。上述工作解决了缺陷文本句子成分难以划分、数字量无法精确提取等问题,形成一份国网系统运检专业领域的数据词典库,为电网领域的非结构化数据挖掘提供了新技术,为今后技术监督工作的展开具有重要意义和贡献。
- 秦欢门业堃于钊叶宽侯宇程孙致远
- 关键词:文本分类分词
- 一种串数据词典的有序构造及检索方法
- 一种串数据词典的有序构造及检索方法,本发明包括:S1、将串数据逐一输入到一个临时迸发树中;S2、当临时迸发树中数据量达到阈值条件时,将其合并入最终迸发树中;S3、将最终迸发树转换为六元组结构有限状态转换器;S4、将六元组...
- 马云龙林鸿飞
- 利用异步数据词典在多租户共享的基础设施中的基于流的重复数据删除
- 在多租户共享的基础设施中提供基于流的重复数据删除,而不需要具有同步的数据词典的“配对的”端点。在此方法中,由重复数据删除功能处理的数据对象被当做可以根据需要取得的对象对待。因为压缩的对象被仅仅当做对象对待,所以解码对等方...
- C·E·格罗F·T·雷赫顿A·F·彻姆帕格内
相关作者
- 胡庆辉

- 作品数:8被引量:31H指数:4
- 供职机构:桂林航天工业高等专科学校
- 研究主题:数据词典 B/S模式 PKI技术 办公自动化系统 故障诊断
- 陆玉靖

- 作品数:12被引量:45H指数:5
- 供职机构:桂林航天工业学院汽车工程系
- 研究主题:发动机 汽车 数据词典 EM算法 高斯混合模型
- 苏鳞甲

- 作品数:2被引量:0H指数:0
- 供职机构:北京工业大学
- 研究主题:城市交通信号控制 仿真技术 交通信号控制系统 交通流数据 信号控制系统
- 郝红星

- 作品数:8被引量:17H指数:2
- 供职机构:国防科学技术大学信息系统与管理学院
- 研究主题:复数 数据词典 稳态 维修能力 调度研究
- 荣建

- 作品数:447被引量:2,466H指数:26
- 供职机构:北京工业大学
- 研究主题:交通工程 信号交叉口 通行能力 高速公路 驾驶行为