一种基于门控主题模型的无监督关键词抽取方法

    公开(公告)号:CN117390157B

    公开(公告)日:2025-05-06

    申请号:CN202311341725.2

    申请日:2023-10-17

    Abstract: 本发明涉及一种基于门控主题模型的无监督关键词抽取方法,属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法,在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题,并采用门控机制对文档主题进行独立加权,使具有较高语义丰富度的文档被分配相对更多的主题;利用文档主题信息设计了一种新的关键词评分算法,同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷,避免了对文本核心主题的过度关注,从而提高了所抽取关键词的多样性。

    一种多源异构数据字典对齐的方法

    公开(公告)号:CN113836897A

    公开(公告)日:2021-12-24

    申请号:CN202111108385.X

    申请日:2021-09-22

    Abstract: 本发明涉及一种多源异构数据字典对齐的方法,属于大数据领域。本发明包括选择源数据库,选择源表,选择作为标准的源字段;选择目标数据库,选择目标表,选择需要对齐的目标字段;选择源表中的数据值;直接选择目数据表中的数据值或者通过算法智能筛选出目标表中的数据值,算法包括但不限于:余弦相似度匹配、编辑距离匹配、经纬度距离匹配、分类编码匹配、时间日期匹配;如果需要将目标表中的数据值扩充到源表中,开启扩充,将该数据值扩充到源表中;匹配成功查看匹配结果。本发明操作简单,匹配的结果也是一目了然,数据字典对齐后也让具体数据值的展现为统一的数据值。

    一种流式地理轨迹数据的治理方法

    公开(公告)号:CN115017217B

    公开(公告)日:2024-11-01

    申请号:CN202210566652.6

    申请日:2022-05-23

    Abstract: 本发明涉及一种流式地理轨迹数据的治理方法,属于大数据领域。本发明针对流式地理轨迹数据的特点,提供了一种基于大数据的实时关联计算方法,能够有效对极大峰值的地理轨迹数据进行“消峰”处理、并发计算、实时转发、高效读写等服务。同时,通过引入轨迹目标字典完成了对实时流式地理轨迹数据的匹配,使杂乱的流式地理轨迹数据可按目标分类存储到数据库中形成历史数据。在历史轨迹数据处理过程中,通过轨迹合并,解决了批号突变问题。在目标维护模块,通过巧妙的缓冲时间设计和关键字拆分,视图映射,完成了同义词匹配和高效的数据同步功能。本发明对外提供高精度实时数据推送服务和多维度的历史数据查询服务。

    基于AHP的最优调度决策方法与系统

    公开(公告)号:CN115061815B

    公开(公告)日:2024-03-26

    申请号:CN202210701152.9

    申请日:2022-06-20

    Abstract: 本发明涉及一种基于AHP的最优调度决策方法与系统,属于资源调度领域。本发明获取空闲状态的执行服务器及性能指标,建立AHP层次决策方法,将选择最优调度执行服务器的事件分解为目标层、准则层以及方案层,构造准则层的判断矩阵,计算准则层权重向量,并对构成的准则层判断矩阵进行一致性检验,计算方案层权重向量并对方案层判断矩阵进行一致性校验,最后将方案层判断矩阵与准则层权重向量加权计算得到各个方案对最优调度方法的加权分数,选择加权分数最高的方案,数据中台将数据采集任务分配到对应方案所代表的执行服务器。本发明缩短数据的采集时间,提高数据的采集效率。

    一种多源异构关系型数据库数据的增量采集方法

    公开(公告)号:CN113407538B

    公开(公告)日:2023-03-10

    申请号:CN202110670212.0

    申请日:2021-06-17

    Abstract: 本发明涉及一种多源异构关系型数据库数据的增量采集方法,属于数据仓库或者数据中台领域。本发明在数据采集过程中,利用源数据库表的记录进行哈希运算,得到记录的哈希值,与目的表中存储的哈希值进行对比,通过对记录集的排序,能够加快源数据表记录集与目的数据表记录集的对比时间复杂度。能够实现快速的增量数据采集。本方法对不依赖多源异构数据库的存储技术,利用通用的读取数据方式,并在内存中计算,适用多种数据库。因此,本发明在多源异构的关系数据库中适合快速大批量进行增量采集。

    基于AHP的最优调度决策方法与系统

    公开(公告)号:CN115061815A

    公开(公告)日:2022-09-16

    申请号:CN202210701152.9

    申请日:2022-06-20

    Abstract: 本发明涉及一种基于AHP的最优调度决策方法与系统,属于资源调度领域。本发明获取空闲状态的执行服务器及性能指标,建立AHP层次决策方法,将选择最优调度执行服务器的事件分解为目标层、准则层以及方案层,构造准则层的判断矩阵,计算准则层权重向量,并对构成的准则层判断矩阵进行一致性检验,计算方案层权重向量并对方案层判断矩阵进行一致性校验,最后将方案层判断矩阵与准则层权重向量加权计算得到各个方案对最优调度方法的加权分数,选择加权分数最高的方案,数据中台将数据采集任务分配到对应方案所代表的执行服务器。本发明缩短数据的采集时间,提高数据的采集效率。

    一种多源异构关系型数据库数据的增量采集方法

    公开(公告)号:CN113407538A

    公开(公告)日:2021-09-17

    申请号:CN202110670212.0

    申请日:2021-06-17

    Abstract: 本发明涉及一种多源异构关系型数据库数据的增量采集方法,属于数据仓库或者数据中台领域。本发明在数据采集过程中,利用源数据库表的记录进行哈希运算,得到记录的哈希值,与目的表中存储的哈希值进行对比,通过对记录集的排序,能够加快源数据表记录集与目的数据表记录集的对比时间复杂度。能够实现快速的增量数据采集。本方法对不依赖多源异构数据库的存储技术,利用通用的读取数据方式,并在内存中计算,适用多种数据库。因此,本发明在多源异构的关系数据库中适合快速大批量进行增量采集。

    一种基于数据分类分级的数据加解密方法

    公开(公告)号:CN116861451B

    公开(公告)日:2025-05-02

    申请号:CN202310593033.0

    申请日:2023-05-24

    Abstract: 本发明涉及一种基于数据分类分级的数据加解密方法,属于数据安全领域。本发明的数据加解密方法,包括:数据分级分类管理、查询语句预处理、安全密码服务、数据存储和数据传输四部分内容。本发明为基于数据分类分级的数据加解密提供一个方法,加强了数据在存储、传输中的安全性,密钥由系统管理,杜绝了人为泄露密钥的可能。同时使用分类分级管理数据,对不同分类、分级使用不同的密钥群组和加密算法,进一步确保数据的安全性。本发明除可用于数据分类分级之外,安全密码服务所提供的方法,可用于数据中台、大数据、数据湖等多种形态的数据安全存储和安全传输。

    一种基于门控主题模型的无监督关键词抽取方法

    公开(公告)号:CN117390157A

    公开(公告)日:2024-01-12

    申请号:CN202311341725.2

    申请日:2023-10-17

    Abstract: 本发明涉及一种基于门控主题模型的无监督关键词抽取方法,属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法,在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题,并采用门控机制对文档主题进行独立加权,使具有较高语义丰富度的文档被分配相对更多的主题;利用文档主题信息设计了一种新的关键词评分算法,同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷,避免了对文本核心主题的过度关注,从而提高了所抽取关键词的多样性。

Patent Agency Ranking