面向多模态文献数据的分布式存储方法、装置和设备

    公开(公告)号:CN117076495A

    公开(公告)日:2023-11-17

    申请号:CN202311336096.4

    申请日:2023-10-16

    Abstract: 本申请涉及数据处理领域,特别是涉及一种面向多模态文献数据的分布式存储方法、装置和设备。所述方法包括:采集文献全文数据,并存储至分布式文件系统中;提取所述文献全文数据的文献元数据,并存储至结构化数据库中;提取所述文献全文数据中的图像数据,及提取所述图像数据的图像元数据,并将所述图像数据存储至分布式文件系统,将所述图像元数据存储至结构化数据库中;基于所述文献元数据及图像元数据,构建知识图谱,并存储至分布式图数据库中;基于所述分布式文件系统、所述结构化数据库及所述分布式图数据库,构建得到分布式存储系统。本发明能够整合文献全文数据,有利于文献全文数据的利用和管理,同时方便各模态文献数据的检索查询。

    离线多模态文献数据的更新方法、装置、设备和介质

    公开(公告)号:CN117076474A

    公开(公告)日:2023-11-17

    申请号:CN202311336095.X

    申请日:2023-10-16

    Abstract: 本申请涉及数据处理领域,特别是涉及一种离线多模态文献数据的更新方法、装置、设备和介质。所述方法包括:采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件系统中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件系统,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。本发明实现分布式存储系统的多模态文献数据的更新。

    图文搜索数据库的构建方法、装置、数据库以及存储介质

    公开(公告)号:CN119293270A

    公开(公告)日:2025-01-10

    申请号:CN202411824060.5

    申请日:2024-12-12

    Abstract: 本申请涉及一种图文搜索数据库的构建方法、装置、数据库以及存储介质。所述方法包括:对获取到的文献进行解析,提取得到所述文献的图像信息、文本信息;基于所述图像信息、所述文本信息,构建所述文献的至少一个图文对,所述图文对包括图像以及对应的图注文本;基于图像以及图注文本,生成图像的图像特征向量;从文本信息中提取所述文献的关键文本信息,基于关键文本信息,生成文献的文本特征向量;基于各文献的所述图像特征向量、所述文本特征向量,构建得到图文搜索数据库。采用本方法实现了融合文本、图像等多模态数据的文献特征提取,挖掘文献间的深层专业关联,能够提高天文领域进行图文搜索相关文献的准确率。

    一种基于多模态数据频域融合的人体行为预测方法

    公开(公告)号:CN118155280A

    公开(公告)日:2024-06-07

    申请号:CN202410271438.7

    申请日:2024-03-11

    Abstract: 本发明公开了一种基于多模态数据频域融合的人体行为预测方法,包括:获取多模态数据并清洗数据,其中所述多模态数据包括光学运动捕捉数据、文本数据和视频数据;利用傅里叶变换把各模态的数据分别转换到频域中,得到各模态数据对应的一维频域向量;对得到的一维频域向量进行预处理,拼接为一个一维向量;利用人体行为预测模型对预处理后的一维频域向量进行处理,得到下一预测状态的融合频域信息;对所述融合频域信息进行后处理,并将得到的各模态频域预测信息利用傅里叶逆变换技术转换为各模态对应的时域预测数据。

    针对重复查询攻击的数据保护方法和装置

    公开(公告)号:CN117993027A

    公开(公告)日:2024-05-07

    申请号:CN202410368830.3

    申请日:2024-03-28

    Abstract: 本申请涉及一种针对重复查询攻击的数据保护方法和装置,该方法判断目标数据的查询请求是否为首次查询;若所述查询请求并非首次查询,则获取所述目标数据的在先查询结果;基于第一干扰机制对所述在先查询结果进行随机干扰处理,得到第一扰动结果;将所述第一扰动结果作为目标查询结果进行输出。解决了现有技术中被多次查询的数据面临较大的泄露风险的问题,使得攻击者在多次查询中不会获得数据的更多信息,提高数据查询的安全性。

    一种面向实体对齐的主动学习方法、装置和电子装置

    公开(公告)号:CN117407689B

    公开(公告)日:2024-04-19

    申请号:CN202311720957.9

    申请日:2023-12-14

    Abstract: 本申请涉及一种面向实体对齐的主动学习方法、装置和电子装置,该方法包括:基于预设的主动学习规则,并根据知识图谱中的第一实体对,获取知识图谱中与第一实体对的特征关系满足预设条件的第二实体对;其中,第一实体对为进行实体对齐后得到的实体对;根据第一实体对和第二实体对,训练预设的图神经网络模型,并基于主动学习规则得到第三实体对,根据第三实体对更新第二实体对;当第三实体对的数量为预设的实体对数量阈值时,确定得到目标图神经网络模型。通过主动学习的方法,得到标注的实体对,进而使用标注实体对训练图神经网络模型,进而降低了在多模态知识图谱实体对齐过程中的标注成本,同时保证了实体对齐的准确性。

    异构联邦环境中的图结构数据节点分类方法和装置

    公开(公告)号:CN117171628B

    公开(公告)日:2024-03-26

    申请号:CN202311438185.X

    申请日:2023-11-01

    Abstract: 本申请涉及一种异构联邦环境中的图结构数据节点分类方法和装置。所述方法包括:随机从所有客户端中选择一组客户端子集参与迭代,客户端基于本地子图上图结构数据节点的采样概率采样得到节点子集,对客户端上的局部模型进行训练,得到局部模型参数;对每轮客户端子集的局部模型参数进行平均聚合,得到更新的全局模型参数直至更新的全局模型参数对应的全局模型在符合所有客户端本地子图的全局图分布测试集上的节点分类准确率达到预设阈值。采用本方法能够解决现有技术中图结构数据的场景下联邦学习效率低的问题,有效抑制图联邦学习中每个局部模型的偏移程度,降低局部模型训练的存储和计算成本,提高了图结构数据节点分类的准确率。

    离线多模态文献数据的更新方法、装置、设备和介质

    公开(公告)号:CN117076474B

    公开(公告)日:2024-03-12

    申请号:CN202311336095.X

    申请日:2023-10-16

    Abstract: 本申请涉及数据处理领域,特别是涉及一种离线多模态文献数据的更新方法、装置、设备和介质。所述方法包括:采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件系统中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件系统,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。本发明实现分布式存储系统的多模态文献数据的更新。

    基于联邦学习客户端选择的分类模型训练方法及系统

    公开(公告)号:CN117557870A

    公开(公告)日:2024-02-13

    申请号:CN202410022912.2

    申请日:2024-01-08

    Abstract: 本申请涉及一种基于联邦学习客户端选择的分类模型训练方法、系统及介质,其中,基于联邦学习客户端选择的分类模型训练方法包括:初始化全局模型,并初始化虚拟队列、客户端相似度矩阵以及客户端选中频率矩阵;在每一次迭代训练过程中,基于所述虚拟队列、所述客户端相似度矩阵以及所述客户端选中频率矩阵,确定参与本轮训练的K个客户端;将所述全局模型发送至所述K个客户端进行并行训练,得到聚合后的全局模型;更新所述虚拟队列、所述客户端相似度矩阵以及所述客户端选中频率矩阵,并重复所述迭代训练过程直至达到设定的迭代次数,获得训练好的全局模型;使用训练好的全局模型对目标数据集进行分类,得到分类结果,提高了图像分类的精度。

Patent Agency Ranking