-
公开(公告)号:CN117076474B
公开(公告)日:2024-03-12
申请号:CN202311336095.X
申请日:2023-10-16
Applicant: 之江实验室
Abstract: 本申请涉及数据处理领域,特别是涉及一种离线多模态文献数据的更新方法、装置、设备和介质。所述方法包括:采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件系统中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件系统,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。本发明实现分布式存储系统的多模态文献数据的更新。
-
公开(公告)号:CN117076495B
公开(公告)日:2024-02-13
申请号:CN202311336096.4
申请日:2023-10-16
Applicant: 之江实验室
IPC: G06F16/2453 , G06F16/2455 , G06F16/27 , G06N5/022
Abstract: 本申请涉及数据处理领域,特别是涉及一种面向多模态文献数据的分布式存储方法、装置和设备。所述方法包括:采集文献全文数据,并存储至分布式文件系统中;提取所述文献全文数据的文献元数据,并存储至结构化数据库中;提取所述文献全文数据中的图像数据,及提取所述图像数据的图像元数据,并将所述图像数据存储至分布式文件系统,将所述图像元数据存储至结构化数据库中;基于所述文献元数据及图像元数据,构建知识图谱,并存储至分布式图数据库中;基于所述分布式文件系统、所述结构化数据库及所述分布式图数据库,构建得到分布式存储系统。本发明能够整合文献全文数据,有利于文献全文数据的利用和管理,同时方便各模态文献数据的检索查询。
-
公开(公告)号:CN116910187A
公开(公告)日:2023-10-20
申请号:CN202311179451.1
申请日:2023-09-13
Applicant: 之江实验室
IPC: G06F16/33 , G06F16/35 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请涉及一种天文信息提取方法、装置、电子装置和存储介质,其中,该天文信息提取方法包括:从待处理的天文文献中,标注各天文文献中的初始文本特征和初始视觉特征;将初始文本特征和初始视觉特征进行特征融合,得到联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用多模态知识提取模型中的解码器,针对预测概率值输出预测的多模态的天文信息特征;其基于天文文献中各类型特征的标注,利用多模态知识提取模型实现了最终的天文信息特征的预测,从而能够实现对天文文献中多模态的天文知识的提取。
-
公开(公告)号:CN116910187B
公开(公告)日:2024-01-09
申请号:CN202311179451.1
申请日:2023-09-13
Applicant: 之江实验室
IPC: G06F16/33 , G06F16/35 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请涉及一种天文信息提取方法、装置、电子装置和存储介质,其中,该天文信息提取方法包括:从待处理的天文文献中,标注各天文文献中的初始文本特征和初始视觉特征;将初始文本特征和初始视觉特征进行特征融合,得到联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用多模态知识提取模型中的解码器,针对预测概率值输出预测的多模态的天文信息特征;其基于天文文献中各类型特征的标注,利用多模态知识提取模型实现了最终的天文信息特征的预测,从而能够实现对天文文献中多模态的天文知识的提取。
-
公开(公告)号:CN117076495A
公开(公告)日:2023-11-17
申请号:CN202311336096.4
申请日:2023-10-16
Applicant: 之江实验室
IPC: G06F16/2453 , G06F16/2455 , G06F16/27 , G06N5/022
Abstract: 本申请涉及数据处理领域,特别是涉及一种面向多模态文献数据的分布式存储方法、装置和设备。所述方法包括:采集文献全文数据,并存储至分布式文件系统中;提取所述文献全文数据的文献元数据,并存储至结构化数据库中;提取所述文献全文数据中的图像数据,及提取所述图像数据的图像元数据,并将所述图像数据存储至分布式文件系统,将所述图像元数据存储至结构化数据库中;基于所述文献元数据及图像元数据,构建知识图谱,并存储至分布式图数据库中;基于所述分布式文件系统、所述结构化数据库及所述分布式图数据库,构建得到分布式存储系统。本发明能够整合文献全文数据,有利于文献全文数据的利用和管理,同时方便各模态文献数据的检索查询。
-
公开(公告)号:CN117076474A
公开(公告)日:2023-11-17
申请号:CN202311336095.X
申请日:2023-10-16
Applicant: 之江实验室
Abstract: 本申请涉及数据处理领域,特别是涉及一种离线多模态文献数据的更新方法、装置、设备和介质。所述方法包括:采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件系统中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件系统,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。本发明实现分布式存储系统的多模态文献数据的更新。
-
-
-
-
-