-
公开(公告)号:CN118171732B
公开(公告)日:2024-08-30
申请号:CN202410599858.8
申请日:2024-05-15
Applicant: 北京邮电大学 , 北京白星花科技有限公司
IPC: G06N5/022 , G06N3/0455 , G06N3/042 , G06N3/0442 , G06N3/082
Abstract: 本发明涉及信息及数据业务技术领域,尤其涉及一种基于微调大模型的超关系知识抽取方法、装置、电子设备及存储介质,其中,方法包括:获取文本数据,基于预设微调参数,构建超关系知识抽取指令;基于超关系知识抽取指令,利用微调大型语言模型构建超关系知识抽取模型;基于学习率预热和衰减策略,利用训练数据集对超关系知识抽取模型进行训练,得到训练完成的超关系知识抽取模型;利用超关系知识抽取模型抽取待解析文本中超关系知识,获得关系数据。采用大型语言模型,对其进行微调以适应超关系知识抽取任务;设计针对性的指令,从模型输出中抽取实体及其相关的多元关系,构建超关系知识图谱,实现了高效、精准地获取超关系并构建知识图谱。
-
公开(公告)号:CN118170894B
公开(公告)日:2024-07-30
申请号:CN202410607312.2
申请日:2024-05-16
Applicant: 北京邮电大学 , 北京白星花科技有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/194 , G06N3/042 , G06N5/022 , G06N5/048
Abstract: 本发明涉及信息技术领域,尤其是指一种知识图谱问答方法、装置、设备及计算机存储介质。本发明所述的知识图谱问答方法,首先使用微调后的大语言模型生成应用于知识图谱的知识图谱查询语句,大语言模型在处理自然语言问题方面具有极大优势,可以快速准确生成训练数据。然后对生成的查询语句中抽取得到的实体和关系在知识图谱的实体库和关系库中进行检索,在对检索到的结果依据相似度作进一步模糊逻辑运算,即使在知识图谱不完全的情况下,模糊逻辑运算也能够得到可能性最高的答案,并且在降低时间复杂度的同时提升了准确率,最后生成自然语言形式的回答语句给用户。
-
公开(公告)号:CN115796235B
公开(公告)日:2023-06-06
申请号:CN202211374808.7
申请日:2022-11-04
Applicant: 上海艾莎医学科技有限公司 , 北京白星花科技有限公司
IPC: G06N3/0464 , G06N3/094 , G16H10/60 , G16H50/70
Abstract: 本发明公开了一种补充缺失数据的生成器模型训练方法、系统、存储介质和处理器。获取患者数据并填充对应的时态信息索引得到患者信息;将患者信息依次输入至第一列多尺度神经场模块得到第一特征矩阵,将第一特征矩阵输入至感知经验池中得到第二特征矩阵;将第二特征矩阵输入至第二列多尺度神经场模块得到填充好的患者信息和生成器模型,将完整患者原始数据与填充好的患者信息随机输入至判别器模型当中,计算一致性指数对判别器模型和生成器模型进行优化。通过本发明解决了现有技术在有时间序列的临床数据上无法预测缺失数据使缺失数据得到较好填充的问题,能够更加快速高效的处理有时间序列的临床数据。
-
公开(公告)号:CN114496115A
公开(公告)日:2022-05-13
申请号:CN202210401925.1
申请日:2022-04-18
Applicant: 北京白星花科技有限公司
Abstract: 本发明公开了一种实体关系的标注自动生成的方法、系统、存储介质和处理器。将未标注数据输入第一训练模型得到第一向量组;将未标注数据输入第二训练模型得到第二向量组;根据第一向量组和第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系作为初步标注数据;将初步标注数据作为增量学习数据重新对第二训练模型进行训练得到第三训练模型;根据比较结果更新第二训练模型并确定初步标注数据中需要标注的真正实体关系和实体。通过本发明解决了现有技术无法自动对大量实体关系自动生成标注的问题,能够快速准确的自动标注出大量数据中两两实体之间真正的实体关系。
-
公开(公告)号:CN115510854B
公开(公告)日:2023-06-09
申请号:CN202211182908.X
申请日:2022-09-27
Applicant: 北京白星花科技有限公司
IPC: G06F40/279 , G06N3/044 , G06N3/048 , G06N3/0455
Abstract: 本发明公开了基于强化学习的实体关系提取方法的方法、系统、存储介质和处理器。获取数据文件映射为字向量并将其输入实体关系判断模型中的编码器得到特征向量,进行逆向转换后得到逆转特征向量,反复将逆转特征向量输入到新层级编码器直至逆转特征向量输入多头注意力模块后进行逆转得到新逆转特征向量为止;将新逆转特征向量与同层级特征向量输入译码器进行拼接得到译码向量,再进行转换得到逆转译码向量;译码向量与下一层特征向量拼接得到拼接向量,输入至新的译码器得到新的字向量组,计算最相似的字向量输出将其具体对应的字和实体关系。通过本发明解决了现有技术实体关系提取模型产生局部最优解和梯度爆炸导致的提取精度和质量低的技术问题。
-
公开(公告)号:CN115510854A
公开(公告)日:2022-12-23
申请号:CN202211182908.X
申请日:2022-09-27
Applicant: 北京白星花科技有限公司
IPC: G06F40/279 , G06N3/04
Abstract: 本发明公开了基于强化学习的实体关系提取方法的方法、系统、存储介质和处理器。获取数据文件映射为字向量并将其输入实体关系判断模型中的编码器得到特征向量,进行逆向转换后得到逆转特征向量,反复将逆转特征向量输入到新层级编码器直至逆转特征向量输入多头注意力模块后进行逆转得到新逆转特征向量为止;将新逆转特征向量与同层级特征向量输入译码器进行拼接得到译码向量,再进行转换得到逆转译码向量;译码向量与下一层特征向量拼接得到拼接向量,输入至新的译码器得到新的字向量组,计算最相似的字向量输出将其具体对应的字和实体关系。通过本发明解决了现有技术实体关系提取模型产生局部最优解和梯度爆炸导致的提取精度和质量低的技术问题。
-
公开(公告)号:CN114496115B
公开(公告)日:2022-08-23
申请号:CN202210401925.1
申请日:2022-04-18
Applicant: 北京白星花科技有限公司
Abstract: 本发明公开了一种实体关系的标注自动生成的方法、系统、存储介质和处理器。将未标注数据输入第一训练模型得到第一向量组;将未标注数据输入第二训练模型得到第二向量组;根据第一向量组和第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系作为初步标注数据;将初步标注数据作为增量学习数据重新对第二训练模型进行训练得到第三训练模型;根据比较结果更新第二训练模型并确定初步标注数据中需要标注的真正实体关系和实体。通过本发明解决了现有技术无法自动对大量实体关系自动生成标注的问题,能够快速准确的自动标注出大量数据中两两实体之间真正的实体关系。
-
公开(公告)号:CN118170894A
公开(公告)日:2024-06-11
申请号:CN202410607312.2
申请日:2024-05-16
Applicant: 北京邮电大学 , 北京白星花科技有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/194 , G06N3/042 , G06N5/022 , G06N5/048
Abstract: 本发明涉及信息技术领域,尤其是指一种知识图谱问答方法、装置、设备及计算机存储介质。本发明所述的知识图谱问答方法,首先使用微调后的大语言模型生成应用于知识图谱的知识图谱查询语句,大语言模型在处理自然语言问题方面具有极大优势,可以快速准确生成训练数据。然后对生成的查询语句中抽取得到的实体和关系在知识图谱的实体库和关系库中进行检索,在对检索到的结果依据相似度作进一步模糊逻辑运算,即使在知识图谱不完全的情况下,模糊逻辑运算也能够得到可能性最高的答案,并且在降低时间复杂度的同时提升了准确率,最后生成自然语言形式的回答语句给用户。
-
公开(公告)号:CN118171732A
公开(公告)日:2024-06-11
申请号:CN202410599858.8
申请日:2024-05-15
Applicant: 北京邮电大学 , 北京白星花科技有限公司
IPC: G06N5/022 , G06N3/0455 , G06N3/042 , G06N3/0442 , G06N3/082
Abstract: 本发明涉及信息及数据业务技术领域,尤其涉及一种基于微调大模型的超关系知识抽取方法、装置、电子设备及存储介质,其中,方法包括:获取文本数据,基于预设微调参数,构建超关系知识抽取指令;基于超关系知识抽取指令,利用微调大型语言模型构建超关系知识抽取模型;基于学习率预热和衰减策略,利用训练数据集对超关系知识抽取模型进行训练,得到训练完成的超关系知识抽取模型;利用超关系知识抽取模型抽取待解析文本中超关系知识,获得关系数据。采用大型语言模型,对其进行微调以适应超关系知识抽取任务;设计针对性的指令,从模型输出中抽取实体及其相关的多元关系,构建超关系知识图谱,实现了高效、精准地获取超关系并构建知识图谱。
-
公开(公告)号:CN115796235A
公开(公告)日:2023-03-14
申请号:CN202211374808.7
申请日:2022-11-04
Applicant: 上海艾莎医学科技有限公司 , 北京白星花科技有限公司
IPC: G06N3/0464 , G06N3/094 , G16H10/60 , G16H50/70
Abstract: 本发明公开了一种补充缺失数据的生成器模型训练方法、系统、存储介质和处理器。获取患者数据并填充对应的时态信息索引得到患者信息;将患者信息依次输入至第一列多尺度神经场模块得到第一特征矩阵,将第一特征矩阵输入至感知经验池中得到第二特征矩阵;将第二特征矩阵输入至第二列多尺度神经场模块得到填充好的患者信息和生成器模型,将完整患者原始数据与填充好的患者信息随机输入至判别器模型当中,计算一致性指数对判别器模型和生成器模型进行优化。通过本发明解决了现有技术在有时间序列的临床数据上无法预测缺失数据使缺失数据得到较好填充的问题,能够更加快速高效的处理有时间序列的临床数据。
-
-
-
-
-
-
-
-
-