-
公开(公告)号:CN117932010A
公开(公告)日:2024-04-26
申请号:CN202311607433.9
申请日:2023-11-28
申请人: 北京中科闻歌科技股份有限公司 , 航空工业信息中心 , 中国科学院自动化研究所
IPC分类号: G06F16/332 , G06F16/33 , G06F16/36
摘要: 本发明提供了一种基于大语言模型的应答文本生成方法、电子设备及介质,涉及答文本生成领域,所述方法包括:获取用户输入的目标问题文本Q;获取Q中的第一目标字段QA和第二目标字段QB;确定Q对应的目标实体类型属性列表和/或目标实体类型关系以及指定提示词;将Q填入目标提示词对应的预设位置,生成Q对应的目标提示词;将所述目标提示词输入至预设的大语言模型;根据所述至少一个检索条件,从目标知识图谱中确定出每一检索条件对应的目标知识图谱分支;将Q和目标知识图谱分支输入至预设的大语言模型,以通过所述大语言模型输出Q对应的应答文本;本发明能够提高对知识图谱的处理效率以及得到的答案的准确性。
-
公开(公告)号:CN117408337A
公开(公告)日:2024-01-16
申请号:CN202311604075.6
申请日:2023-11-28
申请人: 航空工业信息中心 , 北京中科闻歌科技股份有限公司 , 中国科学院自动化研究所
IPC分类号: G06N5/022 , G06F16/35 , G06F16/36 , G06F18/214
摘要: 本申请涉及知识图谱构建领域,特别是涉及一种基于大语言模型的知识图谱构建方法、装置、介质和设备。该方法包括:根据标注数据组集和预设数据结构得到初始预训练语言模型当前评分;若小于预设分数阈值,获取非结构化数据集FZ;根据初始预训练语言模型和FZ,得到信息抽取结果集CJ;根据预训练大语言模型对CJ分类,根据分类结果更新FZ和BZ,再获取当前评分;直至大于预设分数阈值,停止迭代,得到目标预训练语言模型;对非结构化数据进行信息抽取,得到目标知识图谱。本申请利用预训练大语言模型增加了预训练语言模型训练样本的数量,提高了预训练语言模型的信息抽取结果的准确性,进而提高了目标知识图谱的准确度。
-
公开(公告)号:CN116361469B
公开(公告)日:2024-07-19
申请号:CN202310347857.X
申请日:2023-04-03
申请人: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC分类号: G06F16/35
摘要: 本发明提供了一种基于预训练模型的话题生成方法,包括:获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;利用设定聚类算法对待聚类文本进行聚类,得到多个话题;对多个话题进行清洗和合并处理,得到处理后的n个话题;对于n个话题中的任一话题,基于预训练生成模型生成对应的话题描述;输出n个话题的话题描述和对应的文本。本发明由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。
-
公开(公告)号:CN118940826A
公开(公告)日:2024-11-12
申请号:CN202411434591.3
申请日:2024-10-15
申请人: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC分类号: G06N5/02
摘要: 本发明涉及自然语言处理领域,提供一种事件知识图谱构建方法、装置和电子设备,包括:基于源文本数据集构建事件图谱;基于所述事件图谱和开源知识图谱之间的共同实体,对所述事件图谱和所述开源知识图谱进行融合,得到融合了事件图谱和开源知识图谱的事件知识图谱;获取所述事件知识图谱中的节点和有向边的特征向量,得到进行了知识表示的事件知识图谱,作为目标事件知识图谱。本发明通过将事件图谱与知识图谱深度融合得到具有丰富知识表示的事件知识图谱。
-
公开(公告)号:CN116361470B
公开(公告)日:2024-05-14
申请号:CN202310347961.9
申请日:2023-04-03
申请人: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC分类号: G06F16/35
摘要: 本发明提供了一种基于话题描述的文本聚类清洗和合并方法,首先对文本进行聚类,得到多个聚类结果,每个聚类结果相当于一个话题,然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的描述,能够使得聚类结果更加准确。
-
公开(公告)号:CN116361469A
公开(公告)日:2023-06-30
申请号:CN202310347857.X
申请日:2023-04-03
申请人: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC分类号: G06F16/35
摘要: 本发明提供了一种基于预训练模型的话题生成方法,包括:获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;利用设定聚类算法对待聚类文本进行聚类,得到多个话题;对多个话题进行清洗和合并处理,得到处理后的n个话题;对于n个话题中的任一话题,基于预训练生成模型生成对应的话题描述;输出n个话题的话题描述和对应的文本。本发明由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。
-
公开(公告)号:CN116361470A
公开(公告)日:2023-06-30
申请号:CN202310347961.9
申请日:2023-04-03
申请人: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC分类号: G06F16/35
摘要: 本发明提供了一种基于话题描述的文本聚类清洗和合并方法,首先对文本进行聚类,得到多个聚类结果,每个聚类结果相当于一个话题,然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的描述,能够使得聚类结果更加准确。
-
-
-
-
-
-