-
公开(公告)号:CN117408337A
公开(公告)日:2024-01-16
申请号:CN202311604075.6
申请日:2023-11-28
Applicant: 航空工业信息中心 , 北京中科闻歌科技股份有限公司 , 中国科学院自动化研究所
IPC: G06N5/022 , G06F16/35 , G06F16/36 , G06F18/214
Abstract: 本申请涉及知识图谱构建领域,特别是涉及一种基于大语言模型的知识图谱构建方法、装置、介质和设备。该方法包括:根据标注数据组集和预设数据结构得到初始预训练语言模型当前评分;若小于预设分数阈值,获取非结构化数据集FZ;根据初始预训练语言模型和FZ,得到信息抽取结果集CJ;根据预训练大语言模型对CJ分类,根据分类结果更新FZ和BZ,再获取当前评分;直至大于预设分数阈值,停止迭代,得到目标预训练语言模型;对非结构化数据进行信息抽取,得到目标知识图谱。本申请利用预训练大语言模型增加了预训练语言模型训练样本的数量,提高了预训练语言模型的信息抽取结果的准确性,进而提高了目标知识图谱的准确度。
-
公开(公告)号:CN105653538A
公开(公告)日:2016-06-08
申请号:CN201410642239.9
申请日:2014-11-13
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC: G06F17/30
Abstract: 一种数据挖掘的方法,包括以下步骤:获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升因素。上述方法可挖掘出准确的用户行为频率提升因素。此外,还提供一种数据挖掘的装置。
-
公开(公告)号:CN115248857A
公开(公告)日:2022-10-28
申请号:CN202211026146.4
申请日:2022-08-25
Applicant: 北京中科闻歌科技股份有限公司 , 航空工业信息中心 , 中国科学院自动化研究所
Abstract: 本公开涉及一种多语言观点摘要生成方法、装置、设备、系统及存储介质。该方法包括:获取待处理的多个目标文本;对多个目标文本进行跨语言文本表征处理,得到各个目标文本对应的多个通用表征向量;基于多个通用表征向量,提取各个目标文本中的至少一个观点句;基于观点句,生成多个目标文本对应的多个观点摘要。根据本公开实施例,无需依赖机器翻译工具对不同的语言对应的多媒体内容先进行翻译再生成观点摘要,对于海量的多语言目标文本,降低了观点摘要的生成成本,同时,生成的观点摘要不受机器翻译准确性的影响,因此,提高了多语言观点摘要生成的准确性,有利于推广应用。
-
公开(公告)号:CN114691866A
公开(公告)日:2022-07-01
申请号:CN202210225366.3
申请日:2022-03-09
Applicant: 航空工业信息中心 , 北京中科闻歌科技股份有限公司 , 中国科学院自动化研究所
Abstract: 本公开实施例涉及一种面向多级标签的文本分类方法、装置、设备及存储介质。本公开实施例通过获取文本以及文本中关键词对应的标签;基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量;分别计算文本的特征向量与每个标签的向量之间的余弦相似度;将余弦相似度大于预设阈值的标签确定为文本的标签。通过对文本和现有类别标签进行编码处理和余弦相似度计算处理,选择出文本内容相匹配的标签,可减轻对人工标注标签的依赖,降低人工标注和标签体系的维护成本,提高标签标注的准确率,使文本分类结果更准确。
-
公开(公告)号:CN105653538B
公开(公告)日:2019-12-20
申请号:CN201410642239.9
申请日:2014-11-13
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC: G06F16/2458
Abstract: 一种数据挖掘的方法,包括以下步骤:获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升因素。上述方法可挖掘出准确的用户行为频率提升因素。此外,还提供一种数据挖掘的装置。
-
公开(公告)号:CN119782464A
公开(公告)日:2025-04-08
申请号:CN202411840115.1
申请日:2024-12-13
Applicant: 北京中科闻歌科技股份有限公司 , 中国科学院自动化研究所 , 航空工业信息中心
IPC: G06F16/3329 , G06F16/34 , G06F40/211 , G06F40/253 , G06F40/30 , G06N3/045
Abstract: 本发明提供了一种多文档摘要生成质量评估方法,方法包括:构建问答对的方式,针对每个文档生成问题及其对应的答案作为答案参考;接着,基于当前需要评估的摘要对问题进行答案生成;然后,基于能否回答问题、回答问题的准确性以及对摘要中是否包含异常句子获取当前需要评估的摘要的生成状态值。本发明能够不依赖于参考标准对多文档摘要的生成质量进行分析。
-
公开(公告)号:CN118747526A
公开(公告)日:2024-10-08
申请号:CN202410763060.2
申请日:2024-06-13
Applicant: 中国科学院自动化研究所 , 国家电网有限公司客户服务中心 , 国网浙江省电力有限公司营销服务中心 , 中国电力科学研究院有限公司
IPC: G06N5/022 , G06F18/213 , G06F40/268 , G06F40/20 , G06F16/35
Abstract: 本发明提供一种基于增强提示的可控回复生成方法、装置及存储介质。该基于增强提示的可控回复生成方法包括:获取多轮对话历史文本;对所述多轮对话历史文本进行词级别的文本特征提取,获得词级别文本特征;基于所述词级别文本特征和大语言模型生成回复。本发明提供的基于增强提示的可控回复生成方法、装置及存储介质,对多轮对话历史进行词级别的文本特征提取,基于这些词级文本特征利用大语言模型可以生成上下文一致的回复,提高生成回复的情感属性控制准确率,使回复能够符合预定义控制属性要求,从而提升用户体验。
-
公开(公告)号:CN103455638A
公开(公告)日:2013-12-18
申请号:CN201310452292.8
申请日:2013-09-26
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明提出一种结合推理和半自动学习的行为知识提取方法和装置。本发明针对海量的开源文本,使用少量行为知识提取模板并利用行为知识间的语义关联,增量地从文本中获取行为前提、行为结果和行为间的时序关系三种主要的行为知识。本发明基于Bootstrapping分别获取上述三种行为知识,并基于行为知识间的语义关联,在Bootstrapping步骤中结合知识推理进行行为知识提取。本发明能够有效提高了行为知识提取的效率和质量,可在不同应用领域支持面向海量文本的行为自动建模和分析。
-
公开(公告)号:CN119961397A
公开(公告)日:2025-05-09
申请号:CN202411986301.6
申请日:2024-12-31
Applicant: 中国科学院自动化研究所 , 国家电网有限公司客户服务中心 , 国网浙江省电力有限公司营销服务中心 , 中国电力科学研究院有限公司
Abstract: 本发明提供一种电力客服对话模型训练方法、对话生成方法及相关装置,电力客服对话模型训练方法,该电力客服对话模型训练方法包括:从电力行业用户的的人格特征、用户人物属性和用户种子知识构建用户代理智能体,根据客服人物属性和客服种子知识构建客服代理智能体;对从电力行业客服的对话记录数据中提取出多个话题进行蒸馏提取出引导词;通过预训练大语言模型根据引导词驱动用户代理智能体与客服代理智能体进行多轮次对话交互,并将通过每个轮次对话交互生成的对话数据对对话生成模型进行迭代训练,得到电力客服对话模型。本发明所述方法提高了对话数据采集效率和质量,增强了对话模型的问答性能,提高了用户隐私的安全性。
-
公开(公告)号:CN119782520A
公开(公告)日:2025-04-08
申请号:CN202411840116.6
申请日:2024-12-13
Applicant: 北京中科闻歌科技股份有限公司 , 中国科学院自动化研究所 , 航空工业信息中心
IPC: G06F16/34 , G06F16/355 , G06F16/3329 , G06F40/30 , G06N3/045 , G06F18/22
Abstract: 本发明提供了一种基于大语言模型的事件脉络生成方法、设备和介质,包括:事件信息输入及相关数据获取,数据清洗及相关性判断,大模型事件脉络生成,事件脉络清洗及梳理,事件脉络溯源信息溯源。本发明通过大语言模型生成及梳理事件脉络,可保障脉络的逻辑性,使用户更加清晰的浏览事件发生的前因后果。此外,通过使用大语言模型的通用理解能力,无需针对各个领域进行适配性工作。
-
-
-
-
-
-
-
-
-