概念抽取方法、装置、电子设备及存储介质

    公开(公告)号:CN112527977A

    公开(公告)日:2021-03-19

    申请号:CN202011241251.0

    申请日:2020-11-09

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种概念抽取方法、装置、电子设备及存储介质,其中,该方法包括:根据预设的词表对待提取文本进行术语抽取,获取第一候选概念列表,并根据预设的知识图谱对待提取文本进行实体链接,获取第二候选概念列表;对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序,根据重排序的结果获取待提取文本的概念抽取结果;其中,待提取文本为非结构化文本。本发明实施例提供的概念抽取方法、装置、电子设备及存储介质,通过对待提取文本进行术语抽取和实体链接获取的各候选概念进行重排序,根据重排序的结果获取概念抽取结果,能在标注数据较少甚至没有标注数据的情况下,从非结构化文本中更高效、准确等抽取出概念。

    一种城市管理本体知识库的构建方法及系统

    公开(公告)号:CN106407208B

    公开(公告)日:2019-06-18

    申请号:CN201510455748.5

    申请日:2015-07-29

    Applicant: 清华大学

    Abstract: 本发明提供了一种城市管理本体知识库的构建方法及系统,该方法包括:获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;根据预设策略对各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到对应的第一知识实体集和第二知识实体集;为第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,根据关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。本发明解决了部门间信息的互通问题,实现自动化的知识抽取和本体知识库构建。

    一种基于熵的构件可信度量方法

    公开(公告)号:CN102279793A

    公开(公告)日:2011-12-14

    申请号:CN201110223896.6

    申请日:2011-08-05

    Applicant: 清华大学

    Abstract: 本发明提供了一种基于熵的构件可信度量方法,所述方法包括:分解出构件的主要功能点;记录每个功能点在需求阶段、设计阶段、编码阶段、测试阶段的可信证据;根据记录的可信证据计算功能点中每个阶段的可信评估值Pi;计算各个功能点的熵;计算构件的熵,判断构件可信性。发明中可信性的度量侧重于过程证据,通过过程证据,量化可信性指标,用信息熵作为可信性度量标准,更有效地度量构件的可信性。

    一种基于词频和多元文法的新闻关键词抽取方法

    公开(公告)号:CN101196904A

    公开(公告)日:2008-06-11

    申请号:CN200710177074.2

    申请日:2007-11-09

    Applicant: 清华大学

    Abstract: 一种基于词频和多元文法的新闻关键词抽取方法属于自然语言处理技术领域,其特征在于,通过研究关键词的特征词性,利用计算机辅助挖掘,提取出关键词的多元文法的潜在词性模式,并将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。本申请提出一个改进的单文本词汇频率/逆文本频率值(tf/idf)公式,引入有针对性的特征,对候选关键词进行评分,得出候选关键词的排名,进行结果优化后给出该新闻文档的关键词。该方法与传统的基于单文本词汇频率/逆文本频率值(tf/idf)的关键词抽取方法比较,在准确率相同的情况下,召回率更高些。

    动态更新的知识图谱扩展方法及装置

    公开(公告)号:CN112527924B

    公开(公告)日:2024-07-23

    申请号:CN202011507777.9

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种动态更新的知识图谱扩展方法及装置,所述方法包括:基于第一知识库,进行知识图谱的构建,生成目标领域的知识图谱,其中,所述第一知识库由目标领域的原始数据构成;基于所述目标领域的新知识,生成第二知识库,并将所述第二知识库中的数据扩展到所述知识图谱中,获得更新后的知识图谱;和/或,基于所述知识图谱,执行知识赋能操作,获得所述知识图谱的应用方案,并对所述应用方案执行知识推理操作,得到第三知识库,将所述第三知识库中的数据扩展到所述知识图谱中,获得更新后的知识图谱。本发明提供的动态更新的知识图谱扩展方法及装置,可以实现知识图谱的动态扩展,保证了知识图谱的动态更新和实时性。

    事件关系预测方法、装置、电子设备、介质及程序产品

    公开(公告)号:CN116501868A

    公开(公告)日:2023-07-28

    申请号:CN202310325479.5

    申请日:2023-03-29

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种事件关系预测方法、装置、电子设备、介质及程序产品,该方法包括:对输入文本进行聚类得到多个互不相交的原始组;对原始组进行两两融合得到多个交叉组;利用摘要生成模型生成原始组的第一摘要及交叉组的第二摘要;分别获取输入文本、第一摘要及第二摘要中的事件的向量表示及事件对的向量表示;根据输入文本、第一摘要及第二摘要中事件对的向量表示获取待预测事件对的向量表示;将待预测事件对的向量表示输入至预训练的事件关系预测模型,输出待预测事件对的事件关系预测结果。本发明实施例有效提升了模型处理长距离事件关系预测的能力,减少事件关系预测过程中遇到的冗余信息的影响,提高了事件关系的预测效率和准确率。

    事件百科文档自动生成方法和装置

    公开(公告)号:CN113282745B

    公开(公告)日:2023-04-18

    申请号:CN202010104947.2

    申请日:2020-02-20

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种事件百科文档自动生成方法和装置,所述事件百科文档自动生成方法包括:基于现存的与待处理事件同事件类别的百科文档,生成该事件类别的主题树,其中所述主题树包括多个主题;获取所述待处理事件的相关文档集合;基于所述相关文档集合和所述主题树,确定与多个所述主题分别对应的目标文本信息;根据与多个所述主题分别对应的所述目标文本信息,确定与多个所述主题分别对应的摘要;基于与多个所述主题分别对应的所述摘要,生成所述待处理事件的百科文档。本发明实施例的事件百科文档自动生成方法,可以对新事件自动生成包括多个主题的百科文档,使得生成的百科文档目录更完善,更细致地描述事件不同方面的重点信息。

    一种知识感知结合深度强化学习的跨域推荐方法及系统

    公开(公告)号:CN115599990A

    公开(公告)日:2023-01-13

    申请号:CN202211132191.8

    申请日:2022-09-16

    Abstract: 本发明提供一种知识感知结合深度强化学习的跨域推荐方法及系统,包括:获取跨域推荐任务,将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架;基于所述马尔可夫决策过程框架采用注意力机制和图卷积网络,获取并融合域内和跨域的邻居状态表示结果;通过训练好的受约束的邻居剪枝策略对融合的域内和跨域邻居状态表示结果进行剪枝,生成剪枝邻居集;将所述剪枝邻居集输入至预设的自监督模型,通过所述自监督模型生成并优化推荐策略。本发明解决了现有信息推送准确性低的缺陷,实现通过跨域推荐提升信息推送的准确度。

    文档处理方法、文档摘要生成方法及装置

    公开(公告)号:CN115563240A

    公开(公告)日:2023-01-03

    申请号:CN202211035766.4

    申请日:2022-08-26

    Applicant: 清华大学

    Abstract: 本发明提供一种文档处理方法、文档摘要生成方法及装置,文档处理方法包括:获取待处理文档集以及关键词集;将关键词集中的关键词分别插入至待处理文档集中的各待处理文档中,得到待测序列;确定各待测序列的困惑度,并基于各待测序列的困惑度确定各待处理文档的第一评分结果;基于各待处理文档的第一评分结果对待处理文档集进行筛选,得到目标文档。文档摘要生成方法包括:基于关键词集中的各关键词从待处理文档集中抽取目标文档;基于目标文档生成摘要。本发明能够有效提高目标文档的有效性,进而保证了摘要的生成效果。

    问答方法、问答数据集生成方法及装置

    公开(公告)号:CN114817510B

    公开(公告)日:2022-10-14

    申请号:CN202210715592.X

    申请日:2022-06-23

    Applicant: 清华大学

    Abstract: 本发明涉及人工智能技术领域,提供一种问答方法、问答数据集生成方法及装置,方法包括:获取待回答问题,将待回答问题输入至问答模型,得到待回答问题的答案;问答模型是基于问答数据集得到的,针对提问策略库的每种问题模板,从提问对象库中选择与第一占位符对应的若干目标元素,基于元素描述策略库的M种元素描述模板生成目标元素的M个元素描述信息,将若干目标元素的M个元素描述信息依次替换问题模板中对应的第一占位符,生成多个第一问题;基于第一问题中具有别名的元素将第一问题转写成第二问题,并通过生成第二问题的释义将第二问题转写成第三问题;基于所有第三问题及目标元素生成问答数据集,解决了问答数据集的质量问题,提高了质量。

Patent Agency Ranking