-
公开(公告)号:CN114817512A
公开(公告)日:2022-07-29
申请号:CN202210738644.5
申请日:2022-06-28
Applicant: 清华大学
IPC: G06F16/332 , G06F16/31 , G06F16/36
Abstract: 本发明涉及人工智能技术领域,提供一种问答推理方法及装置,其中方法包括:确定推理目标问题的答案所需的至少一个算子;针对至少一个算子中至少部分需要访问知识库的算子,基于知识库中预先构建的知识元素的倒排索引结构,访问知识库,以得到算子的执行结果;基于至少一个算子的执行结果,得到答案。如此解决现有技术中推理引擎的推理效率不高的缺陷,由于确定的推理目标问题的答案所需的至少一个算子,能够展示出推理目标问题的答案的过程,透明可解释,并且,由于针对至少部分需要访问知识库的算子,基于知识库中预先构建的知识元素的倒排索引结构,访问知识库,以得到算子的执行结果,提高了算子的执行速度,进而提高了答案的推理效率。
-
公开(公告)号:CN114036317A
公开(公告)日:2022-02-11
申请号:CN202111372439.3
申请日:2021-11-18
Applicant: 清华大学
Abstract: 本发明提供一种旅游知识图谱模型确定方法及装置。其中,该方法包括:从预设的旅游数据源获取相应的旅游知识数据;基于所述旅游知识数据进行概念层建模确定相应的旅游本体;基于所述旅游本体进行实例层建模得到旅游知识图谱模型。本发明提供的旅游知识图谱模型确定方法,能够通过分别构建概念层和实例层来定义面向旅游路径规划的旅游本体和旅游路径实例,丰富旅游知识图谱模型包含内容,以提高查询旅游路径和景点信息的准确度,从而提升用户的使用体验。
-
公开(公告)号:CN113761122A
公开(公告)日:2021-12-07
申请号:CN202110546916.7
申请日:2021-05-19
Applicant: 清华大学 , 腾讯科技(深圳)有限公司
IPC: G06F16/33 , G06F16/335 , G06F16/36 , G06F16/35 , G06F40/30
Abstract: 本申请实施例公开了一种事件抽取方法、相关装置、设备及存储介质,用于将句级自然语言转化为结点和边,再将结点和边转化为语义特征来进行事件抽取,能够保证获取事件的精度。本申请实施例方法包括:获取待处理文本;根据待处理文本生成抽象语义表示,抽象语义表示包括与词语一一对应的结点,以及用于连接结点之间边;对抽象语义和文本表示进行语义编码处理,得到语义嵌入向量,语义嵌入向量用于表示每个词语的与事件之间的语义特征;对抽象语义表示进行图编码处理,得到图嵌入向量,其中,图嵌入向量为用于表示通过边相连接的结点的结构特征;将语义嵌入向量与图嵌入向量进行拼接,得到拼接特征向量;对拼接特征向量进行识别,输出目标事件。
-
公开(公告)号:CN113705196A
公开(公告)日:2021-11-26
申请号:CN202110882753.X
申请日:2021-08-02
Applicant: 清华大学
IPC: G06F40/211 , G06F40/216 , G06F40/253 , G06N3/04
Abstract: 本发明提供一种基于图神经网络的中文开放信息抽取方法和装置,包括:将待测中文语句文本输入谓语抽取模型,输出谓语结果;谓语抽取模型是基于样本中文语句文本和谓语标签进行训练得到的,谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;将谓语结果和待测中文语句文本输入主宾抽取模型,输出主语结果和宾语结果;主宾抽取模型是基于样本中文语句文本和主谓宾三元组标签进行训练得到的,主宾抽取模型训练时的网络结构与谓语抽取模型架构相同。本发明提供的方法和装置,实现了融合分词和依存句法信息,提高了抽取开放的事实主谓宾知识三元组的准确率。
-
公开(公告)号:CN113268608A
公开(公告)日:2021-08-17
申请号:CN202110606634.1
申请日:2021-05-27
Applicant: 清华大学
Abstract: 本发明提供一种知识概念层数据构建方法和装置,其中,方法包括获取原始数据和大规模知识图谱;对原始数据进行概念抽取,得到多个概念;对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;将所述概念、所述概念的上下位关系、所述第一概念属性、所述概念相关信息相融合,得到完整的概念层数据。基于所述概念层数据对大规模知识图谱进行更新。本发明通过上述步骤实现对知识图谱的动态更新以及在使用过程中进行扩展。
-
公开(公告)号:CN112527977A
公开(公告)日:2021-03-19
申请号:CN202011241251.0
申请日:2020-11-09
Applicant: 清华大学
IPC: G06F16/332 , G06F16/33 , G06F16/36
Abstract: 本发明实施例提供一种概念抽取方法、装置、电子设备及存储介质,其中,该方法包括:根据预设的词表对待提取文本进行术语抽取,获取第一候选概念列表,并根据预设的知识图谱对待提取文本进行实体链接,获取第二候选概念列表;对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序,根据重排序的结果获取待提取文本的概念抽取结果;其中,待提取文本为非结构化文本。本发明实施例提供的概念抽取方法、装置、电子设备及存储介质,通过对待提取文本进行术语抽取和实体链接获取的各候选概念进行重排序,根据重排序的结果获取概念抽取结果,能在标注数据较少甚至没有标注数据的情况下,从非结构化文本中更高效、准确等抽取出概念。
-
公开(公告)号:CN110399478A
公开(公告)日:2019-11-01
申请号:CN201810354364.8
申请日:2018-04-19
Applicant: 清华大学
IPC: G06F16/35
Abstract: 本发明实施例提供事件发现方法和装置。其中,方法包括:根据全部词类,获取当前时间段的每一新闻文档的表示向量;根据聚类算法,对当前时间段的新闻文档的表示向量进行聚类,将属于同一聚类的表示向量所对应的新闻文档构成报道同一事件的新闻文档集合;对于每一事件,若根据该事件与全部已确定的事件之间的第一相似度,获知该事件与任一已确定的事件相同,则将报道该事件的新闻文档集合,与报道该已确定的事件的新闻文档集合进行合并。装置包括:文档表示模块、事件获取模块和事件合并模块。本发明实施例提供的事件发现方法和装置,有效降低了文档表示的维度,并缓解了语义稀疏问题,能提高事件发现的效率和准确性。
-
公开(公告)号:CN107544958A
公开(公告)日:2018-01-05
申请号:CN201710566573.4
申请日:2017-07-12
Applicant: 清华大学
IPC: G06F17/27
Abstract: 本发明提供术语抽取方法和装置,用于解决基于统计信息抽取获得术语的方法对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性的问题。方法包括:抽取第一语料中的名词和名词短语,作为候选术语集合T;根据百科语料和候选术语集合T,获得候选术语的嵌入表示;根据候选术语的嵌入表示,计算候选术语间的语义相关度;以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V)。其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;根据术语传播网络使用置信度传播算法对候选术语进行排序;根据排序筛选术语。本发明极大地提高了术语抽取的性能。
-
公开(公告)号:CN104133673B
公开(公告)日:2017-09-26
申请号:CN201410319194.1
申请日:2014-07-04
Applicant: 清华大学
IPC: G06F9/44
Abstract: 本发明提供一种基于用户定制的本体实例匹配系统及方法,该基于用户定制的本体实例匹配系统包括组件模块和配置模块;该组件模块,包括多个原子组件;该配置模块,用于接收用户输入的定制信息,并根据该定制信息生成匹配任务定制文件,以及根据该匹配任务定制文件从该组件模块中选取用户所需的原子组件以执行本体实例匹配任务,该匹配任务定制文件包括:待匹配本体O1和O2的URI位置、匹配参数和匹配流程。本发明能够使用户能够根据匹配本体的特征,对原子组件进行定制和组装来设计自己需要的本体的实例匹配流程,生成合适的匹配任务,并获得精确地匹配结果。
-
公开(公告)号:CN105760503A
公开(公告)日:2016-07-13
申请号:CN201610097429.6
申请日:2016-02-23
Applicant: 清华大学
IPC: G06F17/30
CPC classification number: G06F17/30539
Abstract: 本发明公开了一种快速计算图节点相似度的方法,包括步骤:对于给定的图,进行路径采样并构建从节点到路径的倒排索引;对于所述图中的每个节点,根据所述倒排索引得到每个节点的共现路径节点,计算每个节点和所述共现路径节点之间的近邻相似度;对于所述图中的每个节点,选择top?k个近邻相似点的相似值作为每个节点的特征向量;对于所述图中的每个节点的特征向量构建kd?tree索引;根据所述kd?tree索引,计算所述图中每个节点向量的top?k个结构相似点。本发明具有如下优点:能够统一且快速地计算近邻和结构两种相似度。
-
-
-
-
-
-
-
-
-