一种获取知识图谱向量化表示的方法以及装置

    公开(公告)号:CN105824802B

    公开(公告)日:2018-10-30

    申请号:CN201610197184.4

    申请日:2016-03-31

    Applicant: 清华大学

    Inventor: 李涓子 王志刚

    Abstract: 本发明公开一种获取知识图谱向量化表示的方法以及装置。其中,所述方法包括:根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体,得到实体标注的文本语料;基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示。本发明不仅能提高关系的表示能力,而且还能有效地解决知识图谱稀疏性带来的表示效果不足的问题。

    课程先后序计算方法和设备

    公开(公告)号:CN107274077A

    公开(公告)日:2017-10-20

    申请号:CN201710398841.6

    申请日:2017-05-31

    Applicant: 清华大学

    Abstract: 本发明提供一种课程先后序计算方法和设备,用于解决确定大型网络课程中安排课程的学习顺序问题。其中方法包括:S101、根据辅助语料,获得第一语料中的概念实体的向量表示;S102、计算概念实体对之间的复杂程度距离特征;以及计算以下6种特征中的至少5种:语义关系特征、视频引用距离特征、通用句子引用距离特征、辅助文本引用距离、平均位置距离特征、分布不对称特征;S103、根据获得的概念实体对之间的复杂程度距离特征,以及根据在步骤S102中获得5种特征,采用随机森林方法训练获得概念的先后序关系;S104、通过概念实体的先后顺序,获得课程的先后顺序。本发明对网络上大型开放网络课程提供了一个有效的先后序确认方法。

    跨语言本体构建方法及装置

    公开(公告)号:CN103336852B

    公开(公告)日:2017-04-05

    申请号:CN201310314435.9

    申请日:2013-07-24

    Applicant: 清华大学

    Abstract: 本发明公开了一种跨语言本体构建方法,所述方法包括以下步骤:对于两个异构跨语言在线百科数据库,各自学习一个带有置信度输出的二元分类函数,根据学习得到的本体构建函数构建各自的单语言本体;对于两个单语言本体,学习一个新的带有置信度输出的二元分类函数,根据学习得到的实例匹配函数发现跨语言等价关系;重复执行上述两步,在每次迭代中,使用跨语言验证方法校验并调整本体构建函数和实例匹配函数,以相互提高其学习效果,进而增量式构建一个高质量的、大规模的跨语言本体。本发明同时公开了一种跨语言本体构建装置,包括以下模块:单语言本体构建模块;跨语言等价关系关联模块;迭代模块。

    一种获取知识图谱向量化表示的方法以及装置

    公开(公告)号:CN105824802A

    公开(公告)日:2016-08-03

    申请号:CN201610197184.4

    申请日:2016-03-31

    Applicant: 清华大学

    Inventor: 李涓子 王志刚

    CPC classification number: G06F17/2705

    Abstract: 本发明公开一种获取知识图谱向量化表示的方法以及装置。其中,所述方法包括:根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体,得到实体标注的文本语料;基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示。本发明不仅能提高关系的表示能力,而且还能有效地解决知识图谱稀疏性带来的表示效果不足的问题。

    基于用户规则的企业服务总线系统

    公开(公告)号:CN104468299A

    公开(公告)日:2015-03-25

    申请号:CN201310422016.7

    申请日:2013-09-16

    Applicant: 清华大学

    Abstract: 本发明提供一种基于用户规则的企业服务总线系统,该基于用户规则的企业服务总线系统包括基于ESB的数据交换接口,用于对接入企业服务总线系统的多个应用系统的数据交换提供统一的接入标准方法;企业服务总线引擎服务器,用于监听该企业服务总线系统的消息接收端口,并按照预先存储的用户规则在该多个应用系统之间进行数据交换;消息缓存服务器,用于当该多个应用系统中的服务方应用系统无法提供服务时,暂存待交换至该服务方应用系统的数据,以及当该服务方应用系统恢复正常时,将该暂存的数据自动发送至该服务方应用系统。本发明能够降低接入的应用系统之间的耦合度。

    基于语义的信息采集方法及系统

    公开(公告)号:CN103473369A

    公开(公告)日:2013-12-25

    申请号:CN201310452655.8

    申请日:2013-09-27

    Applicant: 清华大学

    Abstract: 本发明涉及数据挖掘技术领域,具体涉及一种基于语义的信息采集方法及系统。该信息采集方法包括步骤:S1.根据网络资源的典型特征,建立网络资源抽象数据模型;S2.借助搜索引擎从互联网采集网络信息,并将采集的网络信息用所述网络资源抽象数据模型进行格式化处理;S3.对格式化处理后的网络信息进行聚类分析,并根据聚类分析结果将所述网络信息划分入对应的话题中,并提取每个话题的标签;S4.对所述步骤S3中处理结果进行可视化展示。本发明由话题驱动进行网络资源组织、可视化展示以及对网络资源的下载和离线查看,从而可以多维度的对网络信息进行展现,以形象、直观的方式将网络信息呈现给用户,实现了提高用户浏览效率的效果。

    跨语言本体构建方法及装置

    公开(公告)号:CN103336852A

    公开(公告)日:2013-10-02

    申请号:CN201310314435.9

    申请日:2013-07-24

    Applicant: 清华大学

    Abstract: 本发明公开了一种跨语言本体构建方法,所述方法包括以下步骤:对于两个异构跨语言在线百科数据库,各自学习一个带有置信度输出的二元分类函数,根据学习得到的本体构建函数构建各自的单语言本体;对于两个单语言本体,学习一个新的带有置信度输出的二元分类函数,根据学习得到的实例匹配函数发现跨语言等价关系;重复执行上述两步,在每次迭代中,使用跨语言验证方法校验并调整本体构建函数和实例匹配函数,以相互提高其学习效果,进而增量式构建一个高质量的、大规模的跨语言本体。本发明同时公开了一种跨语言本体构建装置,包括以下模块:单语言本体构建模块;跨语言等价关系关联模块;迭代模块。

    一种多策略组合的本体或实例匹配方法

    公开(公告)号:CN102306177B

    公开(公告)日:2013-06-05

    申请号:CN201110247261.X

    申请日:2011-08-25

    Applicant: 清华大学

    Abstract: 本发明公开了一种多策略组合的本体或实例匹配方法,涉及语义万维网领域。所述方法包括步骤:对于两个本体元素或两个实例元素集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到多组匹配结果,对所述多组匹配结果中的每个匹配结果进行投票,根据投票结果对所述多组匹配结果进行过滤,得到初始匹配结果;根据所述初始匹配结果,以及本体元素或者实例元素之间的链接关系,获得新匹配结果,所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果。所述方法提高了最终匹配结果的准确度,有利于更好的解决链接数据模式层和实例层的异构问题。

    基于XML模式的数据绑定应用程序接口生成方法

    公开(公告)号:CN101339500B

    公开(公告)日:2010-06-09

    申请号:CN200810112277.8

    申请日:2008-05-22

    Applicant: 清华大学

    Abstract: 基于xml模式的数据绑定应用程序接口生成方法针对实际中存在的复杂xml schema规范,提出了一种自动生成用于操作符合xml Schema规范的xml文件的数据绑定API的方法。其特征为该方法以数据绑定技术为基础,首先生成一套与生成目标语言类型无关的中间层,然后通过独立的代码生成引擎生成所需类型目标代码。本文基于新华社颁布的CNML Schema(中文新闻置标语言)以及CNML稿件模板进行代码生成和测试,实验证明,这种方法在保证API的健壮性和正确性的基础上,同时具有了极大的灵活性,可以大幅降低schema规范变迁所带来的API维护成本,保持多种语言API接口的基本一致性以降低培训成本,同时也为基于API之上的应用系统提供稳定的支持。

    一种基于义原的词语语义的预测方法及计算机设备

    公开(公告)号:CN113486142B

    公开(公告)日:2025-02-25

    申请号:CN202110412919.1

    申请日:2021-04-16

    Abstract: 本申请涉及人工智能领域中的自然语言处理技术,公开了一种基于义原的词语语义的预测方法及计算机设备,该方法在知网的基础上,基于义原构建词语的义原空间,并将知网中的已知词语表示在义原空间内,词语在义原空间的向量表示由两部分组成,一部分取值由类别义原决定,另一部分取值由扩展描述及扩展描述与类别义原的关联关系决定,由于义原含义明确,因此本申请用于表征词语的向量具有可解释性;在面对新增词语,可计算新增词语与已知词语间的相关性,由已知词语在义原空间的向量表示推导出新增词语的向量表示,经由该方法预测得到的新增词语具有强表征能力。本申请方法可与推荐系统结合,用于解决推荐系统的新词理解和表示问题,提升推荐质量。

Patent Agency Ranking