一种扩充慕课课程概念的方法及系统

    公开(公告)号:CN112734608A

    公开(公告)日:2021-04-30

    申请号:CN202011583108.X

    申请日:2020-12-28

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种扩充慕课课程概念的方法及系统,该方法包括:将在线的交互式游戏作为训练环境,训练得到强化学习模型;基于课内概念集合和所述强化学习模型进行概念扩展,并在扩展过程中获取用户反馈,所述课内概念集合是由慕课课程中需补充讲解的课程知识点内容构成的;将所述用户反馈返回所述交互式游戏中重新进行扩展,直至达到预设目标,得到扩展结果。本发明实施例通过使用强化学习的训练方法,可以在某些特定课程上进行训练后大规模应用于新设立的课程,相比传统的方法节省了大量人工标注,因此具有较强的延展性。同时,并且由于多层次的训练模式,可以在处理涉及多学科的领域的课程时,保持产生较高质量的扩展结果。

    一种为中英文单词对预测义原树的方法及系统

    公开(公告)号:CN112579794A

    公开(公告)日:2021-03-30

    申请号:CN202011565924.8

    申请日:2020-12-25

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种为中英文单词对预测义原树的方法及系统,包括:获取待预测单词对,以及所述待预测单词对应的类别义原;基于已知的预设义原集合和语义关系集合,和所述待预测单词对应的类别义原,采用预设义原树生成算法为所述待预测单词对预测生成义原树。本发明实施例通过已知的义原知识库,给定单词对的类别义原信息,为给定单词对预测义原树,实现了自动预测义原树,相比人工手动标注义原树需要花费大量的时间和成本,具有更高效和更准确的特点。

    事件检测模型的构建方法、装置、电子设备及存储介质

    公开(公告)号:CN111813931B

    公开(公告)日:2021-03-16

    申请号:CN202010548917.0

    申请日:2020-06-16

    Applicant: 清华大学

    Abstract: 本发明实施例提供了一种基于开放域知识增强的事件检测深度学习模型的构建方法、装置、电子设备及存储介质,方法包括:获取标注数据和未标注数据;将标注数据输入到第一事件分类模型中,进行训练;根据外部语义库采用义原映射算法,对未标注数据中的第一数据子集进行处理,得到开放域触发词识别结果;根据开放域触发词识别结果和第二数据子集,采用知识蒸馏的方式,对第二事件分类模型进行训练;对训练后的第一事件分类模型和训练后的第二事件分类模型进行联合训练,得到基于开放域知识增强的事件检测深度学习模型。本发明实施例得到的基于开放域知识增强的事件检测深度学习模型可以有效解决各类标注分布不均匀的长尾难题。

    领域知识图谱的构建方法及装置

    公开(公告)号:CN112487212A

    公开(公告)日:2021-03-12

    申请号:CN202011507759.0

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种领域知识图谱的构建方法及装置,所述方法包括:获取目标领域的种子词汇;利用所述目标领域的种子词汇,进行词汇扩展,直至扩展得到的词汇满足预设条件,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;基于所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。在本发明实施例中,通过利用目标领域的种子词汇进行词汇扩展获得相关词汇,并基于相关词汇获取原始数据,基于原始数据进行知识图谱构建,提供了一套适用于任何领域的知识图谱的构建方法,在知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。

    一种快速计算图节点相似度的方法

    公开(公告)号:CN105760503B

    公开(公告)日:2019-02-05

    申请号:CN201610097429.6

    申请日:2016-02-23

    Applicant: 清华大学

    Abstract: 本发明公开了一种快速计算图节点相似度的方法,包括步骤:对于给定的图,进行路径采样并构建从节点到路径的倒排索引;对于所述图中的每个节点,根据所述倒排索引得到每个节点的共现路径节点,计算每个节点和所述共现路径节点之间的近邻相似度;对于所述图中的每个节点,选择top‑k个近邻相似点的相似值作为每个节点的特征向量;对于所述图中的每个节点的特征向量构建kd‑tree索引;根据所述kd‑tree索引,计算所述图中每个节点向量的top‑k个结构相似点。本发明具有如下优点:能够统一且快速地计算近邻和结构两种相似度。

    基于用户规则的企业服务总线系统

    公开(公告)号:CN104468299B

    公开(公告)日:2018-12-28

    申请号:CN201310422016.7

    申请日:2013-09-16

    Applicant: 清华大学

    Abstract: 本发明提供一种基于用户规则的企业服务总线系统,该基于用户规则的企业服务总线系统包括基于ESB的数据交换接口,用于对接入企业服务总线系统的多个应用系统的数据交换提供统一的接入标准方法;企业服务总线引擎服务器,用于监听该企业服务总线系统的消息接收端口,并按照预先存储的用户规则在该多个应用系统之间进行数据交换;消息缓存服务器,用于当该多个应用系统中的服务方应用系统无法提供服务时,暂存待交换至该服务方应用系统的数据,以及当该服务方应用系统恢复正常时,将该暂存的数据自动发送至该服务方应用系统。本发明能够降低接入的应用系统之间的耦合度。

    基于用户定制的本体实例匹配系统及方法

    公开(公告)号:CN104133673A

    公开(公告)日:2014-11-05

    申请号:CN201410319194.1

    申请日:2014-07-04

    Applicant: 清华大学

    Abstract: 本发明提供一种基于用户定制的本体实例匹配系统及方法,该基于用户定制的本体实例匹配系统包括组件模块和配置模块;该组件模块,包括多个原子组件;该配置模块,用于接收用户输入的定制信息,并根据该定制信息生成匹配任务定制文件,以及根据该匹配任务定制文件从该组件模块中选取用户所需的原子组件以执行本体实例匹配任务,该匹配任务定制文件包括:待匹配本体O1和O2的URI位置、匹配参数和匹配流程。本发明能够使用户能够根据匹配本体的特征,对原子组件进行定制和组装来设计自己需要的本体的实例匹配流程,生成合适的匹配任务,并获得精确地匹配结果。

    基于元数据分析的新闻事件检测方法

    公开(公告)号:CN101174273B

    公开(公告)日:2010-06-23

    申请号:CN200710178687.8

    申请日:2007-12-04

    Applicant: 清华大学

    Abstract: 基于元数据分析的新闻事件检测方法属于数据挖掘领域。本发明特征在于,它是采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,并给出了改进的新闻特征词的IDF(逆文本频率指数)计算方式,并且在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息,利用关键字抽取对新闻文档进行预处理,有效地降低了向量的维度。在此基础上,利用层次聚类方法将新闻报道进行聚类,通过对聚类结果树的动态划分,将由新闻报道聚类,并对应为相应的新闻事件。该方法与传统的事件检测方法相比F值(一种用来评估聚类品质好坏的标准)有较大的提高。

    一种基于词频和多元文法的新闻关键词抽取方法

    公开(公告)号:CN100520782C

    公开(公告)日:2009-07-29

    申请号:CN200710177074.2

    申请日:2007-11-09

    Applicant: 清华大学

    Abstract: 一种基于词频和多元文法的新闻关键词抽取方法属于自然语言处理技术领域,其特征在于,通过研究关键词的特征词性,利用计算机辅助挖掘,提取出关键词的多元文法的潜在词性模式,并将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。本申请提出一个改进的单文本词汇频率/逆文本频率值(tf/idf)公式,引入有针对性的特征,对候选关键词进行评分,得出候选关键词的排名,进行结果优化后给出该新闻文档的关键词。该方法与传统的基于单文本词汇频率/逆文本频率值(tf/idf)的关键词抽取方法比较,在准确率相同的情况下,召回率更高些。

    基于元数据分析的新闻事件检测方法

    公开(公告)号:CN101174273A

    公开(公告)日:2008-05-07

    申请号:CN200710178687.8

    申请日:2007-12-04

    Applicant: 清华大学

    Abstract: 基于元数据分析的新闻事件检测方法属于数据挖掘领域。本发明特征在于,它是采用多维向量空间模型来表示新闻文档,在特征表示的权重计算时充分考虑的新闻的时间特性,并给出了改进的新闻特征词的IDF(逆文本频率指数)计算方式,并且在计算新闻之间相似度时综合考虑时间、类别和新闻的具体内容等信息,利用关键字抽取对新闻文档进行预处理,有效地降低了向量的维度。在此基础上,利用层次聚类方法将新闻报道进行聚类,通过对聚类结果树的动态划分,将由新闻报道聚类,并对应为相应的新闻事件。该方法与传统的事件检测方法相比F值(一种用来评估聚类品质好坏的标准)有较大的提高。

Patent Agency Ranking