一种基于预训练的慕课自适应学习系统构建方法和装置

    公开(公告)号:CN114567815A

    公开(公告)日:2022-05-31

    申请号:CN202210068224.0

    申请日:2022-01-20

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于预训练的慕课自适应学习系统构建方法和装置,其中,该方法包括:获取第一预设时间内慕课平台记录的学生学习行为数据,以及预设条件下的辅助信息,辅助信息至少包括课程结构元信息和视频字幕文本;基于学生学习行为数据,以预设的粒度对学习行为日志进行聚合与处理,得到学生学习行为序列;基于辅助信息进行知识挖掘,获取课程结构元信息与视频的初始表示;基于学生学习行为序列和初始表示构建学习行为预训练模型,并采用掩码预测任务训练模型;将学习行为预训练模型应用于学习资源推荐和学习资源评估两个核心下游任务。本发明能够对慕课场景的学习行为、学习资源进行统一建模,构建出性能更强、更通用的自适应学习系统。

    用于命名实体识别的模型训练方法、识别方法及装置

    公开(公告)号:CN113298253B

    公开(公告)日:2021-12-14

    申请号:CN202110621275.7

    申请日:2021-06-03

    Applicant: 清华大学

    Abstract: 本发明提供一种用于命名实体识别的模型训练方法、识别方法及装置,该模型训练方法包括:将预定义类数据输入到由编码模块和分类模块构建的第一原型网络,得到学习后的编码模块;将预定义类数据分别输入到学习前后的编码模块,结果分别输入到组分类器进行训练;将其他类数据分别输入到学习前后的编码模块,结果分别输入到训练后的组分类器,得到其他类数据的分组结果;将预定义类数据和其他类数据输入到第二原型网络,对第二原型网络进行训练。本发明提供的用于命名实体识别的模型训练方法、识别方法及装置,通过利用预定义类的弱监督信号,能够有效地从其他类中挖掘更多的未定义类,从而利用其他类中丰富的语义信息,增强小样本命名实体识别能力。

    知识库实体对齐方法和装置
    63.
    发明公开

    公开(公告)号:CN113282676A

    公开(公告)日:2021-08-20

    申请号:CN202010104948.7

    申请日:2020-02-20

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种知识库实体对齐方法和装置,所述方法包括使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示,且所述注意力增强的实体向量表示融合了实体邻居信息;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。本发明实施例提供的知识库实体对齐方法和装置,能充分地利用有限的预先对齐的实体对,很好地处理异构知识库之间的差异,提升实体对齐的效果。

    一种搜索信息的摘要自动生成方法及装置

    公开(公告)号:CN113268651A

    公开(公告)日:2021-08-17

    申请号:CN202110587256.7

    申请日:2021-05-27

    Applicant: 清华大学

    Abstract: 本发明提供一种搜索信息的摘要自动生成方法及装置,该方法包括:获取搜索信息对应的网页文本集,所述搜索信息是属于第一实体类别的信息;将所述网页文本集输入训练好的主题检测模型,输出所述网页文本集对应的主题文本簇集合,其中,所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的;将所述主题文本簇集合输入训练好的摘要生成模型,得到所述搜索信息的摘要,其中,所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。本发明能够有效生成搜索信息的摘要。

    知识图谱构建的方法和装置

    公开(公告)号:CN113268606A

    公开(公告)日:2021-08-17

    申请号:CN202110586725.3

    申请日:2021-05-27

    Applicant: 清华大学

    Abstract: 本发明提供一种知识图谱构建方法和装置,方法包括获取原始数据和大规模知识图谱;对所述原始数据进行知识建模,得到知识建模结果;基于所述知识建模结果和所述大规模知识图谱,生成概念层数据;对所述原始数据进行知识获取,其中包括实体抽取、实体分类以及第一实体属性抽取,得到实体、实体类别以及实体属性;将所述实体作为关键词输入所述大规模知识图谱,获取所述实体的实体相关信息;将所述实体、所述实体类别、所述实体属性、所述实体相关信息进行融合,得到完整的实体层数据;基于所述概念层数据与所述实体层数据建构新的知识图谱。本发明通过上述方法实现对知识图谱构建,同时也能够利用上述步骤实现对知识图谱使用过程中的更新。

    基于多语言的阅读理解任务识别方法及装置

    公开(公告)号:CN112182151B

    公开(公告)日:2021-08-17

    申请号:CN202011012758.9

    申请日:2020-09-23

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种基于多语言的阅读理解任务识别方法及装置,该方法包括:获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到。该方法能够同时支持迁移多语言和多任务数据集中的知识到目标语言中,实现目标语言无数据、少数据条件下的抽取式阅读理解任务,可以提高目标语言少数据以及富数据的抽取式阅读理解任务的准确度。

    关键词汇扩展方法及系统、电子设备及存储介质

    公开(公告)号:CN112650817A

    公开(公告)日:2021-04-13

    申请号:CN202011444885.6

    申请日:2020-12-08

    Applicant: 清华大学

    Abstract: 本发明提供一种关键词汇扩展方法及系统、电子设备及存储介质,包括:S1:基于关键词汇,从数据库中提取出与关键词汇相对应的文本数据;S2:对所述文本数据进行实体链接,得到和关键词汇相关的关联要素;S3:基于所述关键词汇和关联要素,进行相关性筛选,得到筛选后的词汇;S4:判断所述筛选后的词汇是否满足预设条件;若是,执行S5;若否,则将所述筛选后的词汇作为关键词汇,返回所述S1;S5:将筛选后的词汇汇总作为关键词汇的相关词汇列表。本发明只需要使用少量的领域种子词汇或种子文本,通过较少的人力成本、时间能够快速实现领域词汇扩展的任务。

    动态更新的知识图谱扩展方法及装置

    公开(公告)号:CN112527924A

    公开(公告)日:2021-03-19

    申请号:CN202011507777.9

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种动态更新的知识图谱扩展方法及装置,所述方法包括:基于第一知识库,进行知识图谱的构建,生成目标领域的知识图谱,其中,所述第一知识库由目标领域的原始数据构成;基于所述目标领域的新知识,生成第二知识库,并将所述第二知识库中的数据扩展到所述知识图谱中,获得更新后的知识图谱;和/或,基于所述知识图谱,执行知识赋能操作,获得所述知识图谱的应用方案,并对所述应用方案执行知识推理操作,得到第三知识库,将所述第三知识库中的数据扩展到所述知识图谱中,获得更新后的知识图谱。本发明提供的动态更新的知识图谱扩展方法及装置,可以实现知识图谱的动态扩展,保证了知识图谱的动态更新和实时性。

    一种多模态事件检测方法及装置

    公开(公告)号:CN111259851A

    公开(公告)日:2020-06-09

    申请号:CN202010076960.1

    申请日:2020-01-23

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种多模态事件检测方法及装置。所述方法包括获取与待测句子匹配的待测图像集合;得到待测句子的初始的句子表达式,并得到各待测图像的图像表达式;采用交替对偶注意力机制,依次根据各图像表达式对句子表达式进行更新,得到更新后的句子表达式;采用残差融合器得到融合后的句子表达式;输入到事件预测模块得到对应的事件检测结果,本发明实施例通过获取待测句子的待测图像,分别编码得到句子表达式和图像表达式,依次根据各待测图像的图像表达式,采用交替对偶注意力机制,对句子表达式进行更新和残差融合,再将融合后的句子表达式通过事件预测模型,得到事件检测结果,从而提升了对于待测文本的事件检测的效率和质量。

    术语抽取方法和装置
    70.
    发明授权

    公开(公告)号:CN107544958B

    公开(公告)日:2020-02-18

    申请号:CN201710566573.4

    申请日:2017-07-12

    Applicant: 清华大学

    Abstract: 本发明提供术语抽取方法和装置,用于解决基于统计信息抽取获得术语的方法对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性的问题。方法包括:抽取第一语料中的名词和名词短语,作为候选术语集合T;根据百科语料和候选术语集合T,获得候选术语的嵌入表示;根据候选术语的嵌入表示,计算候选术语间的语义相关度;以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V)。其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;根据术语传播网络使用置信度传播算法对候选术语进行排序;根据排序筛选术语。本发明极大地提高了术语抽取的性能。

Patent Agency Ranking