跨域推荐方法、装置、电子设备及存储介质

    公开(公告)号:CN115098692A

    公开(公告)日:2022-09-23

    申请号:CN202210614778.6

    申请日:2022-05-30

    Applicant: 清华大学

    Abstract: 本发明提供一种跨域推荐方法、装置、电子设备及存储介质,其中,所述方法应用于数据稀疏的目标域,目标域的目标域实体包括待推荐用户实体和待推荐商品实体,所述方法包括:获取知识图谱和源域,其中,源域中的源域实体包括源域用户实体和源域商品实体;基于知识图谱,对目标域实体和源域实体进行转换,得到目标域实体向量和源域实体向量;基于目标域实体向量和源域实体向量,通过图注意力模型得到待推荐用户实体的融合偏好特征;基于待推荐用户实体的融合偏好特征,通过跨域贝叶斯机制进行推荐,得到待推荐用户实体关于待推荐商品实体的推荐排序。通过本发明提高了对待推荐用户实体进行商品实体推荐的推荐效率。

    故事脉络构建方法、装置、电子设备和存储介质

    公开(公告)号:CN115033668A

    公开(公告)日:2022-09-09

    申请号:CN202210965268.3

    申请日:2022-08-12

    Applicant: 清华大学

    Abstract: 本发明涉及自然语言处理技术领域,提供一种故事脉络构建方法、装置、电子设备和存储介质,包括:获取待构建脉络的新闻集合;基于关系检测模型,对新闻集合中的每两个新闻进行脉络关系检测,得到每两个新闻之间的脉络关系检测结果;基于每两个新闻之间的脉络关系检测结果,构建新闻集合对应的故事脉络;关系检测模型基于正样本对和负样本对训练得到,正样本对基于话题相同、时间相邻且事件不同的样本新闻确定,负样本对基于话题相同且时间间隔的样本新闻和/或话题不同的样本新闻确定,样本新闻的话题和事件基于聚类得到。本发明在无需人工参与的情况下,提高了数据集构建的效率和可靠性,扩张了数据集规模,保障了故事脉络构建的可靠性和准确性。

    常识知识评分和排序方法及装置
    23.
    发明公开

    公开(公告)号:CN114861913A

    公开(公告)日:2022-08-05

    申请号:CN202210292415.5

    申请日:2022-03-23

    Applicant: 清华大学

    Abstract: 本发明提供一种常识知识评分和排序方法及装置,其中,常识知识评分方法包括:获取待评分常识三元组对象和与待评分常识三元组对象对应的义原树组;将待评分常识三元组对象和义原树组输入至评分模型,获得评分模型输出的投票结果;其中,评分模型是基于样本组以及对应的投票标签进行训练后得到的,样本组包括常识三元组样本以及与常识三元组样本对应的义原树组样本,投票标签是根据样本组预先确定的,并与样本组一一对应。本发明提供的常识知识评分和排序方法及装置通过结合三元组自身信息和外部知识库的义原信息,实现了对待评分常识三元组对象进行综合评分,提高了常识知识评分和排序的准确率。

    一种基于预训练的慕课自适应学习系统构建方法和装置

    公开(公告)号:CN114567815A

    公开(公告)日:2022-05-31

    申请号:CN202210068224.0

    申请日:2022-01-20

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于预训练的慕课自适应学习系统构建方法和装置,其中,该方法包括:获取第一预设时间内慕课平台记录的学生学习行为数据,以及预设条件下的辅助信息,辅助信息至少包括课程结构元信息和视频字幕文本;基于学生学习行为数据,以预设的粒度对学习行为日志进行聚合与处理,得到学生学习行为序列;基于辅助信息进行知识挖掘,获取课程结构元信息与视频的初始表示;基于学生学习行为序列和初始表示构建学习行为预训练模型,并采用掩码预测任务训练模型;将学习行为预训练模型应用于学习资源推荐和学习资源评估两个核心下游任务。本发明能够对慕课场景的学习行为、学习资源进行统一建模,构建出性能更强、更通用的自适应学习系统。

    用于命名实体识别的模型训练方法、识别方法及装置

    公开(公告)号:CN113298253B

    公开(公告)日:2021-12-14

    申请号:CN202110621275.7

    申请日:2021-06-03

    Applicant: 清华大学

    Abstract: 本发明提供一种用于命名实体识别的模型训练方法、识别方法及装置,该模型训练方法包括:将预定义类数据输入到由编码模块和分类模块构建的第一原型网络,得到学习后的编码模块;将预定义类数据分别输入到学习前后的编码模块,结果分别输入到组分类器进行训练;将其他类数据分别输入到学习前后的编码模块,结果分别输入到训练后的组分类器,得到其他类数据的分组结果;将预定义类数据和其他类数据输入到第二原型网络,对第二原型网络进行训练。本发明提供的用于命名实体识别的模型训练方法、识别方法及装置,通过利用预定义类的弱监督信号,能够有效地从其他类中挖掘更多的未定义类,从而利用其他类中丰富的语义信息,增强小样本命名实体识别能力。

    一种基于学习行为的认知诊断方法及系统

    公开(公告)号:CN113283488B

    公开(公告)日:2021-11-23

    申请号:CN202110542027.3

    申请日:2021-05-18

    Applicant: 清华大学

    Inventor: 许斌 毛亦铭

    Abstract: 本发明实施例提供一种基于学习行为的认知诊断方法及系统,其方法包括:确定待认知诊断的学生编号和答题编号,所述学生编号和答题编号与学习课程包含的学生答题和相应的视频记录一一对应;将所述待认知诊断的学生编号和答题编号输入至诊断模型,得到所述诊断模型输出的学生认知诊断结果;其中,所述诊断模型是基于试题样本及对应的知识点标注和相应的视频样本及对应的视频标注训练得到的;所述诊断模型用于基于所述试题样本及对应的知识点标注和相应的视频样本及对应的视频标注构建课程图,并通过图神经网络对所述课程图进行节点信息更新后,对所述待认知诊断的学习课程进行对应的学生认知诊断。本发明实施例实现了有效预测学生的知识水平。

    知识库实体对齐方法和装置
    27.
    发明公开

    公开(公告)号:CN113282676A

    公开(公告)日:2021-08-20

    申请号:CN202010104948.7

    申请日:2020-02-20

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种知识库实体对齐方法和装置,所述方法包括使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示,且所述注意力增强的实体向量表示融合了实体邻居信息;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。本发明实施例提供的知识库实体对齐方法和装置,能充分地利用有限的预先对齐的实体对,很好地处理异构知识库之间的差异,提升实体对齐的效果。

    一种搜索信息的摘要自动生成方法及装置

    公开(公告)号:CN113268651A

    公开(公告)日:2021-08-17

    申请号:CN202110587256.7

    申请日:2021-05-27

    Applicant: 清华大学

    Abstract: 本发明提供一种搜索信息的摘要自动生成方法及装置,该方法包括:获取搜索信息对应的网页文本集,所述搜索信息是属于第一实体类别的信息;将所述网页文本集输入训练好的主题检测模型,输出所述网页文本集对应的主题文本簇集合,其中,所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的;将所述主题文本簇集合输入训练好的摘要生成模型,得到所述搜索信息的摘要,其中,所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。本发明能够有效生成搜索信息的摘要。

    知识图谱构建的方法和装置

    公开(公告)号:CN113268606A

    公开(公告)日:2021-08-17

    申请号:CN202110586725.3

    申请日:2021-05-27

    Applicant: 清华大学

    Abstract: 本发明提供一种知识图谱构建方法和装置,方法包括获取原始数据和大规模知识图谱;对所述原始数据进行知识建模,得到知识建模结果;基于所述知识建模结果和所述大规模知识图谱,生成概念层数据;对所述原始数据进行知识获取,其中包括实体抽取、实体分类以及第一实体属性抽取,得到实体、实体类别以及实体属性;将所述实体作为关键词输入所述大规模知识图谱,获取所述实体的实体相关信息;将所述实体、所述实体类别、所述实体属性、所述实体相关信息进行融合,得到完整的实体层数据;基于所述概念层数据与所述实体层数据建构新的知识图谱。本发明通过上述方法实现对知识图谱构建,同时也能够利用上述步骤实现对知识图谱使用过程中的更新。

    基于多语言的阅读理解任务识别方法及装置

    公开(公告)号:CN112182151B

    公开(公告)日:2021-08-17

    申请号:CN202011012758.9

    申请日:2020-09-23

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种基于多语言的阅读理解任务识别方法及装置,该方法包括:获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到。该方法能够同时支持迁移多语言和多任务数据集中的知识到目标语言中,实现目标语言无数据、少数据条件下的抽取式阅读理解任务,可以提高目标语言少数据以及富数据的抽取式阅读理解任务的准确度。

Patent Agency Ranking