一种基于义原的词语语义的预测方法及计算机设备

    公开(公告)号:CN113486142B

    公开(公告)日:2025-02-25

    申请号:CN202110412919.1

    申请日:2021-04-16

    Abstract: 本申请涉及人工智能领域中的自然语言处理技术,公开了一种基于义原的词语语义的预测方法及计算机设备,该方法在知网的基础上,基于义原构建词语的义原空间,并将知网中的已知词语表示在义原空间内,词语在义原空间的向量表示由两部分组成,一部分取值由类别义原决定,另一部分取值由扩展描述及扩展描述与类别义原的关联关系决定,由于义原含义明确,因此本申请用于表征词语的向量具有可解释性;在面对新增词语,可计算新增词语与已知词语间的相关性,由已知词语在义原空间的向量表示推导出新增词语的向量表示,经由该方法预测得到的新增词语具有强表征能力。本申请方法可与推荐系统结合,用于解决推荐系统的新词理解和表示问题,提升推荐质量。

    实体链接方法及装置
    22.
    发明授权

    公开(公告)号:CN112989808B

    公开(公告)日:2025-01-03

    申请号:CN202110326779.6

    申请日:2021-03-26

    Applicant: 清华大学

    Abstract: 本发明公开了一种实体链接方法及装置,所述实体链接方法包括:基于词典的方式进行实体发现,得到实体提及;基于词和实体的联合表示的方式进行实体链接,得到所述实体提及与知识库中的实体的链接关系;对所述链接关系进行减枝处理。本发明实施例在实体发现中使用基于词典的方式,在增加召回率的同时有效避免了中文分词对实体发现带来的影响,此外,本发明实施例基于词和实体联合表示的方式实现了实体链接,从而使得实体链接更加准确和丰富。通过本发明实施例的实体链接方法,实现辅助阅读,以及可用协助进行文本预处理。

    跨语言领域知识图谱构建方法及装置

    公开(公告)号:CN112487213B

    公开(公告)日:2024-12-03

    申请号:CN202011507796.1

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种跨语言领域知识图谱构建方法及装置,所述方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。本发明实现了适用于任何领域的跨语言领域知识图谱的构建方法,知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。

    基于事件的文档检索方法、装置、电子设备及存储介质

    公开(公告)号:CN118568195A

    公开(公告)日:2024-08-30

    申请号:CN202410450531.4

    申请日:2024-04-15

    Applicant: 清华大学

    Abstract: 本发明提供一种基于事件的文档检索方法、装置、电子设备及存储介质,其中的方法包括:获取用户对于待检索文档集的用户查询语句;将用户查询语句输入至预先训练的大语言模型,得到文档检索结果;其中,大语言模型通过根据文档表示和文档标识符构成的训练样本数据集进行训练优化得到,文档表示通过待检索文档集中的事件及事件关系表示得到,文档标识符通过将待检索文档集中的事件映射到事件层次结构中得到。该方法通过将文档内容之间的关联性纳入考虑范畴,利用事件及事件关系有效表示待检索文档,显著提升了大语言模型的文档检索性能;通过采用事件层次结构来构建具备明确语义结构的文档标识符,有效加强了文档标识符与文档内容之间的联系。

    一种区域综合能源系统运行状态计算方法

    公开(公告)号:CN110781598B

    公开(公告)日:2024-02-09

    申请号:CN201911040182.4

    申请日:2019-10-29

    Abstract: 本发明公开了一种区域综合能源系统运行状态计算方法,所述方法包括,建立以下计算模型:建筑热负荷模型、热力管道模型、耦合设备模型、电力系统模型、热电联产机组模型、地源热泵机组模型;基于上述模型,依次获取负荷节点热功率、热力系统的运行状态结果、热电联产机组模型运行状态结果、地源热泵机组模型的运行状态结果及节点的电功率,最终获取区域综合能源系统的运行状态。本发明的计算方法可以用于分析区域综合能源系统的运行状态,并可同时计算各种并网能源设备的内部运行状态,为研究系统和设备特性、制定相应的运行控制策略提供数据基础。

    知识图谱补全方法、装置、存储介质及设备

    公开(公告)号:CN117033645A

    公开(公告)日:2023-11-10

    申请号:CN202210494045.3

    申请日:2022-04-29

    Abstract: 本申请公开了一种知识图谱补全方法、装置、存储介质及设备,属于人工智能领域。该方法包括:获取第一样本集,第一样本集包括知识图谱中的三元组;对于第一样本集中的任意一个三元组,确定该三元组包括的关系对应的句式模板,基于该关系对应的句式模板将该三元组转化为语句,在语句中插入向量,得到第一类数据;获取该三元组包括的实体的介绍信息,基于该介绍信息对应的句式模板,将实体和介绍信息转化为第二类数据;基于第一样本集中多个三元组对应的第一类数据和第二类数据进行模型训练;基于得到的知识图谱补全模型为该知识图谱确定新的三元组,基于新的三元组在该知识图谱中新增实体和关系。本申请能够确保补全后的知识图谱的准确性。

    任务推荐方法、装置、分类系统及可读存储介质

    公开(公告)号:CN116822807A

    公开(公告)日:2023-09-29

    申请号:CN202210260914.6

    申请日:2022-03-16

    Abstract: 本申请公开了一种任务推荐方法、装置、分类系统及可读存储介质,属于知识图谱领域。本申请实施例的任务推荐方法包括:获取每位标注员在多个叶子概念中的每个叶子概念上的标注水平分数值;根据获取的标注水平分数值,计算每位标注员对应的混淆矩阵;该混淆矩阵中的每一项表示当对应标注员所标注的实例的真实概念为第一概念的情况下,该实例被标注为第二概念的概率;计算多个待标注实例中的每个待标注实例被标注为各个叶子概念的后验概率;根据每个待标注实例被标注为各个叶子概念的后验概率,从多个待标注实例中选取目标待标注实例,并将目标待标注实例推荐给目标标注员进行标注。根据本申请实施例,可以提升标注质量。

    一种开放信息抽取模型的训练方法和装置

    公开(公告)号:CN116226324A

    公开(公告)日:2023-06-06

    申请号:CN202211559799.9

    申请日:2022-12-06

    Applicant: 清华大学

    Abstract: 本发明提供一种开放信息抽取模型的训练方法和装置,包括:获取以自然语言语句为样本的目标数据集;生成所述目标数据集中每一条自然语言语句的转述句;对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应的结构化知识;以所述目标数据集中所有自然语言语句对应的转述句和结构化知识构建第一数据集;利用所述第一数据集和所述目标数据集,采用降噪训练方式训练开放信息抽取模型。本发明基于转述生成和结构化知识恢复构建一个句法鲁棒的训练框架,使得开放信息抽取模型能够在句法分布充分且准确的数据集上进行训练,以适应真实世界场景。

    一种搜索信息的摘要自动生成方法及装置

    公开(公告)号:CN113268651B

    公开(公告)日:2023-06-06

    申请号:CN202110587256.7

    申请日:2021-05-27

    Applicant: 清华大学

    Abstract: 本发明提供一种搜索信息的摘要自动生成方法及装置,该方法包括:获取搜索信息对应的网页文本集,所述搜索信息是属于第一实体类别的信息;将所述网页文本集输入训练好的主题检测模型,输出所述网页文本集对应的主题文本簇集合,其中,所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的;将所述主题文本簇集合输入训练好的摘要生成模型,得到所述搜索信息的摘要,其中,所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。本发明能够有效生成搜索信息的摘要。

Patent Agency Ranking