文本问题的解答方法、装置、电子设备及存储介质

    公开(公告)号:CN116561273A

    公开(公告)日:2023-08-08

    申请号:CN202310429991.4

    申请日:2023-04-20

    Applicant: 清华大学

    Abstract: 本发明涉及自然语言处理技术领域,提供一种文本问题的解答方法、装置、电子设备及存储介质,包括:确定目标文本问题,基于目标文本问题生成层次化问题分解树,层次化问题分解树包括根节点和叶子节点,根节点对应于目标文本问题,叶子节点对应于原子问题;确定目标文本问题和原子问题在不同知识源下的答案文本,根据答案文本确定目标文本问题的标准答案文本。本发明通过基于目标文本问题生成层次化问题分解树,并确定层次化问题分解树上的问题在不同知识源下的答案文本,根据答案文本确定目标文本问题的标准答案文本,做到更好地表示复杂问题的层次化的语义信息,并可以同时在不同层次上整合不同知识源中的信息用以回答复杂问题。

    平行语料的生成方法及装置和无监督同义转写方法及装置

    公开(公告)号:CN115809658A

    公开(公告)日:2023-03-17

    申请号:CN202211497311.4

    申请日:2022-11-25

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种平行语料的生成方法及装置和无监督同义转写方法及装置,其中平行语料的生成方法包括:获取待转写语料和所述待转写语料的上下文;基于所述待转写语料获得关键词集合;将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,获得的所述预训练语言模型输出的至少一个候选同义转写语料;对每个所述候选同义转写语料进行评价,基于评价结果确定目标同义转写语料。无监督同义转写方法包括:获取待转写语句;将所述待转写语句输入至同义转写模型,获得所述同义转写模型输出的同义转写句;其中,所述同义转写模型是基于平行语料对训练得到的。本发明实施例能够获得优秀的同义转写句。

    百科知识图谱动态更新方法、装置、设备及介质

    公开(公告)号:CN115658931A

    公开(公告)日:2023-01-31

    申请号:CN202211681737.5

    申请日:2022-12-27

    Applicant: 清华大学

    Abstract: 本申请涉及计算机技术领域,特别涉及一种百科知识图谱动态更新方法、装置、设备及介质,其中,包括:获取百科知识图谱的待更新数据列表,其中,待更新数据列表包括待更新词条的页面文本和/或词条简介中链接的页面文本;根据预设更新周期遍历待更新数据列表,抽取待更新数据列表中页面文本的预设关键信息,基于预设关键信息更新百科知识图谱中三元组,得到更新结果;对更新结果进行结构化,得到更新后的百科知识图谱,并基于更新后的百科知识图谱更新数据库中存储的百科知识图谱。由此,解决了相关技术中需人工手动修改审核更新,无法自动更新和维护百科知识图谱,导致更新效率较低、维护成本较高等问题。

    文本数据分析方法、装置、电子设备及存储介质

    公开(公告)号:CN113094469B

    公开(公告)日:2022-07-05

    申请号:CN202110363310.X

    申请日:2021-04-02

    Applicant: 清华大学

    Abstract: 本发明提供一种文本数据分析方法、装置、电子设备及存储介质,该方法包括:确定目标文本和目标文本中的目标实体,根据目标实体确定关联文本;根据目标文本确定三元组,以及在目标文本中对应于三元组的段落;根据目标文本和关联文本确定对应于目标实体的词云和开放关系;根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。本发明提供的文本数据分析方法、装置、电子设备及存储介质,通过对文本进行分析,得到与目标实体相关联的三元组、段落、词云和开放关系,实现对文本数据的多层次挖掘,构建文本分级知识展示形态,方便对文本的重点了解。

    三元组作为节点的知识图谱的表示学习方法、装置及设备

    公开(公告)号:CN114661916A

    公开(公告)日:2022-06-24

    申请号:CN202210220916.2

    申请日:2022-03-08

    Applicant: 清华大学

    Abstract: 本发明提供一种三元组作为节点的知识图谱的表示学习方法、装置及设备,属于机器学习技术领域,方法通过初始化预测模型的参数,参数包括知识图谱中实体和关系的向量表示,知识图谱是三元组作为节点所构成的;遍历知识图谱中的每个三元组,确定预测模型针对每个三元组的损失;基于每个三元组的损失,利用优化器对实体和关系的向量表示进行优化,由于知识图谱本身是以三元组作为节点所构成的,该类型的知识图谱可以极大地丰富知识图谱的表示能力,且基于该知识图谱的表示学习方法,能够很好的对这类知识图谱进行表示学习。

    新闻事件内实体关系抽取方法及装置

    公开(公告)号:CN111444713B

    公开(公告)日:2022-04-29

    申请号:CN201910038950.6

    申请日:2019-01-16

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种新闻事件内实体关系抽取方法及装置,所述方法包括:提取目标新闻事件中与实体相关的语句,并确定目标实体对,提取所述目标实体对出现语句,生成实体对语句集合;分析实体对语句集合中各语句的语义特征,提取用以表示目标实体对关系的多个关键词;根据多个关键词在实体对语句集合中的TF‑IDF值进行排序,选取前N个关键词作为表征目标实体对关系的关系词。本发明不需要预先定义实体关系类型以及进行大规模的人工标注数据,具有良好的扩展性,并且对中文新闻句子结构进行了深入分析,能够适应新闻文档涉及领域多和句式复杂的问题,在中文新闻事件上进行实体关系抽取取得了较好的效果。

    新闻分类方法、装置、设备及介质

    公开(公告)号:CN114398884A

    公开(公告)日:2022-04-26

    申请号:CN202111468086.7

    申请日:2021-12-03

    Applicant: 清华大学

    Abstract: 本发明提供一种新闻分类方法、装置、设备及介质,获取当前新闻数据;对所述当前新闻数据进行向量化处理,得到当前向量;确定所述当前向量和各历史聚类中心的第一距离中的最小距离;当所述最小距离小于预设值时,将所述当前向量添加到所述最小距离对应的历史聚类中心,得到待处理聚类中心;计算所述待处理聚类中心中任意两个向量之间的第二距离;当存在所述第二距离大于或等于所述预设值时,分割所述待处理聚类中心,得到至少两个子聚类中心;将包括有所述当前向量的子聚类中心对应的类别,作为所述当前新闻数据的类别。本发明以解决现有技术中新闻分类的准确率较低的缺陷。

    知识图谱的构建方法及系统
    128.
    发明公开

    公开(公告)号:CN114064910A

    公开(公告)日:2022-02-18

    申请号:CN202111152235.9

    申请日:2021-09-29

    Applicant: 清华大学

    Abstract: 本发明提供一种知识图谱的构建方法及系统,本发明提供的知识图谱的构建方法及系统,通过获取原始数据和背景知识图谱,基于背景知识图谱,对原始数据进行知识建模,生成概念层数据,从而获得更为完整的概念层数据;同时,基于背景知识图谱,对原始数据进行百科三元组抽取和/或关系三元组抽取,获得实例层数据,从而利用百科三元组抽取和开放关系抽取相结合的方式获得更为完整的实例层数据;最后基于概念层数据和实例层数据,构建得到新的知识图谱,利用新的知识图谱可以对背景知识图谱进行更新,从而实现了对知识图谱的动态更新和在使用过程中的扩展。

    一种旅游知识语义分析方法及装置

    公开(公告)号:CN114036956A

    公开(公告)日:2022-02-11

    申请号:CN202111371152.9

    申请日:2021-11-18

    Applicant: 清华大学

    Abstract: 本发明提供一种旅游知识语义分析方法及装置。其中,该方法包括:获取待理解旅游知识文本;将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中,得到所述预训练语言模型输出的语义理解结果;其中,所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本,并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。本发明提供的旅游知识语义分析方法,能够通过利用多种格式文本训练得到的基于异构旅游知识的预训练语言模型对不同粒度的旅游知识文本进行分析,以提高旅游知识文本语义理解的准确度和鲁棒性,从而提升用户的使用体验。

    融合关系短语知识的关系抽取方法、装置和电子设备

    公开(公告)号:CN113705237A

    公开(公告)日:2021-11-26

    申请号:CN202110881415.4

    申请日:2021-08-02

    Applicant: 清华大学

    Abstract: 本发明提供一种融合关系短语知识的关系抽取方法、装置和电子设备,包括:确定待抽取关系语句,以及该语句中的待抽取关系的两个实体的位置信息;将所述待抽取关系语句和所述位置信息输入抽取模型,输出所述两个实体的关系类型;其中,所述抽取模型是基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的,所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络。本发明提供的方法、装置和电子设备,实现了融合关系短语的语义信息到关系类型中,提高了语句中关系类型抽取的准确率。

Patent Agency Ranking