一种阅读理解数据集生成方法及组件

    公开(公告)号:CN116975222A

    公开(公告)日:2023-10-31

    申请号:CN202310723628.3

    申请日:2023-06-16

    Applicant: 清华大学

    Abstract: 本发明提供一种阅读理解数据集生成方法及组件,该方法包括:构建阅读理解的知识文档;知识文档包括阅读材料文本、背景知识库和阅读材料文本与背景知识库的实体对齐关系;根据知识文档进行推理链抽取,得到推理链和问题三元组;根据推理链和问题三元组进行数据生成,得到自然语言问题和自然语言问题对应的答案,从而得到高质量的数据库,语言智能系统根据数据库进行深度语义理解推理出问题的答案的效率和精准性更高。

    事件检测模型的解释方法、装置、电子设备及存储介质

    公开(公告)号:CN116862002A

    公开(公告)日:2023-10-10

    申请号:CN202310705109.4

    申请日:2023-06-14

    Applicant: 清华大学

    Abstract: 本发明提供一种事件检测模型的解释方法、装置、电子设备及存储介质,其中的方法包括:基于待检测语句和预先训练的事件检测模型,抽取待解释的隐层表示;优化待解释的隐层表示,得到优化隐层表示;根据优化隐层表示,以及给定的事件结构信息集合,获取目标事件结构信息;其中,目标事件结构信息为与优化隐层表示最相关的事件触发词或事件论元。该方法通过将事件结构信息自然地融入至事件检测模型的解释过程中,克服了现有事件检测模型解释方法因忽略事件本身具有的结构信息,导致事件检测模型的可解释性能力不高的缺陷,有效提升了事件检测模型的可解释性能力,亦有助于理解事件检测模型的决策过程。

    文本问题的解答方法、装置、电子设备及存储介质

    公开(公告)号:CN116561273A

    公开(公告)日:2023-08-08

    申请号:CN202310429991.4

    申请日:2023-04-20

    Applicant: 清华大学

    Abstract: 本发明涉及自然语言处理技术领域,提供一种文本问题的解答方法、装置、电子设备及存储介质,包括:确定目标文本问题,基于目标文本问题生成层次化问题分解树,层次化问题分解树包括根节点和叶子节点,根节点对应于目标文本问题,叶子节点对应于原子问题;确定目标文本问题和原子问题在不同知识源下的答案文本,根据答案文本确定目标文本问题的标准答案文本。本发明通过基于目标文本问题生成层次化问题分解树,并确定层次化问题分解树上的问题在不同知识源下的答案文本,根据答案文本确定目标文本问题的标准答案文本,做到更好地表示复杂问题的层次化的语义信息,并可以同时在不同层次上整合不同知识源中的信息用以回答复杂问题。

    平行语料的生成方法及装置和无监督同义转写方法及装置

    公开(公告)号:CN115809658A

    公开(公告)日:2023-03-17

    申请号:CN202211497311.4

    申请日:2022-11-25

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种平行语料的生成方法及装置和无监督同义转写方法及装置,其中平行语料的生成方法包括:获取待转写语料和所述待转写语料的上下文;基于所述待转写语料获得关键词集合;将所述关键词集合和所述待转写语料的上下文输入至预训练语言模型,获得的所述预训练语言模型输出的至少一个候选同义转写语料;对每个所述候选同义转写语料进行评价,基于评价结果确定目标同义转写语料。无监督同义转写方法包括:获取待转写语句;将所述待转写语句输入至同义转写模型,获得所述同义转写模型输出的同义转写句;其中,所述同义转写模型是基于平行语料对训练得到的。本发明实施例能够获得优秀的同义转写句。

    百科知识图谱动态更新方法、装置、设备及介质

    公开(公告)号:CN115658931A

    公开(公告)日:2023-01-31

    申请号:CN202211681737.5

    申请日:2022-12-27

    Applicant: 清华大学

    Abstract: 本申请涉及计算机技术领域,特别涉及一种百科知识图谱动态更新方法、装置、设备及介质,其中,包括:获取百科知识图谱的待更新数据列表,其中,待更新数据列表包括待更新词条的页面文本和/或词条简介中链接的页面文本;根据预设更新周期遍历待更新数据列表,抽取待更新数据列表中页面文本的预设关键信息,基于预设关键信息更新百科知识图谱中三元组,得到更新结果;对更新结果进行结构化,得到更新后的百科知识图谱,并基于更新后的百科知识图谱更新数据库中存储的百科知识图谱。由此,解决了相关技术中需人工手动修改审核更新,无法自动更新和维护百科知识图谱,导致更新效率较低、维护成本较高等问题。

    文本数据分析方法、装置、电子设备及存储介质

    公开(公告)号:CN113094469B

    公开(公告)日:2022-07-05

    申请号:CN202110363310.X

    申请日:2021-04-02

    Applicant: 清华大学

    Abstract: 本发明提供一种文本数据分析方法、装置、电子设备及存储介质,该方法包括:确定目标文本和目标文本中的目标实体,根据目标实体确定关联文本;根据目标文本确定三元组,以及在目标文本中对应于三元组的段落;根据目标文本和关联文本确定对应于目标实体的词云和开放关系;根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。本发明提供的文本数据分析方法、装置、电子设备及存储介质,通过对文本进行分析,得到与目标实体相关联的三元组、段落、词云和开放关系,实现对文本数据的多层次挖掘,构建文本分级知识展示形态,方便对文本的重点了解。

    三元组作为节点的知识图谱的表示学习方法、装置及设备

    公开(公告)号:CN114661916A

    公开(公告)日:2022-06-24

    申请号:CN202210220916.2

    申请日:2022-03-08

    Applicant: 清华大学

    Abstract: 本发明提供一种三元组作为节点的知识图谱的表示学习方法、装置及设备,属于机器学习技术领域,方法通过初始化预测模型的参数,参数包括知识图谱中实体和关系的向量表示,知识图谱是三元组作为节点所构成的;遍历知识图谱中的每个三元组,确定预测模型针对每个三元组的损失;基于每个三元组的损失,利用优化器对实体和关系的向量表示进行优化,由于知识图谱本身是以三元组作为节点所构成的,该类型的知识图谱可以极大地丰富知识图谱的表示能力,且基于该知识图谱的表示学习方法,能够很好的对这类知识图谱进行表示学习。

    用于自动胎心判读的方法和装置

    公开(公告)号:CN113192629B

    公开(公告)日:2022-04-29

    申请号:CN202110501350.6

    申请日:2021-05-08

    Applicant: 清华大学

    Inventor: 许斌 孔彦 赵博文

    Abstract: 本发明提供一种用于自动胎心判读的方法和装置,其中,方法包括:对输入的胎心评价数据进行特征抽取,生成多个胎心评价特征;将胎心评价特征组输入至类型分析模型中,输出每个胎心评价特征组对应的概率密度;其中,类型分析模型为基于胎心评价样本特征及其对应的类型进行训练得到;基于每个胎心评价特征的权重值和概率密度,确定胎心评价特征组属于各个类型的概率分布;将胎心评价数据的概率分布进行线性回归处理,得到预测结果。本发明通过对每个特征的权重进行分析处理,并采用分析类型模式的方法,允许部分特征缺失提高了信息增益和采用对数据进行综合评分的处理方式,具有比传统的深度学习方法有更好的鲁棒性并且过拟合程度低。

    新闻分类方法、装置、设备及介质

    公开(公告)号:CN114398884A

    公开(公告)日:2022-04-26

    申请号:CN202111468086.7

    申请日:2021-12-03

    Applicant: 清华大学

    Abstract: 本发明提供一种新闻分类方法、装置、设备及介质,获取当前新闻数据;对所述当前新闻数据进行向量化处理,得到当前向量;确定所述当前向量和各历史聚类中心的第一距离中的最小距离;当所述最小距离小于预设值时,将所述当前向量添加到所述最小距离对应的历史聚类中心,得到待处理聚类中心;计算所述待处理聚类中心中任意两个向量之间的第二距离;当存在所述第二距离大于或等于所述预设值时,分割所述待处理聚类中心,得到至少两个子聚类中心;将包括有所述当前向量的子聚类中心对应的类别,作为所述当前新闻数据的类别。本发明以解决现有技术中新闻分类的准确率较低的缺陷。

    一种基于大数据的物价实时监测方法和系统

    公开(公告)号:CN114358879A

    公开(公告)日:2022-04-15

    申请号:CN202111670800.0

    申请日:2021-12-31

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于大数据的物价实时监测方法和系统,涉及人工智能和数据库技术领域,该方法首先对多个平台中的相同类型商品进行自动匹配,以获得出现在至少两个平台上的相同类型商品;其次将匹配结果保存至标准文档中,并将匹配结果中的各个相同类型商品归类至物价变化指数下设的多个子类中,再对标准文档中的商品进行异常监控,以确定处于异常状态的商品数据;接着,将标准文档中的所述处于异常状态的目标商品的商品数据去除,再根据标准文档中的剩余商品的商品数据以及所述相同类型商品所属的目标子类,生成目标子类在不同周期粒度下的物价变化指数,以此实现了一种基于互联网在线数据的居民消费价格指数的实时监测、生成方案。

Patent Agency Ranking