-
公开(公告)号:CN109063032B
公开(公告)日:2020-09-11
申请号:CN201810777795.5
申请日:2018-07-16
Applicant: 清华大学
IPC: G06F16/33 , G06F16/332
Abstract: 本发明提供一种远程监督检索数据的降噪方法,包括:对于给定问题和基于给定问题检索到的多个段落,计算给定问题的答案在各段落上的概率分布;基于给定问题和任一段落,利用段落阅读器,提取该段落中与答案对应的至少一个特定子串,并计算特定子串关于该段落为答案的概率,作为第一概率,直至遍历所有段落;基于概率分布和所有段落中特定子串对应的第一概率,选择相应的段落,对给定问题进行回答;其中,特定子串为由一个或多个单词组成的单词串。本发明能够更充分的利用检索到的相关文本中对回答问题有帮助的所有段落,从而更有效的提高开放域问答的问答效果,提高模型的稳定性,具有良好的实用性。
-
公开(公告)号:CN112214608B
公开(公告)日:2024-02-13
申请号:CN202010998667.0
申请日:2020-09-21
Applicant: 清华大学
IPC: G06F16/36 , G06N5/022 , G06N5/04 , G06F16/332 , G06F16/33
Abstract: 本发明提供一种基于知识推理的文本生成方法、装置和设备。该方法包括采用预训练语言模型对序列文本进行处理,至少得到根据当前上下文信息进行前缀生成得到的解码器隐藏状态以及用于确定当前待生成单词的第一概率分布;从原始文本中提取特定的概念,以便确定进行知识推理时的多个起始概念节点;基于所述特定的概念,按照预设方式对外部知识图谱进行编码,以得到包括多个存在关系路径的知识子图上的概念节点表示向量和关系表示向量;根据所述解码器隐藏状态和所述概念节点表示向量和关系表示向量在所述知识子图中进行知识推理,以便得到用于确定当前待生成单词的第二概率分布;按照预设规则从所述第一概率分布和第二概率分布确定当前待生成的单词。
-
公开(公告)号:CN109063032A
公开(公告)日:2018-12-21
申请号:CN201810777795.5
申请日:2018-07-16
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明提供一种远程监督检索数据的降噪方法,包括:对于给定问题和基于给定问题检索到的多个段落,计算给定问题的答案在各段落上的概率分布;基于给定问题和任一段落,利用段落阅读器,提取该段落中与答案对应的至少一个特定子串,并计算特定子串关于该段落为答案的概率,作为第一概率,直至遍历所有段落;基于概率分布和所有段落中特定子串对应的第一概率,选择相应的段落,对给定问题进行回答;其中,特定子串为由一个或多个单词组成的单词串。本发明能够更充分的利用检索到的相关文本中对回答问题有帮助的所有段落,从而更有效的提高开放域问答的问答效果,提高模型的稳定性,具有良好的实用性。
-
公开(公告)号:CN112214608A
公开(公告)日:2021-01-12
申请号:CN202010998667.0
申请日:2020-09-21
Applicant: 清华大学
IPC: G06F16/36 , G06N5/02 , G06N5/04 , G06F16/332 , G06F16/33
Abstract: 本发明提供一种基于知识推理的文本生成方法、装置和设备。该方法包括采用预训练语言模型对序列文本进行处理,至少得到根据当前上下文信息进行前缀生成得到的解码器隐藏状态以及用于确定当前待生成单词的第一概率分布;从原始文本中提取特定的概念,以便确定进行知识推理时的多个起始概念节点;基于所述特定的概念,按照预设方式对外部知识图谱进行编码,以得到包括多个存在关系路径的知识子图上的概念节点表示向量和关系表示向量;根据所述解码器隐藏状态和所述概念节点表示向量和关系表示向量在所述知识子图中进行知识推理,以便得到用于确定当前待生成单词的第二概率分布;按照预设规则从所述第一概率分布和第二概率分布确定当前待生成的单词。
-
-
-