-
公开(公告)号:CN113239151A
公开(公告)日:2021-08-10
申请号:CN202110540820.X
申请日:2021-05-18
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F40/211 , G06F40/30 , G06K9/62
Abstract: 本发明属于自然语言处理技术领域,具体涉及了一种基于BART模型的口语理解数据增强方法、系统及设备,旨在解决的问题。本发明包括:将训练数据进行变换,去除其语义槽值信息或上下文表达方式的信息;利用预训练语言模型BART在变换的数据上进行调优,获得两种调优模型;分别使用两种调优模型和少量训练数据进行增强数据的生成;对增强数据进行过滤处理,获得最终的增强训练数据。本发明在只利用少量训练数据的前提下,可以生成具有不同语义槽值和上下文的带标签的增强训练数据,有效地提高了口语理解模型在少量数据下的语义槽填充的性能。
-
公开(公告)号:CN113239151B
公开(公告)日:2023-06-27
申请号:CN202110540820.X
申请日:2021-05-18
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F40/211 , G06F40/30 , G06F18/214
Abstract: 本发明属于自然语言处理技术领域,具体涉及了一种基于BART模型的口语理解数据增强方法、系统及设备,旨在解决的问题。本发明包括:将训练数据进行变换,去除其语义槽值信息或上下文表达方式的信息;利用预训练语言模型BART在变换的数据上进行调优,获得两种调优模型;分别使用两种调优模型和少量训练数据进行增强数据的生成;对增强数据进行过滤处理,获得最终的增强训练数据。本发明在只利用少量训练数据的前提下,可以生成具有不同语义槽值和上下文的带标签的增强训练数据,有效地提高了口语理解模型在少量数据下的语义槽填充的性能。
-
公开(公告)号:CN113919367A
公开(公告)日:2022-01-11
申请号:CN202111057775.9
申请日:2021-09-09
Applicant: 中国科学院自动化研究所
IPC: G06F40/35 , G06F16/335 , G06F16/33
Abstract: 本发明提供一种摘要获取方法、装置、设备、介质及产品,方法包括:获取对话的待处理对话文本;基于所述待处理对话文本,确定至少两个用户角色;在所述待处理对话文本中,添加所述用户角色对应的角色标注,得到目标对话文本;提取所述目标对话文本对应的主题信息;基于所述主题信息和所述目标对话文本,得到至少一个问答对;基于所述至少一个问答对,得到目标摘要。本发明用以解决现有技术中无法精确提取对话文本的摘要信息的缺陷。
-
-