基于检索增强模型的对话查询生成模型的训练方法及装置

    公开(公告)号:CN117764140A

    公开(公告)日:2024-03-26

    申请号:CN202311537070.6

    申请日:2023-11-17

    Applicant: 厦门大学

    Abstract: 本申请公开了一种基于检索增强模型的对话查询生成模型的训练方法及装置,该方法包括获取候选查询集,并将其中每个候选查询依次输入到搜索引擎,以便得到每个候选查询对应的知识文档;构建检索增强对话回复生成模型,并根据对话上下文和每个候选查询对应的知识文档对构建检索增强对话回复生成模型进行训练;采用训练好的检索增强对话回复生成模型中的检索器对每个候选查询对应的知识文档进行打分,以得到每个候选查询对应的分数值;构建对话查询生成模型,并根据对话上下文、每个候选查询和每个候选查询对应的分数值对对话查询生成模型进行训练,以得到训练好的对话查询生成模型;从而能够考虑深度语义信息,降低噪声影响,以便提高模型性能。

    缓解过度联想的对话查询生成模型的训练方法及装置

    公开(公告)号:CN116340484A

    公开(公告)日:2023-06-27

    申请号:CN202310213004.7

    申请日:2023-03-07

    Applicant: 厦门大学

    Inventor: 苏劲松 王安特

    Abstract: 本申请公开了一种缓解过度联想的对话查询生成模型的训练方法及装置,该方法包括获取训练样本集,其中,训练样本集中的每个训练样本包括对话上下文和对话查询;根据每个训练样本对应的对话上下文和对话查询得到对应的过度联想程度值;构建对话查询生成模型,并采用过度联想程度值调整训练样本权重以对对话查询生成模型进行第一阶段训练,以得到初步对话查询生成模型;根据初步对话查询生成模型的输出结果对初步对话查询生成模型的训练目标进行调整,以便对初步对话查询生成模型进行第二阶段训练,直至收敛以完成训练;由此,通过数据及模型两个层面的训练策略调整,降低了过度联想程度高的训练样本对模型的负面影响,从而生成更准确的对话查询。

    对话篇章解析方法
    3.
    发明公开

    公开(公告)号:CN113377915A

    公开(公告)日:2021-09-10

    申请号:CN202110692574.X

    申请日:2021-06-22

    Applicant: 厦门大学

    Abstract: 本发明公开了一种对话篇章解析方法、介质和设备,其中方法包括:获取历史对话信息,并对历史对话信息进行预处理,以生成初始训练样本;根据初始训练样本生成第一训练样本和第二训练样本;根据第一训练样本进行模型训练,以得到结构自感知教师模型;根据第二训练样本进行模型训练,以得到结构自感知学生模型,并拉近结构自感知教师模型的结构关系和结构自感知学生模型的结构关系,以得到最终结构自感知学生模型;获取待解析对话信息,并将待解析对话信息输入到最终结构自感知学生模型,以生成对应待解析对话信息的对话轮次间篇章关系;能够自动对对话信息进行解析,避免因引入显式预测结果而导致的错误传播;同时,提高篇章解析效果。

    基于回复增强的对话查询生成模型的训练方法及装置

    公开(公告)号:CN117591871A

    公开(公告)日:2024-02-23

    申请号:CN202311363517.2

    申请日:2023-10-20

    Applicant: 厦门大学

    Abstract: 本申请公开了一种基于回复增强的对话查询生成模型的训练方法及装置,该方法包括,获取训练集;构建第一语言模型和第二语言模型,采用训练集训练第一语言模型和第二语言模型以得到查询生成模型和回复增强查询生成模型;通过查询生成模型生成查询集,回复增强查询生成模型生成伪查询;根据查询集和伪查询得到对应的相似度分数,根据相似度分数构造伪实例,根据伪实例对查询生成模型和回复增强查询生成模型进行第二阶段训练;接着利用回复增强查询生成模型为查询生成模型采样得到的候选查询打分以得到奖励分数,以便根据奖励分数对查询生成模型进行第三阶段的强化学习训练;由此,训练完成的查询生成模型可以得到更准确的对话查询。

    基于迭代式双向迁移的神经网络机器翻译模型

    公开(公告)号:CN110674648B

    公开(公告)日:2021-04-27

    申请号:CN201910933203.9

    申请日:2019-09-29

    Applicant: 厦门大学

    Abstract: 基于迭代式双向迁移的神经网络机器翻译模型,涉及自然语言处理。通过建立源领域和目标领域之间的多次双向迁移,利用双方的有效交互和相关知识的有益流动,不断完善不同领域的模型能力,从而达到更佳的翻译效果。由一对一的领域迁移推广到多对一的领域迁移,并提出了多对一的领域迁移中,不同源领域到目标领域的迁移顺序问题的有效解决方案,使模型能够更充分地利用多领域的语料资源。训练过程利用知识蒸馏的方法来更有效地指导模型的收敛,避免了灾难性遗忘和知识稀疏问题,实现两个领域翻译模型的“双赢”。

    对话模型的训练方法及装置
    6.
    发明公开

    公开(公告)号:CN116501842A

    公开(公告)日:2023-07-28

    申请号:CN202310089146.7

    申请日:2023-02-01

    Applicant: 厦门大学

    Inventor: 苏劲松 王安特

    Abstract: 本申请公开了一种对话模型的训练方法和装置,其中方法包括:获取对话信息,通过关键词抽取工具获取对话信息中的关键词,并依次输入搜索引擎,以得到每个关键词对应的检索知识文档;对于每个候选查询及其检索到的知识文档,将知识文档与对话语料中对话回复进行相似度匹配,记录每个查询对应的匹配分数;对构建的查询生成模型使用强化学习进行训练,该查询生成模型输入对话上下文以预测查询;训练时,记录的匹配分数将作为对应查询的奖励函数,指导模型预测出高匹配分数的查询;通过获取的查询生成模型,针对对话信息预测对应查询并从搜索引擎检索知识文档,以用于训练对话回复生成模型;从而获取海量和即时知识等优势,以生成更高质量的对话回复。

    对话篇章解析方法
    7.
    发明授权

    公开(公告)号:CN113377915B

    公开(公告)日:2022-07-19

    申请号:CN202110692574.X

    申请日:2021-06-22

    Applicant: 厦门大学

    Abstract: 本发明公开了一种对话篇章解析方法、介质和设备,其中方法包括:获取历史对话信息,并对历史对话信息进行预处理,以生成初始训练样本;根据初始训练样本生成第一训练样本和第二训练样本;根据第一训练样本进行模型训练,以得到结构自感知教师模型;根据第二训练样本进行模型训练,以得到结构自感知学生模型,并拉近结构自感知教师模型的结构关系和结构自感知学生模型的结构关系,以得到最终结构自感知学生模型;获取待解析对话信息,并将待解析对话信息输入到最终结构自感知学生模型,以生成对应待解析对话信息的对话轮次间篇章关系;能够自动对对话信息进行解析,避免因引入显式预测结果而导致的错误传播;同时,提高篇章解析效果。

    大语言模型的持续学习训练方法、装置、介质及设备

    公开(公告)号:CN118313482A

    公开(公告)日:2024-07-09

    申请号:CN202410428647.8

    申请日:2024-04-10

    Abstract: 本申请的实施例提供了一种大语言模型的持续学习训练方法、装置、介质及设备。该方法包括:获取由基座大语言模型基于与各历史训练阶段的训练数据相关的实例生成的第一合成实例集合,第一合成实例集合包括若干第一合成实例;将每一第一合成实例的第一指令输入输入至待优化大语言模型中,以使待优化大语言模型输出对应的第二响应输出,得到包含若干第二合成实例的第二合成实例集合;基于第二合成实例集合以及当前训练阶段的训练数据,构建增强训练数据以对待优化大语言模型进行优化,得到目标大语言模型。本申请实施例的技术方案可以摆脱对先前训练阶段的训练数据的依赖,兼顾大语言模型的新旧知识,保证大语言模型的持续学习效果。

    对话篇章解析方法
    9.
    发明公开

    公开(公告)号:CN117076638A

    公开(公告)日:2023-11-17

    申请号:CN202311053134.5

    申请日:2023-08-21

    Applicant: 厦门大学

    Abstract: 本发明公开了一种对话篇章解析方法,包括:获取对话数据;对对话数据进行文本序列化处理,以得到序列化的对话历史信息、篇章关系类别描述信息和篇章结构标注信息;构建篇章解析模型,并将序列化的对话历史信息、篇章关系类别描述信息和篇章结构标注信息输入到篇章解析模型,以便对篇章解析模型进行训练;获取待解析的对话信息,并将待解析的对话信息输入到训练好的篇章解析模型,以便通过训练好的篇章解析模型对待解析的对话信息进行解析,以得到对应的篇章结构;由此,能够将该任务建模为文本生成任务,避免引入额外解码器,仅通过预训练模型完成预测,从而能通过扩大模型规模有效提升模型性能。

    基于迭代式双向迁移的神经网络机器翻译模型

    公开(公告)号:CN110674648A

    公开(公告)日:2020-01-10

    申请号:CN201910933203.9

    申请日:2019-09-29

    Applicant: 厦门大学

    Abstract: 基于迭代式双向迁移的神经网络机器翻译模型,涉及自然语言处理。通过建立源领域和目标领域之间的多次双向迁移,利用双方的有效交互和相关知识的有益流动,不断完善不同领域的模型能力,从而达到更佳的翻译效果。由一对一的领域迁移推广到多对一的领域迁移,并提出了多对一的领域迁移中,不同源领域到目标领域的迁移顺序问题的有效解决方案,使模型能够更充分地利用多领域的语料资源。训练过程利用知识蒸馏的方法来更有效地指导模型的收敛,避免了灾难性遗忘和知识稀疏问题,实现两个领域翻译模型的“双赢”。

Patent Agency Ranking