基于大语言模型的可控多跳问题生成方法、系统及设备

    公开(公告)号:CN119739823A

    公开(公告)日:2025-04-01

    申请号:CN202411744148.6

    申请日:2024-11-30

    Abstract: 一种基于大语言模型的可控多跳问题生成方法、系统及设备,方法包括将给定的一段上下文C和需要生成问题的跳数h输入预先建立的大语言模型;根据问题从上下文C中获取支持证据,并根据支持证据中的三元组谓词是否相同,将多跳问题生成分为组合型多跳问题生成和比较型多跳问题生成;利用大语言模型依次生成组合型多跳问题与比较型多跳问题,获得多跳问题及其答案。本发明的可控多跳问题生成方法在性能上实现了显著的提升,能够深入地捕捉问题的深层结构和语义信息,从而更加准确地理解并处理这些关系,并且减少在处理复杂问题时可能出现的错误和偏差。本发明能够对整个多跳问题的生成过程进行精细的控制,确保生成的问题在逻辑上连贯,跳数上准确。

    一种基于两阶段注意力的多特征融合问题生成方法及系统

    公开(公告)号:CN117112758A

    公开(公告)日:2023-11-24

    申请号:CN202311074287.8

    申请日:2023-08-24

    Abstract: 一种基于两阶段注意力的多特征融合问题生成方法及系统,多特征融合问题生成方法包括将上下文输入多特征编码器,由多特征编码器嵌入特征向量,并采用两阶段注意力编码;将上下文输入问题类型编码器,预测得到问题类型并且编码;将所述多特征编码器以及所述问题类型编码器得到的两种编码,采用交叉注意力机制融合输入到问题解码器,由所述问题解码器输出生成的问题。本发明使用Bi‑LSTM模型提取上下文特征,并结合软注意力矩阵,将模型的注意力重心放在与答案相关的部分,采用门控自注意力机制对特征进行过滤和整合,解决了文本长距离依赖的问题,引入疑问词预测引导机制,指导问题的生成,可以生成更加准确和相关的上下文信息向量。

    文本自动生成问题的可回答性评估方法、系统及存储介质

    公开(公告)号:CN117112743A

    公开(公告)日:2023-11-24

    申请号:CN202310918499.3

    申请日:2023-07-25

    Abstract: 一种文本自动生成问题的可回答性评估方法、系统及存储介质,评估方法包括以下步骤:获取数据集并进行数据集扩充,得到增强数据;通过使用多个问答模型对所述增强数据进行标注并投票,得到标注数据集;对所述标注数据集中的上下文与问题进行编码,并将上下文特征与问题特征进行融合,得到问题融合上下文后的嵌入表示;利用问题融合上下文后的嵌入表示,基于对比学习模型对问题进行可回答性的评估。同时还公开了一种文本自动生成问题的可回答性评估系统及存储介质。本发明通过引入上下文信息,以及对比学习模型,解决了现有评估问题可回答性的方法与人类评估的相关性不高,且评估时未引入上下文信息的问题,实现了对问题的可回答性进行充分评估。

    基于句法依存图联合嵌入的多样性问题生成方法及系统

    公开(公告)号:CN116955565A

    公开(公告)日:2023-10-27

    申请号:CN202310933649.8

    申请日:2023-07-27

    Abstract: 一种基于句法依存图联合嵌入的多样性问题生成方法及系统,多样性问题生成方法包括以下步骤:使用答案选择器选取上下文中的答案;使用基于共注意力机制的编码器对上下文和答案进行编码得到感知答案的上下文表示;以邻接矩阵的形式构建上下文的句法依存图,使用图神经网络对上下文的句法依存图进行编码得到感知结构的上下文表示;将感知结构的上下文表示与感知答案的上下文表示拼接,得到上下文的联合嵌入表示;对上下文的联合嵌入表示进行解码,得到生成的问题。本发明解决了以往问题生成单一的问题,提高了问题生成的多样性,使得模型可以对一个段落上下文生成多个与上下文相关但内容不同的问题,以两阶段的形式实现一对多的输入输出模式。

    面向文本阅读理解的选择题生成方法、系统及存储介质

    公开(公告)号:CN116860947A

    公开(公告)日:2023-10-10

    申请号:CN202310951348.8

    申请日:2023-07-31

    Abstract: 一种面向文本阅读理解的选择题生成方法、系统及存储介质,方法包括通过全文主旨级别的表征学习、词句间关系的表征学习以及答案级别的表征学习,从文本中生成问题;通过上下文‑问题稀疏化过滤,在融合上下文以及问题信息的同时过滤掉上下文中与问题不相关的信息;通过答案‑问题稀疏化过滤,在生成干扰项的过程中过滤掉正确答案相关的信息,从而避免生成与答案语义一致的干扰项。本发明采用多尺度表征及稀疏化过滤的方法,解决了现有面向文本阅读理解的选择题生成方法对于中学阅读理解数据集的文本偏长导致模型理解困难的问题,以及由于文本信息丰富而导致存在大量问句无关句的问题,本发明方法能够生成更优质的选择题。

Patent Agency Ranking