一种基于外部知识和片段选择的抽取式阅读理解方法

    公开(公告)号:CN114385803B

    公开(公告)日:2024-08-06

    申请号:CN202210034681.8

    申请日:2022-01-13

    Inventor: 张璞 谢陈 金诗鸿

    Abstract: 本发明属于自然语言处理技术与机器阅读理解领域,具体涉及一种基于外部知识和片段选择的抽取式阅读理解方法,包括获取数据并对数据进行预处理;将预处理后数据送入训练好的抽取式阅读理解模型,通过抽取式阅读理解模型输出针对数据的问题的最佳答案;抽取式阅读理解模型包括SpanBERT编码模块、外部知识融合模块以及片段选择模块;本发明采用SpanBERT模型对文本和问题进行处理,处理后判断问题是否可回答,提高了识别不可回答问题的准确率,减少错误概率,同时在SpanBERT模型中利用了融合外部知识信息的多头注意力机制,丰富了文本和问题的特征表示,使用片段选择方法处理文本中存在多个相同答案内容情况,取得更好的模型抽取效果,提升了出去答案的准确率。

    一种基于双层图的文档级事件抽取方法及系统

    公开(公告)号:CN114444484B

    公开(公告)日:2024-07-02

    申请号:CN202210036599.9

    申请日:2022-01-13

    Inventor: 张璞 张雄 陈小阳

    Abstract: 本发明属于自然语言处理领域,具体涉及一种基于双层图的文档级事件抽取方法及系统;该方法包括:获取文档数据,对文档数据进行预处理,得到预处理后的文档数据;将预处理后的文档数据输入到训练好的基于双层图的文档级事件抽取模型中,得到文档级事件抽取结果;本发明通过构建结构图和依赖图这两个图结构使用图卷积神经网络使得实体提及能够捕捉文档全局的特征以及实体之间的依赖特征;通过使用扩展分类器预测事件论元的扩展路径,使用深度优先搜索算法解码出完整的事件记录,最终完成事件的抽取,抽取结果F1值更高,具有广阔的应用前景。

    基于子图检索和查询路径排名的知识图谱问答方法

    公开(公告)号:CN117786047A

    公开(公告)日:2024-03-29

    申请号:CN202311811908.6

    申请日:2023-12-27

    Abstract: 本发明涉及自然语言处理知识图谱问答技术领域,具体涉及一种基于子图检索和查询路径排名的知识图谱问答方法,该方法包括:首先对问题做命名实体识别得到问题的主题实体,训练一种知识图谱的子图检索模型,根据问题的主题实体检索到若干个知识图谱子图后,在其上搜索获取所有的查询路径,也就是知识图谱上与主题实体和问题相关的路径。用问题与路径上关系的相关性值,对候选路径中的关系进行重新排名;最后,利用排名靠前的关系和问题组合,输入T5模型生成最后的SPARQL查询,在知识图谱上执行得到问题最后的答案。

    基于生成式模型增强的多选式机器阅读理解方法

    公开(公告)号:CN117709467A

    公开(公告)日:2024-03-15

    申请号:CN202311826660.0

    申请日:2023-12-28

    Abstract: 本发明属于自然语言处理技术与机器阅读理解领域,具体涉及一种基于生成式模型增强的多选式机器阅读理解方法,该方法包括:预处理数据,将包括问题和多个选项的数据组合为问题‑选项对;然后单独将问题和提示学习的模板拼接后输入到训练好的生成式模型的编码器中,得到对应的最终隐层表示,再将该隐层表示作为生成式模型解码器的输入,解码器利用在预训练中学习到的参数对问题进行推理并生成线索的最终隐层表示;将所有的问题‑选项对依次输入生成式模型的编码器中,得到每个问题‑选项对的最终隐层表示,然后分别将其与之前得到的线索的最终隐层表示进行双向注意力交互使问题‑选项对能够充分融合线索的语义信息,然后将经过双向注意力交互的隐层表示进行最大池化得到表示向量,对表示向量进行二分类任务预测每个问题‑选项对所对应的选项作为正确答案和错误答案的分数,选择正确分数最高的选项作为正确答案。

    一种基于Seq2Seq模型的情感对话生成方法

    公开(公告)号:CN114444519A

    公开(公告)日:2022-05-06

    申请号:CN202210078557.1

    申请日:2022-01-24

    Inventor: 张璞 金诗鸿 谢陈

    Abstract: 本发明属于自然语言处理领域,具体涉及一种基于Seq2Seq模型的情感对话生成方法;该方法包括:获取对话数据,采用情感分类器对对话数据进行分类,得到不同情感类别的对话数据,对话数据包括提问语句和回复语句;采用指定情感类别的对话数据对对话生成模型进行训练,得到训练好的Seq2Seq模型;用户将提问内容和指定情感类别输入到训练好的Seq2Seq模型中,得到带有指定情感的回复语句;本发明引入情感指导机制和生成对抗网络对对话生成模型进行训练,极大加强了对话生成模型所生成语句的情感准确率以及保证了生成语句的质量;本发明能在提高情感准确率的情况下不降低生成语句质量,具有广阔的应用前景。

    一种基于模板特征的视频弹幕消费意图识别方法

    公开(公告)号:CN111400495A

    公开(公告)日:2020-07-10

    申请号:CN202010184505.3

    申请日:2020-03-17

    Abstract: 本发明涉及消费意图识别领域,具体涉及一种基于模板特征的视频弹幕消费意图识别方法,该方法包括:获取实时视频弹幕数据集,将实时视频弹幕数据集输入到训练好的消费意图识别模型中,得到消费意图结果;所述训练消费意图识别模型的过程包括:将获取视频弹幕数据集输入到消费意图模板集中,得到模板特征向量;将模板特征向量输入到SVM分类器中,调用支持向量机的核函数对输入数据进行特征映射,获取对不同标注数据点最好分割情况的超平面,完成消费意图识别模型的训练;本发明使用生成的消费意图模板集将弹幕文本转化为模板特征,将模板特征作为消费意图识别模型的输入,提高了消费意图识别的准确性。

    一种基于提示学习与标签感知的命名实体识别方法

    公开(公告)号:CN119990132A

    公开(公告)日:2025-05-13

    申请号:CN202510084440.8

    申请日:2025-01-20

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于提示学习与标签感知的命名实体识别方法;包括:在预处理好的命名实体识别数据中的每一句话前拼接多个提示模板;为处理后的句子添加提示掩码并输入到BERT模型中,得到提示槽与句子的语义表征;将实体标签输入到BERT模型中,得到标签语义表征;将句子的语义表征输入到双向LSTM中并对提示槽语义表征使用自注意力机制处理,进一步得到句子上下文语义矩阵与提示槽深层语义矩阵;根据提示槽深层语义矩阵和标签语义表征计算分类槽概率分布,实现实体分类;根据句子上下文语义矩阵和提示槽深层语义矩阵计算定位槽概率分布,实现实体定位;本发明能显著提高模型的实体提取能力,同时减少时间与空间开销。

    一种融合局部上下文信息并利用标签语义进行命名实体识别的方法

    公开(公告)号:CN117852540A

    公开(公告)日:2024-04-09

    申请号:CN202311826871.4

    申请日:2023-12-28

    Abstract: 本发明涉及一种融合局部上下文信息并利用标签语义进行命名实体识别的方法。该方法包括以下步骤:对数据进行预处理,得到标签的自然语言形式;使用两个基于Transformer的模型提取全局上下文信息向量和标签语义向量。然后通过多窗口Bi_LSTM层增强局部上下文信息提取,同时,利用基于CNN的联合学习模块进一步捕捉相邻词之间的局部上下文信息。通过多窗口注意力层整合全局上下文和局部上下文信息,以获得token的最终表示,最后计算token与每个标签的相似度,选取与token相似度最高的标签作为该token的预测值。本发明弥补了基于Transformer的模型对局部上下文信息提取不充分的缺陷。此外,本发明还使用标签语义进行预测,提高了任务预测的准确率。

    一种基于提示学习和外部知识嵌入的关系抽取方法

    公开(公告)号:CN117725999A

    公开(公告)日:2024-03-19

    申请号:CN202311826678.0

    申请日:2023-12-28

    Abstract: 本发明属于自然语言处理技术与关系抽取领域,具体涉及一种基于提示学习和外部知识嵌入的关系抽取方法,该方法包括:获取数据,对数据进行预处理;将预处理后的数据输入到训练好的关系抽取模型中,得到模型输出与关系标签嵌入的相似度向量,根据相似度向量输出最佳答案;所述关系抽取模型包括RoBERTa模型、自注意力知识注入器以及相似度比较模块;本发明利用提示学习将关系抽取转化为完形填空任务,解决了以往方法中预训练和微调任务目标差距过大的问题。再单独使用一个轻量级的知识注入模块,使用自注意力机制将外部知识图谱中的实体嵌入向量引入模型,加强了模型整体对知识和上下文的感知。最后通过相似度比较模块计算模型输出和各关系嵌入的向量,通过引入关系嵌入解决了以往面向关系抽取的提示学习中关系标签表示困难的问题。

Patent Agency Ranking