-
公开(公告)号:CN117194672A
公开(公告)日:2023-12-08
申请号:CN202310896725.2
申请日:2023-07-20
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F40/211 , G06F40/258 , G06F40/30 , G06N5/025
Abstract: 本发明提出一种角色感知的篇章主题事件论元抽取方法、装置,方法包括:根据已知篇章主题事件的事件类型获得该事件类型的篇章主题事件的论元角色信息;对目标文章分别进行分句、提取标题,得到分句集合、事件标题,所述论元角色信息、事件类型、以及事件标题构成事件相关信息;利用所述事件相关信息、以及分句集合构建论元角色感知图,进行事件相关句检测,得到篇章主题事件相关句子集合;将所述篇章主题事件相关句子集合作为输入,对每个论元角色构建问题,预测出所述篇章主题事件相关句子集合中的所有候选论元,从所述候选论元中筛选出目标论元。该方法提升了模型效果的同时保持了模型的灵活性。
-
公开(公告)号:CN111897908B
公开(公告)日:2023-05-02
申请号:CN202010398752.3
申请日:2020-05-12
Applicant: 中国科学院计算技术研究所
IPC: G06F16/31 , G06F16/35 , G06F16/36 , G06F40/211 , G06F40/289 , G06F40/295 , G06N3/04
Abstract: 本发明提出一种融合依存信息和预训练语言模型的事件抽取方法及系统,包括以句子的依存句法树为输入,利用使用图卷积神经网络学习依存句法特征,并加入依存关系预测任务,通过多任务学习的方式捕捉更重要的依存关系,最后使用BERT预训练语言模型增强底层句法表达,完成中文句子的事件抽取。由此本发明对事件抽取任务下触发词抽取和论元抽取的性能均有所提高。
-
公开(公告)号:CN115934953A
公开(公告)日:2023-04-07
申请号:CN202211199328.1
申请日:2022-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F40/30 , G06F40/289 , G06N3/0455 , G06N3/044 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明提出一种基于实体森林的实体语义关系联合抽取方法和系统,包括:获取待识别实体语义关系的语料;得到句子及其对应的词序列,对句子的词序列进行编码,得到训练语料中句子的分布式表示;句子的分布式表示进行序列标注,得到实体头部,作为实体树的根节点,以根节点为循环神经网络模型的初始状态,依次输入句子中子词至循环神经网络模型,以森林的形式识别嵌套实体,得到多棵嵌套实体树;将嵌套实体树的实体表示输入Transformer Decoder模块,通过多头注意力机制,得到嵌套实体树中包含实体树间交互信息、实体和输入文本之间的交互信息的隐层向量;将隐层向量和实体表示输入由多棵嵌套实体树构成的分层三元组森林,获得语料的实体语义关系三元组。
-
公开(公告)号:CN116595407A
公开(公告)日:2023-08-15
申请号:CN202310388963.2
申请日:2023-04-12
Applicant: 中国科学院计算技术研究所
IPC: G06F18/24 , G06F18/214 , G06F18/25 , G06F40/289 , G06N3/0455 , G06N3/08
Abstract: 本发明提出一种基于标签序列一致性建模的事件论元检测方法及系统。主要包括词序列语义编码、词标签序列标注、易错标签序列生成、对比学习正则化。词序列语义编码对预处理后的词采用BERT与训练语言模型进行语义表示学习,并将事件类型信息融入表示向量中;词标签序列标注使用全连接网络来对每个词对应的标签概率分布做出预估;易错标签序列生成则是根据一定策略按照词标签序列概率分布生成易错标签序列;对比学习正则化则是基于易错标签序列和正确标签序列的对比学习构建正则化损失,提高词序列标签的一致性。
-
公开(公告)号:CN115687638A
公开(公告)日:2023-02-03
申请号:CN202211199819.6
申请日:2022-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/36 , G06F40/211 , G06F40/289 , G06N3/0455 , G06N3/044 , G06N3/048 , G06N3/047 , G06N3/08
Abstract: 本发明提出一种基于三元组森林的实体关系联合抽取方法和系统,包括:获取待实体关系抽取的语料,得到句子及其对应的词序列;将词序列输入BERT模型,BERT模型对词序列进行分词,得到子词序列,使用BERT模型对子词序列进行编码,得到句子的分布式表示;将分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;将实体向量输入,通过TransformerDecoder模块中多头注意力机制获得实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;将隐层向量作为Tree‑RNN的初始状态和初始隐层单元,输入实体表示至Tree‑RNN,从Tree‑RNN的根节点的头实体生成其所参与的关系,根据头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。
-
公开(公告)号:CN110135457B
公开(公告)日:2021-04-06
申请号:CN201910288771.8
申请日:2019-04-11
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于自编码器融合文档信息的事件触发词抽取方法,包括:以未标注自由文本语料生成训练集,训练GRU模型以构建该自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档内的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi‑GRU模型进行多分类,以识别该待识别词是否为事件触发词及该待识别词的对应事件类型。
-
公开(公告)号:CN110232113B
公开(公告)日:2021-03-26
申请号:CN201910292426.1
申请日:2019-04-12
Applicant: 中国科学院计算技术研究所
IPC: G06F16/332 , G06F16/33 , G06F40/295
Abstract: 本发明提出一种提高知识库问答准确度的方法及系统,包括:获取待回答的用户问句,提取该用户问句中的主题实体,以该主题实体检索知识库,将得到的每一个候选答案的路径信息作为候选路径,并预处理该用户问句,得到该用户问句的向量表示;利用该向量表示对该候选路径上的每一步关系利用注意力机制进行打分,得到该候选路径上的每一步关系的关系置信度,并将该候选路径上所有的关系置信度求和,得到关系路径的路径置信度;将所有候选路径根据其置路径置信度进行排序,输出路径置信度最高的候选路径作为该用户问句的回答结果。本发明增强了中间结点在整个关系推断中的作用,提高了关系推断的准确率。
-
公开(公告)号:CN110135457A
公开(公告)日:2019-08-16
申请号:CN201910288771.8
申请日:2019-04-11
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于自编码器融合文档信息的事件触发词抽取方法,包括:以未标注自由文本语料生成训练集,训练GRU模型以构建该自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档内的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi-GRU模型进行多分类,以识别该待识别词是否为事件触发词及该待识别词的对应事件类型。
-
公开(公告)号:CN117149940A
公开(公告)日:2023-12-01
申请号:CN202310942975.5
申请日:2023-07-28
Applicant: 中国科学院计算技术研究所
IPC: G06F16/31 , G06F16/35 , G06F16/332 , G06F40/30 , G06F40/126 , G06N3/04 , G06N3/047 , G06N3/08
Abstract: 本发明提出一种事件论元抽取方法、装置,方法包含:分别对训练数据、事件类型进行编码,得到触发词上下文语义表示、事件类型的表示,并将两者表示交互,得到含事件类型信息的触发词表示,并预测事件类型;生成对应事件类型的论元抽取问题,并将待抽取文本与论元抽取问题拼接编码,得到标签的上下文语义表示、待抽取句子各个词的上下文语义表示、论元角色的上下文语义表示;将标签的上下文语义表示、待抽取句子中的各个词的上下文语义表示分别与需要抽取的论元角色的上下文语义表示拼接后,输入判别网络,分别得到判别概率、标注概率;结合判别概率和标注概率确定最终论元角色对应的抽取结果。该方法提高了事件抽取性能。
-
公开(公告)号:CN115759103A
公开(公告)日:2023-03-07
申请号:CN202211527749.2
申请日:2022-11-30
Applicant: 中国科学院计算技术研究所
IPC: G06F40/295
Abstract: 本发明提供一种小样本命名实体识别模型训练方法,包括:S1、获取训练集、训练集类型描述集合以及支持集、支持集类型描述集合;S2、分别在训练集和支持集上挖掘每个样本中的线索词并进行线索词标注以分别获得包含命名实体标签和线索词标签的训练集和支持集;S3、采用经步骤S2处理后的训练集和训练集类型描述集合对基础命名实体识别模型进行多轮迭代训练至收敛;S4、采用经步骤S2处理后的支持集和支持集类型描述集合对经步骤S3训练后的基础命名实体识别模型进行迁移训练直至收敛,获得由编码器和最近邻分类器组成的小样本命名实体识别模型。
-
-
-
-
-
-
-
-
-