-
公开(公告)号:CN111767409A
公开(公告)日:2020-10-13
申请号:CN202010539229.8
申请日:2020-06-14
Applicant: 南开大学
IPC: G06F16/36 , G06F16/35 , G06F40/289 , G06F40/30 , G06F40/216 , G06F40/126 , G06K9/62 , G06N3/04
Abstract: 一种基于多头自注意力机制的实体关系抽取方法,涉及计算机应用技术。本发明主要采用深度学习技术以及自然语言处理相关的理论方法对文本进行实体关系抽取,将关系检测转化为一个多标签分类问题,并提出词级别有监督的多头自注意力机制来检测文本中词之间的语义关联,通过将不同的关系类别转化为多头注意力机制中不同的特征子空间,本发明可以独立学习不同关系类别下词之间的语义交互,并独立建模不同关系类别下词之间的关联程度,进而可以灵活地识别重叠的关系三元组。
-
公开(公告)号:CN114118273B
公开(公告)日:2024-04-26
申请号:CN202111425938.4
申请日:2021-11-24
Applicant: 南开大学
IPC: G06F18/241 , G06F40/30 , G06F40/284
Abstract: 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法,包括:选择原始数据集;通过BERT学习文本中每个词的高层语义表示;将文本切分成等长的若干个文本块,通过对文本块内每个词的高层语义表示求平均,获得整个文本块的表示;通过注意力机制计算每个文本块的表示和标签的向量表示的相关度,对所有文本块的表示进行融合,经过训练后得到完整的标签‑文本块关系模型,再根据相关度进行数据增强,最终输出增强后的新数据集。本发明考虑了标签和文本块之间的关系,利用模型学习标签和文本之间的关联性,基于“长尾”标签相关联的文本块对原始数据中不重要的文本块进行替换,对各种已有模型在新数据集上的多标签分类效果获得了显著的提升。
-
公开(公告)号:CN114118273A
公开(公告)日:2022-03-01
申请号:CN202111425938.4
申请日:2021-11-24
Applicant: 南开大学
IPC: G06K9/62 , G06F40/30 , G06F40/284
Abstract: 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法,包括:选择原始数据集;通过BERT学习文本中每个词的高层语义表示;将文本切分成等长的若干个文本块,通过对文本块内每个词的高层语义表示求平均,获得整个文本块的表示;通过注意力机制计算每个文本块的表示和标签的向量表示的相关度,对所有文本块的表示进行融合,经过训练后得到完整的标签‑文本块关系模型,再根据相关度进行数据增强,最终输出增强后的新数据集。本发明考虑了标签和文本块之间的关系,利用模型学习标签和文本之间的关联性,基于“长尾”标签相关联的文本块对原始数据中不重要的文本块进行替换,对各种已有模型在新数据集上的多标签分类效果获得了显著的提升。
-
公开(公告)号:CN111767409B
公开(公告)日:2022-08-30
申请号:CN202010539229.8
申请日:2020-06-14
Applicant: 南开大学
IPC: G06F16/36 , G06F16/35 , G06F40/289 , G06F40/30 , G06F40/216 , G06F40/126 , G06K9/62 , G06N3/04
Abstract: 一种基于多头自注意力机制的实体关系抽取方法,涉及计算机应用技术。本发明主要采用深度学习技术以及自然语言处理相关的理论方法对文本进行实体关系抽取,将关系检测转化为一个多标签分类问题,并提出词级别有监督的多头自注意力机制来检测文本中词之间的语义关联,通过将不同的关系类别转化为多头注意力机制中不同的特征子空间,本发明可以独立学习不同关系类别下词之间的语义交互,并独立建模不同关系类别下词之间的关联程度,进而可以灵活地识别重叠的关系三元组。
-
-
-