一种基于标签和文本块注意力机制的极限多标签分类数据增强方法

    公开(公告)号:CN114118273B

    公开(公告)日:2024-04-26

    申请号:CN202111425938.4

    申请日:2021-11-24

    Applicant: 南开大学

    Inventor: 刘杰 张嘉鑫

    Abstract: 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法,包括:选择原始数据集;通过BERT学习文本中每个词的高层语义表示;将文本切分成等长的若干个文本块,通过对文本块内每个词的高层语义表示求平均,获得整个文本块的表示;通过注意力机制计算每个文本块的表示和标签的向量表示的相关度,对所有文本块的表示进行融合,经过训练后得到完整的标签‑文本块关系模型,再根据相关度进行数据增强,最终输出增强后的新数据集。本发明考虑了标签和文本块之间的关系,利用模型学习标签和文本之间的关联性,基于“长尾”标签相关联的文本块对原始数据中不重要的文本块进行替换,对各种已有模型在新数据集上的多标签分类效果获得了显著的提升。

    一种基于标签和文本块注意力机制的极限多标签分类数据增强方法

    公开(公告)号:CN114118273A

    公开(公告)日:2022-03-01

    申请号:CN202111425938.4

    申请日:2021-11-24

    Applicant: 南开大学

    Inventor: 刘杰 张嘉鑫

    Abstract: 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法,包括:选择原始数据集;通过BERT学习文本中每个词的高层语义表示;将文本切分成等长的若干个文本块,通过对文本块内每个词的高层语义表示求平均,获得整个文本块的表示;通过注意力机制计算每个文本块的表示和标签的向量表示的相关度,对所有文本块的表示进行融合,经过训练后得到完整的标签‑文本块关系模型,再根据相关度进行数据增强,最终输出增强后的新数据集。本发明考虑了标签和文本块之间的关系,利用模型学习标签和文本之间的关联性,基于“长尾”标签相关联的文本块对原始数据中不重要的文本块进行替换,对各种已有模型在新数据集上的多标签分类效果获得了显著的提升。

Patent Agency Ranking