-
公开(公告)号:CN112732872B
公开(公告)日:2022-11-18
申请号:CN202110038330.X
申请日:2021-01-12
Applicant: 东南大学
IPC: G06F16/33 , G06F16/35 , G06F40/216 , G06F40/284 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了面向生物医学文本的基于主题注意机制的多标签分类方法,包括:生物医学文本预处理;对预处理后的文本构建词向量特征;构建词/句子级的层次注意力机制获得生物医学文档的层次注意力表示;利用词袋模型对文档进行表示;利用神经主题模型获得语料库的词分布和文档主题分布;构建主题注意机制获得文档的主题注意力表示;将两种表示连接后通过神经模型进行多标签分类;在训练集中训练神经网络模型,保存最优模型参数;使用最优模型在测试集上测试,得到样本的多个标签。本发明采用了基于门控循环单元的层次注意力机制和主题注意力机制来进行多标签分类任务,相比以往的多标签文本分类方法,本发明具有更好的分类效果。
-
公开(公告)号:CN112732872A
公开(公告)日:2021-04-30
申请号:CN202110038330.X
申请日:2021-01-12
Applicant: 东南大学
IPC: G06F16/33 , G06F16/35 , G06F40/216 , G06F40/284 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了面向生物医学文本的基于主题注意机制的多标签分类方法,包括:生物医学文本预处理;对预处理后的文本构建词向量特征;构建词/句子级的层次注意力机制获得生物医学文档的层次注意力表示;利用词袋模型对文档进行表示;利用神经主题模型获得语料库的词分布和文档主题分布;构建主题注意机制获得文档的主题注意力表示;将两种表示连接后通过神经模型进行多标签分类;在训练集中训练神经网络模型,保存最优模型参数;使用最优模型在测试集上测试,得到样本的多个标签。本发明采用了基于门控循环单元的层次注意力机制和主题注意力机制来进行多标签分类任务,相比以往的多标签文本分类方法,本发明具有更好的分类效果。
-