Patent search ap:("华能煤炭技术研究有限公司" OR "北京信息科技大学") AND inv:"伏瑞林" Page 1

1.

发明公开
一种基于分层注意力机制和BERT的长文本处理方法审中-实审

公开(公告)号：CN115952802A

公开(公告)日：2023-04-11

申请号：CN202211001912.1

申请日：2022-08-21

Applicant: 华能煤炭技术研究有限公司 , 北京信息科技大学

Inventor： 汪义龙 , 吕学强 , 李宣东 , 游新冬 , 王耀辉 , 韩晶 , 王昀 , 孙晓虎 , 孙武 , 郝强 , 李慧 , 张倍宁 , 伏瑞林 , 刘鸿利 , 高智慧

IPC: G06F40/30 , G06F16/332 , G06F16/35 , G06N3/045 , G06N3/08

Abstract: 本发明涉及自然语言处理领域的文本处理方法，提升现有基于切分等方式处理长文本会产生信息丢失的不足，包括以下步骤：将文本按句子切分成多段内容；将每句话以[CLS]句子[SEP]的形式传入BERT预训练语言模型，获取最后一层隐藏层向量以及[CLS]对应向量；使用词注意力机制获得句子向量；获得原文所有句子的句子向量并拼接，以[SCLS]向量的形式传入transformer模型，获取最后一层隐藏层向量以及[SCLS]对应向量；使用句注意力机制获得文本向量；训练检索网络模型并更新参数，在测试集上提取文本特征并进行测试。本发明可获得更好的处理长文本，能够更为有效的提升长文本分类准确性，并且复杂度更低。

Patent Agency Ranking