-
公开(公告)号:CN112766359A
公开(公告)日:2021-05-07
申请号:CN202110050517.1
申请日:2021-01-14
Applicant: 北京工商大学
IPC: G06K9/62 , G06F16/951 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种面向食品安全舆情的字词双维度微博谣言识别方法,包括:对互联网爬取数据进行预处理、结合开放域word embedding资源库构建食品安全领域word embedding资源库、爬取多级别百度百科语料对word embedding资源库进行增量训练、基于BERT网络的字维度文本特征提取、基于BLSTM网络并加入位置注意力机制的词维度文本特征提取、最终得到字词双维度文本特征向量并进行微博文本是否为谣言的分类识别。本发明解决了食品安全舆情领域微博文本语料口语化严重、结构性弱、领域性强、难以向量化的难题,通过构建领域词库和多粒度向量化方法,更加充分提取语料特征,提高谣言识别准确性。
-
公开(公告)号:CN112766359B
公开(公告)日:2023-07-25
申请号:CN202110050517.1
申请日:2021-01-14
Applicant: 北京工商大学
IPC: G06F18/241 , G06F16/951 , G06F40/284 , G06N3/047 , G06N3/0442 , G06N3/08
Abstract: 本发明涉及一种面向食品安全舆情的字词双维度微博谣言识别方法,包括:对互联网爬取数据进行预处理、结合开放域word embedding资源库构建食品安全领域word embedding资源库、爬取多级别百度百科语料对word embedding资源库进行增量训练、基于BERT网络的字维度文本特征提取、基于BLSTM网络并加入位置注意力机制的词维度文本特征提取、最终得到字词双维度文本特征向量并进行微博文本是否为谣言的分类识别。本发明解决了食品安全舆情领域微博文本语料口语化严重、结构性弱、领域性强、难以向量化的难题,通过构建领域词库和多粒度向量化方法,更加充分提取语料特征,提高谣言识别准确性。
-