-
公开(公告)号:CN111859979A
公开(公告)日:2020-10-30
申请号:CN202010549940.1
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/953 , G06N3/04
Abstract: 本申请涉及一种讽刺文本协同识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签。本申请利用表征语义情感的特征和表征讽刺主题的特征对待处理文本进行协同识别,既确定是否带有讽刺含义,在具备讽刺含义的情况下还同时识别出体现讽刺的主题,实现有主题区分度的文本语义表示,有效提高了讽刺识别的准确率和解释性。
-
公开(公告)号:CN111859980B
公开(公告)日:2024-04-09
申请号:CN202010549951.X
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/9536 , G06N3/0442 , G06N3/0464 , G06N3/084
Abstract: 本申请涉及一种讽刺类型的文本识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;采用多种方式提取待处理文本的目标特征信息,目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;根据第一神经网络模型对目标特征信息的识别结果确定待处理文本的文本类型,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为目标类型。本申请从多个维度捕获词间关联特征,并从讽刺文本的情感倾向转换出发,挖掘词语间的冲突性,进而充分体现句子中地所蕴含的讽刺含义,最终准确、合理地识别讽刺文本。
-
公开(公告)号:CN111859980A
公开(公告)日:2020-10-30
申请号:CN202010549951.X
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/9536 , G06N3/04 , G06N3/08
Abstract: 本申请涉及一种讽刺类型的文本识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;采用多种方式提取待处理文本的目标特征信息,目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;根据第一神经网络模型对目标特征信息的识别结果确定待处理文本的文本类型,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为目标类型。本申请从多个维度捕获词间关联特征,并从讽刺文本的情感倾向转换出发,挖掘词语间的冲突性,进而充分体现句子中地所蕴含的讽刺含义,最终准确、合理地识别讽刺文本。
-
公开(公告)号:CN114357111A
公开(公告)日:2022-04-15
申请号:CN202111619071.6
申请日:2021-12-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种政策关联影响分析方法、装置、电子设备及存储介质,所述方法包括:构建目标异质信息网络,构建预训练语言模型以及构建目标向量运算模型;获取待测政策数据,待测政策数据包括政策要素以及政策要素之间的关联关系,政策要素包括政策内容和政策背景;将待测政策数据映射至目标异质信息网络中,得到包含关联关系的政策要素的节点学习结果;将待测政策数据映射至预训练语言模型中,得到包含政策背景的政策内容的训练学习结果;将节点学习结果和训练学习结果映射至目标向量运算模型中,得到政策关联影响分析结果。本发明信息利用充分、分析结果准确度高。
-
公开(公告)号:CN114818733B
公开(公告)日:2025-01-03
申请号:CN202210555613.6
申请日:2022-05-20
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/253 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种媒体转引类型的识别方法、装置、电子设备及存储介质,属于自然语言处理领域。其中,该方法包括:将源媒体发布的源信息和转引媒体发布的转引信息输入预训练语言模型,分别得到源信息和转引信息的篇章表示向量以及句子表示向量;对源信息和转引信息的各句子表示向量进行双向交互式语义信息学习,得到双向的交互语义篇章表示向量;将基于预训练语言模型得到篇章表示向量和交互语义篇章表示向量进行融合,得到增强语义表示向量;根据所述增强语义表示向量进行媒体转引类型识别,得到媒体转引类型。通过本发明,实现了多层级、细粒度地增强篇章的语义表征能力,有效提升媒体转引类型的识别性能。
-
公开(公告)号:CN114818733A
公开(公告)日:2022-07-29
申请号:CN202210555613.6
申请日:2022-05-20
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/253 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种媒体转引类型的识别方法、装置、电子设备及存储介质,属于自然语言处理领域。其中,该方法包括:将源媒体发布的源信息和转引媒体发布的转引信息输入预训练语言模型,分别得到源信息和转引信息的篇章表示向量以及句子表示向量;对源信息和转引信息的各句子表示向量进行双向交互式语义信息学习,得到双向的交互语义篇章表示向量;将基于预训练语言模型得到篇章表示向量和交互语义篇章表示向量进行融合,得到增强语义表示向量;根据所述增强语义表示向量进行媒体转引类型识别,得到媒体转引类型。通过本发明,实现了多层级、细粒度地增强篇章的语义表征能力,有效提升媒体转引类型的识别性能。
-
-
-
-
-