-
公开(公告)号:CN109977227B
公开(公告)日:2021-06-22
申请号:CN201910205999.6
申请日:2019-03-19
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/289 , G06F40/12 , G06N3/00 , G06N3/12
Abstract: 本发明属于信息分类领域,具体涉及了一种基于特征编码的文本特征提取方法、系统、装置,旨在解决文本特征提取中运算复杂度高、分类效率和精度低的问题。本发明方法包括:对获取的文本预处理,获得词候选特征序列;基于词候选特征序列,生成多个二进制编码;采用基因遗传算法筛选二进制编码,获得最优二进制编码;解码最优二进制编码获得最优词特征序列并输出。本发明将一系列候选特征转化为易处理的编码序列,并使用基因遗传算法的自动筛选功能,对特征进行最大化的全局最优挑选,能够有效地筛选出最小有效特征集。
-
公开(公告)号:CN111859979A
公开(公告)日:2020-10-30
申请号:CN202010549940.1
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/953 , G06N3/04
Abstract: 本申请涉及一种讽刺文本协同识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签。本申请利用表征语义情感的特征和表征讽刺主题的特征对待处理文本进行协同识别,既确定是否带有讽刺含义,在具备讽刺含义的情况下还同时识别出体现讽刺的主题,实现有主题区分度的文本语义表示,有效提高了讽刺识别的准确率和解释性。
-
公开(公告)号:CN111859980B
公开(公告)日:2024-04-09
申请号:CN202010549951.X
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/9536 , G06N3/0442 , G06N3/0464 , G06N3/084
Abstract: 本申请涉及一种讽刺类型的文本识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;采用多种方式提取待处理文本的目标特征信息,目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;根据第一神经网络模型对目标特征信息的识别结果确定待处理文本的文本类型,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为目标类型。本申请从多个维度捕获词间关联特征,并从讽刺文本的情感倾向转换出发,挖掘词语间的冲突性,进而充分体现句子中地所蕴含的讽刺含义,最终准确、合理地识别讽刺文本。
-
公开(公告)号:CN111859980A
公开(公告)日:2020-10-30
申请号:CN202010549951.X
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/9536 , G06N3/04 , G06N3/08
Abstract: 本申请涉及一种讽刺类型的文本识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;采用多种方式提取待处理文本的目标特征信息,目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;根据第一神经网络模型对目标特征信息的识别结果确定待处理文本的文本类型,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为目标类型。本申请从多个维度捕获词间关联特征,并从讽刺文本的情感倾向转换出发,挖掘词语间的冲突性,进而充分体现句子中地所蕴含的讽刺含义,最终准确、合理地识别讽刺文本。
-
公开(公告)号:CN109977227A
公开(公告)日:2019-07-05
申请号:CN201910205999.6
申请日:2019-03-19
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于信息分类领域,具体涉及了一种基于特征编码的文本特征提取方法、系统、装置,旨在解决文本特征提取中运算复杂度高、分类效率和精度低的问题。本发明方法包括:对获取的文本预处理,获得词候选特征序列;基于词候选特征序列,生成多个二进制编码;采用基因遗传算法筛选二进制编码,获得最优二进制编码;解码最优二进制编码获得最优词特征序列并输出。本发明将一系列候选特征转化为易处理的编码序列,并使用基因遗传算法的自动筛选功能,对特征进行最大化的全局最优挑选,能够有效地筛选出最小有效特征集。
-
公开(公告)号:CN119669939A
公开(公告)日:2025-03-21
申请号:CN202411761212.1
申请日:2024-12-03
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/2431 , G06Q50/00 , G06F18/213
Abstract: 本发明公开了社交网络账号状态判定方法,包括:S1:获取目标账号的状态数据;S2:从所述状态数据中提取账号基本信息、账号粉丝信息和账号发言信息;S3:将所述账号基本信息、所述账号粉丝信息和所述账号发言信息与预设条件比较,根据比较结果确定所述目标账号的状态。本发明还公开了判定装置。本发明能够较准确地进行社交网络账号状态的判断。
-
公开(公告)号:CN111581370B
公开(公告)日:2023-06-23
申请号:CN202010310036.5
申请日:2020-04-20
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/335 , G06F16/951 , G06F16/9536 , G06F40/242 , G06Q10/0637 , G06Q50/00
Abstract: 本发明公开了一种综合多通道数据来源的网络舆情热度评估方法,包括:步骤一、收集各通道的流数据;步骤二、量化流数据对于目标事件的敏感值和情绪标签;步骤三、基于敏感度和影响力量化得到主体指标值;步骤四、基于敏感消息数、各类情绪标签对应的消息数,量化得到内容指标值;步骤五、基于每日的消息数、用户数、群组数,量化得到传播指标值;步骤六、基于主体指标值、内容指标值、传播指标值,量化得到各通道的综合热度值,并计算得到目标事件当日的总热度值。本方法建立了普适的网络舆情热度评估指标体系,评估结果更准确全面。本发明还公开了一种综合多通道数据来源的网络舆情热度评估装置,本装置对网络舆情热度的评估更准确全面。
-
公开(公告)号:CN116186191A
公开(公告)日:2023-05-30
申请号:CN202210320305.5
申请日:2022-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
Abstract: 本发明涉及基于多维信息的任务匹配方法,属于基于大数据智能分析与挖掘技术领域。本发明是结合文本处理、机器学习方法、线性模型、动态规划等方法对相应文本进行处理,从而对文本所含“价值”进行分析,并借助大数据的手段将人工主观文本分析变为自动化完成,提高系统找到匹配结果的效率。本发明采用多种大数据分析的思想和多路召回的思想,对于同一任务会召回多个表单,每一个表单进行同样的操作,设置不同的权重,最后多路交集,从而可以取到更加准确的筛选结果,大大提高了工作效率。
-
公开(公告)号:CN115310000A
公开(公告)日:2022-11-08
申请号:CN202110432130.2
申请日:2021-04-21
Applicant: 国家计算机网络与信息安全管理中心 , 北京中科闻歌科技股份有限公司 , 国科智安(北京)科技有限公司
IPC: G06F16/9536 , G06F16/955 , G06Q50/00
Abstract: 本发明提供了一种信息处理方法、处理装置、电子设备和可读存储介质,方法包括:获取文本数据,根据文本数据得到目标统一资源定位符;将文本数据输入至目标业务的分类模型,得到文本数据的目标业务相关度;确定目标统一资源定位符的热度值;根据热度值和文本数据的目标业务相关度,确定目标统一资源定位符的推荐指数;根据推荐指数,输出目标统一资源定位符,通过运行该方法,可以为文本数据中的抽取得到的目标统一资源定位符标注推荐指数,并根据推荐指数输出目标统一资源定位符,以实现信源的推荐。
-
公开(公告)号:CN113312478B
公开(公告)日:2022-07-19
申请号:CN202110445975.5
申请日:2021-04-25
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62 , G06F40/216 , G06N5/02
Abstract: 本发明公开了基于阅读理解的观点挖掘方法,包括:构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息;从待抽取事件文本中抽取事件观点文本;将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场;以及,基于阅读理解的观点挖掘装置。本发明具有使观点挖掘结果更加准确的优点。
-
-
-
-
-
-
-
-
-