-
公开(公告)号:CN105760366A
公开(公告)日:2016-07-13
申请号:CN201610150038.6
申请日:2016-03-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/27
CPC classification number: G06F17/2715 , G06F17/277
Abstract: 本发明提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。
-
公开(公告)号:CN111859980B
公开(公告)日:2024-04-09
申请号:CN202010549951.X
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/9536 , G06N3/0442 , G06N3/0464 , G06N3/084
Abstract: 本申请涉及一种讽刺类型的文本识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;采用多种方式提取待处理文本的目标特征信息,目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;根据第一神经网络模型对目标特征信息的识别结果确定待处理文本的文本类型,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为目标类型。本申请从多个维度捕获词间关联特征,并从讽刺文本的情感倾向转换出发,挖掘词语间的冲突性,进而充分体现句子中地所蕴含的讽刺含义,最终准确、合理地识别讽刺文本。
-
公开(公告)号:CN111680072B
公开(公告)日:2023-12-08
申请号:CN202010375603.5
申请日:2020-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/2457 , G06F16/215 , G06F16/22 , G06F16/9536
Abstract: 本发明公开了一种基于社交信息数据的划分系统,包括:数据采集装置;数据解析装置,解析社交数据,获取社交信息并进行唯一标识;数据去重装置;多媒体数据转换装置,将去重后的社交信息的多媒体文件提取链接;海量对象存储装置,存储去重后的社交信息;基本数据存储装置,存储去重后的社交信息的标识;分词装置,将去重后的社交信息划分成多个关键词;全文检索装置,将划分的关键词汇总、去重、建立索引。本发明还公开了一种基于社交信息数据的划分方法。本发明还公开了一种电子设备及存储介质。本发明对接收的不同社交媒体的网络信息进行按条件分类显示,方便使用人员更直观的对不同社交媒体的网络信息进行审查。
-
公开(公告)号:CN116882401A
公开(公告)日:2023-10-13
申请号:CN202310510969.2
申请日:2023-05-08
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/216 , G06F16/35 , G06F16/9535 , G06V20/62 , G06V30/148 , G06V30/19
Abstract: 本发明提供了一种基于新闻客户端的突发事件预警信息分析系统,包括:数据处理模块,其对原始文章数据进行格式化预处理;自定义标签模块,其用于获取突发预警标签;文本分析模块,其对格式化文本数据进行分析,提取出时间、地点、人物、机构和自定义的预警信息;图片分析模块,其对格式化图片数据进行分析,对特征目标区域的字符进行分割和分类;评论情绪分析模块,其用于对格式化评论数据进行分析,获得原始文章数据的情绪类型。本发明还提供了一种基于新闻客户端的突发事件预警信息分析方法。本发明能够快速分析新闻文章信息中时间、地点、人物、机构和主题信息,以及能够从文本正文、正文中图片和评论正负面情绪三个维度进行全方位识别分析。
-
公开(公告)号:CN111737590B
公开(公告)日:2023-09-12
申请号:CN202010442783.4
申请日:2020-05-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536 , G06F16/33
Abstract: 本发明公开了社交关系挖掘方法、装置、电子设备以及存储介质。所述方法包括:获取群组的对话流数据;将所述对话流数据划分为多个对话队列,其中,各对话队列的时间跨度小于或等于时间阈值;根据各对话队列中对话信息的上下文相关度,确定构成真实对话场景的对话队列;提取所述构成真实对话场景的对话队列所对应的用户,作为具有社交关系的用户。基于该方法及装置,可以还原对话场景,进而更加精准地映射对话用户,挖掘用户社交关系。
-
公开(公告)号:CN113268673B
公开(公告)日:2023-06-02
申请号:CN202110443364.7
申请日:2021-04-23
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/9536 , G06F40/253 , G06F40/284
Abstract: 本发明公开了一种互联网行动类信息线索分析的方法,包括:从互联网获取信息文本;将信息文本输入预训练的行动线索标注算法模型中,应用预训练的行动线索标注算法模型获取信息文本中的行动类信息线索单词;其中,所述行动类信息线索单词的实体类型包括自定义类型,所述行动线索标注算法模型对属于自定义类型的单词的权重进行增量运算。本发明可以对采集内容进行快速的语法分析,获取内容中用户关注的时间、地点、人物和活动等行动类线索信息,这样就可以对关键词信息进行标注或分类,最终让用户可以很清晰、明了的查看线索信息内容。
-
公开(公告)号:CN114330321A
公开(公告)日:2022-04-12
申请号:CN202111666897.8
申请日:2021-12-31
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/279 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/02
Abstract: 本发明公开了一种用户先验知识增强的文本风格迁移方法、装置及电子设备,所述方法包括:获取用户先验知识数据,并基于所述用户先验知识数据构建预设神经网络模型;获取用户输入数据,并将所述用户输入数据映射至所述预设神经网络模型中,生成与所述用户输入数据的表达方式不同的目标文本内容表示;获取用户关注领域表示,并结合所述目标文本内容表示和用户关注领域表示,生成目标文本内容。本发明不仅可以实现文本风格的转换,还提升了转换文本内容与用户要求的相关性。
-
公开(公告)号:CN114297498A
公开(公告)日:2022-04-08
申请号:CN202111638795.5
申请日:2021-12-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F16/9536 , G06N3/04 , G06Q50/00
Abstract: 本发明通过网络技术处理领域的方法,实现了一种基于关键传播结构感知的意见领袖识别方法和装置。方法基于神经网络算法,设计用户双重特征提取模块和关键传播结构挖掘模块两个逻辑模块组成,通过输入微博中不同话题数据,得到输入数据中具有代表性特征的意见领袖及关联关系输出。本发明设计基于节点中心度的消息传递机制,充分结合了节点在拓扑结构中的重要性,构造了一个新的图神经网络模型提取社交网络中用户的特征。首次利用图分类任务挖掘不同事件中的关键结构信息,在挖掘社交网络中top‑k个意见领袖的同时能够从节点连通性、节点相似度、节点中心度三个角度学习意见领袖之间潜在的联系,构造网络中的关键传播结构。
-
公开(公告)号:CN113221542A
公开(公告)日:2021-08-06
申请号:CN202110348599.8
申请日:2021-03-31
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
IPC: G06F40/232 , G06F40/242 , G06F40/284
Abstract: 本发明涉及一种基于多粒度融合与Bert筛选的中文文本自动校对方法,属于自然语言处理技术领域;本发明通过结合字粒度与词粒度级别的校对模型,以期能够利用不同粒度级别的信息。字粒度模型采用集成规则生成候选集与Bert筛选的方法,词粒度采用传统方法,先构建候选集,然后使用N‑Gram模型计算句子困惑度取最佳候选。另外该方法还解决了多字少字等错误类型问题。实验结果验证了该方法能有效提高检错纠错的召回率,有效提升校对模型性能。对比现有技术,本发明规避了字粒度校对模型和词粒度校对模型带来的局限性,基于多粒度融合与Bert筛选通过两种粒度有效结合不同层次信息,通过N‑Gram LM打分与Bert进行筛选,能够有效提高错误的召回率和校对的准确率。
-
公开(公告)号:CN110083699B
公开(公告)日:2021-01-12
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
-
-
-
-
-
-
-
-