-
公开(公告)号:CN113268673B
公开(公告)日:2023-06-02
申请号:CN202110443364.7
申请日:2021-04-23
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/9536 , G06F40/253 , G06F40/284
Abstract: 本发明公开了一种互联网行动类信息线索分析的方法,包括:从互联网获取信息文本;将信息文本输入预训练的行动线索标注算法模型中,应用预训练的行动线索标注算法模型获取信息文本中的行动类信息线索单词;其中,所述行动类信息线索单词的实体类型包括自定义类型,所述行动线索标注算法模型对属于自定义类型的单词的权重进行增量运算。本发明可以对采集内容进行快速的语法分析,获取内容中用户关注的时间、地点、人物和活动等行动类线索信息,这样就可以对关键词信息进行标注或分类,最终让用户可以很清晰、明了的查看线索信息内容。
-
公开(公告)号:CN112667872B
公开(公告)日:2023-04-07
申请号:CN202011290564.5
申请日:2020-11-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/9532 , G06F16/25 , G06F9/445 , G16H50/80
Abstract: 本发明公开了新冠肺炎疫情数据的实时采集方法,包括以下步骤:一、建立配置文件,将多个信源网站内实时反映疫情数据的网页的基本信息预置在配置文件中,包括多个字段的名称、各字段的存储路径,各字段的被采纳次数;二、采集网页数据,通过配置文件中待采集字段的存储路径从多个信源网站采集待采集字段当前的数值;三、数据对齐处理,以待采集字段的数据对齐结果为待采集字段的采集数据;步骤四、更新配置文件,将各信源网站中待采集字段的数值与待采集字段的采集数据相同的信源网站中待采集字段的被采纳次数加1。本发明的方法从多个信源网站的实时数据中获取可信度最高的数据作为采集数据,提高了疫情实时数据的准确性。
-
公开(公告)号:CN114330321A
公开(公告)日:2022-04-12
申请号:CN202111666897.8
申请日:2021-12-31
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/279 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/02
Abstract: 本发明公开了一种用户先验知识增强的文本风格迁移方法、装置及电子设备,所述方法包括:获取用户先验知识数据,并基于所述用户先验知识数据构建预设神经网络模型;获取用户输入数据,并将所述用户输入数据映射至所述预设神经网络模型中,生成与所述用户输入数据的表达方式不同的目标文本内容表示;获取用户关注领域表示,并结合所述目标文本内容表示和用户关注领域表示,生成目标文本内容。本发明不仅可以实现文本风格的转换,还提升了转换文本内容与用户要求的相关性。
-
公开(公告)号:CN114297498A
公开(公告)日:2022-04-08
申请号:CN202111638795.5
申请日:2021-12-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F16/9536 , G06N3/04 , G06Q50/00
Abstract: 本发明通过网络技术处理领域的方法,实现了一种基于关键传播结构感知的意见领袖识别方法和装置。方法基于神经网络算法,设计用户双重特征提取模块和关键传播结构挖掘模块两个逻辑模块组成,通过输入微博中不同话题数据,得到输入数据中具有代表性特征的意见领袖及关联关系输出。本发明设计基于节点中心度的消息传递机制,充分结合了节点在拓扑结构中的重要性,构造了一个新的图神经网络模型提取社交网络中用户的特征。首次利用图分类任务挖掘不同事件中的关键结构信息,在挖掘社交网络中top‑k个意见领袖的同时能够从节点连通性、节点相似度、节点中心度三个角度学习意见领袖之间潜在的联系,构造网络中的关键传播结构。
-
公开(公告)号:CN109241483B
公开(公告)日:2021-10-12
申请号:CN201811008674.0
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于域名推荐的网站发现方法,包括:在域名字符集随机选取任意字符排列组合以获得词根字符串;以该词根字符串组成候选字符串;将该候选字符串与候选域名后缀进行拼接,组成推荐域名;对该推荐域名进行DNS解析,以判断为合法的该推荐域名为合法域名;验证该合法域名是否存在对应网站,若存在则获取为目标网站。
-
公开(公告)号:CN113449601A
公开(公告)日:2021-09-28
申请号:CN202110591209.X
申请日:2021-05-28
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
Abstract: 本发明提出一种基于渐进性平滑损失的行人重识别模型训练方法,包括:获取训练样本数据;其中,所述训练样本数据包括多个包含行人的视频;将所述训练样本数据输入至初始模型中,得到对应各所述包含行人的视频的帧级别特征和视频级别特征;分别基于所述帧级别特征和所述视频级别特征计算第一损失和第二损失;基于所述第一损失和所述第二损失对所述初始模型的模型参数进行优化,得到行人重识别模型。
-
公开(公告)号:CN113221542A
公开(公告)日:2021-08-06
申请号:CN202110348599.8
申请日:2021-03-31
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
IPC: G06F40/232 , G06F40/242 , G06F40/284
Abstract: 本发明涉及一种基于多粒度融合与Bert筛选的中文文本自动校对方法,属于自然语言处理技术领域;本发明通过结合字粒度与词粒度级别的校对模型,以期能够利用不同粒度级别的信息。字粒度模型采用集成规则生成候选集与Bert筛选的方法,词粒度采用传统方法,先构建候选集,然后使用N‑Gram模型计算句子困惑度取最佳候选。另外该方法还解决了多字少字等错误类型问题。实验结果验证了该方法能有效提高检错纠错的召回率,有效提升校对模型性能。对比现有技术,本发明规避了字粒度校对模型和词粒度校对模型带来的局限性,基于多粒度融合与Bert筛选通过两种粒度有效结合不同层次信息,通过N‑Gram LM打分与Bert进行筛选,能够有效提高错误的召回率和校对的准确率。
-
公开(公告)号:CN110083699B
公开(公告)日:2021-01-12
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
公开(公告)号:CN111680059A
公开(公告)日:2020-09-18
申请号:CN202010356697.1
申请日:2020-04-29
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/245 , G06F16/9536 , G06F21/31
Abstract: 本发明公开了一种基于特定区域的活跃人员、常驻人员的分析方法,其包括:S1、采集特定区域内的账户信息;S2、对账户信息进行去重;根据人员记录库中的账户信息更新人员统计库中的账户ID、账户的出现时间、账户所在地的经纬度以及账户的出现次数;S3、基于人员统计库,将出现次数排名靠前的账户标识为活跃人员;S4、基于人员记录库,从活跃人员中分别过滤出有效人员、稳定人员,有效人员和稳定人员的并集为常驻人员。本发明可有效地统计和识别出某个特定区域的社交渠道上的活跃人员和常驻人员,进而实现更加高效和多方面的支持网络舆情的分析工作。
-
公开(公告)号:CN111046129A
公开(公告)日:2020-04-21
申请号:CN201910392857.5
申请日:2019-05-13
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/31 , G06F16/953 , G06Q50/00
Abstract: 本发明公开了基于文本内容特征的公众号信息存储方法,包括:采集公众号文章,提取公众号文章的唯一标识和特征文本,并将特征文本转化为特征标识,并将公众号文章与特征标识关联存储;根据公众号文章确定索引字段,建立索引字段与公众号文章的关联关系,生成索引数据,所述索引字段至少包括唯一标识;为多个索引节点分别配置唯一标识范围,将索引数据按照其唯一标识存储至相应的索引节点。本发明还提供了基于文本内容特征的公众号信息检索系统。本发明能够避免大量相同文章同时显示,并且能够保证检索系统的稳定性和效率。
-
-
-
-
-
-
-
-
-