-
公开(公告)号:CN113221542A
公开(公告)日:2021-08-06
申请号:CN202110348599.8
申请日:2021-03-31
Applicant: 国家计算机网络与信息安全管理中心 , 北京理工大学
IPC: G06F40/232 , G06F40/242 , G06F40/284
Abstract: 本发明涉及一种基于多粒度融合与Bert筛选的中文文本自动校对方法,属于自然语言处理技术领域;本发明通过结合字粒度与词粒度级别的校对模型,以期能够利用不同粒度级别的信息。字粒度模型采用集成规则生成候选集与Bert筛选的方法,词粒度采用传统方法,先构建候选集,然后使用N‑Gram模型计算句子困惑度取最佳候选。另外该方法还解决了多字少字等错误类型问题。实验结果验证了该方法能有效提高检错纠错的召回率,有效提升校对模型性能。对比现有技术,本发明规避了字粒度校对模型和词粒度校对模型带来的局限性,基于多粒度融合与Bert筛选通过两种粒度有效结合不同层次信息,通过N‑Gram LM打分与Bert进行筛选,能够有效提高错误的召回率和校对的准确率。
-
公开(公告)号:CN110083699B
公开(公告)日:2021-01-12
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
公开(公告)号:CN111680059A
公开(公告)日:2020-09-18
申请号:CN202010356697.1
申请日:2020-04-29
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/245 , G06F16/9536 , G06F21/31
Abstract: 本发明公开了一种基于特定区域的活跃人员、常驻人员的分析方法,其包括:S1、采集特定区域内的账户信息;S2、对账户信息进行去重;根据人员记录库中的账户信息更新人员统计库中的账户ID、账户的出现时间、账户所在地的经纬度以及账户的出现次数;S3、基于人员统计库,将出现次数排名靠前的账户标识为活跃人员;S4、基于人员记录库,从活跃人员中分别过滤出有效人员、稳定人员,有效人员和稳定人员的并集为常驻人员。本发明可有效地统计和识别出某个特定区域的社交渠道上的活跃人员和常驻人员,进而实现更加高效和多方面的支持网络舆情的分析工作。
-
公开(公告)号:CN111046129A
公开(公告)日:2020-04-21
申请号:CN201910392857.5
申请日:2019-05-13
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F16/31 , G06F16/953 , G06Q50/00
Abstract: 本发明公开了基于文本内容特征的公众号信息存储方法,包括:采集公众号文章,提取公众号文章的唯一标识和特征文本,并将特征文本转化为特征标识,并将公众号文章与特征标识关联存储;根据公众号文章确定索引字段,建立索引字段与公众号文章的关联关系,生成索引数据,所述索引字段至少包括唯一标识;为多个索引节点分别配置唯一标识范围,将索引数据按照其唯一标识存储至相应的索引节点。本发明还提供了基于文本内容特征的公众号信息检索系统。本发明能够避免大量相同文章同时显示,并且能够保证检索系统的稳定性和效率。
-
公开(公告)号:CN110222262A
公开(公告)日:2019-09-10
申请号:CN201910435231.8
申请日:2019-05-23
Applicant: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
IPC: G06F16/9535 , G06K9/00 , G06K9/62 , G06N20/00
Abstract: 本发明公开一种利用新闻评论行为的网络用户人格自动识别方法:步骤一、利用新闻语料资源,对每个新闻文本内容进行中文分词;筛选掉停用词后得到该语料库的所有不同的词条,作为新闻内容词典;步骤二、利用机器学习方法,建立新闻评论行为到人格的预测模型;步骤三、在得到预测模型之后,针对新的网络用户,获得该新的网络用户参与评论的所有新闻,采用获得归一化之后的自变量,利用训练得到的模型实现对网络用户人格的自动识别。本发明对人格的自动识别,无需用户自我报告,时效性高;对用户没有任何干扰,生态效度高;可以做到大规模用户人格的自动识别;人格识别效率提高;满足在新闻网站场景下对人员人格特征的监测要求。
-
公开(公告)号:CN109977287A
公开(公告)日:2019-07-05
申请号:CN201910242011.3
申请日:2019-03-28
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/951 , G06F16/9535 , G06F16/2458 , G06F16/215 , G06Q50/16
Abstract: 本发明涉及一种不同信息源的房产数据同一性判别方法,属于互联网数据分析与挖掘技术领域。所述同一性判别方法基于链家、我爱我家、中原、麦田网站公布的房屋数据及其相关性;通过分析房屋数据的特点,通过区域去重、小区去重以及房屋去重的三大步骤剔除重复的房屋数据,所述房屋数据是对实际的房屋客体的特点描述,虽然描述的角度和方式存在差异,但数据之间存在很强的相关性。所述方法能对来源于不同网站的房屋数据去重,能够准确、高效的对来源于不同信息源的房屋数据的同一性判别,并能有效去除重复区域、小区,可以实现面向多源异构的房屋数据的有效融合,为房地产市场分析提供“干净”,“整齐”的数据。
-
公开(公告)号:CN105843854B
公开(公告)日:2019-02-05
申请号:CN201610150817.6
申请日:2016-03-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2455 , G06F16/31
Abstract: 本发明提供一种面向网络数据的专题文档快速识别系统,通过与不同规则的高效匹配达到快速识别专题的目的。本发明主要由文档获取模块、文档结果存储模块、轮询监测模块、实时服务接口、历史服务接口、规则树构建模块、实时过滤处理模块和回溯过滤处理模块组成。本发明实现了对实时数据和历史有效数据同时进行处理的功能,能够对大量文档数据进行批量处理,能够在保证系统正常运行的前提下对处理算法进行动态热切换,能够在输入输出接口内容变动后依然可以保证系统的正常运行,弥补了目前一些文档识别系统无法随意更改、灵活性和复用性差等的缺陷,对需求变更有很强的适应性。
-
公开(公告)号:CN109145109A
公开(公告)日:2019-01-04
申请号:CN201710464424.7
申请日:2017-06-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/2458 , G06Q50/00
CPC classification number: G06Q50/01
Abstract: 本发明涉及一种基于社交网络的用户群体消息传播异常分析方法和装置,包括:获取在线社交网络中用户群体的历史聊天记录,根据预先设定的时间跨度,获取历史聊天记录在时间跨度内用户群体中所有用户所发布的消息,作为消息集合;对于消息集合,根据预先设定的时间范围统计用户群体在每个时间范围内所发布的消息总数;基于时序相关性的特征提取法,对每个消息总数的特征进行提取,并将提取结果集合为样本集合;根据消息总数并采用聚类算法为样本集合对样本集合进行聚类,生成异常样本;根据异常样本判定其所在的用户群体存在消息传播异常。由此本发明能够应对数据涌发现象,同时算法直观简单,准确率更高,且本发明应用场景广泛。
-
公开(公告)号:CN108733763A
公开(公告)日:2018-11-02
申请号:CN201810338555.5
申请日:2018-04-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种基于微博热门事件计算关键节点的方法,包括:获取历史热门事件的转发数、评论数、点赞数和阅读数,定义热门值,并确定热门临界值;获取历史热门事件的初步关键博主,获取作为初步关键传播时间,建立关键传播时间的计算公式;获取目标事件的转发数、评论数、点赞数和阅读数,若目标事件的热门值达到热门临界值,则计算出目标事件的关键传播时间,获得关键时间点;选取在关键时间点附近发微博的若干博主,获取其中与其它博主关联次数最多的博主,即为目标事件的关键博主。本发明还提供了基于微博热门事件计算关键节点的装置。本发明能够在微博热门事件在不可控地爆发之前,找到推动此事件的关键博主,从而使得事件得以控制。
-
公开(公告)号:CN108647247A
公开(公告)日:2018-10-12
申请号:CN201810338554.0
申请日:2018-04-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供了基于改进PageRank算法的微博信息传播关键节点识别方法,步骤包括:1)信息采集;2)确定所述微群内转发次数最高的文本信息;3)获取的文本信息获取使用“@”用户标识的文本信息,该用户为B;4)获取的文本信息计算高频词;5)采集用户B的微博文本信息后与所述高频词比对,确定A微群内的成员的转发次数最高文本信息是否被用户B转发,如确定用户B转发,确定B是否传递给了用户C,从而形成信息的传播路径;6)确定传播路径上的用户所在的微群,从而构建微群关注网络;7)通过WeiboRank算法确定最具影响力的微群。本发明实现微群之间以及群内的中关键节点的发掘,不用建立复杂的数据模型,方便快捷的进行群体发现,具有较高的稳定性。
-
-
-
-
-
-
-
-
-