-
公开(公告)号:CN109388768A
公开(公告)日:2019-02-26
申请号:CN201811008673.6
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于附加分支处理服务的采集方法和系统,包括:获取采集任务,该采集任务具有多个处理步骤和分支号;依次执行该采集任务中的处理步骤,并在每一个处理步骤执行前,根据该分支号判断是否调用该附加分支处理服务,若是,则通过调用该附加分支处理服务执行附加处理流程,并替代将要执行的处理步骤,否则执行将要执行的处理步骤。由此,本发明采用附加分支的技术,能够应对信源的各种复杂情况。且针对附加分支单独开发,容易崩溃的情况,采用服务化方法执行附加分支,并且附加分支运行器可以在崩溃自动重启,可以避免附加分支崩溃带来的采集器崩溃问题。
-
公开(公告)号:CN109241483A
公开(公告)日:2019-01-18
申请号:CN201811008674.0
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于域名推荐的网站发现方法,包括:在域名字符集随机选取任意字符排列组合以获得词根字符串;以该词根字符串组成候选字符串;将该候选字符串与候选域名后缀进行拼接,组成推荐域名;对该推荐域名进行DNS解析,以判断为合法的该推荐域名为合法域名;验证该合法域名是否存在对应网站,若存在则获取为目标网站。
-
公开(公告)号:CN109241483B
公开(公告)日:2021-10-12
申请号:CN201811008674.0
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于域名推荐的网站发现方法,包括:在域名字符集随机选取任意字符排列组合以获得词根字符串;以该词根字符串组成候选字符串;将该候选字符串与候选域名后缀进行拼接,组成推荐域名;对该推荐域名进行DNS解析,以判断为合法的该推荐域名为合法域名;验证该合法域名是否存在对应网站,若存在则获取为目标网站。
-
公开(公告)号:CN107168986B
公开(公告)日:2020-05-26
申请号:CN201710178505.0
申请日:2017-03-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明公开了一种新闻APP应用活跃度的分析方法,包括以下步骤:步骤1、采集不少于2个新闻APP的相关数据;步骤2、将步骤1采集的数据代入活跃度计算模型进行分析计算;步骤3、将步骤2中得到的计算结果进行排列,即得所采集新闻APP的活跃度排行。其能够综合客观的判断一个新闻APP的实际活跃度,并对多个新闻APP的活跃度进行分析和排行,使用户方便的选择适合自身的新闻APP。
-
公开(公告)号:CN108920479A
公开(公告)日:2018-11-30
申请号:CN201810337919.8
申请日:2018-04-16
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种针对两微一端跨信源账号推荐方法,包括:将两微一端跨信源账号关联度衡量指标分为三级,包括多个一级关联度衡量指标,各个一级指标下分多个二级指标,以及各二级指标对应的各维度数据字段为三级指标;确定种子账户和多个目标账户;采集三级指标下的各维度数据,量化各个维度数据的相似度;基于用户关注度需求确定一级指标权重和一级指标下各个二级指标的权重;将所得各类三级关联度衡量指标下各个维度数据相似度与各自权重加权求和,获得各目标账号关联度指数,并将这些目标账户关联度指数倒序推荐。本发明所述推荐方法可跨信源进行账号推荐,且推荐结果精确合理。
-
公开(公告)号:CN108804594A
公开(公告)日:2018-11-13
申请号:CN201810523561.8
申请日:2018-05-28
Applicant: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种新闻内容全文检索引擎的构建方法及装置,该方法步骤如下:获取带有实时访问信息的实时网站日志;获取带有新闻热度评论信息的新闻网站的数据;对所述实时网站日志和所述新闻网站数据分类;对分类后的所述新闻网站数据进行处理、索引并存储;获取新闻网站数据中国的新闻元信息并存储;获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。本发明在查询性能、索引空间和构建性能方面实现了合理的平衡;考虑到统计数据随时间变化的特性,动态更新索引结果;提高了系统的健壮性;提高统计数据与文本数据的复合查询性能。
-
公开(公告)号:CN108628828A
公开(公告)日:2018-10-09
申请号:CN201810347840.3
申请日:2018-04-18
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明一种基于自注意力的观点及其持有者的联合抽取方法:S1.构建提取观点及其持有者的语料集;S2.识别包含观点的语句;S3.联合抽取观点及其持有者。本发明优点:1、文本分类模型避免了抽取出的句子不包含观点的情况;2、观点及其持有者联合抽取模型摆脱了词性标注、命名实体识别和句法依存分析等自然语言处理环节,避免这些环节出现误差对模型提取效果的影响,且该模型有很高灵活度和覆盖面;3、本发明包含构建提取观点及其持有者的语料集,识别包含观点的语句,联合抽取观点及其持有者。4、本发明在双向LSTM的基础上使用self-attention有效结合两者优点,使词语序列的表示语义更丰富,训练的模型准确率更高。
-
公开(公告)号:CN108470046A
公开(公告)日:2018-08-31
申请号:CN201810184478.2
申请日:2018-03-07
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F16/34 , G06F16/9535
Abstract: 本发明涉及计算机技术领域,具体提供了一种基于新闻事件搜索语句的新闻事件排序方法及系统,旨在解决在考虑用户主观信息的情况下,如何实现新闻事件排序的技术问题。为此目的,本发明中的新闻事件排序方法,能够通过预设的新闻事件排序模型对预先获取的新闻事件搜索语句进行识别,得到按照相关度大小排序的新闻事件排序结果。其中,新闻事件搜索语句包含能够表征用户情感倾向的用户主观信息。基于此,本发明能够结合用户对新闻事件的情感倾向,按照新闻事件与用户偏好相关程度进行排序,从而提高新闻事件排序结果的准确性。同时,本发明中的系统能够执行并实现上述方法。
-
公开(公告)号:CN104778210B
公开(公告)日:2018-04-27
申请号:CN201510111754.9
申请日:2015-03-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种微博转发树和转发森林构建方法,属于数据挖掘领域,包括以下步骤:收集该条微博的原创微博信息;并且根据单条原创微博信息,获取其转发微博信息;然后在单条原创微博信息及其所有转发微博信息上,构造单条微博的微博树结构;根据用户给定时间段t3‑t4内的话题关键词Topic,收集与该话题相关的全量微博信息,针对每一条微博信息,构造单条微博的微博树结构;最后汇总该话题相关的全量微博信息的转发树;形成微博转发森林。本发明的优点为:通过转发树生成算法,高效快速完整地进行转发树和转发森林的提取,具有较高的效率和效果。
-
公开(公告)号:CN105068988B
公开(公告)日:2018-01-30
申请号:CN201510431992.8
申请日:2015-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
Abstract: 本发明涉及一种多维度和多粒度情感分析方法,包括:构建情感资源,即根据特定领域文本的类别体系构建其情感资源;选择情感倾向词,即选择每个类别下的情感词并确定其情感倾向;判别情感倾向性,包括:判断信息资源的类型;从信息资源中获取情感关键词;从信息资源中识别权威发布者,并获取该信息资源的情感分析结果;对社交类信息进行情感分析;对非专有类别社交类信息的情感倾向进行分析;针对专有类别的社交信息进行情感分析。本发明的情感分析方法能够从多维度、多粒度进行情感分析以提供较高的情感分析识别率和精度。
-
-
-
-
-
-
-
-
-