-
公开(公告)号:CN105162676B
公开(公告)日:2017-08-11
申请号:CN201510363826.9
申请日:2015-06-26
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种微信数据获取方法和系统,通过安卓平台应用测试组件和浏览器测试组件相结合来实现。基于安卓平台测试组件方式,可以模拟用户行为操作客户端,包括登陆、查看、滑屏等;由此方式获取的微信公众平台账号历史消息的网页地址结合主动采集技术,可获取微信公众账号完整的历史消息。采用安卓平台测试组件和浏览器测试组件相结合方式,通过监听浏览器DOM元素变化,能够自动化实现网页版微信登陆,全面和及时有效地获取微信数据。
-
公开(公告)号:CN103761239B
公开(公告)日:2016-10-26
申请号:CN201310664725.6
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种根据表情符号对微博进行情感倾向分类的方法,包括:创建中性情感集、消极情感集和积极情感集;利用中性情感集、消极情感集和积极情感集,建立中性情感贝叶斯分类器;利用由消极情感集和积极情感集,建立极性情贝叶斯情感分类器;利用中性情感贝叶斯分类器和极性情感贝叶斯分类器对待测微博进行情感分类。本发明通过建立一个两阶段分类,即建立中性情感分类器,把中性情感的微博剔除,建立极性情感分类器,将有极性情感的微博分为积极情感和消极情感,该分类器分类速度快、占用空间小且鲁棒,且本发明能通过微博准确的了解到人们对当前的热门话题或事件的态度和网民的情绪,对社会科研和调查有着重要的帮助。
-
公开(公告)号:CN104899156A
公开(公告)日:2015-09-09
申请号:CN201510229346.3
申请日:2015-05-07
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F12/06
Abstract: 本发明公开了一种面向大规模社交网络的图数据存储及查询方法,本发明数据存储管理器对收到的图数据采用Key-Value方式存储,以图数据的顶点ID为Key,以顶点邻域为Value;对每一顶点邻域的数据存储:将与该顶点邻域相连的多条边以时间戳有序存储到固定大小的内存块中,并构成双向链表,将该顶点的属性信息和索引信息存储到一数据结构中。当数据存储管理器收到访问顶点v的访问请求时,数据存储管理器将该顶点v及其k阶邻域传输给请求者;请求者将返回数据缓存在本地,下次查询时,首先检查本地的缓存,如果不存在查询的顶点,则将访问请求发送给所述数据存储管理器。本发明能满足动态更新、适合处理数据稀疏的场景和随机访问。
-
公开(公告)号:CN104778209A
公开(公告)日:2015-07-15
申请号:CN201510111752.X
申请日:2015-03-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种针对千万级规模新闻评论的观点挖掘方法。具体步骤如下:1)、统计千万级规模新闻评论的数量;2)、判断该数量是否大于或等于阈值K,如果是不予处理,否则进入步骤三;3)、利用中文分词工具,对数量小于阈值K的新闻标题和评论进行分词,进行词性标注;4)、根据分词结果对新闻评论聚类,得到类别标签;5)、对新闻评论进行关键词对提取;6)、统计新闻评论的比例和混杂度;7)、根据关键词对筛选并提取代表性文本。本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。
-
公开(公告)号:CN103678565A
公开(公告)日:2014-03-26
申请号:CN201310659722.3
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
CPC classification number: G06F17/30666 , G06F17/30737
Abstract: 一种基于自引导方式的领域自适应句子对齐系统,包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块。首先,针对不同的网页,对于料进行提取和相应做预处理;使用一种基于自引导的方式并融合多种特征的句子对齐算法对中英文进行句子级的对齐;同时,对可能能够反映相关领域信息和主题信息的互译词对进行提取。本发明提高了句子对齐质量,具有领域适应性强的优点。
-
公开(公告)号:CN105843854B
公开(公告)日:2019-02-05
申请号:CN201610150817.6
申请日:2016-03-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2455 , G06F16/31
Abstract: 本发明提供一种面向网络数据的专题文档快速识别系统,通过与不同规则的高效匹配达到快速识别专题的目的。本发明主要由文档获取模块、文档结果存储模块、轮询监测模块、实时服务接口、历史服务接口、规则树构建模块、实时过滤处理模块和回溯过滤处理模块组成。本发明实现了对实时数据和历史有效数据同时进行处理的功能,能够对大量文档数据进行批量处理,能够在保证系统正常运行的前提下对处理算法进行动态热切换,能够在输入输出接口内容变动后依然可以保证系统的正常运行,弥补了目前一些文档识别系统无法随意更改、灵活性和复用性差等的缺陷,对需求变更有很强的适应性。
-
公开(公告)号:CN104866561B
公开(公告)日:2018-09-07
申请号:CN201510255994.6
申请日:2015-05-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种挖掘微博话题趋势发起人的方法,属于数据挖掘领域。首先针对某一话题微博,以天为时间粒度,构造微博量随时间变化的趋势图,获取波峰点和波谷点,确定趋势的时间范围,提取微博高频词代表趋势主要内容,以趋势早期参与微博高频词的数量作为该条微博的内容相关度,降序排序后提取趋势制造者。根据趋势变化,以小时为时间粒度,构造趋势时间范围的微博数量变化图,获取斜率最大的时间范围作为增速最大的时间段,并对微博转发量降序排序,确定趋势推动者。本发明利用微博数据平台,具有高效性、鲁棒性和简洁性等优点,适用于对话题微博趋势发起人方面的分析,在社会舆情监控和信息传播分析等领域具有重要的应用价值。
-
公开(公告)号:CN105824801B
公开(公告)日:2018-06-15
申请号:CN201610150794.9
申请日:2016-03-16
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供一种基于自动机的实体关系快速抽取方法,包括以下步骤:步骤1,定制规则文件;步骤2,对规则文件中的各个规则进行文法检查,检测规则文件中的各个规则是否满足文法要求,如果满足,则执行步骤3;步骤3,对通过文法检查的所述规则文件中的各个规则进行语义解释;步骤4,将语义解释后的所述规则文件中的各个规则进行解析编译,完成规则向层叠有限状态自动机的转换,得到有限状态自动机;步骤5,使用所述有限状态自动机,对输入的文本数据进行实体属性以及实体关系的抽取,得到最终的实体属性以及实体关系。优点为:能够保证对开放域文本进行快速的实体关系与实体属性抽取。同时,对于特定领域的实体关系可以定制化的进行抽取。
-
公开(公告)号:CN105488092B
公开(公告)日:2018-05-22
申请号:CN201510408490.3
申请日:2015-07-13
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种时间敏感和自适应的子话题在线检测方法及系统。该方法包括:1)对文档流中的每篇文档进行向量化表示;2)对文档进行增量式聚类,并根据随时间衰减的文档权重调整子话题的中心权重;3)当聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要并输出展示。该系统包括文档表示模块、增量式聚类模块、新子话题发现模块、摘要生成模块。本发明中历史文档权重随时间衰减,并且基于阈值判断和长尾检测进行子话题数量和内容的动态更新,能够有效提高子话题检测的效率。
-
公开(公告)号:CN104899156B
公开(公告)日:2017-11-14
申请号:CN201510229346.3
申请日:2015-05-07
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F12/06
Abstract: 本发明公开了一种面向大规模社交网络的图数据存储及查询方法,本发明数据存储管理器对收到的图数据采用Key‑Value方式存储,以图数据的顶点ID为Key,以顶点邻域为Value;对每一顶点邻域的数据存储:将与该顶点邻域相连的多条边以时间戳有序存储到固定大小的内存块中,并构成双向链表,将该顶点的属性信息和索引信息存储到一数据结构中。当数据存储管理器收到访问顶点v的访问请求时,数据存储管理器将该顶点v及其k阶邻域传输给请求者;请求者将返回数据缓存在本地,下次查询时,首先检查本地的缓存,如果不存在查询的顶点,则将访问请求发送给所述数据存储管理器。本发明能满足动态更新、适合处理数据稀疏的场景和随机访问。
-
-
-
-
-
-
-
-
-