-
公开(公告)号:CN106484672A
公开(公告)日:2017-03-08
申请号:CN201510536145.8
申请日:2015-08-27
Applicant: 北大方正集团有限公司 , 北京大学北京北大方正电子有限公司
Abstract: 本发明提出了一种词汇识别方法和一种词汇识别系统,其中,所述词汇识别方法包括:根据接收到的词汇识别命令,从待处理文本中获取多个候选关键词,并将多个候选关键词发送至统计单元;通过统计单元接收多个候选关键词,统计多个候选关键词的参数信息,并将多个候选关键词的参数信息发送至识别单元;通过识别单元接收参数信息,并根据多个候选关键词的参数信息,对多个候选关键词进行过滤,以识别目标关键词。通过本发明的技术方案,可以比较全面地获取候选关键词,从而可以从候选关键词中比较全面地识别流行词等新词,进而可以通过识别出的流行词等新词来发现网络热点和分析舆论走向。
-
公开(公告)号:CN106294386A
公开(公告)日:2017-01-04
申请号:CN201510256461.X
申请日:2015-05-19
Applicant: 北大方正集团有限公司 , 北京大学北京北大方正电子有限公司
Abstract: 本发明提供一种任务分配执行方法及系统,该方法包括:任务分配方将任务文件存入分布式文件服务器并接收其反馈的存储目录,向任务协调服务器发送任务子节点创建请求;任务协调服务器在与所述任务分配方到所述任务执行方对应的父节点下创建以存储目录为标识的任务子节点;任务执行方确定存在需要执行的任务子节点时,从分布式文件服务器中获取任务文件并执行得到执行结果,将执行结果存储在存储目录中,并通知任务协调服务器;任务协调服务器删除任务子节点后通知任务分配方从存储目录中读取执行结果。通过任务协调服务器和分布式文件服务器来实现任务分配方和任务执行方的匿名任务分配、执行过程,保证了任务分配、执行的安全可靠。
-
公开(公告)号:CN106033438A
公开(公告)日:2016-10-19
申请号:CN201510111930.9
申请日:2015-03-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供一种舆情数据存储方法和服务器,该方法包括:获取待存储舆情数据,确定并将待存储舆情数据对应的话题标识、数据标识、展示字段和排序字段关联存储在缓存中得到待处理缓存数据;确定不存在与待处理缓存数据的话题标识对应的专题标识时,将待处理缓存数据的话题标识、数据标识和排序字段关联存储在近期数据库中;将待存储舆情数据存入历史数据库中;以第一话题存储格式存储待处理缓存数据的话题标识、数据标识和创建时间到实时数据库中;以第二话题存储格式存储待处理缓存数据的话题标识和展示字段到实时数据库中。完成舆情数据不同信息在近期数据库、历史数据库和实时数据库的依次分级别存储。
-
公开(公告)号:CN103593344B
公开(公告)日:2016-09-21
申请号:CN201210287661.8
申请日:2012-08-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/2235 , G06F17/30867 , G06F17/3089
Abstract: 本发明公开一种信息采集方法和装置,该方法包括:确定待采集的电子布告栏系统网络站点的地址信息和信息采集规则;当接收到获取任一网络站点内容的信息采集请求时,获取所述网络站点的入口链接主地址和副地址;通过入口链接主地址和入口链接副地址确定所述网络站点对应的版面页面,并从版面页面源代码文件中抽取该版面页面所包含的每个帖子的概述信息;从所述概述信息中获取每个帖子的链接地址,并根据所述链接地址确定每个帖子的帖子页面,并从帖子页面源代码文件中抽取每个帖子的内容信息。通过上述方法能够实时采集电子布告栏系统网络站点上发布的最新主贴和回帖信息,并能够对回帖进行增量采集。
-
公开(公告)号:CN103186600B
公开(公告)日:2016-03-16
申请号:CN201110455219.7
申请日:2011-12-28
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种互联网舆情的专题分析方法,包括:采集互联网舆情文件;采用预设的专题规则匹配互联网舆情文件;对匹配成功的互联网舆情文件生成专题。本发明提供了一种互联网舆情的专题分析装置,包括:采集模块,用于采集互联网舆情文件;匹配模块,用于采用预设的专题规则匹配互联网舆情文件;生成模块,用于对匹配成功的互联网舆情文件生成专题。本发明实现了在海量舆情数据中及时准确地得到专题。
-
公开(公告)号:CN104598450A
公开(公告)日:2015-05-06
申请号:CN201310525071.9
申请日:2013-10-30
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 本发明公开了一种网络舆情事件的热度分析方法及系统,属于网络事件热度分析领域,首先对所要采集的网站进行数据的采集与保存,并对采集的数据进行聚类分析,将采集的数据分类成不同的话题事件,之后根据事件热点指数计算模型计算每个话题事件的热点指数。该方法及系统将网络舆情和民意数字化,通过建立多维度的模型及网站权重来计算一个话题的热点指数,可以更准确的衡量一个事件的热度情况,实现多维度的网络舆情事件的热度分析。
-
公开(公告)号:CN104572678A
公开(公告)日:2015-04-29
申请号:CN201310484767.1
申请日:2013-10-16
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/30619 , G06F17/30663
Abstract: 本发明提供一种索引建立方法及装置,其中,方法包括:通过分词获得第一文档中的各个词,针对所述各个词中的每个高频词,将所述高频词和与其相邻的另一高频词合并为短语;针对所述短语中的每个高频短语,生成并存储第一索引至所述第一文档对应的索引段,以对所述高频短语进行查询,所述第一索引包括所述高频短语在所述第一文档中的位置信息;其中,每个高频词的出现次数均不小于第一预设值,每个高频短语的出现次数均不小于第二预设值。通过本实施例提供的索引建立方法及装置,能够方便、高效地对高频短语进行查询。
-
公开(公告)号:CN102571855B
公开(公告)日:2014-09-24
申请号:CN201010609216.X
申请日:2010-12-17
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明实施例提供一种查处网络非法信息的系统及方法,涉及互联网领域,一方面能够提高非法信息的查处效率;另一方面能够对非法信息进行监督,防止删除后再次恢复。该系统包括:非法信息录入单元,用于录入要查处的网络非法信息,其中包括所述非法信息的链接地址;ICP库关联单元,用于根据所述非法信息的链接地址自动提取域名,并根据所述域名自动关联ICP库,以便于查询所述非法信息的相关信息;探测单元,用于定期对所述非法信息进行探测,以确定所述非法信息是否被删除。本发明实施例用于查处网络非法信息。
-
公开(公告)号:CN102567407B
公开(公告)日:2014-07-16
申请号:CN201010618393.4
申请日:2010-12-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/30887 , G06F17/30876 , G06F17/3089 , G06Q10/10
Abstract: 本发明公开了一种论坛回帖增量采集方法及系统,属于网络信息采集技术领域。本发明所述方法周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子;如果存在,则从所述新增帖子中提取出主帖和回帖信息,从所述具有新回帖的帖子中提取出新回帖信息。本发明所述系统包括用于周期性判断所有需要采集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的判断装置(11);以及用于从新增帖子中提取出主帖和回帖信息,从具有新回帖的帖子中提取出新回帖信息的提取装置(12)。本发明能够快速、准确、完整地采集一篇帖子的所有主、回帖信息,从而解决了现有搜索引擎在搜索帖子的翻页回帖信息时存在漏搜或搜索不到的问题。
-
公开(公告)号:CN103914494A
公开(公告)日:2014-07-09
申请号:CN201310008156.X
申请日:2013-01-09
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
CPC classification number: G06F17/3053 , G06F17/30598 , G06F21/316 , G06F17/3089 , G06F21/31
Abstract: 本发明提供一种微博用户身份识别方法及系统,所述方法包括:获取待识别用户行为数据以及用户行为的特征库信息;预处理所述获取的待识别用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微薄用户身份识别的准确性及实时性。
-
-
-
-
-
-
-
-
-