-
公开(公告)号:CN102117275B
公开(公告)日:2012-11-07
申请号:CN200910217505.2
申请日:2009-12-31
Applicant: 北大方正集团有限公司 , 北京大学 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 为了解决现有技术文件采集系统无法保证对采集站点及时、有效的进行数据采集的问题,本发明公开了一种基于互联网定向站点网页数据采集的方法及装置,该方法包括:根据待采集URL的优先级值,将待采集URL加入到具有对应优先级的URL队列中,根据各URL队列中的URL数量、URL队列优先级值和权值因子确定各URL队列权值,权值因子为用于刷新和获取内容页链接的列表页刷新后,列表页中新的URL链接数量,从权值最高的URL队列中获取URL,计算得到URL队列权值,进而对权值最高的待访问URL队列中的URL进行访问,并根据访问的URL采集网页数据,进而实现及时、有效的进行数据采集。
-
公开(公告)号:CN102567393A
公开(公告)日:2012-07-11
申请号:CN201010614703.5
申请日:2010-12-21
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/3089
Abstract: 本发明涉及通信领域技术,尤其涉及处理舆情话题的方法、装置和系统,该方法包括:在网络中检索包含舆情信息的舆情话题;获取所述舆情话题的特征信息,检测所述舆情话题的特征信息是否符合报警条件;当符合报警条件时,保存所述舆情话题及其特征信息。使用本发明实施例提供的处理舆情话题的方法、装置及系统,通过获取并检测舆情话题的特征信息,对舆情话题进行预警。而且,可以对保存的舆情话题进行管理,并持续追踪,获取其传播、点击、评论等的变化趋势,全面掌握舆情话题。并且可以对舆情话题进行分析整理,生成舆情简报。
-
公开(公告)号:CN102469132A
公开(公告)日:2012-05-23
申请号:CN201010546334.0
申请日:2010-11-15
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明公开了一种从网站中多个不同IP的服务器抓取网页的方法及系统。本发明首先为客户端的网页抓取任务分配目标网站服务器的IP,所述网页抓取任务包括待抓取网页的网页地址;然后判断所述网页抓取任务是否符合所述服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。本发明的访问策略基于IP级,更便于控制采集工作线程对网站进行礼貌地访问;通过缓存DNS,同时使用多个IP并优先分配速度最快IP的方式,极大地提高了网页抓取的效率;而且当目标网站有个别服务器不能访问时能够及时切换到其他IP的服务器,提高了容错能力。
-
公开(公告)号:CN102457817A
公开(公告)日:2012-05-16
申请号:CN201010515747.2
申请日:2010-10-15
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明公开了一种手机报中新闻内容的抽取方法及系统。本发明首先接收并存储预先订阅的手机报信息;然后读取手机报信息;最后根据预先配置好的模板,抽取手机报信息中的新闻内容。本发明能够自动接收各种手机报,并对其内容进行抽取分析,具有较高的采集效率和准确率,能够将只能在各个手机终端上浏览的手机报集中采集到本地,并对其进行智能分析处理,使得手机报信息得以能够被应用系统使用。
-
公开(公告)号:CN107291754B
公开(公告)日:2020-12-04
申请号:CN201610204038.X
申请日:2016-04-01
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F16/953 , G06K9/62
Abstract: 本发明提供了一种新闻评论的预测方法和新闻评论的预测系统,其中,新闻评论的预测方法包括:确定发布新闻所属的领域;获取预设时间范围内用户对所述领域的新闻的评论记录集合;根据所述发布新闻的关键字,确定所述发布新闻属于所述评论记录集合的评论概率;在所述评论记录集合中,确定用户评论过的新闻数量与新闻总数的评论比例;根据所述评论概率和所述评论比例对所述发布新闻的评论数目进行预测。通过本发明的技术方案,提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
-
公开(公告)号:CN107291685B
公开(公告)日:2020-10-13
申请号:CN201610228402.6
申请日:2016-04-13
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F40/279 , G06F40/30
Abstract: 本发明提供了一种语义识别方法和语义识别系统,其中,语义识别方法包括:确定与关键词相关的多个参考词汇,以及与关键词相邻的局部文本;计算参考词汇属于局部文本的概率,并记作第一概率;在检测到第一参考词汇的第一概率大于或等于预设概率时,确定第一参考词汇相关的语义作为关键词的语义,其中,第一参考词汇属于多种参考词汇。通过本发明技术方案,综合关键词的局部搭配和全局语境判断关键词的语义,提高了语义识别的准确率。
-
公开(公告)号:CN106033438B
公开(公告)日:2019-06-04
申请号:CN201510111930.9
申请日:2015-03-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F16/9535
Abstract: 本发明提供一种舆情数据存储方法和服务器,该方法包括:获取待存储舆情数据,确定并将待存储舆情数据对应的话题标识、数据标识、展示字段和排序字段关联存储在缓存中得到待处理缓存数据;确定不存在与待处理缓存数据的话题标识对应的专题标识时,将待处理缓存数据的话题标识、数据标识和排序字段关联存储在近期数据库中;将待存储舆情数据存入历史数据库中;以第一话题存储格式存储待处理缓存数据的话题标识、数据标识和创建时间到实时数据库中;以第二话题存储格式存储待处理缓存数据的话题标识和展示字段到实时数据库中。完成舆情数据不同信息在近期数据库、历史数据库和实时数据库的依次分级别存储。
-
公开(公告)号:CN106156170B
公开(公告)日:2019-05-14
申请号:CN201510181263.1
申请日:2015-04-16
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F8/10
Abstract: 本发明提供一种舆情分析方法及装置,所述方法包括:接收用户发送的舆情分析任务请求,所述舆情分析任务请求中包括分析任务类型;确定与所述分析任务类型对应的处理模型,所述处理模型中包括数据源获取子模型和数据分析子模型;根据所述数据源获取子模型所描述的数据源获取方式获得待分析舆情数据,并根据所述数据分析子模型所描述的数据分析方式对所述待分析舆情数据进行分析,得到分析结果。本发明提供的舆情分析方法及装置能够根据不同的舆情分析任务快速有效的建立处理模型,并能在确保舆情分析任务正常执行的情况下,降低开发工作量,易于扩展子系统,方便管理和维护。
-
公开(公告)号:CN106528397B
公开(公告)日:2019-03-29
申请号:CN201510580393.2
申请日:2015-09-11
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F11/36
Abstract: 本发明公开了一种软件测试方法及其装置,设定一测试程序;对所述一测试程序分别进行揭错测试和可靠性测试,得到缺陷失效后对应的L组测试失效数据,所述测试失效数据包括揭错测试过程信息及对应的程序失效率,L为大于等于1的正整数;根据L组测试失效数据,确定用于指示所述揭错测试过程信息与所述程序失效率之间关系的约束方程,从而在以揭错为目的的软件测试中,确定揭错测试过程信息,根据指示所述揭错测试过程信息与所述程序失效率之间关系的约束方程预测程序失效率,从而达到合并揭错和可靠性评估的目的。
-
公开(公告)号:CN106294312B
公开(公告)日:2019-02-26
申请号:CN201510369322.8
申请日:2015-06-29
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/27
Abstract: 本发明提出了一种信息处理方法和一种信息处理系统,所述方法包括:获取当前文档中的文档语句和所述文档语句中的单词,并根据预设词典确定所述单词的单词极性值;根据所述文档语句中的每个所述单词、所述单词的所述单词极性值以及语句极性值计算模型计算所述文档语句的语句极性值;根据所述当前文档中的每个所述文档语句的所述语句极性值和特征词集合确定所述当前文档的情感倾向性。通过本发明的技术方案,可以准确地分析出当前文档针对当前话题的情感倾向性。
-
-
-
-
-
-
-
-
-