-
公开(公告)号:CN103914493A
公开(公告)日:2014-07-09
申请号:CN201310008052.9
申请日:2013-01-09
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06N5/04 , G06N7/00 , G06N99/005 , G06Q10/06 , G06Q50/01 , H04L51/32 , H04L51/34 , G06F17/3089
Abstract: 本发明提供一种微博用户群体结构发现分析方法及系统,所述微博用户群体结构发现分析方法包括:获取目标群体中微博用户的行为数据信息;根据所述目标群体中微博用户的行为数据信息,构建微博用户关联网络;从所述微博用户关联网络中,获取至少一个极大团;基于所述极大团,获取至少一个核心团;基于所述获取到的极大团和/或核心团,进行微博用户群体行为分析。采用本发明提供的微博用户群体结构发现分析方法及系统可以充分说明微博用户之间的复杂关系,还可以提高微博用户群体结构发现分析的速度,满足大规模数据处理的需求。
-
公开(公告)号:CN103885993A
公开(公告)日:2014-06-25
申请号:CN201210566545.X
申请日:2012-12-24
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
CPC classification number: G06F17/3089
Abstract: 本发明提供了一种用于微博的舆情监控方法,包括:确定被监控微博的源博主;从源博主出发深度优先遍历被监控微博的转发博主;获取转发博主的粉丝数及其关于被监控微博的转发次数;根据其粉丝数和转发次数设置转发博主的重要度。本发明还提供了一种用于微博的舆情监控装置,包括:确定模块,用于确定被监控微博的源博主;遍历模块,用于从源博主出发深度优先遍历被监控微博的转发博主;获取模块,用于获取转发博主的粉丝数及其关于被监控微博的转发次数;设置模块,用于根据其粉丝数和转发次数设置转发博主的重要度。本发明降低了舆情分析的难度,提高了舆情分析准确率。
-
公开(公告)号:CN103885985A
公开(公告)日:2014-06-25
申请号:CN201210564284.8
申请日:2012-12-24
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30654
Abstract: 本发明提供了微博实时检索方法,包括:对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;获取来自用户的关键词;对关键词进行逻辑扩展得到以生成扩展检索逻辑式;以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。本发明还提供了一种微博实时检索装置,包括:文档扩展模块,用于对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;关键词模块,用于获取来自用户的关键词;检索扩展模块,用于对关键词进行逻辑扩展得到以生成扩展检索逻辑式;匹配模块,用于以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。本发明提高了微博检索的准确度。
-
公开(公告)号:CN103853770A
公开(公告)日:2014-06-11
申请号:CN201210511269.7
申请日:2012-12-03
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: H04L67/02 , G06F17/27 , G06F17/2264
Abstract: 本申请公开了一种抽取论坛网页中帖子内容的方法及系统,所述方法包括:获得一论坛网页;将所述论坛网页转换成DOM树,其中,所述DOM树至少包括一根节点及从属于所述根节点的至少一个子节点;一一对应地为所述根节点及所述至少一个子节点生成频繁模式;根据所述频繁模式中一符合预设条件的频繁模式,确定出与所述论坛网页中信息内容所对应的节点;基于一预设的公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。
-
公开(公告)号:CN102469132B
公开(公告)日:2014-04-30
申请号:CN201010546334.0
申请日:2010-11-15
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明公开了一种从网站中多个不同IP的服务器抓取网页的方法及系统。本发明首先为客户端的网页抓取任务分配目标网站服务器的IP,所述网页抓取任务包括待抓取网页的网页地址;然后判断所述网页抓取任务是否符合所述服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。本发明的访问策略基于IP级,更便于控制采集工作线程对网站进行礼貌地访问;通过缓存DNS,同时使用多个IP并优先分配速度最快IP的方式,极大地提高了网页抓取的效率;而且当目标网站有个别服务器不能访问时能够及时切换到其他IP的服务器,提高了容错能力。
-
公开(公告)号:CN102110103B
公开(公告)日:2014-04-09
申请号:CN200910243515.3
申请日:2009-12-25
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种获取预定义字符数据的方法和装置,本发明的方法包括:对待处理字符数据进行词性标注,划分出显性字符数据或/和隐性字符数据;从所述显性字符数据中查找出具有预定义字符数据类型的数据,作为所述显性字符数据的预定义字符数据;从基准字符数据的中心实体中查找出具有所述预定义字符数据类型的数据,作为与所述隐性字符数据相对应的预定义字符数据。本发明还提供一种获取预定义字符数据的装置。本发明可按照用户的需求,选择预定义类型的字符数据,对于处理语法形式不规则的句子,尤其是句子中本身不存在显性对象的句子,提高了获得的结果范围、准确度。
-
公开(公告)号:CN102541937B
公开(公告)日:2013-12-25
申请号:CN201010618403.4
申请日:2010-12-22
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
CPC classification number: G06F17/30867 , G06F17/30616 , G06F17/30663 , G06F17/30684 , G06F17/30864 , G06F17/30876 , G06F17/30887
Abstract: 本发明公开了一种网页信息探测方法及系统。本发明预先抽取网页正文的关键词,将从该网页正文中抽取的关键词与该网页URL的对应关系存储到数据库中;探测网页信息时,先获取待探测网页的源文件,然后从数据库中检索出与待探测网页相同URL的关键词,用所述关键词与待探测网页的源文件内容进行匹配,根据匹配程度确定待探测网页信息是否存在。本发明能够提高网页信息探测的准确率。
-
公开(公告)号:CN102467501B
公开(公告)日:2013-09-18
申请号:CN201010530643.9
申请日:2010-10-29
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种从新闻列表页抽取新闻记录元数据的方法及系统。本发明首先获取目标新闻列表页的网页源代码,按照所述网页源代码对应的HTML文本顺序生成HTML标签树;然后遍历所述HTML标签树,计算每个HTML标签子树的文本链接比得分,将文本链接比得分大于设定阈值的标签子树进行合并,获取一棵最大候选子树;最后从所述最大候选子树中抽取新闻记录元数据列表。采用本发明,用户只需输入新闻列表页,无需配置模板即可得到新闻记录,完全实现了新闻资讯网站列表页新闻记录抽取的自动化、无人化。而且无需关心新闻网站将来是否改版,极大降低了维护和使用成本。
-
公开(公告)号:CN103198079A
公开(公告)日:2013-07-10
申请号:CN201210004943.2
申请日:2012-01-06
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种相关搜索的实现方法,包括:获取用户输入的搜索需求字符串;将搜索需求字符串分词得到多个查询词;在倒排索引中得到各个查询词的有序相关搜索列表;将各个查询词的有序相关搜索列表返回给用户。本发明提供了一种相关搜索的实现装置,包括:获取模块,用于获取用户输入的搜索需求字符串;分词模块,用于将搜索需求字符串分词得到多个查询词;列表模块,用于在倒排索引中得到各个查询词的有序相关搜索列表;提交模块,用于将各个查询词的有序相关搜索列表返回给用户。本发明可以高效率地向用户提供相关搜索。
-
公开(公告)号:CN103186615A
公开(公告)日:2013-07-03
申请号:CN201110457125.3
申请日:2011-12-30
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种搜索提示方法及系统,其中,所述搜索提示方法,包括:获得用户输入的搜索信息;判断所述搜索信息是否合法;在所述搜索信息合法时,基于生成的搜索提示词典,并返回与所述搜索信息对应的搜索提示词;在所述搜索信息不合法时,基于生成的拼写错误提示词典,并返回与所述搜索信息对应的至少两条错误提示信息。采用上述方案,由于基于双数组构建了提示词典,在搜索提示查询时,提高了查询效率,解决了现有技术中存在的搜索提示信息和拼写错误提示信息不准确或者选项很少的问题。
-
-
-
-
-
-
-
-
-