-
公开(公告)号:CN107222381B
公开(公告)日:2020-03-06
申请号:CN201610162128.7
申请日:2016-03-21
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: H04L12/58 , H04L12/751
Abstract: 本发明涉及一种微博数据的传播路径确定方法和装置,通过采集微博数据,并对采集得到的每一条微博数据进行解析,确定出所包含的转发的微博数据,并从转发的微博数据中确定出被转发的微博数据的原创者标识、原创内容标识;再通过在微博数据的内容信息中确定是否存在从发布者标识到原创者标识之间的转发用户标识,以形成该条微博数据的一条转发关系链;再根据原创内容标识,在所有微博数据中,确定与原创内容标识对应的所有转发关系链;对每个原创内容标识对应的所有转发关系链进行去重操作,从而得到每个原创内容标识各自对应的微博数据的传播路径。实现对互联网传播的微博数据追根溯源,掌握微博数据的传播路径,保证国家及公众的信息安全利益。
-
公开(公告)号:CN107203763B
公开(公告)日:2020-03-06
申请号:CN201610157743.9
申请日:2016-03-18
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明提供一种文字识别方法和装置,其中,该方法包括:获取待识别图片;采用至少一种语种的OCR核心库对待识别图片进行文字识别,生成各语种的识别结果,识别结果中包括了至少一个字符;确定各语种的识别结果的有效字符比例;根据各语种的识别结果的有效字符比例,判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。不需要人工的对待识别图片确定了图片中的文字的语种之后,再进行文字识别;可以自动的判定待识别图片中的文字的语种,同时确定待识别图片中的文字的识别结果,不需要人工操作,缩短了识别的时间,提升了识别效率。
-
公开(公告)号:CN106033428B
公开(公告)日:2019-08-30
申请号:CN201510107097.0
申请日:2015-03-11
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F16/955 , G06F16/958
Abstract: 本发明提出了一种统一资源定位符的选择方法和一种统一资源定位符的选择装置,其中,方法包括:根据输入的关键词获取与关键词相关的至少一个统一资源定位符;根据至少一个统一资源定位符中的每个统一资源定位符的参数信息和/或至少一个统一资源定位符所使用的域名的权重比,统计每个统一资源定位符与关键词的相关度;根据每个统一资源定位符与关键词的相关度,从至少一个统一资源定位符中选择目标统一资源定位符,以将目标统一资源定位符作为与关键词相关的统一资源定位符的搜索结果。通过本发明的技术方案,可以有效地保证了获取统一资源定位符的覆盖率和准确率,从而可以根据统一资源定位符获取质量较高的网页内容以供满足舆情分析的需求。
-
公开(公告)号:CN105095270B
公开(公告)日:2019-02-26
申请号:CN201410197261.7
申请日:2014-05-12
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F16/9536
Abstract: 本发明提供了一种检索装置和检索方法,其中,检索方法包括:在接收到查询语句和微博文档时,对查询语句和微博文档进行预处理,并创建原始查询模型和原始文档模型;从外部知识数据库中获取与原始查询模型相关联的知识条目,并根据原始查询模型和知识条目确定知识查询语句;根据知识查询语句创建知识查询模型,并根据知识查询模型和原始查询模型确定扩展查询模型;在微博文档中包含社交标签时,根据社交标签从语料集中查找出微博文档对应的社交邻居文档,并创建社交邻居文档模型;根据社交邻居文档模型、原始文档模型和语料集得到扩展文档模型,并确定目标检索结果。通过本发明的技术方案,可以使用户在微博上快速地查询到大量准确的实时性信息。
-
公开(公告)号:CN107644021A
公开(公告)日:2018-01-30
申请号:CN201610575716.3
申请日:2016-07-20
Applicant: 北大方正集团有限公司 , 北京北大方正电子有限公司
Abstract: 本发明提出了一种信息采集方法和信息采集装置,其中,所述信息采集方法包括:在登录网页版的应用之后,获取所述应用的Cookie、和使用目标账号在所述应用上发布的数据的列表页链接;根据所述Cookie和所述列表页链接获取列表页,并获取所述列表页中的至少一个内容页链接;下载所述至少一个内容页链接中的每个内容页链接对应的内容页。通过本发明的技术方案,可以模拟人的行为在应用的海量数据中采集有价值的数据,进而提高了信息采集的效率。
-
公开(公告)号:CN107291686A
公开(公告)日:2017-10-24
申请号:CN201610228512.2
申请日:2016-04-13
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/27
Abstract: 本发明提供了一种情感标识的辨识方法和情感标识的辨识系统,其中,情感标识的辨识方法包括:根据情感标识的使用频率确定种子词和种子词对应的文本集合;在对应的文本集合中确定候选词语;根据预设的似然比模型确定候选词语与种子词的相关性数值,以根据相关性数值确定候选词语对应的情感标识。通过本发明的技术方案,针对不同文本语境对情感标识进行识别,适用于多种互联网社交平台。
-
公开(公告)号:CN107231447A
公开(公告)日:2017-10-03
申请号:CN201610170296.0
申请日:2016-03-23
Applicant: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: H04L29/12
CPC classification number: H04L61/1511 , H04L61/609
Abstract: 本发明涉及一种站点地域识别方法及系统。该站点地域识别方法包括:根据待识别站点的域名获取待识别站点的IP地址;根据全球IP地址分配表建立IP地址与站点地域信息的映射表;查找所述IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息。本发明通过获取到的待识别站点的IP地址查找IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息,避免了部分站点信息无法通过人工获取的缺陷,实现了自动识别站点地域,方便快捷。
-
公开(公告)号:CN107220250A
公开(公告)日:2017-09-29
申请号:CN201610162744.2
申请日:2016-03-21
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC: G06F17/30
CPC classification number: G06F16/955
Abstract: 本发明提供了一种模板配置方法及系统,该方法包括:获取网页的URL地址,根据所述URL地址加载对应的网页;当接收到用户对所述网页触发的选取操作时,提取所述选取操作对应的网页内容;查找所述网页内容对应的网页节点在所述网页对应的树状结构中的位置,根据查找到的位置生成所述网页内容对应的抽取表达式;将所述抽取表达式传递给预设模板树中当前配置节点的Xpath属性,实现网页的模板配置。本发明解决了现有技术中手工配置模板过程费时费力,而且需要进行重复修正的问题,实现了模板的自动配置,为数据抽取、采集提供了有力的技术支持。
-
公开(公告)号:CN107203763A
公开(公告)日:2017-09-26
申请号:CN201610157743.9
申请日:2016-03-18
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
Abstract: 本发明提供一种文字识别方法和装置,其中,该方法包括:获取待识别图片;采用至少一种语种的OCR核心库对待识别图片进行文字识别,生成各语种的识别结果,识别结果中包括了至少一个字符;确定各语种的识别结果的有效字符比例;根据各语种的识别结果的有效字符比例,判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。不需要人工的对待识别图片确定了图片中的文字的语种之后,再进行文字识别;可以自动的判定待识别图片中的文字的语种,同时确定待识别图片中的文字的识别结果,不需要人工操作,缩短了识别的时间,提升了识别效率。
-
公开(公告)号:CN103984731B
公开(公告)日:2017-03-08
申请号:CN201410211436.5
申请日:2014-05-19
Applicant: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提出了一种微博环境下自适应话题追踪方法和一种微博环境下自适应话题追踪装置,其中,微博环境下自适应话题追踪方法包括:预设训练集合;获取话题的前景语料中每一条微博的文本特征和与话题的相关性特征,以得到有关于训练集合的特征集合;根据特征集合训练生成话题追踪模型;使用话题追踪模型对话题相关的微博进行追踪并生成所述话题的子话题。本发明的技术方案,对相关微博进行追踪并将检测到的相关微博划分到不同的子话题,以及检测新子话题的生成,因此不仅能够提高微博话题追踪的准确率,其所检测到的带有时间戳的子话题还能反应出事件的发展情况。
-
-
-
-
-
-
-
-
-