-
公开(公告)号:CN106294396A
公开(公告)日:2017-01-04
申请号:CN201510260688.1
申请日:2015-05-20
申请人: 北京大学 , 北大方正集团有限公司北京北大方正电子有限公司
IPC分类号: G06F17/30
CPC分类号: G06F16/951
摘要: 本发明提出了一种关键词扩展方法和一种关键词扩展系统,其中,方法包括:通过关键词获取模块在当前数据中获取关键词;通过初始扩展模块对关键词进行初始扩展,以确定关键词的初始扩展词;通过候选词提取模块使用词权重计算公式计算样本数据库中的多个目标样本词的词权重,并根据词权重在多个目标样本词中提取候选词;通过匹配模块将每个候选词与关键词及初始扩展词进行匹配,以获取关键词的目标扩展词。通过本发明的技术方案,通过对关键词进行扩展,可以全面地检测出具有敏感信息但经过变异的词,并对具有敏感信息的词进行过滤,从而提高了对具有敏感信息的数据的监测效果。
-
公开(公告)号:CN106294312A
公开(公告)日:2017-01-04
申请号:CN201510369322.8
申请日:2015-06-29
申请人: 北京大学 , 北大方正集团有限公司北京北大方正电子有限公司
IPC分类号: G06F17/27
摘要: 本发明提出了一种信息处理方法和一种信息处理系统,所述方法包括:获取当前文档中的文档语句和所述文档语句中的单词,并根据预设词典确定所述单词的单词极性值;根据所述文档语句中的每个所述单词、所述单词的所述单词极性值以及语句极性值计算模型计算所述文档语句的语句极性值;根据所述当前文档中的每个所述文档语句的所述语句极性值和特征词集合确定所述当前文档的情感倾向性。通过本发明的技术方案,可以准确地分析出当前文档针对当前话题的情感倾向性。
-
公开(公告)号:CN104572736A
公开(公告)日:2015-04-29
申请号:CN201310503897.5
申请日:2013-10-23
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
CPC分类号: G06F17/30705
摘要: 本发明提供一种基于社交网络的关键词提取方法及装置,方法包括:对待提取文本进行分词,并统计词的词频和该词对应的文本数;根据所述词频和该词对应的文本数,计算词权重,选取第一预设值个词权重较大的词作为候选关键词,从候选关键词中提取第二预设值个在待提取文本中出现频率较大的候选关键词作为关键词。本发明通过对待提取文本进行噪声过滤、文本去重、分词以及计算词权重,进而根据词权重提取关键词,由于不需要大量的历史搜索信息,从而提高了提取速度。
-
公开(公告)号:CN104615593B
公开(公告)日:2017-09-29
申请号:CN201310536067.2
申请日:2013-11-01
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种微博热点话题自动检测方法及装置,涉及互联网技术领域,本发明通过对待检测的微博文本依次进行关键词提取、关键词组获取及关键词组聚类,以获得候选关键词簇,最后计算各个候选关键词簇所对应话题的热度值并根据热度值选择热点话题,减小了热点话题检测的复杂度,并实现有效的热点话题检测。
-
公开(公告)号:CN103914493A
公开(公告)日:2014-07-09
申请号:CN201310008052.9
申请日:2013-01-09
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
CPC分类号: G06N5/04 , G06N7/00 , G06N99/005 , G06Q10/06 , G06Q50/01 , H04L51/32 , H04L51/34 , G06F17/3089
摘要: 本发明提供一种微博用户群体结构发现分析方法及系统,所述微博用户群体结构发现分析方法包括:获取目标群体中微博用户的行为数据信息;根据所述目标群体中微博用户的行为数据信息,构建微博用户关联网络;从所述微博用户关联网络中,获取至少一个极大团;基于所述极大团,获取至少一个核心团;基于所述获取到的极大团和/或核心团,进行微博用户群体行为分析。采用本发明提供的微博用户群体结构发现分析方法及系统可以充分说明微博用户之间的复杂关系,还可以提高微博用户群体结构发现分析的速度,满足大规模数据处理的需求。
-
公开(公告)号:CN104572687A
公开(公告)日:2015-04-29
申请号:CN201310488236.X
申请日:2013-10-17
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
CPC分类号: G06F17/3089
摘要: 本发明实施例提供一种微博传播的关键用户识别方法和装置,在微博传播的网络架构中,按照连接节点个数从少到多的顺序执行多次删除操作,每次删除操作将连接节点个数相同的节点从网络架构中删除直至网络架构中剩余连接节点个数相同的至少一个目标节点,最后将目标节点确定为微博传播的关键用户节点。从而提高确定的微博传播的关键用户的准确度。
-
公开(公告)号:CN104572687B
公开(公告)日:2018-07-31
申请号:CN201310488236.X
申请日:2013-10-17
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
摘要: 本发明实施例提供种微博传播的关键用户识别方法和装置,在微博传播的网络架构中,按照连接节点个数从少到多的顺序执行多次删除操作,每次删除操作将连接节点个数相同的节点从网络架构中删除直至网络架构中剩余连接节点个数相同的至少个目标节点,最后将目标节点确定为微博传播的关键用户节点。从而提高确定的微博传播的关键用户的准确度。
-
公开(公告)号:CN103914494B
公开(公告)日:2017-05-17
申请号:CN201310008156.X
申请日:2013-01-09
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
CPC分类号: G06F17/3053 , G06F17/30598 , G06F21/316
摘要: 本发明提供一种微博用户身份识别方法及系统,所述方法包括:获取待识别用户行为数据以及用户行为的特征库信息;预处理所述获取的待识别用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微薄用户身份识别的准确性及实时性。
-
公开(公告)号:CN103914494A
公开(公告)日:2014-07-09
申请号:CN201310008156.X
申请日:2013-01-09
申请人: 北大方正集团有限公司 , 北京大学 , 北京北大方正电子有限公司
CPC分类号: G06F17/3053 , G06F17/30598 , G06F21/316 , G06F17/3089 , G06F21/31
摘要: 本发明提供一种微博用户身份识别方法及系统,所述方法包括:获取待识别用户行为数据以及用户行为的特征库信息;预处理所述获取的待识别用户行为数据;将所述预处理后的用户行为数据,进行语义单元重构;获取所述语义单元的属性信息以及其对应的权重;根据所述语义单元的属性信息以及其对应的权重,获取所述待识别用户行为特征;将所述待识别用户行为特征与用户行为的特征库信息中的每个特征类型进行比较;当所述待识别用户行为特征与所述用户行为的特征库信息中的一个特征类型的相似度超过预设阈值,则所述待识别用户身份确定。采用本发明提供的微博用户身份识别方法及系统可以有效提高微薄用户身份识别的准确性及实时性。
-
公开(公告)号:CN106294312B
公开(公告)日:2019-02-26
申请号:CN201510369322.8
申请日:2015-06-29
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F17/27
摘要: 本发明提出了一种信息处理方法和一种信息处理系统,所述方法包括:获取当前文档中的文档语句和所述文档语句中的单词,并根据预设词典确定所述单词的单词极性值;根据所述文档语句中的每个所述单词、所述单词的所述单词极性值以及语句极性值计算模型计算所述文档语句的语句极性值;根据所述当前文档中的每个所述文档语句的所述语句极性值和特征词集合确定所述当前文档的情感倾向性。通过本发明的技术方案,可以准确地分析出当前文档针对当前话题的情感倾向性。
-
-
-
-
-
-
-
-
-