-
公开(公告)号:CN105893484A
公开(公告)日:2016-08-24
申请号:CN201610187897.2
申请日:2016-03-29
Applicant: 西安交通大学
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 本发明公开了一种基于用户文本特征和行为特征的微博Spammer识别方法,属于计算机社交网络数据分析技术领域。该方法包括:(1)用户信息元数据获取,通过爬虫工具selenium获得相应的用户链接,在用户页面解析获取用户信息元数据;(2)多视图特征抽取,抽取文本特征与行为特征;(3)基于多视图分类的Spammer检测,在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在未带标签的数据集合上进行标注,得到Spammer识别结果。本发明能够基于多视图分类识别Spammer,解决现有技术不能全面考虑Spammer特征和依赖大量带标签数据的技术缺陷,为后续的社交网络挖掘提供良好的数据集。
-
公开(公告)号:CN104915438A
公开(公告)日:2015-09-16
申请号:CN201510358782.0
申请日:2015-06-25
Applicant: 西安交通大学
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 本发明公开了一种从微博中获取PCU关联数据的方法,解决现有技术不能获取有关联的微博帖子、评论、发帖人的技术缺陷,该方法包括:(1)数据访问权限取得,通过分析登录页面HTML标签,自动填写身份验证信息,取得数据访问权限;(2)PCU关联数据页面下载,依据微博页面的HTML结构及标签语义,以PCU数据的逻辑关系为指导,自动有序下载含有PCU关联数据的页面;(3)PCU关联数据结构化解析与构建,融合帖子关系、用户好友关系、用户帖子关系构建一个异质网络,即PCU关联数据网络。本发明能够自动获取新浪微博中的PCU关联数据,并构建结构化的关联数据网络,为后续的社交网络挖掘提供良好的数据集。
-
公开(公告)号:CN104915438B
公开(公告)日:2019-02-05
申请号:CN201510358782.0
申请日:2015-06-25
Applicant: 西安交通大学
IPC: G06F16/9535
Abstract: 本发明公开了一种从微博中获取PCU关联数据的方法,解决现有技术不能获取有关联的微博帖子、评论、发帖人的技术缺陷,该方法包括:(1)数据访问权限取得,通过分析登录页面HTML标签,自动填写身份验证信息,取得数据访问权限;(2)PCU关联数据页面下载,依据微博页面的HTML结构及标签语义,以PCU数据的逻辑关系为指导,自动有序下载含有PCU关联数据的页面;(3)PCU关联数据结构化解析与构建,融合帖子关系、用户好友关系、用户帖子关系构建一个异质网络,即PCU关联数据网络。本发明能够自动获取新浪微博中的PCU关联数据,并构建结构化的关联数据网络,为后续的社交网络挖掘提供良好的数据集。
-
公开(公告)号:CN104103011B
公开(公告)日:2015-04-29
申请号:CN201410328391.X
申请日:2014-07-10
Applicant: 西安交通大学
Abstract: 本发明公开了一种基于纳税人利益关联网络的可疑纳税人识别方法,基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人。整体工作流程为:首先,对纳税人利益关联网络 进行拓扑特征的分析。采用Motif方法寻找频繁子图,并根据度中心度和聚集系数拓扑指标寻找正常和可疑纳税人的差异;其次,选择拓扑特征,使用C4.5分类器实验,从而实现自动识别可疑纳税人的功能。本发明的贡献在于:①将纳税人和利益关系作为网络进行关系识别。并将拓扑方法中的Motif、聚集系数、度中心度特性应用于纳税人利益关联网络。②正常和可疑纳税人之间的差异性为检测可疑纳税行为提供可信的方法和依据。
-
公开(公告)号:CN104103011A
公开(公告)日:2014-10-15
申请号:CN201410328391.X
申请日:2014-07-10
Applicant: 西安交通大学
IPC: G06Q40/00
Abstract: 本发明公开了一种基于纳税人利益关联网络的可疑纳税人识别方法,基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人。整体工作流程为:首先,对纳税人利益关联网络 进行拓扑特征的分析。采用Motif方法寻找频繁子图,并根据度中心度和聚集系数拓扑指标寻找正常和可疑纳税人的差异;其次,选择拓扑特征,使用C4.5分类器实验,从而实现自动识别可疑纳税人的功能。本发明的贡献在于:①将纳税人和利益关系作为网络进行关系识别。并将拓扑方法中的Motif、聚集系数、度中心度特性应用于纳税人利益关联网络。②正常和可疑纳税人之间的差异性为检测可疑纳税行为提供可信的方法和依据。
-
-
-
-