一种获取特定话题微博中PCU关联数据的方法

    公开(公告)号:CN104915438B

    公开(公告)日:2019-02-05

    申请号:CN201510358782.0

    申请日:2015-06-25

    Abstract: 本发明公开了一种从微博中获取PCU关联数据的方法,解决现有技术不能获取有关联的微博帖子、评论、发帖人的技术缺陷,该方法包括:(1)数据访问权限取得,通过分析登录页面HTML标签,自动填写身份验证信息,取得数据访问权限;(2)PCU关联数据页面下载,依据微博页面的HTML结构及标签语义,以PCU数据的逻辑关系为指导,自动有序下载含有PCU关联数据的页面;(3)PCU关联数据结构化解析与构建,融合帖子关系、用户好友关系、用户帖子关系构建一个异质网络,即PCU关联数据网络。本发明能够自动获取新浪微博中的PCU关联数据,并构建结构化的关联数据网络,为后续的社交网络挖掘提供良好的数据集。

    一种基于文本特征和行为特征的微博Spammer识别方法

    公开(公告)号:CN105893484A

    公开(公告)日:2016-08-24

    申请号:CN201610187897.2

    申请日:2016-03-29

    CPC classification number: G06F16/951

    Abstract: 本发明公开了一种基于用户文本特征和行为特征的微博Spammer识别方法,属于计算机社交网络数据分析技术领域。该方法包括:(1)用户信息元数据获取,通过爬虫工具selenium获得相应的用户链接,在用户页面解析获取用户信息元数据;(2)多视图特征抽取,抽取文本特征与行为特征;(3)基于多视图分类的Spammer检测,在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在未带标签的数据集合上进行标注,得到Spammer识别结果。本发明能够基于多视图分类识别Spammer,解决现有技术不能全面考虑Spammer特征和依赖大量带标签数据的技术缺陷,为后续的社交网络挖掘提供良好的数据集。

    一种获取特定话题微博中PCU关联数据的方法

    公开(公告)号:CN104915438A

    公开(公告)日:2015-09-16

    申请号:CN201510358782.0

    申请日:2015-06-25

    CPC classification number: G06F17/30867

    Abstract: 本发明公开了一种从微博中获取PCU关联数据的方法,解决现有技术不能获取有关联的微博帖子、评论、发帖人的技术缺陷,该方法包括:(1)数据访问权限取得,通过分析登录页面HTML标签,自动填写身份验证信息,取得数据访问权限;(2)PCU关联数据页面下载,依据微博页面的HTML结构及标签语义,以PCU数据的逻辑关系为指导,自动有序下载含有PCU关联数据的页面;(3)PCU关联数据结构化解析与构建,融合帖子关系、用户好友关系、用户帖子关系构建一个异质网络,即PCU关联数据网络。本发明能够自动获取新浪微博中的PCU关联数据,并构建结构化的关联数据网络,为后续的社交网络挖掘提供良好的数据集。

Patent Agency Ranking