一种基于爬虫的网页自动分类方法

    公开(公告)号:CN112115269A

    公开(公告)日:2020-12-22

    申请号:CN202011172739.2

    申请日:2020-10-28

    Abstract: 本发明公开了一种基于爬虫的网页自动分类方法,涉及数据分析领域,具体包括:首先,针对待分类的网页,利用定制爬虫获取内容信息并分出关键词。然后,逐个选取各关键词,依次比对是否属于互联网关键词类别库,如果是,得到该网页所属的类别个数M;否则,将不属于任何类别库的关键词单独记录。当类别个数M值大于等于2时,基于贝叶斯多维分类模型,随机选取2个类别,迭代判定该网页属于哪个类别的概率最大,将单独记录的关键词写入该类别词库中。当M的值等于1,则直接获取该网页所属类别,将单独记录的关键词写入;反之M等于0,则该网页内容属于暂时无法识别的网页,将其放入未识别网页词库中。本发明可以有效地提升网页分类的准确率。

    社交互动的用户分类方法、装置、电子设备及介质

    公开(公告)号:CN110555081A

    公开(公告)日:2019-12-10

    申请号:CN201910314444.5

    申请日:2019-04-18

    Abstract: 本申请公开了一种社交互动的用户分类方法、装置、电子设备及介质。其中,本申请中,在获取第一用户组中,各用户的互动对象信息,并在当检测到存在相同的互动对象信息时,根据各互动对象信息的信誉度评级,筛选相同的互动对象,生成第一对象组。再基于第一对象组,生成第二用户组后,建立第二用户组中,各用户的对应关系,以将各对应关系添加至用户数据表。通过应用本申请的技术方案,可以通过预先收集的各用户的对参与互动内容信息的信誉度评级,获取同一互动对象以及同一评级下的多个用户信息,并建立该各用户信息的对应关系。进而可以在后续检测到互动对象生成数据信息时,根据该互动对象对应的用户关系,将其推送至对应的用户。

Patent Agency Ranking