一种数据抽取方法、设备及计算机可存储介质

    公开(公告)号:CN108874870A

    公开(公告)日:2018-11-23

    申请号:CN201810375770.2

    申请日:2018-04-24

    Abstract: 本发明公开了一种数据抽取方法、设备及计算机可存储介质。所述方法包括:获取HTML文本;根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据;根据在所述HTML文本中抽取的预设类型的数据,生成结构化数据。本发明预先设置内容抽取规则,利用该内容抽取规则,可以对HTML文本进行细粒度的结构化抽取,进而可以获得各种类型的数据,得到包含各种类型数据的结构化数据,抽取速度快,抽取精度高。

    一种网页数据分布式模板采集方法及系统

    公开(公告)号:CN108763279A

    公开(公告)日:2018-11-06

    申请号:CN201810319851.0

    申请日:2018-04-11

    Abstract: 本发明涉及一种网页数据分布式模板采集方法及系统,该采集方法包括:将数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;根据被采集的网页的类型从数据表中获取相应的数据采集模板,将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据。本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。

    一种多元高效下载服务的实现方法及系统

    公开(公告)号:CN108683693A

    公开(公告)日:2018-10-19

    申请号:CN201810225500.3

    申请日:2018-03-19

    CPC classification number: H04L67/06

    Abstract: 本发明涉及一种多元高效下载服务的实现方法及系统,该实现方法包括:获取下载服务的接口,通过最优下载方式调用接口进行下载;当最优下载方式下载失败时,根据其他普通下载方式调用接口进行下载;当出现普通下载方式下载成功时,停止下载,将最优下载方式和普通下载方式中权重值最大的下载方式作为新的最优下载方式。本发明实施例根据不同的接口对应的下载方式的权重值大小,依次根据最优下载方式或普通下载方式调用对应接口进行下载,保证了因接口的不同,选取最优的下载方式进行下载,快速完成该接口对应的下载任务,实现了通用、高效、可靠性高以及高扩展性的多元化高并发下载服务响应机制。

    一种社交媒体账号管理方法及系统

    公开(公告)号:CN108769278B

    公开(公告)日:2021-08-10

    申请号:CN201810319766.4

    申请日:2018-04-11

    Inventor: 王海亮 王磊 罗引

    Abstract: 本发明涉及一种社交媒体账号管理方法及系统,该方法包括:通过所述互联网协议地址和端口访问任一社交媒体对应的注册网站;通过浏览器控件完成账号注册,将所述账号与所述互联网协议地址绑定为合格账号进行存储;当接收到任务时,从所述合格账号中获取执行所述任务的合格账号,通过所述浏览器控件根据所述合格账号进行登录以完成所述任务。本发明实施例主要提供针对国外社交媒体账号自动注册及利用注册账号进行指定任务的工作,同时通过将注册完成的账号与相对应的互联网协议地址进行绑定存储,以使用相匹配的互联网协议地址登录相关账号,提高账号可用性和存活概率。

    一种网页数据分布式模板采集方法及系统

    公开(公告)号:CN108763279B

    公开(公告)日:2020-12-15

    申请号:CN201810319851.0

    申请日:2018-04-11

    Abstract: 本发明涉及一种网页数据分布式模板采集方法及系统,该采集方法包括:将数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;根据被采集的网页的类型从数据表中获取相应的数据采集模板,将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据。本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。

    一种社交媒体账号管理方法及系统

    公开(公告)号:CN108769278A

    公开(公告)日:2018-11-06

    申请号:CN201810319766.4

    申请日:2018-04-11

    Inventor: 王海亮 王磊 罗引

    CPC classification number: H04L61/302 H04L51/32 H04L61/15

    Abstract: 本发明涉及一种社交媒体账号管理方法及系统,该方法包括:通过所述互联网协议地址和端口访问任一社交媒体对应的注册网站;通过浏览器控件完成账号注册,将所述账号与所述互联网协议地址绑定为合格账号进行存储;当接收到任务时,从所述合格账号中获取执行所述任务的合格账号,通过所述浏览器控件根据所述合格账号进行登录以完成所述任务。本发明实施例主要提供针对国外社交媒体账号自动注册及利用注册账号进行指定任务的工作,同时通过将注册完成的账号与相对应的互联网协议地址进行绑定存储,以使用相匹配的互联网协议地址登录相关账号,提高账号可用性和存活概率。

    一种多元高效下载服务的实现方法及系统

    公开(公告)号:CN108683693B

    公开(公告)日:2020-10-23

    申请号:CN201810225500.3

    申请日:2018-03-19

    Abstract: 本发明涉及一种多元高效下载服务的实现方法及系统,该实现方法包括:获取下载服务的接口,通过最优下载方式调用接口进行下载;当最优下载方式下载失败时,根据其他普通下载方式调用接口进行下载;当出现普通下载方式下载成功时,停止下载,将最优下载方式和普通下载方式中权重值最大的下载方式作为新的最优下载方式。本发明实施例根据不同的接口对应的下载方式的权重值大小,依次根据最优下载方式或普通下载方式调用对应接口进行下载,保证了因接口的不同,选取最优的下载方式进行下载,快速完成该接口对应的下载任务,实现了通用、高效、可靠性高以及高扩展性的多元化高并发下载服务响应机制。

Patent Agency Ranking