一种站点模板的处理方法及装置

    公开(公告)号:CN105468688A

    公开(公告)日:2016-04-06

    申请号:CN201510789321.9

    申请日:2015-11-17

    Abstract: 本发明实施例提供了一种站点模板的处理方法及装置。一方面,本发明实施例通过获取站点所提供的页面,以作为训练样本;从而,获取模板样式,所述模板样式中定义有至少一个字段;根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息;进而,根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。因此,本发明实施例提供的技术方案能够实现自动生成站点模板,提高了站点模板的生成效率,降低了站点模板的生成成本。

    文本数据预处理方法及装置、电子设备和介质

    公开(公告)号:CN114139549A

    公开(公告)日:2022-03-04

    申请号:CN202111478101.6

    申请日:2021-12-06

    Abstract: 本公开提供了一种用于网页广告识别的文本数据预处理方法及装置、电子设备和介质,计算机技术领域,尤其涉及计算机网络技术、文本数据挖掘和自然语言处理技术领域。实现方案为:获取网页的资源文本,所述资源文本包括用于获取网页资源的文本;对资源文本进行分词处理,以获取多个第一分词;对所述多个第一分词中的每个第一分词进行切词处理,以获取多个第二分词;获取所述多个第二分词的语义特征向量;基于所述多个第二分词的语义特征向量,获取多个中心语义向量;以及响应于接收到所述资源文本对应的网页资源为广告的识别结果,基于接收到的屏蔽所述资源文本的指令,屏蔽所述广告。

    数据存储方法及装置、数据获取方法及装置、电子设备

    公开(公告)号:CN114115740A

    公开(公告)日:2022-03-01

    申请号:CN202111423941.2

    申请日:2021-11-26

    Abstract: 提供了一种由计算机实现的数据存储方法及装置、数据获取方法及装置、电子设备、计算机可读存储介质及计算机程序产品,涉及计算机技术领域,尤其涉及数据存储技术领域。实现方案为:获取待存储的十进制数据;将待存储的十进制数据转换为科学计数数据,科学计数数据包括实数a和指数n,其中,a为整数,n为整数;以及,基于实数a和指数n,将科学计数数据进行存储。本公开实施例的技术方案可以对数据进行压缩,从而节省数据存储空间,降低数据存储的成本。

    数据处理方法、装置、设备以及存储介质

    公开(公告)号:CN114065001A

    公开(公告)日:2022-02-18

    申请号:CN202111445869.3

    申请日:2021-11-29

    Inventor: 刘伟 林赛群

    Abstract: 本公开提供了一种数据处理方法、装置、设备以及存储介质,涉及计算机技术领域,尤其涉及网页搜索、数据挖掘和机器学习技术领域。具体实现方案为:以预定时长为检测周期,周期性检测针对第一数据的请求量;响应于检测到一个检测周期内对于第一数据的请求量超过请求量阈值,将第一数据写入缓存中;确定与第一数据相关的第二数据;以及将第二数据写入所述缓存中。

    一种站点模板的处理方法及装置

    公开(公告)号:CN105468688B

    公开(公告)日:2020-04-28

    申请号:CN201510789321.9

    申请日:2015-11-17

    Abstract: 本发明实施例提供了一种站点模板的处理方法及装置。一方面,本发明实施例通过获取站点所提供的页面,以作为训练样本;从而,获取模板样式,所述模板样式中定义有至少一个字段;根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息;进而,根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。因此,本发明实施例提供的技术方案能够实现自动生成站点模板,提高了站点模板的生成效率,降低了站点模板的生成成本。

    一种用于对搜索结果进行处理的方法和装置

    公开(公告)号:CN103258004B

    公开(公告)日:2017-05-24

    申请号:CN201310126217.2

    申请日:2013-04-12

    Inventor: 刘伟 田丰

    Abstract: 本发明的目的在于提供一种用于对搜索结果进行处理的方法和装置。根据本发明的方法包括:获取所述搜索结果中的多个结果地址;对所述多个结果地址分别执行多种单项聚合操作,以获得分别与所述多个结果地址相对应的多种单项聚合结果,其中,每种单项聚合操作包括基于所述结果地址对应的一种相关信息项、对所述多个结果地址执行的聚合操作;对所获得的多个单项聚合结果执行综合聚合操作。本发明的优点在于:能够有效地去除搜索结果中来自多个不同数据来源的重复资源,从而在保证搜索结果全面性的前提下,减少搜索结果的冗余,提升用户体验。

Patent Agency Ranking