-
公开(公告)号:CN113239258B
公开(公告)日:2023-06-27
申请号:CN202110547368.X
申请日:2021-05-19
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/953
摘要: 本公开提供了一种提供查询建议的方法、装置、电子设备和存储介质,涉及数据处理,尤其涉及搜索引擎和内容推荐领域。一种提供查询建议的方法包括:获取用户输入的第一字符串;使用第一字符串作为索引查询预配置的数据库,其中,数据库是倒排索引数据库,在数据库中,以第一字符串作为索引存储第二字符串,第一字符串表示第二字符串或第二字符串的一部分在被输入时的中间字符序列;并且输出第二字符串作为查询建议。
-
公开(公告)号:CN113297226A
公开(公告)日:2021-08-24
申请号:CN202110649490.8
申请日:2021-06-10
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/22 , G06F16/2458
摘要: 本公开提供了一种数据存储方法、数据读取方法、装置、电子设备及介质,涉及数据处理领域,尤其涉及分布式存储与数据检索。一种数据存储方法,包括:基于数据的第一字段的值,确定多个数据存储群组中的目标数据存储群组,多个数据存储群组中的每个数据存储群组包括至少一个数据存储装置,并且在每个数据存储装置中设置有两个或更多个数据存储分区;基于数据的第二字段的值,确定目标数据存储群组中的数据存储分区中的目标数据存储分区,第二字段不同于第一字段;以及将数据存储到目标数据存储分区中。
-
公开(公告)号:CN113239258A
公开(公告)日:2021-08-10
申请号:CN202110547368.X
申请日:2021-05-19
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/953
摘要: 本公开提供了一种提供查询建议的方法、装置、电子设备和存储介质,涉及数据处理,尤其涉及搜索引擎和内容推荐领域。一种提供查询建议的方法包括:获取用户输入的第一字符串;使用第一字符串作为索引查询预配置的数据库,其中,数据库是倒排索引数据库,在数据库中,以第一字符串作为索引存储第二字符串,第一字符串表示第二字符串或第二字符串的一部分在被输入时的中间字符序列;并且输出第二字符串作为查询建议。
-
公开(公告)号:CN114428834A
公开(公告)日:2022-05-03
申请号:CN202111624426.0
申请日:2021-12-27
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/33 , G06F40/289 , G06F40/30 , G06N3/02 , G06F16/31 , G06F16/338
摘要: 本申请公开了一种检索方法、装置、电子设备及存储介质,涉及自然语言处理、智能搜索、深度学习等领域。具体实现方案为:获取检索内容,将检索内容通过切词得到词组集合,并将检索内容转化为语义向量;从显示召回引擎中获取词组集合中每个词组对应的倒排拉链;从向量空间中获取语义向量对应的向量结果,并将多个向量根据向量对应的文档信息进行重排序,获取多个向量对应的目标拉链;获取倒排拉链与目标拉链的交集,并获取交集对应的目标文档集合进行返回。同时具备显示召回和隐式召回的混合召回能力,显著提升了检索效果。且资源和运维成本远远小于现有的双检索系统方案。
-
公开(公告)号:CN113220822A
公开(公告)日:2021-08-06
申请号:CN202110508167.9
申请日:2021-05-10
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/31 , G06F16/33 , G06F16/951 , G06F16/953
摘要: 本公开公开了文档数据的存储方法和装置,涉及数据处理技术领域,尤其涉及大数据、智能搜索等领域。具体实现方案为:从数据更新通道中接收文档的传输数据,并识别传输数据对应的数据更新通道的通道标识,其中,传输数据中包括文档的第一文档标识;基于第一文档标识,查询文档标识与文档版本标识之间的映射关系;响应于映射关系中存在与第一文档标识匹配的第一文档版本标识,根据通道标识,确定传输数据对应的目标文档版本标识;将传输数据以目标文档版本标识为索引值进行存储。本公开实施例,通过区分数据更新通道,有针对性地对全量数据及增量数据进行存储,提升了搜索引擎使用的灵活性,节省建库成本并避免了存储资源浪费。
-
公开(公告)号:CN114491253B
公开(公告)日:2023-09-26
申请号:CN202210076944.1
申请日:2022-01-21
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/9535 , G06F16/9538 , G06F16/31 , G06F40/289 , G06F40/247
摘要: 本公开提供了一种观测信息处理方法、装置、电子设备及存储介质,涉及数据处理技术领域,尤其涉及智能搜索、云计算、大数据领域。具体实现方案为:获取在处理查询请求的过程中生成的观测信息;确定与观测信息对应的场景标识;以及根据场景标识,将观测信息输出至对应的目标位置以便进行存储。
-
公开(公告)号:CN114428834B
公开(公告)日:2023-03-21
申请号:CN202111624426.0
申请日:2021-12-27
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/33 , G06F40/289 , G06F40/30 , G06N3/02 , G06F16/31 , G06F16/338
摘要: 本申请公开了一种检索方法、装置、电子设备及存储介质,涉及自然语言处理、智能搜索、深度学习等领域。具体实现方案为:获取检索内容,将检索内容通过切词得到词组集合,并将检索内容转化为语义向量;从显示召回引擎中获取词组集合中每个词组对应的倒排拉链;从向量空间中获取语义向量对应的向量结果,并将多个向量根据向量对应的文档信息进行重排序,获取多个向量对应的目标拉链;获取倒排拉链与目标拉链的交集,并获取交集对应的目标文档集合进行返回。同时具备显示召回和隐式召回的混合召回能力,显著提升了检索效果。且资源和运维成本远远小于现有的双检索系统方案。
-
公开(公告)号:CN114218161A
公开(公告)日:2022-03-22
申请号:CN202111638246.8
申请日:2021-12-29
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/13 , G06F16/901 , G06F16/93 , G06F3/06
摘要: 本公开提供了一种索引存储方法、装置、检索引擎、电子设备及存储介质,涉及大数据处理技术领域。方法具体实现方案为:对目标文件进行处理,得到所述目标文件的索引文件;基于所述索引文件的数据量,确定所述索引文件的存储位置,所述索引文件的存储位置至少包含内存;基于所述索引文件的存储位置所对应的数据存储结构,对所述索引文件进行存储,所述数据存储结构至少包含内存数据存储结构。通过上述方案,可以根据索引文件的数据量灵活选择合适的存储位置,保证了处理效率。
-
公开(公告)号:CN113568940A
公开(公告)日:2021-10-29
申请号:CN202110892030.8
申请日:2021-08-04
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/2457 , G06F16/2455 , G06F16/248 , G06F16/9535 , G06F16/9538
摘要: 本公开提供了一种数据查询的方法、装置、设备以及存储介质,涉及计算机技术领域,尤其涉及智能搜索领域。具体实现方案为:根据数据查询请求,确定目标数据的提取位置;确定与提取位置对应的数据提取策略;根据数据提取策略,在提取位置提取目标数据,将目标数据作为数据查询结果。上述方案解决了现有深度分页机制中存在的系统开销过大以及实时性较差的技术问题。
-
公开(公告)号:CN113220822B
公开(公告)日:2024-01-09
申请号:CN202110508167.9
申请日:2021-05-10
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/31 , G06F16/33 , G06F16/951 , G06F16/953
摘要: 本公开公开了文档数据的存储方法及装置,涉及数据处理技术领域,尤其涉及大数据、智能搜索等领域。具体实现方案为:从数据更新通道中接收文档的传输数据,并识别传输数据对应的数据更新通道的通道标识,其中,传输数据中包括文档的第一文档标识;基于第一文档标识,查询文档标识与文档版本标识之间的映射关系;响应于映射关系中存在与第一文档标识匹配的第一文档版本标识,根据通道标识,确定传输数据对应的目标文档版本标识;将传输数据以目标文档版本标识为索引值进行存储。本公开实施例,通过区分数据更新通道,有针对性地对全量数据及增量数据进行存储,提升了搜索引擎使用的灵活性,节省建库成本并避免了存储资源浪费。
-
-
-
-
-
-
-
-
-