-
公开(公告)号:CN112199461A
公开(公告)日:2021-01-08
申请号:CN202010980661.0
申请日:2020-09-17
Applicant: 暨南大学
IPC: G06F16/31 , G06F16/33 , G06F16/332 , G06F16/338
Abstract: 本发明公开了一种基于块索引结构的文档检索方法、装置、介质和设备,首先从文档集中提取关键词并扩展关键词;然后以关键词为索引词,根据索引词与包含该索引词的文档之间的相关性分数,采用块索引结构,构建多层次索引表。针对查询语句,从中抽取查询词,并且获取查询词的扩展词;从索引表中获取与查询词和扩展词匹配的所有索引词;利用索引表中预计算的信息,将匹配的查询词及扩展词与文档之间的相关性分数累加,动态锁定相关性累加分数前k名的文档;当满足检索终止条件,即前k名文档不再发生替换变动时,停止索引块的检索遍历,得到按查询相关性分数累加值排名前k的文档结果集。本发明具有文档检索效率高、成本低以及准确性高的优点。
-
公开(公告)号:CN112199461B
公开(公告)日:2022-05-31
申请号:CN202010980661.0
申请日:2020-09-17
Applicant: 暨南大学
IPC: G06F16/31 , G06F16/33 , G06F16/332 , G06F16/338
Abstract: 本发明公开了一种基于块索引结构的文档检索方法、装置、介质和设备,首先从文档集中提取关键词并扩展关键词;然后以关键词为索引词,根据索引词与包含该索引词的文档之间的相关性分数,采用块索引结构,构建多层次索引表。针对查询语句,从中抽取查询词,并且获取查询词的扩展词;从索引表中获取与查询词和扩展词匹配的所有索引词;利用索引表中预计算的信息,将匹配的查询词及扩展词与文档之间的相关性分数累加,动态锁定相关性累加分数前k名的文档;当满足检索终止条件,即前k名文档不再发生替换变动时,停止索引块的检索遍历,得到按查询相关性分数累加值排名前k的文档结果集。本发明具有文档检索效率高、成本低以及准确性高的优点。
-