-
公开(公告)号:CN107908749B
公开(公告)日:2020-04-10
申请号:CN201711147336.0
申请日:2017-11-17
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/951 , G06F16/35 , G06F16/33 , G06F40/295
Abstract: 本发明涉及一种基于搜索引擎的人物检索系统及方法,包括依次连接的数据采集模块、数据预处理模块、特征抽取模块、聚类模块;数据采集模块爬取搜索引擎检索人名返回的网页信息;数据预处理模块过滤与人名无关的网页,进行分块处理,过滤网页中与检索人名无关的视觉块;特征抽取模块抽取与检索人物相关的属性和实体,统计视觉块中词频,构造每个网页的向量表示形式,适当增加抽取的特征词在向量空间中对应维数的值,聚类模块将每个网页的向量表示形式作为输入,进行网页文本的聚类,输出网页类别标签组成的列表。本发明有效解决检索人物时返回网页中的人名歧义和信息杂乱的问题,通过抽取人物属性和人物关系构造人物摘要,为用户检索人名提供便利。
-
公开(公告)号:CN107908749A
公开(公告)日:2018-04-13
申请号:CN201711147336.0
申请日:2017-11-17
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明涉及一种基于搜索引擎的人物检索系统及方法,包括依次连接的数据采集模块、数据预处理模块、特征抽取模块、聚类模块;数据采集模块爬取搜索引擎检索人名返回的网页信息;数据预处理模块过滤与人名无关的网页,进行分块处理,过滤网页中与检索人名无关的视觉块;特征抽取模块抽取与检索人物相关的属性和实体,统计视觉块中词频,构造每个网页的向量表示形式,适当增加抽取的特征词在向量空间中对应维数的值,聚类模块将每个网页的向量表示形式作为输入,进行网页文本的聚类,输出网页类别标签组成的列表。本发明有效解决检索人物时返回网页中的人名歧义和信息杂乱的问题,通过抽取人物属性和人物关系构造人物摘要,为用户检索人名提供便利。
-