-
公开(公告)号:CN106874430A
公开(公告)日:2017-06-20
申请号:CN201710059191.2
申请日:2017-01-23
Applicant: 复旦大学
IPC: G06F17/30
CPC classification number: G06F17/30666 , G06F17/30619 , G06F17/30663 , G06F17/30687
Abstract: 本发明属于电子信息技术领域,具体为高效的文本区间热词查询方法。现有的热词提取算法一般面向挖掘任务,时间复杂度较高,难以直接应用于热词的在线查询处理。本发明方法包括两个阶段:利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理;数据预处理的基础上,采用优化算法EHWE,对给定查询q的时间范围以及需要提取的热词个数k,计算确定所需热词。与现有的面向挖掘的算法相比,EHWE算法能够在保证计算结果准确率的前提下,有效提高热词在线查询的效率。实验结果表明,与现有的面向挖掘的算法相比,EHWE算法在CNN,BBC和NYT三个数据集涉及的整个时间范围上的运行时间分别减少59.7%,65.1%和75.5%。
-
公开(公告)号:CN106874430B
公开(公告)日:2021-06-04
申请号:CN201710059191.2
申请日:2017-01-23
Applicant: 复旦大学
Abstract: 本发明属于电子信息技术领域,具体为高效的文本区间热词查询方法。现有的热词提取算法一般面向挖掘任务,时间复杂度较高,难以直接应用于热词的在线查询处理。本发明方法包括两个阶段:利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理;数据预处理的基础上,采用优化算法EHWE,对给定查询q的时间范围以及需要提取的热词个数k,计算确定所需热词。与现有的面向挖掘的算法相比,EHWE算法能够在保证计算结果准确率的前提下,有效提高热词在线查询的效率。实验结果表明,与现有的面向挖掘的算法相比,EHWE算法在CNN,BBC和NYT三个数据集涉及的整个时间范围上的运行时间分别减少59.7%,65.1%和75.5%。
-