一种高效的文本区间热词查询方法

    公开(公告)号:CN106874430A

    公开(公告)日:2017-06-20

    申请号:CN201710059191.2

    申请日:2017-01-23

    Applicant: 复旦大学

    Abstract: 本发明属于电子信息技术领域,具体为高效的文本区间热词查询方法。现有的热词提取算法一般面向挖掘任务,时间复杂度较高,难以直接应用于热词的在线查询处理。本发明方法包括两个阶段:利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理;数据预处理的基础上,采用优化算法EHWE,对给定查询q的时间范围以及需要提取的热词个数k,计算确定所需热词。与现有的面向挖掘的算法相比,EHWE算法能够在保证计算结果准确率的前提下,有效提高热词在线查询的效率。实验结果表明,与现有的面向挖掘的算法相比,EHWE算法在CNN,BBC和NYT三个数据集涉及的整个时间范围上的运行时间分别减少59.7%,65.1%和75.5%。

    一种高效的文本区间热词查询方法

    公开(公告)号:CN106874430B

    公开(公告)日:2021-06-04

    申请号:CN201710059191.2

    申请日:2017-01-23

    Applicant: 复旦大学

    Abstract: 本发明属于电子信息技术领域,具体为高效的文本区间热词查询方法。现有的热词提取算法一般面向挖掘任务,时间复杂度较高,难以直接应用于热词的在线查询处理。本发明方法包括两个阶段:利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理;数据预处理的基础上,采用优化算法EHWE,对给定查询q的时间范围以及需要提取的热词个数k,计算确定所需热词。与现有的面向挖掘的算法相比,EHWE算法能够在保证计算结果准确率的前提下,有效提高热词在线查询的效率。实验结果表明,与现有的面向挖掘的算法相比,EHWE算法在CNN,BBC和NYT三个数据集涉及的整个时间范围上的运行时间分别减少59.7%,65.1%和75.5%。

Patent Agency Ranking