一种关系数据库中基于主题类簇单元的关键词查询方法

    公开(公告)号:CN105975488B

    公开(公告)日:2019-06-18

    申请号:CN201610264735.4

    申请日:2016-04-25

    Abstract: 一种关系数据库中基于主题类簇单元的关键词查询方法,涉及信息检索领域,尤其涉及一种关系数据库中基于主题类簇单元的关键词查询方法。本发明要为解决现有关键词在线查询方法存在查询过程中频繁的表连接所带来巨大时间开销的问题,而现有关键词离线查询方法对于内部结构复杂、数据量庞大的大规模数据库上的查询存在查询效率低的问题。一种关系数据库中基于主题类簇单元的关键词查询方法按以下步骤进行:1、主题类簇单元构建过程;①、基于数据表特性和查询日志垂直分组;②、提出主题类簇中表连接顺序优化方案;③、基于主题类簇元组关联图水平分组;2、建立基于关联规则的索引优化机制;3、将查询结果返回给用户。本发明应用于信息检索领域。

    基于负载均衡和查询日志的数据空间多维索引方法

    公开(公告)号:CN106095951B

    公开(公告)日:2019-04-23

    申请号:CN201610422994.5

    申请日:2016-06-13

    Abstract: 基于负载均衡和查询日志的数据空间多维索引方法,涉及数据空间索引技术领域。旨在把倒排索引分布到不同的索引节点中,使得各个索引节点保持负载均衡,同时最小化查询处理涉及的通信开销和减少搜索空间。在垂直划分中,首先利用查询日志和实体中频繁出现的词,聚合索引token词,使用超图表示用户查询与倒排列表间的访问模式;在水平划分中,通过超图刻画用户查询与实体间的访问模式信息,把水平划分问题归约为超图划分问题,使得不同索引节点的负载保持均衡,并降低查询涉及的通信开销。结合垂直划分和水平划分策略,构建二维混合索引并扩展为三维索引。通过在公开数据集DBLP上进行实验表明本发明方法在吞吐量、查询响应时间及扩展性优于已有方法。

    一种基于电路图元素隐喻的主题演化可视化方法

    公开(公告)号:CN106227911B

    公开(公告)日:2019-08-06

    申请号:CN201610487736.5

    申请日:2016-06-28

    Abstract: 本发明属于数据可视化分析领域,具体涉及一种基于电路图元素隐喻的主题演化可视化方法。包括:数据预处理,对文本数据进行预处理,进行分词、去停词操作,将文本集合处理成词库;采用LDA算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点信息;以焊盘图标隐喻主题中的词,即词盘,词盘采用空心饼图形式表示,表示在此时间段内此词所处的地理分布比例等。该方法主要能够展示主题的内容、主题的强度随时间的变化及主题与主题间的演化关系以方便用户对主题的演化过程进行分析,还可展示各时段内同一主题强度的地理分布。

    一种LDA并行优化方法
    4.
    发明公开

    公开(公告)号:CN107168944A

    公开(公告)日:2017-09-15

    申请号:CN201710237926.6

    申请日:2017-04-13

    CPC classification number: G06F17/2715 G06F17/277

    Abstract: 本发明提供的是一种LDA并行优化方法。主要包括CO‑PLDA并行优化算法和基于高斯函数的词加权方法。通过采用齐普夫定律的通信优化策略和一种改进的词权重计算方法,在文本表示精度不受影响的前提下,提高文本的表示效率。本发明中提出的CO‑PLDA模型的计算时间和通信时间都要优于AD‑LDA,其中CO‑PLDA模型的通信开销约为AD‑LDA的20%,计算时间约为AD‑LDA的70%左右。可见,CO‑PLDA在不失文本表示精度的前提下,有效地提高了模型的文本表示效率,降低了模型并行的通信开销,同时也适当降低了模型的计算时间。通过实验证明了CO‑PLDA算法文本表示效果要比AD‑LDA更好。

    基于负载均衡和查询日志的数据空间多维索引方法

    公开(公告)号:CN106095951A

    公开(公告)日:2016-11-09

    申请号:CN201610422994.5

    申请日:2016-06-13

    CPC classification number: G06F17/30333

    Abstract: 基于负载均衡和查询日志的数据空间多维索引方法,涉及数据空间索引技术领域。旨在把倒排索引分布到不同的索引节点中,使得各个索引节点保持负载均衡,同时最小化查询处理涉及的通信开销和减少搜索空间。在垂直划分中,首先利用查询日志和实体中频繁出现的词,聚合索引token词,使用超图表示用户查询与倒排列表间的访问模式;在水平划分中,通过超图刻画用户查询与实体间的访问模式信息,把水平划分问题归约为超图划分问题,使得不同索引节点的负载保持均衡,并降低查询涉及的通信开销。结合垂直划分和水平划分策略,构建二维混合索引并扩展为三维索引。通过在公开数据集DBLP上进行实验表明本发明方法在吞吐量、查询响应时间及扩展性优于已有方法。

    一种关系数据库中基于主题类簇单元的关键词查询方法

    公开(公告)号:CN105975488A

    公开(公告)日:2016-09-28

    申请号:CN201610264735.4

    申请日:2016-04-25

    CPC classification number: G06F16/285 G06F16/2471

    Abstract: 一种关系数据库中基于主题类簇单元的关键词查询方法,涉及信息检索领域,尤其涉及一种关系数据库中基于主题类簇单元的关键词查询方法。本发明要为解决现有关键词在线查询方法存在查询过程中频繁的表连接所带来巨大时间开销的问题,而现有关键词离线查询方法对于内部结构复杂、数据量庞大的大规模数据库上的查询存在查询效率低的问题。一种关系数据库中基于主题类簇单元的关键词查询方法按以下步骤进行:1、主题类簇单元构建过程;①、基于数据表特性和查询日志垂直分组;②、提出主题类簇中表连接顺序优化方案;③、基于主题类簇元组关联图水平分组;2、建立基于关联规则的索引优化机制;3、将查询结果返回给用户。本发明应用于信息检索领域。

    基于卷积神经网络的水下目标特征提取方法

    公开(公告)号:CN107194404B

    公开(公告)日:2021-04-20

    申请号:CN201710237910.5

    申请日:2017-04-13

    Abstract: 本发明提供的是一种基于卷积神经网络的水下目标特征提取方法。1、将原始辐射噪声信号的采样序列,分成25个连续部分,每个部分再设置25个采样点;2、将第j段数据信号的采样样本做归一化和中心化处理;进行短时傅里叶变换得到LoFAR图;4、将向量赋值到已有3维张量中;5、将得到特征向量输入到全连接层进行分类并计算与标签数据的误差,检查损失误差是否低于误差阈值,若低于则停止网络训练,否则进入步骤6;6、使用梯度下降方法对网络从后向前逐层进行参数调整,并转入步骤2。本发明方法的识别率与传统卷积神经网络算法相比,对特征图层进行了空间信息多维度的加权操作,来弥补因全连接层的一维向量化所带来的空间信息丢失的缺陷。

    面向数据空间的实体分类方法

    公开(公告)号:CN106067029B

    公开(公告)日:2019-06-18

    申请号:CN201610348890.4

    申请日:2016-05-24

    Abstract: 面向数据空间的实体分类方法,属于自然语言处理领域。演化环境下,存在无法通过假设实体为静止状态,而对实体进行分类的问题。一种面向数据空间的实体分类方法,首先,针对演化的数据空间实体,提出改进的、演化的K‑Means聚类框架,即定义基于轮廓值和KL‑散度的目标代价函数;其次,设计了一种新颖的数据空间实体相似性度量方法;然后,根据启发式规则,提出演化的K‑Means聚类算法。此外,进一步扩展本章提出的演化聚类框架,以处理簇数量随时间发生变化或者快照实体随时间加入或移除的情况。本发明不仅能高质量地捕获当前实体聚类结果,还能健壮地反映历史聚簇情况。

    基于图划分策略的数据库模式抽象方法

    公开(公告)号:CN105956012B

    公开(公告)日:2019-04-23

    申请号:CN201610251897.4

    申请日:2016-04-21

    Abstract: 基于图划分策略的数据库模式抽象方法,本发明涉及数据库模式抽象方法。本发明是要解决忽略了表与表之间的结构紧密性、用户查询偏好信息以及现有方法对模式抽象结果中主题类簇的个数无法做出准确预测的问题,而提出的基于图划分策略的数据库模式抽象方法。该方法是通过一、构建关系数据库的拓扑紧密性矩阵T;二、计算得到表间相似性矩阵ADB;三、得到最终的数据表ti和数据表tj间的相似性计算结果;四、得到最终的表重要性度量结果;五、利用类簇代表检测算法得到结果集合R;六、将数据表ti和数据表tj划分到主题类簇等步骤实现的。本发明应用于数据库模式抽象领域。

Patent Agency Ranking