-
公开(公告)号:CN106067029A
公开(公告)日:2016-11-02
申请号:CN201610348890.4
申请日:2016-05-24
Applicant: 哈尔滨工程大学
IPC: G06K9/62
CPC classification number: G06K9/6223 , G06K9/6267
Abstract: 面向数据空间的实体分类方法,属于自然语言处理领域。演化环境下,存在无法通过假设实体为静止状态,而对实体进行分类的问题。一种面向数据空间的实体分类方法,首先,针对演化的数据空间实体,提出改进的、演化的K‑Means聚类框架,即定义基于轮廓值和KL‑散度的目标代价函数;其次,设计了一种新颖的数据空间实体相似性度量方法;然后,根据启发式规则,提出演化的K‑Means聚类算法。此外,进一步扩展本章提出的演化聚类框架,以处理簇数量随时间发生变化或者快照实体随时间加入或移除的情况。本发明不仅能高质量地捕获当前实体聚类结果,还能健壮地反映历史聚簇情况。
-
公开(公告)号:CN106095951A
公开(公告)日:2016-11-09
申请号:CN201610422994.5
申请日:2016-06-13
Applicant: 哈尔滨工程大学
IPC: G06F17/30
CPC classification number: G06F17/30333
Abstract: 基于负载均衡和查询日志的数据空间多维索引方法,涉及数据空间索引技术领域。旨在把倒排索引分布到不同的索引节点中,使得各个索引节点保持负载均衡,同时最小化查询处理涉及的通信开销和减少搜索空间。在垂直划分中,首先利用查询日志和实体中频繁出现的词,聚合索引token词,使用超图表示用户查询与倒排列表间的访问模式;在水平划分中,通过超图刻画用户查询与实体间的访问模式信息,把水平划分问题归约为超图划分问题,使得不同索引节点的负载保持均衡,并降低查询涉及的通信开销。结合垂直划分和水平划分策略,构建二维混合索引并扩展为三维索引。通过在公开数据集DBLP上进行实验表明本发明方法在吞吐量、查询响应时间及扩展性优于已有方法。
-
公开(公告)号:CN106095951B
公开(公告)日:2019-04-23
申请号:CN201610422994.5
申请日:2016-06-13
Applicant: 哈尔滨工程大学
IPC: G06F16/22
Abstract: 基于负载均衡和查询日志的数据空间多维索引方法,涉及数据空间索引技术领域。旨在把倒排索引分布到不同的索引节点中,使得各个索引节点保持负载均衡,同时最小化查询处理涉及的通信开销和减少搜索空间。在垂直划分中,首先利用查询日志和实体中频繁出现的词,聚合索引token词,使用超图表示用户查询与倒排列表间的访问模式;在水平划分中,通过超图刻画用户查询与实体间的访问模式信息,把水平划分问题归约为超图划分问题,使得不同索引节点的负载保持均衡,并降低查询涉及的通信开销。结合垂直划分和水平划分策略,构建二维混合索引并扩展为三维索引。通过在公开数据集DBLP上进行实验表明本发明方法在吞吐量、查询响应时间及扩展性优于已有方法。
-
公开(公告)号:CN103902699A
公开(公告)日:2014-07-02
申请号:CN201410125840.0
申请日:2014-03-31
Applicant: 哈尔滨工程大学
IPC: G06F17/30
CPC classification number: G06F17/30336
Abstract: 本发明涉及一种用于大数据环境下可支持多格式特性的数据空间检索方法。本发明包括:用户输入查询内容;判断用户查询类型;采用前缀扫描方式读取所建立的多级索引;进行链表合并操作;重写查询;遍历多级索引;将逆序压入栈中;首先弹出栈顶中两个元素;读取所建立的多级索引;根据索引链表右连接方案;弹出栈顶元素;输出满足条件的所有元素。本发明的方法由B-树索引和二级索引共同构成多级索引,能够解决主索引在大数据环境下,路径查询索引连接代价过大的问题。
-
公开(公告)号:CN106067029B
公开(公告)日:2019-06-18
申请号:CN201610348890.4
申请日:2016-05-24
Applicant: 哈尔滨工程大学
IPC: G06K9/62
Abstract: 面向数据空间的实体分类方法,属于自然语言处理领域。演化环境下,存在无法通过假设实体为静止状态,而对实体进行分类的问题。一种面向数据空间的实体分类方法,首先,针对演化的数据空间实体,提出改进的、演化的K‑Means聚类框架,即定义基于轮廓值和KL‑散度的目标代价函数;其次,设计了一种新颖的数据空间实体相似性度量方法;然后,根据启发式规则,提出演化的K‑Means聚类算法。此外,进一步扩展本章提出的演化聚类框架,以处理簇数量随时间发生变化或者快照实体随时间加入或移除的情况。本发明不仅能高质量地捕获当前实体聚类结果,还能健壮地反映历史聚簇情况。
-
公开(公告)号:CN103902699B
公开(公告)日:2017-04-12
申请号:CN201410125840.0
申请日:2014-03-31
Applicant: 哈尔滨工程大学
IPC: G06F17/30
Abstract: 本发明涉及一种用于大数据环境下可支持多格式特性的数据空间检索方法。本发明包括:用户输入查询内容;判断用户查询类型;采用前缀扫描方式读取所建立的多级索引;进行链表合并操作;重写查询;遍历多级索引;将逆序压入栈中;首先弹出栈顶中两个元素;读取所建立的多级索引;根据索引链表右连接方案;弹出栈顶元素;输出满足条件的所有元素。本发明的方法由B‑树索引和二级索引共同构成多级索引,能够解决主索引在大数据环境下,路径查询索引连接代价过大的问题。
-
公开(公告)号:CN106021297A
公开(公告)日:2016-10-12
申请号:CN201610289513.8
申请日:2016-05-04
Applicant: 哈尔滨工程大学
IPC: G06F17/30
CPC classification number: G06F17/30908
Abstract: 基于上下文感知和复杂语义关联的数据空间建模方法,本发明涉及数据空间建模方法。本发明的目的是为了解决现有方法存在以下缺陷:1)上下文感知性较弱;2)语义关系表达能力弱;3)语义关联推理能力弱。通过以下技术方案实现的:步骤一、构建一种半结构化图模型,称之为上下文感知的复杂语义关联网络模型COSAN;步骤二、根据上下文感知的复杂语义关联网络模型COSAN表示上下文感知的解释对象;步骤三、根据上下文感知的解释对象得出上下文感知的基本语义关联和复杂多元语义关联;步骤四、根据上下文感知的基本语义关联和复杂多元语义关联得出语义关联推理规则。本发明应用于数据空间建模领域。
-
-
-
-
-
-