一种子话题挖掘方法
    92.
    发明授权

    公开(公告)号:CN106844416B

    公开(公告)日:2019-11-29

    申请号:CN201611024146.5

    申请日:2016-11-17

    Abstract: 本发明提供一种子话题挖掘方法,包括:1)对语料库中每篇文档的每个词语的主题值进行初始化;2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;3)如果满足停止迭代的条件则根据当前的的主题值信息得出LDA子话题,如果否,则回到步骤2)。本发明能够显著地提升针对专题文章集合的话题挖掘效果。

    一种复杂实体抽取方法、装置、介质及系统

    公开(公告)号:CN110502742A

    公开(公告)日:2019-11-26

    申请号:CN201910625736.0

    申请日:2019-07-11

    Abstract: 本发明涉及一种复杂实体抽取方法,用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,该方法包括:语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;字级别向量生成步骤,用于对该语料进行预训练,生成字向量,并将该字向量输入该字级别迭层膨胀卷积神经网络层,得到字级别向量;自定义特征提取步骤,用于从自由文本中提取所述自定义格式标注的特征;实体抽取步骤,将所述字级别向量进行拼接后,与所述词级别特征输入该词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的抽取。该方法提高了实体抽取的精度和效率。

    基于压缩图的数据存储方法、存储介质、存储装置和服务器

    公开(公告)号:CN110389953A

    公开(公告)日:2019-10-29

    申请号:CN201910508926.4

    申请日:2019-06-12

    Abstract: 本发明涉及一种基于压缩图的数据存储方法、系统和存储介质,该方法包括:步骤100,生成点表逻辑定义,根据该逻辑定义构建点表,并向该点集中插入数据;步骤200,生成边表逻辑定义,根据该逻辑定义构建边表,从所述点表中选择与该边表相关联的点表,并向所述边表中插入数据;步骤300,设置和执行压缩图定义命令,生成所述压缩图的建图逻辑,设置函数获取与所述压缩图定义关联的所述边表,形成边集聚合组,并生成与所述压缩图定义关联的所述点表的代理结构;步骤400,设置和执行压缩图重置命令,根据所述压缩图的建图逻辑构建所述压缩图。本方法降低了多次建图与建多类图的开销,增加了图构建的灵活性与表示性,减少了重复建图的排序工作量。

    一种基于动态代码生成的图计算方法及系统

    公开(公告)号:CN110287378A

    公开(公告)日:2019-09-27

    申请号:CN201910441015.4

    申请日:2019-05-24

    Abstract: 本发明提出一种基于动态代码生成的图计算方法及系统,包括:根据建图请求,构造包含图操作原语的中间图结构,并将中间图结构与图名关联后存入中间图缓存器;根据图算法请求,生成由外部代码字节码构成的图算法结构,发送至图算法缓存器;以执行请求检索中间图缓存器和图算法缓存器,得到待执行中间图结构、待执行图算法结构与参数列表组成的三元组,并在本地代码缓存器中检索三元组,得到本地代码缓存器中的执行对象,以执行得到结果。本发明在本地代码空间中注入生成代码,消除了数据交换的开销;构建了可二次编译的中间图结构,使图数据的访问代码可进行编译优化;同时增加了中间图结构缓存与图算法缓存,规避了图计算的预处理开销。

    基于细粒度匹配信号的文本相关性度量方法和系统

    公开(公告)号:CN109753649A

    公开(公告)日:2019-05-14

    申请号:CN201811466325.3

    申请日:2018-12-03

    Abstract: 本发明涉及一种基于细粒度匹配信号的文本相关性度量方法和系统,包括:获取待语义匹配的两段文本,将该文本中每一个词映射为词向量,根据其中一段文本中每一个词的词向量,与另一段文本中每一个词向量的语义相似度,将所有该语义相似度集合成二维实数矩阵,作为匹配矩阵;将该匹配矩阵中每个元素的语义相似度转换为灰度值,得到灰度图,使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取,得到特征图,该特征图经过全连接网络并通过逻辑斯谛函数处理后,得到0-1之间的一个分数,将该分数作为该两段文本之间的相关性。本发明能够构建细粒度匹配信号,提取多层次的匹配模式。在多种不同任务的实际数据集上的效果突出。

    一种基于流式数据的局部性非聚簇索引方法及系统

    公开(公告)号:CN105335475B

    公开(公告)日:2018-07-10

    申请号:CN201510641703.7

    申请日:2015-09-30

    Abstract: 本发明公开了一种基于流式数据的局部性非聚簇索引方法及系统,该方法包括:实时更新步骤,实时更新哈希索引表哈希索引表中针对所接收到的每条流式数据而产生的索引记录,该索引记录记载了该流式数据中出现的索引键、该索引键首次出现时所对应的主键以及从首次出现到当前最末次出现所覆盖的数据个数;写入步骤,当达到触发条件时,将该哈希索引表中的该索引记录写入索引表中,继续执行该实时更新步骤。本发明极大地缩小了索引表的空间及构建索引表所产生的带宽开销,该索引方法将随机访问与顺序扫描结合起来,有效地利用了流式数据的时间局部特性,更符合存储介质的访问模型,提高了索引数据查询的效率。

    可动态适应的LSM树合并方法及系统

    公开(公告)号:CN105159915B

    公开(公告)日:2018-07-10

    申请号:CN201510419480.X

    申请日:2015-07-16

    Abstract: 本发明适用于文件处理技术领域,提供了一种可动态适应的LSM树合并方法,所述方法包括:将键值区间划分为若干节点,将所述节点组织为树形结构,每个所述节点对应一键值区间,每个所述键值区间包含对应该键值区间范围的文件;根据当前数据的分布动态调整树的形状;当有新写入的文件时,遍历树寻找最适节点放入;对文件进行处理时,对节点内部进行Minor Compact处理,并且只通过叶节点执行Major Compact。本发明还相应的提供一种实现上述方法的可动态适应的LSM树合并系统。借此,本发明可以实现动态适应数据的分布,提高数据合并效率。

Patent Agency Ranking