-
公开(公告)号:CN107103055B
公开(公告)日:2020-05-12
申请号:CN201710237896.9
申请日:2017-03-29
Applicant: 东北大学
Abstract: 本发明公开一种面向内存更新密集型程序的Hourglass和Piggyback算法,其优秀性能来源于在updater和dumper线程之间的指针交换技术,可以避免大量数据拷贝。它周期性的发生updater和dumper线程的角色交换,可以被周期性无止境的复用,一旦上面的部分为空的时候交换上下角色。可以拥有更少的内存和基本没有抖动的延时效果。其都属于轻量级检查点算法的一种,Hourglass结合了目前最好的两个算法zigzag和pingpong,从而利用两个的优点指针交换和比特位标志。Piggyback算法提高性能通过提供一种全量快照,从而可以支持实时olap和oltp的应用。其具有更小的内存占用、全量快照开销、更小的延时、更均匀的延时的优点。
-
公开(公告)号:CN110908796A
公开(公告)日:2020-03-24
申请号:CN201911067587.7
申请日:2019-11-04
IPC: G06F9/50
Abstract: 本发明公开了一种Gaia系统中的多作业合并与优化系统及方法,属于大数据处理技术领域,解决了Gaia系统中用户作业和用户指定的资源大小方面的不匹配问题。本发明方案为:代理层通过集群交互层与集群进行数据交互。代理层,包括:作业信息采集模块,用于收集用户提交的作业,解析获得作业信息;作业分类模块,用于根据作业信息将作业分类为可合并型作业和不可合并型作业并送入作业缓冲池进行缓冲存储;作业合并模块,用于提取作业缓冲池中的可合并型作业进行合并,得到合并后的作业送入作业优化模块。作业优化模块,用于对合并后的作业进行优化,优化后的作业送入作业缓冲池进行缓冲存储。集群通过集群交互层从作业缓冲池中读取优化后的作业并执行。
-
公开(公告)号:CN110750385A
公开(公告)日:2020-02-04
申请号:CN201911021201.9
申请日:2019-10-25
IPC: G06F11/14 , G06F16/182
Abstract: 本发明公开一种基于受限恢复的图迭代器及方法,属于分布式迭代计算技术领域。该迭代器采用分布式图计算算法的join-GroupBy-Union-aggregation模式将图计算转换操作中的宽依赖转化为窄依赖,并对部分数据进行备份,从而使得只需恢复故障节点而不需要完全将整个计算回退到最近检查点保存的状态;在故障节点恢复时采用所有健康节点来并行恢复,进一步加快了故障恢复的速度;图迭代中在迭代尾部添加检查点的非阻塞检查点模型,加速了检查点的写入速度,并且在尾部检查点添加了迭代感知器,使得仅在当前迭代中的检查点完成后才启动下一个迭代,有助于在迭代图处理期间协调检查点的创建。
-
公开(公告)号:CN106649272B
公开(公告)日:2019-06-25
申请号:CN201611205877.X
申请日:2016-12-23
Applicant: 东北大学
IPC: G06F17/27
Abstract: 一种基于混合模型的命名实体识别方法,包括:预处理;利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;构建由知识库和识别规则库构成的基础词典;利用基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析二次识别结果的F值,更新基础词典;构建基于基础词典和自适应的统计识别模型的混合模型,对待识别语料进行识别,得到待识别语料中的人名实体、地名实体和机构名实体,将识别结果补充到知识库中,更新基础词典,供下一次识别使用。本发明的识别准确率和识别召回率有显著提高。
-
公开(公告)号:CN109740024A
公开(公告)日:2019-05-10
申请号:CN201910014844.4
申请日:2019-01-08
Applicant: 东北大学
IPC: G06F16/901 , G06Q50/00
Abstract: 本发明涉及一种面向大规模时序图影响力最大化问题的解决方法,其采用时序图GT(V,E,TE)来表示将社交网络各个节点的数据抽象为时序图,对节点间的传播概率进行初始化,使其适用于时序图的ICT传播模型,在ICT传播模型的基础上对各个节点进行影响力的计算,依据在步骤3中计算的各个节点的影响力集合解决时序图影响力最大化问题,即寻找大小为k的种子节点集合。采用本方法解决时序图影响力最大化问题,可以快速且高效的解决时序图影响力最大化问题。
-
公开(公告)号:CN109684520A
公开(公告)日:2019-04-26
申请号:CN201910012983.3
申请日:2019-01-07
Applicant: 东北大学
IPC: G06F16/901
Abstract: 本发明涉及一种大规模时序图顶点相似度计算方法,其包括如下步骤:S1、将社交网络各个顶点的数据抽象为时序图;S2、通过随机游走方法和路径融合方法建立树形索引,使用Bootstrap抽样方法估计索引树中每层节点时间差的期望,使用Monte Coral方法计算目标顶点与其他顶点的相似度;S3、根据步骤S2计算出的目标顶点与其他顶点相似度,找出与目标定点最相似的k个顶点。本发明的技术方法,使顶点相似度计算的更加准确,用于推荐系统中能够更加精确的对用户进行推荐。
-
公开(公告)号:CN106598950B
公开(公告)日:2019-02-05
申请号:CN201611205879.9
申请日:2016-12-23
Applicant: 东北大学
Abstract: 一种基于混合层叠模型的命名实体识别方法,包括:预处理;利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;构建由知识库和识别规则库构成基础词典;利用基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析二次识别结果的F值,更新基础词典;构建混合层叠模型,对预处理后的待识别语料逐层进行识别,将当前层识别出的识别结果添加到基础词典中供下一层识别使用,最后得到待识别语料中的人名实体、地名实体和机构名实体。本发明的识别准确率和识别召回率有显著提高。
-
-
公开(公告)号:CN104317801B
公开(公告)日:2017-07-18
申请号:CN201410483041.0
申请日:2014-09-19
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种面向大数据的数据清洗系统及方法,该系统应用层包括数据解析抽取模块、相似连接模块、相似子图聚集模块、实体采样模块、概率计算与实体查询模块,存储层利用Hadoop提供的分布式存储工具HDFS对数据清洗过程中产生的结构化数据记录、相似数据记录对、相似连通子图进行存储,利用Hadoop提供的分布式存储工具HBase对清洗后的结构化数据记录进行存储。该方法包括获取待清洗数据;相似连接;相似子图聚集;实体采样;概率计算与实体查询。本发明是一种面向大数据的数据清洗系统与不确定数据确定化方法,解决了以往的集中式的相似性连接无法适应大规模数据运算的问题,充分利用图以及相关知识创造性的完成大数据清洗,并为海量数据分析提供了数据准备。
-
公开(公告)号:CN106649272A
公开(公告)日:2017-05-10
申请号:CN201611205877.X
申请日:2016-12-23
Applicant: 东北大学
IPC: G06F17/27
CPC classification number: G06F17/278
Abstract: 一种基于混合模型的命名实体识别方法,包括:预处理;利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;构建由知识库和识别规则库构成的基础词典;利用基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析二次识别结果的F值,更新基础词典;构建基于基础词典和自适应的统计识别模型的混合模型,对待识别语料进行识别,得到待识别语料中的人名实体、地名实体和机构名实体,将识别结果补充到知识库中,更新基础词典,供下一次识别使用。本发明的识别准确率和识别召回率有显著提高。
-
-
-
-
-
-
-
-
-