-
公开(公告)号:CN106598950A
公开(公告)日:2017-04-26
申请号:CN201611205879.9
申请日:2016-12-23
Applicant: 东北大学
CPC classification number: G06F17/278 , G06N7/005
Abstract: 一种基于混合层叠模型的命名实体识别方法,包括:预处理;利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;构建由知识库和识别规则库构成基础词典;利用基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析二次识别结果的F值,更新基础词典;构建混合层叠模型,对预处理后的待识别语料逐层进行识别,将当前层识别出的识别结果添加到基础词典中供下一层识别使用,最后得到待识别语料中的人名实体、地名实体和机构名实体。本发明的识别准确率和识别召回率有显著提高。
-
-
公开(公告)号:CN105046107A
公开(公告)日:2015-11-11
申请号:CN201510555372.5
申请日:2015-08-28
Applicant: 东北大学
IPC: G06F19/18
Abstract: 本发明公开了一种限定性模体的发现方法,涉及生物信息领域,包括以下步骤:1)构建字典表,所构述字典表用于存储指定模式P的模式实例;2)在字典表中以字典顺序列出指定模式P的所有实例集合I={I1…IN},其中,Ii为模体实例;3)对每个模体实例Ii与待检测的核苷酸序列进行比较验证,若第i个实例满足只出现在待检测的核苷酸正例序列集合中,而不出现在反例序列集合中,则该实例作为最终满足条件的模体输出。本发明以简单的方法解决了限定性模体发现问题,最后的实验证明,在合理的时间内,倒排索引算法总是可以找到所有满足条件的模体,从而保证了算法的有效性。
-
公开(公告)号:CN104317801A
公开(公告)日:2015-01-28
申请号:CN201410483041.0
申请日:2014-09-19
Applicant: 东北大学
IPC: G06F17/30
CPC classification number: G06F17/30303
Abstract: 一种面向大数据的数据清洗系统及方法,该系统应用层包括数据解析抽取模块、相似连接模块、相似子图聚集模块、实体采样模块、概率计算与实体查询模块,存储层利用Hadoop提供的分布式存储工具HDFS对数据清洗过程中产生的结构化数据记录、相似数据记录对、相似连通子图进行存储,利用Hadoop提供的分布式存储工具HBase对清洗后的结构化数据记录进行存储。该方法包括获取待清洗数据;相似连接;相似子图聚集;实体采样;概率计算与实体查询。本发明是一种面向大数据的数据清洗系统与不确定数据确定化方法,解决了以往的集中式的相似性连接无法适应大规模数据运算的问题,充分利用图以及相关知识创造性的完成大数据清洗,并为海量数据分析提供了数据准备。
-
公开(公告)号:CN104298598A
公开(公告)日:2015-01-21
申请号:CN201410544602.3
申请日:2014-10-01
Applicant: 东北大学
IPC: G06F11/36
Abstract: 本发明公开了一种分布式环境下RDFS本体的调试方法,本发明首先运用字典编码技术对RDFS本体数据进行压缩处理,降低了数据的存储空间,同时加快了本体推理及调试的速度;之后实现了基于并行分布式计算框架Spark的RDFS本体推理算法,并将推理后的本体调试信息压缩后,存储在HBase分布式数据库中,为本体调试阶段的调试信息查询做准备;本发明实现了基于Spark框架的分布式增量存储更新算法;为了能在分布式环境下求取蕴含辩解,本发明对以往的方法进行了改进,并实现了两种蕴含辩解求取方法。
-
公开(公告)号:CN103413054A
公开(公告)日:2013-11-27
申请号:CN201310368605.1
申请日:2013-08-20
Applicant: 东北大学
IPC: G06F19/00
Abstract: 本发明一种基于用户计算机交互事件的网瘾检测装置及方法,属于数据挖掘领域,本发明通过人们常用的上网工具,采集可量化的人机交互操作数据,并利用这些数据计算分析用户上网行为,从而检测出用户是否罹患网瘾,并对该上网工具进行有效控制;本专利检测网瘾的正确率可高达85%以上,有效避免了现有检测方法的失误,提高检测的准确度;本发明还可降低检测成本,用户可随时进行检测,对于中小学生应用价值高,有效预防并控制网瘾行为,减少网瘾伤害。
-
公开(公告)号:CN102063486B
公开(公告)日:2013-06-05
申请号:CN201010611355.6
申请日:2010-12-28
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种面向多维数据管理的云计算平台查询处理方法,属于数据库领域,该方法包括以下步骤:步骤1构建一个云计算平台,该平台由主节点和若干从属节点组成,主节点用于发送查询,从属节点用于存储多维数据对象、接收查询并将查询结果返回给用户,主节点和从属节点由互联网连接;步骤2采用IDBC算法将所有从属节点划分成多个簇,使得在相同簇中的从属节点含有相似的数据对象;步骤3为每个从属节点簇构建基于四叉树的多维索引,并将其组织在一个CAN覆盖网络中;步骤4进行查询处理。
-
公开(公告)号:CN110764912B
公开(公告)日:2022-09-09
申请号:CN201911021198.0
申请日:2019-10-25
Abstract: 本发明公开一种自适应任务调度器及方法,属于分布式流处理系统负载均衡调度技术领域,该调度器主要包括性能监控数据采集模块、平滑加权轮询任务调度模块以及基于蚁群算法的任务调度模块,采用本发明的自适应任务调度器进行任务调度的方法在任务运行初始阶段,采用平滑加权轮询任务调度算法,根据节点的权重分配任务,在保证选中次数不变的情况下,使得节点不被连续选中;当集群的负载超过设定阈值的时候,为避免拖延任务集合的整体完成时间,使用基于蚁群算法的负载均衡算法在一定的迭代次数内计算出最优的任务分配方案,待集群资源降低到设定阈值下时候,继续采用平滑加权轮询算法。
-
公开(公告)号:CN113626166A
公开(公告)日:2021-11-09
申请号:CN202110890110.X
申请日:2021-08-04
Abstract: 本发明公开了Gaia系统中基于资源反馈的负载均衡任务调度方法及系统,能够提高集群资源利用率,同时减少系统任务的执行时间。该方法可以在集群出现负载不均时,重新分配每个资源节点的任务,提高集群资源利用率的同时减少系统任务的执行时间。该方法通过实现的实时监控系统Monitor来监控资源节点的负载情况,并根据区域划分算法把集群划分为过负载、轻负载、近饱和以及差饱和四个区域,由于过负载区域的机器负载过重而影响整个集群的执行效率,因此用基于人工萤火虫算法的调度策略,把过负载区域中资源节点的任务调度给差饱和区域的资源节点,提高了系统的集群利用率、执行效率以及吞吐量效率。
-
公开(公告)号:CN106909639B
公开(公告)日:2020-09-29
申请号:CN201710083816.9
申请日:2017-02-16
Applicant: 东北大学
IPC: G06F16/22 , G06F16/2457 , G06F16/9537
Abstract: 本发明公开了一种基于Spark的链式多路空间连接查询处理算法,包括如下步骤:步骤1:将整个数据空间划分成许多大小相同的网格单元,并采用Z‑order填充曲线技术对每个网格单元进行编码;步骤2:将m路空间连接数据集中的每个空间对象根据其在数据空间中的位置投影到相应的网格单元;步骤3:如果满足条件i
-
-
-
-
-
-
-
-
-