-
公开(公告)号:CN110008388A
公开(公告)日:2019-07-12
申请号:CN201910238176.3
申请日:2019-03-27
Applicant: 东北大学
IPC: G06F16/906
Abstract: 本发明提供一种基于决策树的流数据分类方法,涉及数据分类技术领域。本发明步骤如下:步骤1:分类器的构建;步骤2:根据初始集成分类模型对待分类数据进行分类,得到分类结果集;当数据容器Wintmp内的数据大小满足滑动窗口大小时对当前的集成分类模型进行更新;步骤3:观察窗口内分类结果集中数据的分布状态,以该状态作为判断概念漂移是否发生的标准,完成概念漂移的检测;步骤4:获取历史数据,统计一天内数据量的增减规律;根据数据量的变化规律,获取预设时间段的数据量。步骤5:根据概念漂移检测结果和预设的数据量,对数据窗口进行扩大或缩小的操作。该方法提高了数据分类的准确率,使数据能够得到及时的处理,提高数据分类的效率。
-
公开(公告)号:CN105677840A
公开(公告)日:2016-06-15
申请号:CN201610005893.8
申请日:2016-01-06
Applicant: 东北大学
IPC: G06F17/30
CPC classification number: G06F17/30333 , G06F17/30584
Abstract: 本发明一种基于多维渐增数据模型的数据查询方法,属于数据查询技术领域,本发明将某些频繁出现的键建立成为集合空间中的维,并根据值(value)在维上进行分段,而对于那些出现次数较少的键定义为平凡键,通过这样的方式,所有的数据都会被组织成一个高维的模型,简称为key-cube(键立方);在查询过程中,符合查询条件的数据会被锁定在相关的cell(单元格)之中,因此查询的范围大大的减小了;其次这个数据模型具有一定的适应性会根据数据中键值对出现的次数从而做出相应的反应;这个key-cube是渐增式的,随着键值中数据的增多,此模型会根据键的频繁程度拓展出新的维,从而形成新的key-cube。
-
公开(公告)号:CN105117442A
公开(公告)日:2015-12-02
申请号:CN201510492377.8
申请日:2015-08-12
Applicant: 东北大学
IPC: G06F17/30
CPC classification number: G06F17/30404 , G06F17/30445 , G06F17/30584
Abstract: 本发明公开一种基于概率的大数据查询方法,属于数据库技术领域。该方法包括:根据数据模型,对具有多个属性的数据集进行划分的步骤;将划分后的数据集按照数据概率放置模型进行装载的步骤;对数据集进行概率查询的步骤。该方法为一种近似完整性的查询方法,通过适当地损失查询完整性来提高数据的查询性能;通过一种基于概率的数据放置模型,实现了数据的概率放置以及数据在各个存储文件存在概率的求解;通过一种启发式数据查询方法,使得数据库系统可以通过查全概率来查询数据;且通过概率计算保证了概率查询的查询误差。
-
公开(公告)号:CN119250200A
公开(公告)日:2025-01-03
申请号:CN202411303551.5
申请日:2024-09-19
Applicant: 东北大学
IPC: G06N5/04 , G06N3/0455 , G06F16/71 , G06F16/783 , G06F40/216 , G06V20/40 , G06V20/62 , G06N5/025 , G06F18/22
Abstract: 本发明属于计算机视觉和自然语言处理技术领域,公开一种基于大模型与检索增强生成技术的视频真伪检测方法及系统。结合视频标题、简介、音频转化得到的文本以及视频描述文本共同构建待检测文本;完成外部知识库构建;基于检索增强生成技术RAG的事实核查;基于大模型的常识推理:构建提示词,利用大模型ChatGLM对待检测文本从常识、逻辑进行推理,检测其是否存在常识谬误、逻辑冲突,并据此对新闻真伪进行判别;根据上述事实核查与常识推理,综合判断待检测视频的真伪。通过大模型和RAG技术的结合,提高了对视频内容真实性检测的准确性、可解释性;提高了检测效率;及时发现并处理虚假新闻视频,有助于维护网络环境的健康和公众信任。
-
公开(公告)号:CN105117442B
公开(公告)日:2018-05-04
申请号:CN201510492377.8
申请日:2015-08-12
Applicant: 东北大学
IPC: G06F17/30
Abstract: 本发明公开一种基于概率的大数据查询方法,属于数据库技术领域。该方法包括:根据数据模型,对具有多个属性的数据集进行划分的步骤;将划分后的数据集按照数据概率放置模型进行装载的步骤;对数据集进行概率查询的步骤。该方法为一种近似完整性的查询方法,通过适当地损失查询完整性来提高数据的查询性能;通过一种基于概率的数据放置模型,实现了数据的概率放置以及数据在各个存储文件存在概率的求解;通过一种启发式数据查询方法,使得数据库系统可以通过查全概率来查询数据;且通过概率计算保证了概率查询的查询误差。
-
公开(公告)号:CN103995869A
公开(公告)日:2014-08-20
申请号:CN201410214776.3
申请日:2014-05-20
Applicant: 东北大学
CPC classification number: G06F17/3048 , G06F17/30321
Abstract: 本发明一种基于Apriori算法的数据缓存方法,对磁盘中条件属性建立查询日志,计算其各数据块的查询频繁度,查询频繁度高的多个数据块形成频繁数据块集合,计算频繁数据块集合中条件属性的查询频繁度,查询频繁度高的多个条件属性形成频繁条件属性集合。利用Apriori算法获得频繁条件属性组集合,查询频繁度映射为Apriori算法中的支持度,得到频繁条件属性组集合,将频繁条件属性组集合对应的数据缓存至内存中,并对频繁条件属性建立索引。本数据缓存方法在频繁区域中能够明显提高数据查询效率,缓存多个条件属性组相比单一条件属性具有更高的查询效率,进而减轻数据库的检索压力,取得了更高的查询效率。
-
公开(公告)号:CN102130955B
公开(公告)日:2013-05-08
申请号:CN201110066547.8
申请日:2011-03-18
Applicant: 东北大学
IPC: H04L29/08
Abstract: 基于协同过滤的组合服务备选服务集生成系统及方法,属于计算机领域,系统包含使用信息整理及模式单元和备选集及初始实例生成单元;方法为A判断,B查找,C形成模式,D计算QoS信息,E输入调用参数,F建立内存结,G得到输入数据量和调用时刻,H填入内存结构中;I匹配,QoS信息存在且连续则返回转P,J不完全属于已存在模式,K查找信息,不存在转N,LQoS为-1,M没有则预测,N没有执行信息则预测QoS;0计算相似度,P进行降序排序,Q计算可靠性,R选择备选服务集,S形成运行实例。本发明使得预测的结果更有针对性,更准确。
-
公开(公告)号:CN116825384A
公开(公告)日:2023-09-29
申请号:CN202310772479.X
申请日:2023-06-28
Applicant: 东北大学
IPC: G16H70/40 , G16H20/10 , G06N3/042 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种基于异构图卷积神经网络预测协同药物组合方法,涉及药物研发技术领域。该方法首先根据疾病药物历史作用数据,构建基于药物、药物组合、疾病的三部图;然后构建基于异构图卷积神经网络的协同药物组合预测模型:对于构建的三部图上的疾病、药物和药物组合节点,应用一个热编码来对三个邻接矩阵进行编码,并分别压缩为密集实值向量,构建异质图;在疾病和药物之间以及疾病和药物组合之间构建传播层进行层次传播,实现在三部图上进行药物层次的传播和药物组合层次的传播;最后构建完全连接层进行协同药物组合的预测;同时,采用困难负样本训练协同药物组合预测模型;最后使用训练好的协同药物组合预测模型进行协同药物组合预测。
-
公开(公告)号:CN104750860B
公开(公告)日:2017-11-10
申请号:CN201510181050.9
申请日:2015-04-16
Applicant: 东北大学
IPC: G06F17/30
Abstract: 一种不确定数据的数据存储方法,该方法在进行不确定数据记录存储时,根据每条记录的不确定情况创建记录级不确定性元组,将记录中包含的所有不确定数据项按属性名称划分,根据属性名称分别创建该属性名称的属性单元,组成属性单元集合,根据属性单元集合中各个属性单元的属性名称创建属性包含单元,为每条记录创建行键,将所有记录的记录级不确定性元组、属性单元集合、属性包含单元与行键整合不确定数据逻辑模型,将不确定数据逻辑模型及对应的数据进行存储,对不确定数据逻辑模型以属性名称为索引项建立属性索引树,根据不确定数据记录间的生成规则创建生成规则矩阵,查询时,根据查询语句的条件属性,利用不确定数据逻辑模型进行查询操作。
-
公开(公告)号:CN103995869B
公开(公告)日:2017-02-22
申请号:CN201410214776.3
申请日:2014-05-20
Applicant: 东北大学
Abstract: 本发明一种基于Apriori算法的数据缓存方法,对磁盘中条件属性建立查询日志,计算其各数据块的查询频繁度,查询频繁度高的多个数据块形成频繁数据块集合,计算频繁数据块集合中条件属性的查询频繁度,查询频繁度高的多个条件属性形成频繁条件属性集合。利用Apriori算法获得频繁条件属性组集合,查询频繁度映射为Apriori算法中的支持度,得到频繁条件属性组集合,将频繁条件属性组集合对应的数据缓存至内存中,并对频繁条件属性建立索引。本数据缓存方法在频繁区域中能够明显提高数据查询效率,缓存多个条件属性组相比单一条件属性具有更高的查询效率,进而减轻数据库的检索压力,取得了更高的查询效率。
-
-
-
-
-
-
-
-
-