-
公开(公告)号:CN109408563A
公开(公告)日:2019-03-01
申请号:CN201811320172.1
申请日:2018-11-07
Applicant: 哈尔滨工业大学(深圳) , 腾讯科技(深圳)有限公司
IPC: G06F16/2458
Abstract: 本申请公开了一种高平均效用项集挖掘方法、装置及计算机设备,在该方法中,如果累计插入数据库的所有事务的总效用值小于效用安全值,则确定当前数据库中尚未被挖掘处理的数据集合所包含的各个1-项集的平均效用列表,并获取存储的原始数据库中具备项集扩展条件的至少一个1-项集的平均效用列表;依据数据集合中各个1-项集的平均效用列表和该原始数据库中具备项集扩展条件的至少一个1-项集的平均效用列表,确定该数据库中的高平均效用项集。本申请的方案可以降低从数据库中挖掘数据所需耗费的计算资源。
-
公开(公告)号:CN108009180A
公开(公告)日:2018-05-08
申请号:CN201610969804.1
申请日:2016-10-28
Applicant: 哈尔滨工业大学深圳研究生院 , 腾讯科技(深圳)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30
Abstract: 本发明实施例提供的高质量模式项集挖掘方法包括:确定待处理项集在事务数据库中的支持度以及所述待处理项集的权重占有度;若所述待处理项集在事物数据库中的支持度不小于预定的最低支持度阈值与所述事务数据库中总事务数量的乘积,且所述待处理项集的权重占有度不小于预定的最小权重占有阈值,则确定所述待处理项集为高质量模式项集。本发明实施例可实现数据项相关的高质量模式项集的挖掘,提升高质量模式项集的挖掘结果的精准性。
-
公开(公告)号:CN107870939A
公开(公告)日:2018-04-03
申请号:CN201610856770.5
申请日:2016-09-27
Applicant: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学深圳研究生院
IPC: G06F17/30
CPC classification number: G06F17/30539
Abstract: 本申请公开了一种模式挖掘方法及装置,针对获取的候选模式集合,计算其在各事务中的效用值,对于效用值小于设定的效用阀值的事务进行删除,该部分事务的模式效用值过小,删除后可以减少挖掘计算时间,并根据删除后剩余的目标事务的时间属性,确定候选模式的周期值,在该周期值小于等于设定的周期阀值时,将候选模式确定为挖掘结果,保证了挖掘得到的模式的效用值在时间上分布均匀,更加便于精确决策。
-
公开(公告)号:CN107870936A
公开(公告)日:2018-04-03
申请号:CN201610854714.8
申请日:2016-09-27
Applicant: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学深圳研究生院
IPC: G06F17/30
CPC classification number: G06F17/30522 , G06F2216/03
Abstract: 本发明实施例提供一种数据项相关的高效用项集挖掘方法、装置及数据处理设备,该方法包括:确定待处理项集在事务数据库中的支持度,及所述待处理项集的各数据项在所述事务数据库中的支持度;根据所述待处理项集在事务数据库中的支持度,及所述待处理项集的各数据项在所述事务数据库中的支持度,确定所述待处理项集的项集相关度;确定所述待处理项集的项集效用值;若所述待处理项集的项集效用值不小于设定的最低效用阈值,且所述待处理项集的项集相关度不小于预定的最低相关度阈值,则确定所述待处理项集为数据项相关的高效用项集。本发明实施例可实现数据项相关的高效用项集的挖掘,提升高效用项集的挖掘结果的精准性。
-
公开(公告)号:CN107870913A
公开(公告)日:2018-04-03
申请号:CN201610847309.3
申请日:2016-09-23
Applicant: 腾讯科技(深圳)有限公司 , 哈尔滨工业大学深圳研究生院
IPC: G06F17/30
CPC classification number: G06F17/30 , G06F17/30539
Abstract: 本发明实施例提供一种有效时间的高期望权重项集挖掘方法、装置及处理设备,该方法包括:确定待处理项集所对应的至少一个目标事务;确定所述待处理项集在不确定数据库中的时间有效值;确定所述待处理项集的期望支持度;将所述待处理项集的期望支持度,和所述待处理项集的项集权重值相乘,确定所述待处理项集的期望权重支持度;如果所述待处理项集在不确定数据库中的时间有效值不小于,预定义的最低时间有效阈值,且所述待处理项集的期望权重支持度,不小于,预定义的最低期望权重阈值和不确定数据库中事务总数的乘积,则确定所述待处理项集为有效时间的高期望权重项集。本发明实施例实现了不确定数据库中有效时间的高期望权重项集的挖掘。
-
公开(公告)号:CN106033424A
公开(公告)日:2016-10-19
申请号:CN201510106336.0
申请日:2015-03-11
Applicant: 哈尔滨工业大学深圳研究生院 , 深圳市腾讯计算机系统有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据挖掘方法和装置,属于数据挖掘领域。方法包括:扫描事务数据库,得到多个事务以及至少一个项目;获取多个候选项集;对于每个候选项集,根据候选项集中每个项目的权重以及包括候选项集的指定事务的数目,计算候选项集的加权支持度;根据每个指定事务的发生时间,计算候选项集的时效值;判断候选项集的时效值是否大于第一阈值,以及加权支持度是否大于第二阈值;当时效值大于第一阈值且加权支持度大于第二阈值时,将候选项集确定为近期高权重频繁项集。本发明考虑到项集的时效性因素,降低了出现干扰的可能性,且挖掘出的近期高权重频繁项集中的项目之间的关联规则可以准确体现近期的关联规则,提高了准确性和实用性。
-
公开(公告)号:CN110413660A
公开(公告)日:2019-11-05
申请号:CN201910692049.0
申请日:2019-07-26
Applicant: 哈尔滨工业大学(深圳) , 腾讯科技(深圳)有限公司
IPC: G06F16/2458
Abstract: 本公开提供了一种挖掘全局高效用项集的方法、装置及计算机可读存储介质。该方法包括:分别挖掘至少两个数据源中的每个数据源中的第一类高效用项集和第二类高效用项集;根据所挖掘的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集;以及从所述候选的全局高效用项集中挖掘全局高效用项集。
-
公开(公告)号:CN110162749A
公开(公告)日:2019-08-23
申请号:CN201811231847.5
申请日:2018-10-22
Applicant: 哈尔滨工业大学(深圳) , 腾讯科技(深圳)有限公司
Abstract: 本发明实施例提供一种信息提取方法、装置、计算机设备及计算机存储介质,该方法包括:在字符级编码器层中,根据待提取文本的字符级信息,进行从所述字符级信息到字符特征向量、以及从所述字符特征向量到词级特征向量序列的编码;在词级编码器层中,进行从所述词级特征向量序列对应的词级信息到词特征向量,以及从所述词特征向量到片段特征向量序列的编码;在条件随机场层中接收所述片段特征向量序列并标注语义标签,确定满足概率条件的所述语义标签。
-
公开(公告)号:CN109240984A
公开(公告)日:2019-01-18
申请号:CN201811142518.3
申请日:2018-09-28
Applicant: 哈尔滨工业大学(深圳) , 腾讯科技(深圳)有限公司
Abstract: 本申请涉及一种数据处理方法、装置、计算机设备及存储介质,该方法包括:从数据库中筛选出包括敏感项集的敏感事务;在所述敏感事务中取不同的组合,得到敏感事务组合;获取多目标函数;所述多目标函数中的各子目标函数,分别用于表示在删除数据库中的事务后所产生的各负面影响的负面影响程度;从所述敏感事务组合中,筛选出分别属于多目标函数的最优解集中各最优解的一个或多个敏感事务组合;属于最优解的敏感事务组合,用于在数据库中被删除后使所述多目标函数所表示的全局负面影响程度最小;当从所述最优解集中确定出最终最优解时,在数据库中删除属于所述最终最优解的敏感事务组合中的各敏感事务。本申请的方案,降低了清洗数据库带来的负面影响。
-
公开(公告)号:CN108733705A
公开(公告)日:2018-11-02
申请号:CN201710261885.4
申请日:2017-04-20
Applicant: 哈尔滨工业大学深圳研究生院 , 腾讯科技(深圳)有限公司
IPC: G06F17/30
Abstract: 本申请公开了一种高效用序列模式挖掘方法及装置,根据序列数据库中包含的各事务,获取满足设定条件的候选序列模式集合;针对每一所述候选序列模式,确定所述候选序列模式在所述序列数据库中的效用值;将所述效用值不低于自身所对应的效用阀值的候选序列模式,确定为挖掘结果,其中,候选序列模式对应的效用阀值为该候选序列模式所包含各项目中,效用阀值最低的项目的效用阀值,序列数据库中每一项目的效用阀值由用户预先设定。本申请可以由用户根据需要对不同项目设置不同的效用阀值,基于此从序列数据库中挖掘效用值不低于自身对应的效用阀值的序列模式,在挖掘高效用模式的基础上,能够实现个性化挖掘,满足不同应用场景的需求。
-
-
-
-
-
-
-
-
-