一种基于Spark平台的不确定数据集频繁项挖掘方法

    公开(公告)号:CN108509531A

    公开(公告)日:2018-09-07

    申请号:CN201810212000.6

    申请日:2018-03-15

    Inventor: 丁家满 杨阳

    Abstract: 本发明涉及一种基于Spark平台的不确定数据集频繁项挖掘方法,属于数据挖掘领域。本发明基于Spark大数据框架,提出了一种新颖的UWPFP-tree结构,并行化处理数据集,且不需要对数据集进行多次扫描,不会产生大量候选集,大大提高了算法的执行效率;同时,通过兼顾不确定数据项的生存概率和权重值,挖掘出更加符合用户需求的频繁项,为不确定数据集频繁项挖掘方法提供了一种新的思路。

    一种APP软件用户评论一致性判断方法

    公开(公告)号:CN105279148B

    公开(公告)日:2018-05-11

    申请号:CN201510673488.9

    申请日:2015-10-19

    Abstract: 本发明涉及一种APP软件用户评论一致性判断方法,属于APP软件用户评价领域。本发明首先提取APP软件特征情感词对集;然后计算提取的APP软件特征情感词对集中情感词对的情感倾向程度得分;最后判断情感倾向程度得分是否存在不等于零的情况来确定APP软件用户评论是否一致。本发明定义并提取APP软件特征情感词对集,有助于更准确的判断用户评论信息与评分星级的一致性;将用户对APP软件的情感倾向程度划分成与评分星级对应的5个等级,以判断APP软件用户评论的一致性,有助于用户选择满足需求的APP软件;通过判断APP软件用户评论的一致性,有助于用户评价APP软件的质量。

    一种基于概率盒模型修正的机械故障诊断方法

    公开(公告)号:CN107609216A

    公开(公告)日:2018-01-19

    申请号:CN201710673714.2

    申请日:2017-08-09

    Abstract: 本发明公开了一种基于概率盒模型修正的机械故障诊断方法,即采集工业过程的故障数据,获取原始概率盒;选择适合的概率盒模型;获取原始DSS;定义工业测试数据的综合附加信息量;提取优化的DSS;获得新的概率盒。本发明针对如何解决工业机械故障诊断过程中概率盒之间的重叠现象,提高概率盒的紧致性,提出的基于概率盒模型修正的机械故障诊断方法,通过概率盒建模方法获得工业测试数据的概率盒模型,以焦元区间的均值和相邻焦元之间数据波动量为附加信息量,利用基于最大熵的贝叶斯方法修正概率盒模型,修正后的模型紧致性得以提高,模型间的重叠现象得以改善,为进一步利用概率盒模型提高机械故障诊断正确识别率提供了更准确的信息。

    一种云计算故障数据检测方法及系统

    公开(公告)号:CN107579846A

    公开(公告)日:2018-01-12

    申请号:CN201710729189.1

    申请日:2017-08-23

    Abstract: 本发明涉及一种云计算故障数据检测方法及系统,属于云故障检测领域。本发明包括:云计算故障训练数据处理步骤,对云计算故障训练数据集中的数据进行处理,得到每条故障训练数据的隶属度、每个故障类别的故障特征权重;待检测云计算数据所属故障类别判断步骤,根据故障训练数据的处理结果并结合云计算故障训练数据集扩充规则判断待检测云计算数据所属类别;云计算故障训练数据集扩充步骤,将满足云计算故障训练数据集扩充规则的待检测云计算数据及其类别信息加入故障训练数据扩充集。本发明有助于完善故障训练数据模型,识别新的故障。

    一种基于本体和推理机制的旅游路线检索方法

    公开(公告)号:CN107545041A

    公开(公告)日:2018-01-05

    申请号:CN201710665668.1

    申请日:2017-08-07

    Abstract: 本发明公开了一种基于本体和推理机制的旅游路线检索方法,属于本体检索领域。本发明首先根据用户的检索条件到旅游本体中进行查询判断;然后针对判断结果运用自定义推理规则挖掘旅游本体中不同实例间关系;最后分析不同实例间关系,运用推理检索旅游路线。本发明将本体应用于旅游领域,能够建立旅游相关概念之间的逻辑关系结构;通过关联处理和推理规则,能够达到扩充本体的目的;运用推理查询,能够得到旅游路线的检索结果。

    一种基于位串的分布式频繁项集在商品关联中应用方法

    公开(公告)号:CN115878693B

    公开(公告)日:2025-03-25

    申请号:CN202211675673.8

    申请日:2022-12-26

    Abstract: 本发明涉及一种基于位串的分布式频繁项集在商品关联中应用方法,属于数据挖掘技术领域。本发明借助传统的FP‑Growth关联规则算法的改进,通过将商品的购物清单转换为位串的组织形式,通过BitwiseOperate方法进行模式生成,最终运行在Spark大数据处理框架中实现了分布式运算。本发明与传统的FP‑Growth算法相比,主要解决了FPGrowth在生成FPTree上的生成时内存过大且分布式较复杂的问题,采用位串的形式节省了内存空间,通过位运算快速生成对应的频繁项集,最终在分布式环境下集成,改进了频繁项集挖掘效率,并将算法应用到实际中的购物商品领域中的分析的,为频繁模式挖掘提供了新的研究思路。

    联邦类别增量学习方法、用户端、服务器及存储介质

    公开(公告)号:CN119168018A

    公开(公告)日:2024-12-20

    申请号:CN202411076690.9

    申请日:2024-08-07

    Abstract: 本申请公开一种联邦类别增量学习方法、用户端、服务器及存储介质,所述方法包括:将服务器发送的条件生成对抗网络模型作为用户端的本地模型,然后分为两个阶段对本地模型进行训练:第一阶段为根据当前任务数据和模拟历史任务数据对本地模型进行训练,第二阶段为根据平衡采样后的目标任务数据和模拟历史任务数据对本地模型进行训练,用户端将训练完毕的本地模型发送至服务器,以使服务器对本地模型进行聚合生成目标全局模型。本申请用户端利用条件生成对抗网络模型针对性生成模拟任务数据,有效缓解了增量学习带来的灾难性遗忘,同时利用两阶段训练降低不平衡数据所带来的分类歧视,能够提升最终生成的目标全局模型的识别准确率。

    一种用于预测蛋白质功能的数据多标签分类方法

    公开(公告)号:CN112365931B

    公开(公告)日:2024-04-09

    申请号:CN202010984625.1

    申请日:2020-09-18

    Inventor: 丁家满 李红磊

    Abstract: 本发明涉及一种用于预测蛋白质功能的数据多标签分类方法,属于生物信息学及数据挖掘技术领域。本发明包括步骤:把蛋白质序列生物数据由字符转换成向量的形式,对高维的向量形式进行降维处理;构建用于进行蛋白质序列生物数据标签分类模型,具体的,采用二元分类器蛋白质序列生物数据进行标签分类;利用构建好的标签分类模型进行预测标签分类。本发明能够高效解决蛋白质标签缺失情况下的功能的预测问题,同时本方法可操作性强,实用性强,不仅在基本蛋白质功能预测问题上表现出了良好性能,也在其他蛋白质功能预测上表现出了良好的性能。

    基于文档重排序的短文档列表交集查询方法

    公开(公告)号:CN117743497A

    公开(公告)日:2024-03-22

    申请号:CN202311751449.7

    申请日:2023-12-19

    Abstract: 本发明涉及一种基于文档重排序的短文档列表交集查询方法,属于数据库和信息检索领域。包括文档重排序步骤,即对文档数据集D中文档按文档长度升序排序,并对排序后的文档重新分配文档ID(docID);索引结构创建步骤,即对预处理后的数据集构建倒排索引I和构建文档长度和docID的映射关系的辅助索引结构LIM;列表交集查询步骤,输入查询的文档q,在索引结构I和LIM上进行查询。本发明提出基于文档长度重排序的长度过滤技术LRF和对应的LRF‑LI方法,通过基于长度的文档重排序过滤掉部分不可能满足交集结果的文档,从而显著降低候选集的数量。

    一种基于维度迭代分割和轮廓系数聚类的用户细分方法

    公开(公告)号:CN116992318A

    公开(公告)日:2023-11-03

    申请号:CN202310919382.7

    申请日:2023-07-25

    Abstract: 本发明涉及一种基于维度迭代分割和改进轮廓系数聚类的用户细分方法,属于聚类分析应用技术领域。本发明将用户的各项基础信息作为特征,首先基于特征排序通过核概率密度函数对数据集进行迭代分割,并对分割中产生的异常值进行处理,得到多个结构紧凑的子簇;其次,将每个子簇作为节点,以子簇间质心距离作为边权重构造完全无向图,通过子簇间邻域交互度缩放边权重,使用Dijkstra算法寻找子簇间最短路径生成距离矩阵,并计算子簇密度得到子簇间密度差矩阵;最后,通过一种改进的轮廓系数度量模型的子簇聚集方法,合并得到最终簇结构,并对异常值采用投票机制进行标记完成聚类。本发明有效提高了用户细分结果的准确率。

Patent Agency Ranking