基于变异系数自动确认簇数量的聚类方法、系统及介质

    公开(公告)号:CN109063769A

    公开(公告)日:2018-12-21

    申请号:CN201810864958.3

    申请日:2018-08-01

    Applicant: 济南大学

    CPC classification number: G06K9/6223

    Abstract: 本发明公开了基于变异系数自动确认簇数量的聚类方法、系统及介质,计算数据集中每个数据点的密度值,根据密度值计算密度指数,选择密度指数最大的数据点作为第一个聚类中心;计算每个数据点与当前已有聚类中心之间的最短距离,然后根据最短距离计算每个数据点被选为聚类中心的概率,按照轮盘法预选聚类中心;直至选择出设定个聚类中心,根据选择出的初始聚类中心进行k‑means聚类从而产生相应个数的簇;计算平均簇内变异系数和最小簇间变异系数,然后,计算平均簇内变异系数和最小簇间变异系数的差值,将差值与设定值进行比较,如果差值小于设定值,则将两个簇间变异系数最小的两个簇进行合并;直至差值大于等于设定值,则输出聚类结果。

    一种基于密度和扩展网格的数据流聚类方法

    公开(公告)号:CN107273532A

    公开(公告)日:2017-10-20

    申请号:CN201710509733.1

    申请日:2017-06-28

    Applicant: 济南大学

    CPC classification number: G06F17/30539 G06K9/6223

    Abstract: 本发明涉及一种基于密度和扩展网格的数据流聚类方法,利用Spark并行计算平台,对传统的数据流聚类算法进行了分析和改进,提出了基于密度和扩展网格的数据流聚类算法,改进了人工设置聚类参数的缺陷,可以得到任何形状的聚类,算法基本步骤如下:1、采用每个采样点的局部密度和与其他采样点的距离,确定了网格中的聚类中心数,自动确定聚类中心,避免了初始质心选取不当对聚类结果的影响;2、网格聚类以外的数据点,通过扩展网格,扩展了网格内的聚类,确保了聚类的准确性;3、引入相邻密度估计与网格边界实现网格的合并,节省内存消耗;4、采用衰减因子实时更新网格密度,反应空间数据流的演变过程。

    一种流程对象原始数据时序发现与调整方法

    公开(公告)号:CN104346169B

    公开(公告)日:2017-06-16

    申请号:CN201410542448.6

    申请日:2014-10-14

    Applicant: 济南大学

    Abstract: 本发明公开了一种流程对象原始数据时序发现与调整方法,包括:数据取样步骤,对流程对象各环节测点在时间T内采集到的原始数据集进行抽样,抽取单位时间段内变化量最大的数据片段作为样本数据;时序发现步骤,以任意环节测点为基测点,计算其与其他环节测点间的时间距,从而获得包含所有环节测点时间顺序的时间序列L;时序调整步骤,根据时间序列L对各环节测点原始数据进行时序调整。本发明对原始数据进行抽样、发现时序并调整时序,具有简单、精确、人为干预少的优点,以解决现有流程工业中原始数据错漏较多,无法体现各个环节间的相互影响关系的问题。

    一种流程对象原始数据时序发现与调整方法

    公开(公告)号:CN104346169A

    公开(公告)日:2015-02-11

    申请号:CN201410542448.6

    申请日:2014-10-14

    Applicant: 济南大学

    Abstract: 本发明公开了一种流程对象原始数据时序发现与调整方法,包括:数据取样步骤,对流程对象各环节测点在时间T内采集到的原始数据集进行抽样,抽取单位时间段内变化量最大的数据片段作为样本数据;时序发现步骤,以任意环节测点为基测点,计算其与其他环节测点间的时间距,从而获得包含所有环节测点时间顺序的时间序列L;时序调整步骤,根据时间序列L对各环节测点原始数据进行时序调整。本发明对原始数据进行抽样、发现时序并调整时序,具有简单、精确、人为干预少的优点,以解决现有流程工业中原始数据错漏较多,无法体现各个环节间的相互影响关系的问题。

    基于网址域名的文本分词方法、系统、设备及介质

    公开(公告)号:CN111104801B

    公开(公告)日:2023-09-26

    申请号:CN201911367979.5

    申请日:2019-12-26

    Applicant: 济南大学

    Abstract: 本发明公开了基于网址域名的文本分词方法、系统、设备及介质,包括:数据采集,采集若干个网址域名;对每个网址域名进行分词处理;将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性;根据单词词性进行词形还原;将词形还原后的结果存储到单词库中;将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。

    一种基于大数据分层聚类的棉花生产工艺优化方法

    公开(公告)号:CN109034486B

    公开(公告)日:2022-03-29

    申请号:CN201810884575.2

    申请日:2018-08-06

    Applicant: 济南大学

    Abstract: 本发明提供一种基于大数据分层聚类的棉花生产工艺优化方法,包括如下步骤:对获取的生产监测原始数据进行数据预处理;对经过预处理后的原始数据确定描述参数属性的关键参数;对确定的关键参数进行数值统计得到分布统计属性数值分布分组;根据分布统计中得到的数值分布分组,使样本中各项属性数据分别映射到各属性分组区间中,形成新的数据集;确定优化目标,进行生产工艺参数的优化。结合棉花加工流程工艺分析。可以用于企业对工艺参数的分析调整。从而优化棉花生产、提高棉花质量、维护企业生产安全。

    一种基于知识图谱的社区演化分析方法及装置

    公开(公告)号:CN110019845B

    公开(公告)日:2021-04-09

    申请号:CN201910303799.4

    申请日:2019-04-16

    Applicant: 济南大学

    Abstract: 本公开公开了一种基于知识图谱的社区演化分析方法及装置,该方法包括:调取数据库中某领域特定时间的文献信息,构建待分析关系网络;检测每个时间步的待分析关系网络的社区结构;构建相同无序对比例矩阵计算相似性阈值,根据两个社区的所述相同无序对比例的值与相似性阈值判断两个社区间的相似性;根据社区间的相似性构建社区相似矩阵,进行社区匹配,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列,同时检测社区生命周期中的关键事件,并统计所述关键事件的数量来反映社区的演化状况。

    基于变异系数自动确认簇数量的聚类方法、系统及介质

    公开(公告)号:CN109063769B

    公开(公告)日:2021-04-09

    申请号:CN201810864958.3

    申请日:2018-08-01

    Applicant: 济南大学

    Abstract: 本发明公开了基于变异系数自动确认簇数量的聚类方法、系统及介质,计算数据集中每个数据点的密度值,根据密度值计算密度指数,选择密度指数最大的数据点作为第一个聚类中心;计算每个数据点与当前已有聚类中心之间的最短距离,然后根据最短距离计算每个数据点被选为聚类中心的概率,按照轮盘法预选聚类中心;直至选择出设定个聚类中心,根据选择出的初始聚类中心进行k‑means聚类从而产生相应个数的簇;计算平均簇内变异系数和最小簇间变异系数,然后,计算平均簇内变异系数和最小簇间变异系数的差值,将差值与设定值进行比较,如果差值小于设定值,则将两个簇间变异系数最小的两个簇进行合并;直至差值大于等于设定值,则输出聚类结果。

Patent Agency Ranking