-
公开(公告)号:CN104281674A
公开(公告)日:2015-01-14
申请号:CN201410512802.0
申请日:2014-09-29
Applicant: 同济大学
IPC: G06F17/30
CPC classification number: G06N99/005 , G06F17/30536 , G06F17/30867 , G06F2216/03 , G06K9/6218 , G06F17/30705
Abstract: 本发明提供一种基于集聚系数的自适应聚类方法,包括:根据已提取出的数据点对的属类和每次提取出的数据点间的关联关系的大小以确定数据点归于哪个属类,属类数目,建立数据点间的关联关系和属类间的关联关系;对每个属类进行预分割,计算两个子类的类内相似度和两个子类的类间相似度,判断预分割的两个子类是否满足分割条件,若是,则接收预分割;若否,则取消预分割;计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度,判断两个属类是否满足合并条件,若是,则合并两个属类生成新的属类;若否,则放弃合并。本发明首次将类中数据点两两之间的关系考虑进来,基于集聚系数计算类内相似程度和类间相似程度,使之更精确地集聚数据。
-
公开(公告)号:CN104281674B
公开(公告)日:2017-07-11
申请号:CN201410512802.0
申请日:2014-09-29
Applicant: 同济大学
IPC: G06F17/30
CPC classification number: G06N99/005 , G06F17/30536 , G06F17/30867 , G06F2216/03 , G06K9/6218
Abstract: 本发明提供一种基于集聚系数的自适应聚类方法,包括:根据已提取出的数据点对的属类和每次提取出的数据点间的关联关系的大小以确定数据点归于哪个属类,属类数目,建立数据点间的关联关系和属类间的关联关系;对每个属类进行预分割,计算两个子类的类内相似度和两个子类的类间相似度,判断预分割的两个子类是否满足分割条件,若是,则接收预分割;若否,则取消预分割;计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度,判断两个属类是否满足合并条件,若是,则合并两个属类生成新的属类;若否,则放弃合并。本发明首次将类中数据点两两之间的关系考虑进来,基于集聚系数计算类内相似程度和类间相似程度,使之更精确地集聚数据。
-
公开(公告)号:CN103744954B
公开(公告)日:2017-02-01
申请号:CN201410003874.2
申请日:2014-01-06
Applicant: 同济大学
IPC: G06F17/30
Abstract: 本发明涉及一种词关联度网络模型的构建方法及其构建器,包括如下步骤:1)在预处理时,整个爬虫网页信息的过程为递归进行;2)将抽取的文本内容作为分词模块的输入;3)获得的TF-IDF值作为类代表性,同时过滤常用词;4)计算每篇文章中每两个词之间的词关联度权重;5)对文本资料库中的每两个词的词元关联度做均值计算。构建器包括五个功能模块:爬虫模块;HTML解析模块;正文文本分词模块;TF-IDF模块;词关联网构建模块;本发明可以对用户需求进行分析,挖掘潜在的信息服务,提供智能交互服务,为用户提供进一步的信息服务。
-
公开(公告)号:CN103744954A
公开(公告)日:2014-04-23
申请号:CN201410003874.2
申请日:2014-01-06
Applicant: 同济大学
IPC: G06F17/30
CPC classification number: G06F17/30705
Abstract: 本发明涉及一种词关联度网络模型的构建方法及其构建器,包括如下步骤:1)在预处理时,整个爬虫网页信息的过程为递归进行;2)将抽取的文本内容作为分词模块的输入;3)获得的TF-IDF值作为类代表性,同时过滤常用词;4)计算每篇文章中每两个词之间的词关联度权重;5)对文本资料库中的每两个词的词元关联度做均值计算。构建器包括五个功能模块:爬虫模块;HTML解析模块;正文文本分词模块;TF-IDF模块;词关联网构建模块;本发明可以对用户需求进行分析,挖掘潜在的信息服务,提供智能交互服务,为用户提供进一步的信息服务。
-
-
-