-
公开(公告)号:CN108595411B
公开(公告)日:2022-02-01
申请号:CN201810223876.0
申请日:2018-03-19
Applicant: 南京邮电大学
IPC: G06F40/258 , G06F16/35 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种同主题文本集合中多文本摘要获取方法,首先通过对文本进行预处理,包括分词,停用词处理,特征选择,降维等;下一步,利用处理之后的特征词构造空间向量模型,生成距离矩阵;然后在聚类方法中加入样本密度排序的方法,以中心向量为圆心,用向量空间中特征值距离的平均值为半径构造圆,根据圆内排序好的文本内容相似度生成的样本密度来自动确定初始聚类中心,从而自动发现文档集合中的潜在对应的子主题集合的数量;生成对应的子主题集之后,方法对已聚类的子主题文本进行有监督的训练,对句子进行评分,标记,从不同的子主题中抽取中心句作为多文本的摘要,最后,方法输出摘要的内容;提高了多文本摘要的质量。
-
公开(公告)号:CN108595411A
公开(公告)日:2018-09-28
申请号:CN201810223876.0
申请日:2018-03-19
Applicant: 南京邮电大学
IPC: G06F17/27
Abstract: 本发明涉及一种同主题文本集合中多文本摘要获取方法,首先通过对文本进行预处理,包括分词,停用词处理,特征选择,降维等;下一步,利用处理之后的特征词构造空间向量模型,生成距离矩阵;然后在聚类方法中加入样本密度排序的方法,以中心向量为圆心,用向量空间中特征值距离的平均值为半径构造圆,根据圆内排序好的文本内容相似度生成的样本密度来自动确定初始聚类中心,从而自动发现文档集合中的潜在对应的子主题集合的数量;生成对应的子主题集之后,方法对已聚类的子主题文本进行有监督的训练,对句子进行评分,标记,从不同的子主题中抽取中心句作为多文本的摘要,最后,方法输出摘要的内容;提高了多文本摘要的质量。
-
公开(公告)号:CN107169020A
公开(公告)日:2017-09-15
申请号:CN201710224022.X
申请日:2017-04-07
Applicant: 南京邮电大学
Abstract: 本发明涉及一种基于关键字的定向网页采集方法,引入了文本加权算法为关键词设置权重,结合空间向量模型算法计算网页主题相关度,并且利用网页链接结构与主题相关度来评判网页的重要性。根据文本聚类算法将相关主题网页文档聚集在一起,利用朴素贝叶斯算法计算出待抓取的网页属于主题文档的概率。设置适应度函数筛选与主题相关的网页,依据网页的实时抓取情况动态的调整系统模型。本文基于分布式平台,结合开源网络采集架构,利用自适应主题算法实现对主题网页的定向抓取。采用分布式技术实现并行化抓取网页,充分利用各个节点计算资源,提高了网页的抓取速率。
-
-