-
公开(公告)号:CN101609450A
公开(公告)日:2009-12-23
申请号:CN200910030709.5
申请日:2009-04-10
Applicant: 南京邮电大学
IPC: G06F17/30
Abstract: 基于训练集网页自动分类方法,分类过程由特征选取,特征权值确定,文本向量比较等方法的结合。基于分类体系的自动分类法主要是根据事先建立好的类别模型即训练集,将待分类文档归入相应类别。随着多媒体技术的发展,网页信息的内容形式也丰富多彩,不仅包括文本信息,还包括很多的结构信息,以及声音、图形、图像等其他形式信息。但是,由于基于文本的网页仍然占有较大的比例,因此基于网页文本分类仍然占主导地位。本方法有可靠的理论支持、良好的可扩展性和准确性,且易于与运营商相关的应用接口对接。