-
公开(公告)号:CN101594313A
公开(公告)日:2009-12-02
申请号:CN200810044485.9
申请日:2008-05-30
Applicant: 电子科技大学
Abstract: 本发明涉及文本处理技术领域,尤其是一种垃圾邮件的判断、分类、过滤方法及系统。此系统分成两个子系统,包括:潜在语义空间生成子系统和邮件判断、分类、过滤子系统。其中潜在语义空间子系统包括:中文和英文分词模块;词语文档矩阵生成模块、权重计算模块、词语文档矩阵奇异值分解模块、语义空间更新模块。邮件判断、分类、过滤子系统的包括:待判断的邮件中文和英文分词模块、将文本邮件映射到潜在语义空间、语义空间中文档向量之间的相似度计算、根据相似度判断、分类、过滤邮件。使用本发明提供的实施例可以对垃圾邮件进行判断,从而过滤垃圾邮件,并且能够快速、高效的过滤垃圾邮件。
-
公开(公告)号:CN101593277A
公开(公告)日:2009-12-02
申请号:CN200810044487.8
申请日:2008-05-30
Applicant: 电子科技大学
Abstract: 本发明涉及图像处理技术和模式识别算法,公开了一种结合机器学习算法的智能的复杂彩色图像中文本区域自动定位的方法与装置。首先利用一种改进的彩色图像边缘检测算子获取图像的边缘图;其次利用一种新的基于圆形模板的角点检测算法定位图像中的角点并同时获取角点处张角的大小;再次结合各条边缘的角点信息和边缘的其它特征,用一种机器学习算法对边缘进行筛选以过滤掉大量的非文字边缘;最后利用一些形态学算法对筛选后的图像进行处理并形成连通区域,通过霍夫变换获取文本区域的倾斜角以获取文字区域的准确方向,结合一些规则去除虚假文字区域而最终获得真实的文字区域。
-