垃圾短信中的关键词自动学习及更新方法

    公开(公告)号:CN101184259A

    公开(公告)日:2008-05-21

    申请号:CN200710156474.5

    申请日:2007-11-01

    Applicant: 浙江大学

    Inventor: 徐从富 刘菊新

    Abstract: 本发明公开了一种垃圾短信中的关键词自动学习及更新方法,其步骤为:(1)在线过滤系统根据黑白名单和短信特征进行过滤(2)离线系统对一定周期内的实时短信进行短信文本预处理,并将其转化为短语向量;(3)采用支持向量机(SVM)对短信向量进行高准确率的离线分类;(4)针对分类结果,对特征进行统计分析,选择关键词并计算概率信息;(5)通过接口将结果反馈给垃圾短信在线过滤系统。本发明可根据垃圾短信的不断变化自动学习关键词,在此基础上,实时更新关键词列表,以达到自适应过滤垃圾短信的目的。

    基于支持向量机的垃圾邮件过滤方法

    公开(公告)号:CN101106539A

    公开(公告)日:2008-01-16

    申请号:CN200710069593.7

    申请日:2007-08-03

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于支持向量机的垃圾邮件过滤方法,其步骤如下:1)对邮件进行解析,提取标题、文本和字符集相关信息;2)对提取的文本信息内容进行分词;3)统计邮件中的词频,利用TF-IDF公式将邮件文本映射成向量;4)利用LibSVM对邮件样本进行训练得到支持向量机模型;5)利用支持向量机模型对新的邮件进行分类,得到邮件是否为垃圾邮件的概率值;6)利用阈值调整来保证正常邮件被误判为垃圾邮件的比率维持在较低的水平,并最终判定邮件是否为垃圾邮件。本发明利用了支持向量机所具有的单模型分类准确率最高的优点,综合利用了文本特征和行为特征,提高了垃圾邮件过滤的准确率,同时,还有效解决了垃圾邮件过滤时所面临的误判代价不对等问题。

    基于Base64编码的中文文本分类方法

    公开(公告)号:CN102081667A

    公开(公告)日:2011-06-01

    申请号:CN201110024335.3

    申请日:2011-01-23

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于Base64编码的中文文本预处理方法。其步骤如下:1)使用Base64编码预处理中文文本,将文本转化为字符串文本;2)使用4-gram对转换后的字符串文本分词,提取文本特征项;3)利用IG筛选文本特征项,生成特征空间;4)统计文本特征项的词频,使用词频表示特征项的权重,将中文文本表示成特征向量;5)利用LIBLINEAR工具箱训练SVM分类器,得到SVM分类模型,对中文文本进行分类,判断文本所属的类别。本发明使用Base64编码中文文本、4-gram提取文本特征项,解决了中文文本分类在进行中文分词时引起的耗时、分词准确率不高的问题;同时,使用IG进行特征选择,采用词频表示文本特征可以有效提高中文文本分类的准确率和效率。

    基于分布式隐私保护数据挖掘的企业信用评估方法

    公开(公告)号:CN1804886A

    公开(公告)日:2006-07-19

    申请号:CN200610049245.9

    申请日:2006-01-24

    Abstract: 本发明公开了一种基于分布式隐私保护数据挖掘的企业信用评估方法,它的步骤如下:1)利用智能Agent以及P2P和Grid技术构建适合多个部门需要的大规模分布式数据挖掘架构;2)通过安全多方计算和密码学技术使得各部门能够通过分布式网络来协同挖掘隐私保护数据;3)通过隐私保护数据挖掘所产生的挖掘知识辅助企业信用评估。本发明利用了分布式数据挖掘技术,强调用户隐私保护,明确给出了利用保护用户隐私的数据挖掘方法以辅助实现企业信用评估,促进了数据的共享,解决了评价过程中所依据知识的数据来源单一以及在数据挖掘过程中缺少数据隐私保护机制的问题。因此,本发明的方法不仅可操作性强,而且在实现上具有较高的准确性和安全性。

    一种基于注意力网络的会话感知推荐方法、装置和介质

    公开(公告)号:CN117556142A

    公开(公告)日:2024-02-13

    申请号:CN202311561975.7

    申请日:2023-11-22

    Applicant: 浙江大学

    Inventor: 徐从富 喻哲超

    Abstract: 本发明公开了一种基于注意力网络的会话感知推荐方法、装置和介质,该方法首先通过基于自注意力网络的会话层表示学习模块,从用户的历史交互记录中捕捉用户在每个会话期间的偏好;再通过用户个性化注意力模块获取用户的全局偏好;然后通过基于门控神经网络的偏好相关性门控模块获取平衡得分,并根据该平衡得分获取用户喜好的最终表示;最后计算用户侧得分和会话侧得分,获取用户物品偏好得分,并进行排序,最终生成个性化推荐。本发明能够充分利用用户历史交互记录中隐含的长期偏好及短期偏好,并利用物品之间的隐式关系生成推荐;对会话感知情景有较高的可扩展性,可根据应用需求调整候选情景集合;能够有效提高推荐的准确度和个性化程度。

    基于内容的大规模垃圾短信实时过滤方法

    公开(公告)号:CN101257671A

    公开(公告)日:2008-09-03

    申请号:CN200710069930.2

    申请日:2007-07-06

    Applicant: 浙江大学

    Inventor: 徐从富 陆冠中

    Abstract: 本发明公开了一种基于内容的大规模垃圾短信实时过滤方法,其步骤如下:1)利用黑名单和白名单两个过滤模块进行预过滤;2)利用基于频率的过滤模块进行在线过滤;3)采用两次散列的方法对短信内容进行快速过滤;4)对“嫌疑短信”进行短信文本预处理,并将其转化为短语向量;5)采用朴素贝叶斯和支持向量机两种分类器相结合的方法对“嫌疑短信”进行判定。本发明可大幅度提高垃圾短信的过滤速度,并有效降低传统的关键字过滤方法所产生的误判率;可有效解决短时间内恶意群发垃圾短信的问题;可有效地避免将正常短信误作垃圾短信的情况发生,降低代价敏感的误判问题,并且从语义上分析短信内容,有效提高整个系统的过滤准确率。

    基于图片编码的垃圾图片过滤方法

    公开(公告)号:CN101794378B

    公开(公告)日:2012-02-29

    申请号:CN201010104138.8

    申请日:2010-01-26

    Applicant: 浙江大学

    Inventor: 徐从富 陈雅芳

    Abstract: 本发明公开了一种基于图片编码的垃圾图片过滤方法。其步骤如下:1)使用Base64对垃圾图片进行编码,将图片转换为图片文本;2)通过N-gram对编码后的图片文本分词,提取图片特征;3)根据分词得到的图片特征信息,利用Binary Feature将图片表示成Boolean形式的特征向量;4)利用LIBLINEAR工具包训练SVM分类器,对垃圾图片进行分类,判断图片是否为垃圾图片。本发明采用的Base64编码是一种常用的网络数据传输编码格式,能够很方便、快速地将图片等多媒体数据文本化,取代提取图片复杂的内嵌或色彩信息的方法,能更有效地表示图片的特征;同时,根据Binary Feature形式的图片向量通过使用少量参数训练得到的SVM模型,能够在多样本数目和高维数特征的数据集中得到很高的分类准确率。

    基于内容的大规模垃圾短信实时过滤方法

    公开(公告)号:CN101257671B

    公开(公告)日:2010-12-08

    申请号:CN200710069930.2

    申请日:2007-07-06

    Applicant: 浙江大学

    Inventor: 徐从富 陆冠中

    Abstract: 本发明公开了一种基于内容的大规模垃圾短信实时过滤方法,其步骤如下:1)利用黑名单和白名单两个过滤模块进行预过滤;2)利用基于频率的过滤模块进行在线过滤;3)采用两次散列的方法对短信内容进行快速过滤;4)对“嫌疑短信”进行短信文本预处理,并将其转化为短语向量;5)采用朴素贝叶斯和支持向量机两种分类器相结合的方法对“嫌疑短信”进行判定。本发明可大幅度提高垃圾短信的过滤速度,并有效降低传统的关键字过滤方法所产生的误判率;可有效解决短时间内恶意群发垃圾短信的问题;可有效地避免将正常短信误作垃圾短信的情况发生,降低代价敏感的误判问题,并且从语义上分析短信内容,有效提高整个系统的过滤准确率。

    基于图片编码的垃圾图片过滤方法

    公开(公告)号:CN101794378A

    公开(公告)日:2010-08-04

    申请号:CN201010104138.8

    申请日:2010-01-26

    Applicant: 浙江大学

    Inventor: 徐从富 陈雅芳

    Abstract: 本发明公开了一种基于图片编码的垃圾图片过滤方法。其步骤如下:1)使用Base64对垃圾图片进行编码,将图片转换为图片文本;2)通过N-gram对编码后的图片文本分词,提取图片特征;3)根据分词得到的图片特征信息,利用Binary Feature将图片表示成Boolean形式的特征向量;4)利用LIBLINEAR工具包训练SVM分类器,对垃圾图片进行分类,判断图片是否为垃圾图片。本发明采用的Base64编码是一种常用的网络数据传输编码格式,能够很方便、快速地将图片等多媒体数据文本化,取代提取图片复杂的内嵌或色彩信息的方法,能更有效地表示图片的特征;同时,根据Binary Feature形式的图片向量通过使用少量参数训练得到的SVM模型,能够在多样本数目和高维数特征的数据集中得到很高的分类准确率。

Patent Agency Ranking