-
公开(公告)号:CN104375982A
公开(公告)日:2015-02-25
申请号:CN201410564469.8
申请日:2014-10-21
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明涉及一种确定文本视觉相似度的方法,实现步骤如下:(1)计算两个字符串直接的视觉距离;(2)计算两个字符串直接相似度;(3)将以前发邮件记录中的邮件记录最大值与当前电子邮件的最大值作为分类器的特征,来检测特定字符串即电子邮件地址的相似度;(4)将利用随机森林分类器对误发送邮件进行分类训练和检测,以用于检测误发邮件。本发明达到了比传统的检测技术更高的准确率和召回率。
-
公开(公告)号:CN104111983A
公开(公告)日:2014-10-22
申请号:CN201410306336.0
申请日:2014-06-30
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F17/30557
Abstract: 本发明涉及一种开放式的多源数据采集系统及方法,包括用于根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则的任务管理模块;用于加载数据采集接口规则,执行处于激活状态的采集任务,相应的采集任务进行数据源监听并采集数据,将接采集的数据按照统一格式进行封装,并发送给数据存储模块的任务执行模块;用于存储数据输出模块输出的数据的数据存储模块;本发明覆盖了比较全面的数据源采集类型,支持目前通用的数据采集方式,支持数据采集接口的动态扩展和多个数据源的并行采集,当有新的数据源接入时,只需要配置数据采集任务信息,不需要部署采集代理和数据模式转换工具即可轻松实现对新数据源的数据采集。
-
公开(公告)号:CN104111983B
公开(公告)日:2017-12-19
申请号:CN201410306336.0
申请日:2014-06-30
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种开放式的多源数据采集系统及方法,包括用于根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则的任务管理模块;用于加载数据采集接口规则,执行处于激活状态的采集任务,相应的采集任务进行数据源监听并采集数据,将接采集的数据按照统一格式进行封装,并发送给数据存储模块的任务执行模块;用于存储数据输出模块输出的数据的数据存储模块;本发明覆盖了比较全面的数据源采集类型,支持目前通用的数据采集方式,支持数据采集接口的动态扩展和多个数据源的并行采集,当有新的数据源接入时,只需要配置数据采集任务信息,不需要部署采集代理和数据模式转换工具即可轻松实现对新数据源的数据采集。
-
-