-
公开(公告)号:CN113448955A
公开(公告)日:2021-09-28
申请号:CN202110999774.X
申请日:2021-08-30
Applicant: 上海观安信息技术股份有限公司
IPC: G06F16/215
Abstract: 本发明公开了一种数据集质量评估方法、装置、计算机设备及存储介质,涉及信息技术领域,主要在于能够提高数据集质量的评估精度和评估效率。其中方法包括:获取数据集中的待评估数据;分别统计所述待评估数据在多个评估维度下的属性特征;基于所述多个评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估维度下的质量评估结果。本发明适用于数据集质量的评估。
-
公开(公告)号:CN110750786B
公开(公告)日:2021-09-14
申请号:CN201911045981.0
申请日:2019-10-30
Applicant: 上海观安信息技术股份有限公司
Abstract: 本发明提供一种账号异常访问敏感数据行为的检测方法及系统,包括以下步骤:S01,获取数据库操作日志;S02,从数据库操作日志中解析SQL语句,生成账号访问数据表的记录;S03,生成各账号类型的访问行为基准向量;S04,生成各账号的访问行为向量;S05,使用相似度算法,输出特定账号和所有非归属账号类型的相似度集合;S06,通过所述相似度集合中的值大小确定异常访问风险水平。本发明的有点在于,将传统监管机制的粒度从数据库下沉到数据表,特别是对于含有敏感数据的表,为企业保护隐形资产和用户隐私提供有效手段;使用历史数据生成基准,避免人为确定阈值的主观性;量化访问风险,输出风险等级,而且余弦相似度的计算简单方便,结果具有可解释性。
-
公开(公告)号:CN110784469B
公开(公告)日:2021-09-03
申请号:CN201911044777.7
申请日:2019-10-30
Applicant: 上海观安信息技术股份有限公司
IPC: H04L29/06
Abstract: 本发明提供了一种通过识别伪造MAC地址识别异常登录的方法,所述方法包括:1)、获取待识别账号对应的MAC地址;2)、利用信息熵算法,获取每一个MAC地址的信息熵;3)、将值小于预设阈值的信息熵对应的MAC地址的集合作为第一异常MAC集合。本发明还提供了一种通过识别伪造MAC地址识别异常登录的系统。应用本发明,可以判断出信息熵较低的MAC地址为异常MAC地址。
-
公开(公告)号:CN112738088A
公开(公告)日:2021-04-30
申请号:CN202011589236.5
申请日:2020-12-28
Applicant: 上海观安信息技术股份有限公司
Abstract: 本发明提供一种基于无监督算法的行为序列异常检测方法,该方法基于企业web系统操作数据,通过用户操作的先后顺序,计算两次操作的时间间隔,根据两次操作的时间间隔是否大于预设阈值,对用户行为序列进行分割,进而训练概率后缀树模型,根据概率后缀树模型输出用户行为序列对应的概率值,将用户对应的概率值作为特征即孤立森林模型的输入,根据模型输出结果判断用户行为是否异常。
-
公开(公告)号:CN112597539A
公开(公告)日:2021-04-02
申请号:CN202011589222.3
申请日:2020-12-28
Applicant: 上海观安信息技术股份有限公司
Abstract: 本发明提供一种基于无监督学习的时间序列异常检测方法,包括:S01.获取服务访问记录,构建用于比较的时间序列;S02.构建时间序列,选择设定的时间段,对用户访问服务的次数做统计,形成时间序列;S03.异常操作时间序列检测,采用局部异常因子算法对步骤S02中的时间序列表做局部异常因子检测,采用动态时间规整距离计算序列间的距离,并根据距离计算局部异常因子;S04.异常操作筛选。本发明通过将DTW距离替代局部异常因子算法中的距离算法来对运营商或类似企业内部服务器访问行为进行异常检测,可以只应用一个模型,在没有对用户进行分类的情况下做时间序列的无监督异常检测,不需要区分类型,不需要根据序列的周期性、季节性等特征管理多个模型。
-
公开(公告)号:CN112465073A
公开(公告)日:2021-03-09
申请号:CN202011536865.1
申请日:2020-12-23
Applicant: 上海观安信息技术股份有限公司
Abstract: 本发明提供一种基于距离的数值分布异常检测方法,属于计算机数据安全技术领域。对于数据组而言,剔重前计算得到的距离为整体数组的每个数据对象的分布情况,体现数据数值分布特点,剔重后计算得到的距离体现数据数值分布的广度。本发明通过分别计算剔重前、剔重后的数值距离,将数组中数值整体分布与数组中数值的集中程度结合,既可以检测低频异常值或者孤立值,同时也可以检测常见的高频行为,可以降低常见单维度异常检测算法的误报。
-
公开(公告)号:CN111754337A
公开(公告)日:2020-10-09
申请号:CN202010610974.7
申请日:2020-06-30
Applicant: 上海观安信息技术股份有限公司
Abstract: 本发明公开了一种信用卡养卡套现团体识别方法及系统,本发明依托于完善的银行、运营商及公安机关数据,使用均值移动聚类算法(MSC)识别出存在信用卡养卡套现的用户及作案人员,并通过知识图谱强大的特征挖掘能力找出与其关联的关键成员、重要成员,从而挖掘出犯罪团伙。本发明为银行及公安部门进行信用卡养卡套现犯罪活动的侦查提供了一个具有指导性和实践性的方案,为打击犯罪活动提供了有力的线索和证据,有利于信用卡行业的健康发展,并能在一定程度上遏制“洗钱”等不法行为的来源。
-
公开(公告)号:CN111753547A
公开(公告)日:2020-10-09
申请号:CN202010610999.7
申请日:2020-06-30
Applicant: 上海观安信息技术股份有限公司
IPC: G06F40/295 , G06F40/216 , G06Q10/10 , G06F16/35 , G06F16/31
Abstract: 本发明公开了一种用于敏感数据泄露检测的关键词提取方法及检测系统,包括对源文本数据进行清洗,去时间、日期,得到目标文档;针对目标文档,采用TF-IDF算法进行关键词提取,得到TF-IDF关键词候选;针对目标文档,进行非中文处理,得到邮箱、URL、IP、手机号、最长公共子串关键词;将得到的TF-IDF关键词候选与邮箱、URL、IP、手机号、最长公共子串关键词进行剔重排序,得到TF-IDF关键词。
-
公开(公告)号:CN111752729A
公开(公告)日:2020-10-09
申请号:CN202010623557.6
申请日:2020-06-30
Applicant: 上海观安信息技术股份有限公司
IPC: G06F9/54 , G06F16/2458 , G06F16/28 , H04L29/08
Abstract: 本发明提供了一种构建三层关联关系模型的方法,包括以下步骤:S1:提取记录用户访问情况的日志,并进行预处理;S2:对HTTP日志提取主体对象,得到HTTP请求,对HTTP请求和SQL日志中的SQL语句进行分解,并对分解后的HTTP请求和SQL语句分别进行匹配,存储匹配后的结构和参数;S3:基于时间顺序为每个HTTP请求结构匹配其后一段时间内发生的所有SQL结构,得到和序列;S4:基于关联规则算法计算得到HTTP请求和SQL语句的关联关系模型。本发明还提供了基于三层关联模型进行三层关系识别的方法。本发明的优点在于:基于时间序列和特征匹配构造关联关系模型;在统计的基础上挖掘请求和SQL的关系,提高识别的准确率;利用构建的模型对新的数据进行识别,时效性和准确性比较高。
-
公开(公告)号:CN111078979A
公开(公告)日:2020-04-28
申请号:CN201911209962.7
申请日:2019-11-29
Applicant: 上海观安信息技术股份有限公司
IPC: G06F16/951 , G06F16/955 , G06F16/958 , G06K9/00 , G06Q50/26 , G06F40/289 , G06F40/284
Abstract: 本发明提供一种基于OCR和文本处理技术识别网贷网站的方法,包括以下步骤:S101,获取待检测网站URL;S102,使用爬虫技术,对待检测网站进行图片爬取,并输出URL图片集;S103,使用OCR技术,对爬取的图片集进行文字提取;104,使用jieba分词技术,对已提取文字进行内容过滤并分词,然后翻译成拼音分词内容;S105,对拼音分词内容,进行网贷关键词匹配,输出对应URL是否为网贷网站。通对网站图片中的文字内容和网贷业务专家建立网贷信息关键词库,使用OCR技术、文本处理技术,实现拼音匹配,完成了系统化的网贷网站识别方法,该方法高效、准确,有效的弥补了该领域技术空缺。
-
-
-
-
-
-
-
-
-