数据集质量评估方法、装置、计算机设备及存储介质

    公开(公告)号:CN113448955A

    公开(公告)日:2021-09-28

    申请号:CN202110999774.X

    申请日:2021-08-30

    Abstract: 本发明公开了一种数据集质量评估方法、装置、计算机设备及存储介质,涉及信息技术领域,主要在于能够提高数据集质量的评估精度和评估效率。其中方法包括:获取数据集中的待评估数据;分别统计所述待评估数据在多个评估维度下的属性特征;基于所述多个评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估维度下的质量评估结果。本发明适用于数据集质量的评估。

    一种账号异常访问敏感数据行为的检测方法及系统

    公开(公告)号:CN110750786B

    公开(公告)日:2021-09-14

    申请号:CN201911045981.0

    申请日:2019-10-30

    Abstract: 本发明提供一种账号异常访问敏感数据行为的检测方法及系统,包括以下步骤:S01,获取数据库操作日志;S02,从数据库操作日志中解析SQL语句,生成账号访问数据表的记录;S03,生成各账号类型的访问行为基准向量;S04,生成各账号的访问行为向量;S05,使用相似度算法,输出特定账号和所有非归属账号类型的相似度集合;S06,通过所述相似度集合中的值大小确定异常访问风险水平。本发明的有点在于,将传统监管机制的粒度从数据库下沉到数据表,特别是对于含有敏感数据的表,为企业保护隐形资产和用户隐私提供有效手段;使用历史数据生成基准,避免人为确定阈值的主观性;量化访问风险,输出风险等级,而且余弦相似度的计算简单方便,结果具有可解释性。

    一种基于无监督学习的时间序列异常检测方法及系统

    公开(公告)号:CN112597539A

    公开(公告)日:2021-04-02

    申请号:CN202011589222.3

    申请日:2020-12-28

    Abstract: 本发明提供一种基于无监督学习的时间序列异常检测方法,包括:S01.获取服务访问记录,构建用于比较的时间序列;S02.构建时间序列,选择设定的时间段,对用户访问服务的次数做统计,形成时间序列;S03.异常操作时间序列检测,采用局部异常因子算法对步骤S02中的时间序列表做局部异常因子检测,采用动态时间规整距离计算序列间的距离,并根据距离计算局部异常因子;S04.异常操作筛选。本发明通过将DTW距离替代局部异常因子算法中的距离算法来对运营商或类似企业内部服务器访问行为进行异常检测,可以只应用一个模型,在没有对用户进行分类的情况下做时间序列的无监督异常检测,不需要区分类型,不需要根据序列的周期性、季节性等特征管理多个模型。

    一种构建三层关联关系模型的方法及三层关系识别方法

    公开(公告)号:CN111752729A

    公开(公告)日:2020-10-09

    申请号:CN202010623557.6

    申请日:2020-06-30

    Abstract: 本发明提供了一种构建三层关联关系模型的方法,包括以下步骤:S1:提取记录用户访问情况的日志,并进行预处理;S2:对HTTP日志提取主体对象,得到HTTP请求,对HTTP请求和SQL日志中的SQL语句进行分解,并对分解后的HTTP请求和SQL语句分别进行匹配,存储匹配后的结构和参数;S3:基于时间顺序为每个HTTP请求结构匹配其后一段时间内发生的所有SQL结构,得到和序列;S4:基于关联规则算法计算得到HTTP请求和SQL语句的关联关系模型。本发明还提供了基于三层关联模型进行三层关系识别的方法。本发明的优点在于:基于时间序列和特征匹配构造关联关系模型;在统计的基础上挖掘请求和SQL的关系,提高识别的准确率;利用构建的模型对新的数据进行识别,时效性和准确性比较高。

Patent Agency Ranking