一种基于特征向量匹配的数据识别方法、装置及存储介质

    公开(公告)号:CN119513674B

    公开(公告)日:2025-05-13

    申请号:CN202510089450.0

    申请日:2025-01-21

    Abstract: 本申请公开了一种基于特征向量匹配的数据识别方法、装置及存储介质。包括:获取待检测数据,分词生成特征向量;通过矩阵运算计算待匹配特征向量与预定义核心数据特征向量的欧氏距离,统计匹配数量;根据描述信息、表描述信息和字段描述信息的权重(分别为0.2、0.5、0.3),计算数据权重值;结合匹配结果和数据规模,通过加权计算得到待检测数据属于核心或重要数据的概率值;判断概率值是否超过阈值,若超过,则识别为核心或重要数据。本方法依托可信执行环境TEE实现特征向量的提取、匹配及计算,避免待检测数据和核心数据特征库暴露。确保计算过程的真实性和可信性。TEE相对其他隐私计算技术,具有额外计算少的优点,可以提升算法匹配效率。

    一种数据分类方法、系统及相关装置

    公开(公告)号:CN119377410B

    公开(公告)日:2025-04-11

    申请号:CN202411960482.5

    申请日:2024-12-30

    Abstract: 本申请公开了一种数据分类方法、系统及相关装置,用于对数据进行快速且准确的分类。本申请方法包括:获取数据来源信息,对数据来源信息进行数据提取,得到目标数据;获取全量主题词库和部门主题词库;基于全量主题词库判断目标数据是否存在主题;若是,则从全量主题词库中提取主题;若否,则通过预设学习模型对目标数据进行分类,得到数据分类结果;当目标数据存在主题时,判断主题是否唯一;若是,则将主题作为数据分类结果;若否,则基于部门主题词库确定目标数据的部门主题;当主题不唯一时,判断主题与部门主题是否重叠;若是,则将主题或部门主题作为数据分类结果;若否,则通过预设学习模型对主题与部门主题进行分类,得到数据分类结果。

    一种数据分类方法、系统及相关装置

    公开(公告)号:CN119377410A

    公开(公告)日:2025-01-28

    申请号:CN202411960482.5

    申请日:2024-12-30

    Abstract: 本申请公开了一种数据分类方法、系统及相关装置,用于对数据进行快速且准确的分类。本申请方法包括:获取数据来源信息,对数据来源信息进行数据提取,得到目标数据;获取全量主题词库和部门主题词库;基于全量主题词库判断目标数据是否存在主题;若是,则从全量主题词库中提取主题;若否,则通过预设学习模型对目标数据进行分类,得到数据分类结果;当目标数据存在主题时,判断主题是否唯一;若是,则将主题作为数据分类结果;若否,则基于部门主题词库确定目标数据的部门主题;当主题不唯一时,判断主题与部门主题是否重叠;若是,则将主题或部门主题作为数据分类结果;若否,则通过预设学习模型对主题与部门主题进行分类,得到数据分类结果。

    一种基于特征向量匹配的数据识别方法、装置及存储介质

    公开(公告)号:CN119513674A

    公开(公告)日:2025-02-25

    申请号:CN202510089450.0

    申请日:2025-01-21

    Abstract: 本申请公开了一种基于特征向量匹配的数据识别方法、装置及存储介质。包括:获取待检测数据,分词生成特征向量;通过矩阵运算计算待匹配特征向量与预定义核心数据特征向量的欧氏距离,统计匹配数量;根据描述信息、表描述信息和字段描述信息的权重(分别为0.2、0.5、0.3),计算数据权重值;结合匹配结果和数据规模,通过加权计算得到待检测数据属于核心或重要数据的概率值;判断概率值是否超过阈值,若超过,则识别为核心或重要数据。本方法依托可信执行环境TEE实现特征向量的提取、匹配及计算,避免待检测数据和核心数据特征库暴露。确保计算过程的真实性和可信性。TEE相对其他隐私计算技术,具有额外计算少的优点,可以提升算法匹配效率。

    一种数据分级方法、系统及相关装置

    公开(公告)号:CN119377792A

    公开(公告)日:2025-01-28

    申请号:CN202411960028.X

    申请日:2024-12-30

    Abstract: 本申请公开了一种数据分级方法、系统及相关装置,用于对数据进行快速且准确的分级。本申请方法包括:获取数据来源信息,基于所述数据来源信息得到数据清单;根据所述数据清单,通过预设分类模型提取目标数据;获取定性要素和定量要素,基于所述定性要素和所述分类模型对所述目标数据进行分级得到初始级别;判断已得到所述初始级别后的所述目标数据是否包含敏感信息;若是,则设定要素权重,基于所述定量要素和所述要素权重对目标数据得到所述目标数据的二次定级,在得到所述目标数据的所述二次定级后,结合所述初始级别对所述二次定级进行调整,最终得到目标数据的目标级别;若否,则将所述目标数据的所述初始级别确定为所述目标级别。

Patent Agency Ranking