一种基于感知哈希的相似图像搜索方法和装置

    公开(公告)号:CN105956020B

    公开(公告)日:2019-11-05

    申请号:CN201610255782.2

    申请日:2016-04-22

    Abstract: 本发明提供了一种基于感知哈希的相似图像搜索方法和装置,该装置包括输入单元、差分单元、寻找单元、截图单元、感知哈希算法单元、对比单元和输出单元。本发明的有益效果在于,将输入的初始图像和所述初始图像的截图图像都用感知哈希算法进行处理后,分别与搜索库中的图像进行比较,解决了在输入图像是某图像的截图图像的情况下,也能找到原图的出处,提高了感知哈希算法的准备率,为搜索相似图像提供了一种新的思路。

    一种基于图像特征细化的数据预处理方法及系统

    公开(公告)号:CN110287993A

    公开(公告)日:2019-09-27

    申请号:CN201910429950.9

    申请日:2019-05-22

    Abstract: 本发明涉及图像数据处理领域,针对训练数据不足的问题,提出了一种基于图像特征细化的数据预处理方法及系统,所述方法包括:有效区域计算步骤,对原图片进行mask处理得到训练图片,计算训练图片的有效区域,有效区域包括正样本区域和负样本区域;训练数据采集步骤,构建滑动窗口,移动滑动窗口在训练图片上的位置,当滑动窗口的数字中心位于有效区域的边界或内部时,采集训练数据。本发明能解决现有图像处理方法存在的采集训练数据不足的问题。本发明还公开了一种基于图像特征细化的数据预处理系统。

    一种数据混合加密方法
    63.
    发明公开

    公开(公告)号:CN108270565A

    公开(公告)日:2018-07-10

    申请号:CN201611257612.4

    申请日:2016-12-30

    Abstract: 本发明提供一种数据混合加密方法,该方法包括步骤S1:发送方发送明文P;步骤S2:运用DES算法对明文P进行加密;步骤S3:在数据传输过程中,运用RSA算法对密钥K进行加密;步骤S4:在RSA算法的基础上,对CK进行解密;步骤S5:用DES算法和密钥K对CP进行解密;步骤S6:接受方获取明文P。与现有技术相比:本发明提供了一种数据混合加密方法,大大提高了数据传输过程中的安全性;本发明的混合加密算法综合DES和RSA的加密速度,用于处理大数据传输时,加密速度远快于RSA加密速度本发明的混合加密算法很好地解决了DES和RSA的密钥生成和管理的问题。

    一种敏感数据识别和脱敏的装置及方法

    公开(公告)号:CN108268785A

    公开(公告)日:2018-07-10

    申请号:CN201611254013.7

    申请日:2016-12-30

    Abstract: 本发明提供一种敏感数据识别和脱敏的装置及方法,其装置包括:输入单元,用于响应当前触发的数据脱敏请求,获取待脱敏的目标数据;识别单元,用于识别待脱敏的目标数据是否为敏感数据,若是,则执行数据脱敏单元,否则直接执行输出单元;所述数据脱敏单元,用于对已识别为敏感数据的目标数据执行脱敏操作;所述输出单元,用于输出处理后不具敏感性的目标数据。本发明的有益效果在于,利用NBM建立分类器实现对敏感数据的识别,避免对非敏感数据进行脱敏操作造成的运算负担;采用变形和交换相结合的方法对敏感数据脱敏,只需对敏感数据中的小部分数据记录按照脱敏规则进行数据变形,再利用交换实现对所有数据的脱敏,大大减少了运算量。

    一种基于树状图的数据相似度匹配方法及装置

    公开(公告)号:CN108268548A

    公开(公告)日:2018-07-10

    申请号:CN201611270556.8

    申请日:2016-12-30

    Abstract: 本发明公开一种基于树状图的数据相似度匹配方法及装置,其方法包括:步骤S1,对需要进行相似度匹配的数据,建立以所述数据为部分节点的树状图;步骤S2,以信息量为基础,对所述数据进行相似度计算;步骤S3,以属性为基础,对所述数据进行相似度计算;步骤S6,对所述数据相似度进行加权计算,得到总相似度;其装置包括对应的树状图建立单元、信息量相似度计算单元、属性相似度计算单元和总相似度计算单元。这样,可以综合影响所述数据相似度的多个因素,得到更准确的总相似度。

    一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置

    公开(公告)号:CN108268478A

    公开(公告)日:2018-07-10

    申请号:CN201611257589.9

    申请日:2016-12-30

    Abstract: 本发明公开一种基于ur-CAIM算法的不平衡数据集特征选择方法,其包括:步骤a:定义数据集合;步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;步骤c:计算类别标签集合与数据集连续属性之间的互信息;步骤d:计算CAIR准则:步骤e:计算CAIU准则;步骤f:对CAIM准则进行改进;步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征;本发明还公开一种与基于ur-CAIM算法的不平衡数据集特征选择方法相对应的装置。这样,本发明利用改进的CAIM准则对连续属性离散化,挑选出了对后续建模有重要作用的特征变量,减少了异常值对模型的影响,具有一定的稳健性。

    一种基于演化聚类的评论文本分类提取方法

    公开(公告)号:CN108268470A

    公开(公告)日:2018-07-10

    申请号:CN201611254491.8

    申请日:2016-12-30

    Abstract: 本发明提供一种基于演化聚类的评论文本分类提取方法,该方法包括步骤S1:采集评论样本,对评论内容进行分词以及去除停用词;步骤S2:对文本特征进行处理,除去关联性低或不相关的特征项;步骤S3:将文本特征项根据文本情感向量空间模型,赋予不同权重;步骤S4:利用k-medoids演化聚类算法对文本特征进行聚类;步骤S5:对各个时间段的聚类结果进行统计,从而得出结论。与现有技术相比:本发明提供了一种基于演化聚类的评论文本分类提取方法,解决了文本特征中可能面临的数据“稀疏性”的问题,同时也降低了计算的复杂度;本发明的方法对异常数据敏感度高、稳定性强,并具有较高的聚类精度。

    一种基于大数据的自动选择最优模型的方法

    公开(公告)号:CN108268460A

    公开(公告)日:2018-07-10

    申请号:CN201611254038.7

    申请日:2016-12-30

    Abstract: 本发明提供一种基于大数据的自动选择最优模型的方法,包括:步骤S1对挖掘目标进行分类;步骤S2利用信息增益对整个数据集进行快速特征选择;步骤S3建立训练集和验证集;步骤S4选择有效的数据挖掘算法及其参数组合;步骤S5利用贝叶斯优化方法选择各算法有效的参数组合;步骤S6选出最优的数据挖掘算法K;步骤S7利用交叉验证选择并确定数据挖掘算法K的参数取值组合得出最后的模型;步骤S8若模型得出的结果比较差,则重复步骤S2-S7,重新选择最优模型直到模型结果满意为止;若比较满意,则输出该模型。本发明能节省之后自动建模所耗费的时间,提高了建模效率;而且能快速地从大量的算法中搜索出最优算法,利用交叉验证来选择最优算法里面的参数组合。

    一种基于KNN算法的半结构化数据分类方法及装置

    公开(公告)号:CN108268458A

    公开(公告)日:2018-07-10

    申请号:CN201611253977.X

    申请日:2016-12-30

    CPC classification number: G06F16/35

    Abstract: 本发明公开一种基于KNN算法的半结构化数据分类方法及装置,该方法包括:步骤S1,将训练集中的所有训练半结构化数据都表示成计算机能够识别的数据向量;步骤S2,得到该类别的类中心向量;步骤S3,接收测试半结构化数据后,将所述测试半结构化数据表示为所述数据向量;步骤S4,计算所述测试半结构化数据与训练集中每个类的类中心向量的距离;步骤S5,计算对应的相似度;步骤S6,将所述测试半结构化数据归类为与其相似度最大的类中;该装置包括对应的训练转换单元、类中心向量计算单元、测试转换单元、距离计算单元、相似度计算单元和分类单元。这样,引入测试半结构化数据与训练半结构化数据所在类的相似性,使得分类结果准确,且提高了分类精度。

    一种聚类分析方法及装置
    70.
    发明公开

    公开(公告)号:CN108154162A

    公开(公告)日:2018-06-12

    申请号:CN201611103950.2

    申请日:2016-12-05

    CPC classification number: G06K9/6223

    Abstract: 本发明提供一种聚类分析方法和装置,该聚类分析装置包括:数据获取模块、第一聚类模块、样本数据确定模块、筛选样本模块、计算模块和第二聚类模块。与现有技术相比,本发明提供的一种聚类分析方法和装置,计算两个类的类间距离时采用的是筛选出的两个类中的代表数据对象两两之间的距离,而不是两个类中所有的数据对象,从而节约了所耗费的时间和资源。对于类中代表数据的筛选是根据选择距离簇中心较近和最密集的数据对象为原则,可以提高取样估计的准确性,避免了簇边缘上容易出现误差的数据对象,从而减少了类中可能包含不属于该类的数据对象的概率,提高了聚类效果。

Patent Agency Ranking