-
公开(公告)号:CN111753827A
公开(公告)日:2020-10-09
申请号:CN202010416704.2
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统,将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。
-
公开(公告)号:CN104468262A
公开(公告)日:2015-03-25
申请号:CN201410652834.0
申请日:2014-11-17
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于语义敏感的网络协议识别方法及系统。在建模阶段,以特定应用协议的网络数据报文集合作为输入,利用Latent Dirichlet Allocation方法构建所分析协议的关键字模型;在训练阶段,依照协议关键字模型提取数据报文的分类特征信息,以获得的关键字特征向量作为输入,利用有监督机器学习方法对离线训练数据集学习训练,获得所分析协议的分类模型;在分类阶段,依照协议关键字模型提取数据报文的分类特征信息,利用协议分类模型对待测网络数据报文的协议属性做出判别,判断其是否属于目标协议的网络数据报文。本发明能够充分挖掘网络消息报文中潜在的协议语义信息,对多种网络协议进行有效的协议识别。
-
公开(公告)号:CN103716313A
公开(公告)日:2014-04-09
申请号:CN201310722437.1
申请日:2013-12-24
Applicant: 中国科学院信息工程研究所
IPC: H04L29/06
Abstract: 本发明涉及一种用户隐私信息保护方法,包括以下步骤:步骤1:钩取模块接收接口调用操作,获取基本接口信息,采用重定向过滤方法,对可能访问敏感信息操作进行过滤分析;步骤2:解析模块接收终端设备发送的运行日志数据信息,并调用接口调用数据库中的信息,记录敏感操作的操作日志;步骤3:检测模块对可疑行为操作数据库中的信息进行处理,基于黑名单数据库中的信息,筛选出窃密操作,并将所述窃密操作行为信息存储到黑名单数据库中;步骤4:根据黑名单数据库中的窃密操作行为信息处理窃密操作。本发明能够监控窃密行为,发现潜在的窃密威胁,并阻断其操作;监测敏感信息流转;能够全面监控、保护用户隐私数据。
-
公开(公告)号:CN113989582B
公开(公告)日:2024-08-02
申请号:CN202110988818.9
申请日:2021-08-26
Applicant: 中国科学院信息工程研究所
IPC: G06V10/774 , G06V10/764 , G06V10/762 , G06N3/08 , G06N3/0464 , G06N3/045 , G06N3/0895
Abstract: 本发明公开了一种基于密集语义对比的自监督视觉模型预训练方法,其步骤包括:1)对于样本图像xi,利用数据增强方法a、b分别对样本图像xi增强后进行特征提取和映射,得到样本图像xi中每一个像素点pi的特征,即像素级特征#imgabs0#以及实例级特征#imgabs1#2)基于#imgabs2#和#imgabs3#进行对比学习,得到实例判别损失Lins;基于#imgabs4#和#imgabs5#进行对比学习,得到像素判别损失Lpix;3)根据像素点pi对应的正样本集计算邻居判别损失Lnei;4)对像素级特征集合va、vb分别执行聚类,分别获得K个聚类集群;然后对每个集群进行对比学习,计算聚类对比损失LKM;5)根据损失函数L=Lins+Lpix+Lsem对自监督视觉模型进行端到端的训练。
-
公开(公告)号:CN111753657B
公开(公告)日:2023-01-13
申请号:CN202010428815.5
申请日:2020-05-20
Applicant: 中国科学院信息工程研究所(CN)
IPC: G06V20/40 , G06V10/774
Abstract: 本发明公开了一种基于自训练的文本检测器训练方法及系统。本方法步骤包括:1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;4)利用步骤3)得到的伪数据集训练检测器。
-
公开(公告)号:CN111753657A
公开(公告)日:2020-10-09
申请号:CN202010428815.5
申请日:2020-05-20
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于自训练的文本检测器训练方法及系统。本方法步骤包括:1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;4)利用步骤3)得到的伪数据集训练检测器。
-
公开(公告)号:CN104598881B
公开(公告)日:2017-09-29
申请号:CN201510014950.4
申请日:2015-01-12
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于特征压缩与特征选择的歪斜场景文字识别方法,其步骤包括:在文字区域的每个像素点上提取CHOG特征;根据CHOG特征的差异程度确定字符级的聚类数量;对CHOG特征进行聚类得到压缩后的字符级特征;将压缩过的特征合并,再次进行聚类,生成初始的视觉特征词典;建立视觉特征直方图描述符;训练线性支持向量机,对直方图描述符中特征的重要性进行排序,选出若干最重要的特征作为最终的词典;再次计算样本的直方图描述符,训练多类径向基函数支持向量机,作为最终的文字分类器以对歪斜场景文字进行识别,得到识别结果。本发明能够在克服特征点检测法失效的同时,保证很高的识别准确率和召回率。
-
公开(公告)号:CN103716313B
公开(公告)日:2016-07-13
申请号:CN201310722437.1
申请日:2013-12-24
Applicant: 中国科学院信息工程研究所
IPC: H04L29/06
Abstract: 本发明涉及一种用户隐私信息保护方法,包括以下步骤:步骤1:钩取模块接收接口调用操作,获取基本接口信息,采用重定向过滤方法,对可能访问敏感信息操作进行过滤分析;步骤2:解析模块接收终端设备发送的运行日志数据信息,并调用接口调用数据库中的信息,记录敏感操作的操作日志;步骤3:检测模块对可疑行为操作数据库中的信息进行处理,基于黑名单数据库中的信息,筛选出窃密操作,并将所述窃密操作行为信息存储到黑名单数据库中;步骤4:根据黑名单数据库中的窃密操作行为信息处理窃密操作。本发明能够监控窃密行为,发现潜在的窃密威胁,并阻断其操作;监测敏感信息流转;能够全面监控、保护用户隐私数据。
-
公开(公告)号:CN103942797A
公开(公告)日:2014-07-23
申请号:CN201410168244.0
申请日:2014-04-24
Applicant: 中国科学院信息工程研究所
IPC: G06T7/00
Abstract: 本发明涉及基于直方图和超像素的场景图像文字检测方法,包括:步骤1:对目标图片中可能存在的文字的笔画宽度值进行估计,基于笔画宽度值生成一个笔画直方图;步骤2:对目标图片进行边缘检测,进行比对和修正,得到边缘检测质量最高的连通域;步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素估算高精度笔画宽度;步骤4:根据高精度笔画宽度过滤字符与非字符;步骤5:通过连通域的空间分布利用几何约束进一步过滤字符与非字符,过滤文本行和非文本行;步骤6:完成对目标图片中对字符和文本行的检测。本发明提出一种高速和高精度的笔画宽度计算方法,以提高文字与非文字连通域过滤的精度和效率。
-
公开(公告)号:CN103442014A
公开(公告)日:2013-12-11
申请号:CN201310395429.0
申请日:2013-09-03
Applicant: 中国科学院信息工程研究所
IPC: H04L29/06
Abstract: 本发明涉及一种自动检测疑似仿冒网站的方法,包括以下步骤:1:接收多个网站地址;2:将一个网站地址与白名单相匹配,判断是否匹配,如匹配,允许访问并添加白名单标记,跳转至步骤6;否则,继续;3:将网站地址与黑名单相匹配,判断是否匹配,如匹配,则禁止访问并添加黑名单标记,跳转至步骤6;否则,继续;4:将当前网页内容与所有白名单网站的专属标识进行匹配,计算相似度,得到最大相似度值;5:判断最大相似度值是否大于预设的阈值,如是,为疑似仿冒网站;否则,为非疑似仿冒网站;步骤6:判断是否存在未添加标记的网站地址,如有,进行步骤2;否则,结束。本发明可在用户利益受到侵害之前检测出疑似仿冒网站,降低用户损失。
-
-
-
-
-
-
-
-
-