-
公开(公告)号:CN115115868A
公开(公告)日:2022-09-27
申请号:CN202210386333.7
申请日:2022-04-13
Applicant: 之江实验室 , 中国科学院信息工程研究所
IPC: G06V10/764 , G06N3/04 , G06N3/08 , G06V10/774
Abstract: 本发明公开了一种基于三元组的多模态协同场景识别方法,涉及深度学习下的计算机视觉与自然语言处理领域,针对单模态识别方法在复杂场景中体现出的局限性,提出为每个样本匹配一个由图像、文本型摘要和实例信息三种模态的标注数据构成的三元组,分别进行三个分支的神经网络学习训练,通过综合考量多种模态下的特征信息,在不引入额外数据收集成本的情况下提升场景识别的准确率。
-
公开(公告)号:CN112257716A
公开(公告)日:2021-01-22
申请号:CN202011424315.0
申请日:2020-12-08
Applicant: 之江实验室
Abstract: 本发明涉及一种基于尺度自适应及方向注意力网络的场景文字识别方法,将输入图片映射到极坐标空间中得到极坐标图像,并利用卷积网络提取极坐标图像的特征J;利用深度卷积网络将图片在极坐标空间中的特征表达转换成高阶的语义特征F;对转换得到的高阶语义特征,利用字符感受野注意力机制对每个字符编码更相关区域的特征,获取鲁棒的特征表达并离散成为特征序列Q;利用双向长短记忆网络捕捉特征序列Q之间的上下文关系,获取特征序列H;将特征序列H输入至解码网络进行解析,生成语义顺序规则的文字字符串。本发明能有效识别任意语义方向的场景文字;对于不同尺度的字符能编码更加有效的特征表达,显著提升识别性能。
-
公开(公告)号:CN115331254A
公开(公告)日:2022-11-11
申请号:CN202210203916.1
申请日:2022-03-03
Applicant: 之江实验室 , 中国科学院信息工程研究所
Abstract: 本发明公开了一种免锚框的实例人像语义解析方法。本发明利用训练集训练实例人像语义解析模型,所述实例人像语义解析模型包括特征提取模块、人物实例检测分支和人物实例细粒度感知分支;所述人物实例细粒度感知分支包括细节保持模块、人体部件上下文编码模块、人物实例解析模块和实例解析结果精炼模块;本发明采用了一个一阶段的基于中心点预测的免锚框检测器用于人物实例边界框位置预测和一个边缘引导的人物实例语义解析模块用于人像语义部件的识别,免锚框的人物检测器不仅继承了像素级设计的优势,且能够有效避免因产生候选边界框引起的超参数敏感性问题;边缘引导的人像语义解析模块能够有效区分不同的人物实例位置和相邻的人像语义类别。
-
公开(公告)号:CN115239757A
公开(公告)日:2022-10-25
申请号:CN202210215901.7
申请日:2022-03-07
Applicant: 之江实验室 , 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于目标动态表观对齐的视觉跟踪方法。本方法利用目标表观对齐模块估计模板图像和待处理图像之间的形态对齐参数,将目标对齐分解为特征对齐雅可比参数估计、形态残差估计、反向迭代组合三个子模块,并分别设计了可训练的前向传播网络执行对应操作;目标模板匹配模块利用深度神经网络提取出模板图像和待处理图像中被跟踪物体的语义特征,然后利用目标表观对齐模块迭代预测得到的对齐参数对待处理图像特征做适当调整,使模板图像和待处理图像的目标形态尽可能保持一致;最后利用相关卷积操作计算模板图像特征和调整后的待处理图像特征的相似性,输出对目标位置敏感的相似性匹配热图,热图中响应最高的位置即目标状态位置。
-
公开(公告)号:CN113034370A
公开(公告)日:2021-06-25
申请号:CN202110580583.X
申请日:2021-05-26
Applicant: 之江实验室
Abstract: 本发明公开了一种结合3D脸部结构先验的人脸超分辨方法,该方法能够显式得结合3D脸部先验,抓取到高清的脸部结构信息,为网络提供一些基于脸部属性的3D拓扑信息,例如身份、表情、纹理、亮度和脸部姿态。本发明提出了一个深度学习网络框架,框架总体包括两个分支:上半部分分支包含一个ResNet‑50网络来从输入图像中挖掘人脸3D信息,并将其结合重建成一个脸部渲染结构;下半部分分支利用空域特征转换层,结合3D信息及脸部渲染结构作为3D先验,利用空间注意力机制及通道注意力机制实现脸部超分辨;这种先验能够嵌入任何网络,而且十分有效的提高性能,加速收敛。
-
公开(公告)号:CN112396063A
公开(公告)日:2021-02-23
申请号:CN202011415482.9
申请日:2020-12-07
Applicant: 之江实验室
Abstract: 本发明公开了一种聚集激励上下文金字塔的人像语义解析方法,该方法中采用由多个并行的不同空间幅度比率聚集激励单元组成聚集激励上下文金字塔模块对编码模块提取高级语义特征捕捉丰富的多尺度上下文信息。再将得到的高层语义上下文特征与编码模块中的输出特征相结合通过解码模块得到初步人像语义解析结果。最后,检测输入人像图片的边缘信息并与初步人像语义解析结果融合进一步改善得到最终的人像语义解析结果。同时引入深度辅助损失分支,辅助获取更佳的效果。本发明采用聚集激励上下文金字塔人像语义解析方法,相比于其他当前先进的人像语义解析算法,构建的模型是轻量的,但拥有很高的分割性能。
-
公开(公告)号:CN115115868B
公开(公告)日:2024-05-07
申请号:CN202210386333.7
申请日:2022-04-13
Applicant: 之江实验室 , 中国科学院信息工程研究所
IPC: G06V10/764 , G06N3/0464 , G06N3/08 , G06V10/774
Abstract: 本发明公开了一种基于三元组的多模态协同场景识别方法,涉及深度学习下的计算机视觉与自然语言处理领域,针对单模态识别方法在复杂场景中体现出的局限性,提出为每个样本匹配一个由图像、文本型摘要和实例信息三种模态的标注数据构成的三元组,分别进行三个分支的神经网络学习训练,通过综合考量多种模态下的特征信息,在不引入额外数据收集成本的情况下提升场景识别的准确率。
-
公开(公告)号:CN115456884A
公开(公告)日:2022-12-09
申请号:CN202210578520.5
申请日:2022-05-25
Applicant: 之江实验室 , 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于半监督学习的全面屏手机图像增强方法,其步骤包括:1)选取或构建一数据集,所述数据集中的每一图像数据对包括由覆盖透明玻璃和不覆盖透明玻璃的同一部智能手机对同一场景所拍摄的图像;2)构建一图像增强模型;3)采用有监督方式利用所述数据集训练所述图像增强模型:首先对低质量图像y进行增强得到增强图像Y’,然后与高质量图像Y进行损失函数计算,优化图像增强模型;4)采用无监督方式利用数据集训练图像增强模型:首先利用优化后的模型对图像y进行增强得到Y’,然后基于Y’计算损失优化模型;5)利用优化后的图像增强模型对全面屏手机拍摄图像的色调和饱和度通道进行迭代增强,得到对应的高质量的图像。
-
-
-
-
-
-
-