一种基于视觉和空间关系融合的图注意力网络构建方法

    公开(公告)号:CN112184805B

    公开(公告)日:2024-04-09

    申请号:CN202010946723.6

    申请日:2020-09-10

    Inventor: 俞俊 杨艳

    Abstract: 本发明公开了一种基于视觉和空间关系融合的图注意力网络构建方法。本发明步骤如下:1、对输入图像中的目标对象,计算目标对象的视觉特征和绝对位置特征。利用两个特征构成输入图像所形成图中的一个双属性节点,最终形成一个图;2、计算图中每个邻节点到中心节点的空间几何相对位置特征;3、计算每个邻节点到中心节点之间的注意力权重;4、计算每个邻节点到中心节点的传递信息;5、将中心节点对应的所有邻节点到该中心节点的传递信息和对应的注意力权重相乘后求和,得到聚合后该中心节点的信息。用该信息更新视觉特征,保持绝对位置特征不变。本发明可以用于辅助各种视觉场景分析,是一个可以嵌入不同视觉任务的通用模型。

    一种基于角度预测预训练的半监督的RGB-D物体分类方法

    公开(公告)号:CN117726844A

    公开(公告)日:2024-03-19

    申请号:CN202311004228.3

    申请日:2023-08-10

    Inventor: 张剑 何凯昊 俞俊

    Abstract: 本发明公开了一种基于角度预测预训练的半监督的RGB‑D物体分类方法,包括:对RGB和深度图像的旋转角度预测器进行训练,得到通过无监督训练的网络模型;将旋转角度预测器的特征提取部分作为特征提取器;构建RGB和深度图像的对象类别预测器;利用带标签的图像训练对象类别预测器,得到RGB图像或深度图像半监督分类的结果;然后利用RGB和深度图像中的互补信息融合对象类别预测器的预测结果,对特征提取器的参数进行微调,使得旋转角度预测器的特征提取部分适应基于RGB图像、深度图像或RGB‑D图像的物体分类任务。本发明通过深度互学习融合两种模态特定对象类别预测器以提高性能,经过相互学习,RGB和深度图像的物体分类准确率都得到了显著的提升。

    一种用于场景图检测的关系图学习方法

    公开(公告)号:CN113139423B

    公开(公告)日:2024-03-01

    申请号:CN202110256665.9

    申请日:2021-03-09

    Abstract: 本发明公开了一种用于场景图检测的关系图学习方法。本发明步骤:1、对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系;2、分别对数据集Ⅰ中的每张图像用目标检测网络Faster R‑CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;3、利用关系提取网络对得到的关系数据进行筛选,过滤冗余信息关系和无效性关系;4、构建一个关系图注意力网络,该网络由两部分组成:视觉‑空间图注意力子网络和语义‑空间图注意力子网络;通过融合两个子网络的结果获得最终关系图。本发明实验结果表明比现有的最优方法效果提升数个百分点。

    一种面向通用多模态学习的神经框架搜索方法

    公开(公告)号:CN112488292B

    公开(公告)日:2024-02-02

    申请号:CN202011300717.X

    申请日:2020-11-19

    Inventor: 余宙 俞俊 崔雨豪

    Abstract: 本发明公开了一种面向通用多模态学习的神经框架搜索方法。本发明包括以下步骤:1、对图像和文本数据进行数据预处理,提取特征。2、初始化编码器‑解码器结构冗余网络和对应的架构参数。3、从架构参数分布中采样出子结构,并计算结果。4、模型搜索,热启动和交替更新保证搜索结构的稳定性。5、模型训练,将搜索出的最优子网络重新训练,得到最优网络模型。本发明提出一种针对图像文本多模态建模的神经框架搜索的方法,特别是针对不同的任务搜索到了更优的子网络,降低了网络的参数量计算量,充分利用各模态的深层次特征,提高了扩模态特征的表达能力,并且在三个多模态任务中获得了领先的效果。

    一种基于语义感知神经辐射场的人物面部重演方法

    公开(公告)号:CN117333604A

    公开(公告)日:2024-01-02

    申请号:CN202311372550.1

    申请日:2023-10-23

    Abstract: 本发明公开了一种基于语义感知神经辐射场的人物面部重演方法,包括如下步骤:步骤(1)收集任务的数据,并对数据进行预处理,进而构建数据集;步骤(2)构建基于语义感知的神经辐射场网络模型,步骤(3)利用反向传播算法的基于语义感知的神经辐射场网络模型的参数进行训练,直至整个模型收敛,所述参数的训练是在最小化光度损失和语义损失下,利用预处理后的数据集训练;步骤(4)应用完成训练后的基于语义感知的神经辐射场网络模型生成对应的人脸图像。该方法将表情和姿态参数作为语义感知神经辐射场的输入,精准地控制人物重演图像的生成。经过在NeRFace数据集上的实验验证,取得了出色的定量和定性结果。

    一种多源异构知识联合增强的视觉知识推理问答方法

    公开(公告)号:CN117010500A

    公开(公告)日:2023-11-07

    申请号:CN202310836128.0

    申请日:2023-07-10

    Inventor: 余宙 李立权 俞俊

    Abstract: 本发明公开了一种多源异构知识联合增强的视觉知识推理问答方法。首先使用多模态模型生成图像的文本描述和问题的候选答案作为多源异构知识检索的辅助信息,提高检索到的知识的质量。具体检索了四种异构知识:维基百科知识、相关网页文本知识、相关网页图像知识和大规模语言模型知识。多源异构知识相互补充,共同为视觉问答系统的性能提升做出贡献。基于多源异构知识,训练异构知识融合推理模型,提升了问答模型回答的质量和准确率,使得问答模型可以回答需要外部知识的问题,扩大了问答模型的应用场景。

    一种基于模态特征对齐的弱监督跨模态视频定位方法

    公开(公告)号:CN116935274A

    公开(公告)日:2023-10-24

    申请号:CN202310888432.X

    申请日:2023-07-19

    Abstract: 本发明公开了一种基于模态特征对齐的弱监督跨模态视频定位方法,首先进行数据预处理,提取视频和文本的初始模态特征;构建网络整体架构以及设计损失函数;然后进行模型训练,优化网络参数;最后根据训练好的网络模型生成定位检测结果。本发明在跨模态交互前引入了特征对齐模块,该模块能够有效地使两种模态的空间距离变小,还能够学习非匹配样本之间的差异。并在正候选片段学习时将最优正候选片段作为伪标签,使与最优正候选片段的交并比较大的正候选片段也能够参与训练,增加正候选片段之间的交互性。

    基于深度圈视图的无监督3D物体识别与检索方法

    公开(公告)号:CN111209879B

    公开(公告)日:2023-09-19

    申请号:CN202010029065.4

    申请日:2020-01-12

    Abstract: 本发明公开了一种基于深度圈视图的无监督3D物体识别与检索方法。本发明包括如下步骤:步骤1、多圈数据采样;步骤2、训练基于圈数据的多视图深度网络模型;步骤3、相似性匹配与检索;利用训练好的多视图深度网络模型提取各圈视图的特征,并对所有圈视图进行相似性距离计算;通过采用最大池化、均值池化、注意力池化以及最优匹配的方式优化多视图深度网络模型;基于相似性距离,进行排序检索;步骤4、采取圈特征过滤和圈注意力策略滤除重要性低于指定阈值的圈特征,从而在保证识别精度的同时有效减少计算量。本发明提出了新的二维视图采集渲染方式并用其进行无监督训练,在不采用任何人工标注的情况下依然获得了可观的检索精度。

    基于视觉问答的医疗影像报告结构化生成方法

    公开(公告)号:CN116168796A

    公开(公告)日:2023-05-26

    申请号:CN202310198891.5

    申请日:2023-03-03

    Abstract: 本发明提出了一种基于视觉问答的医疗影像报告结构化生成方法。本发明步骤如下:1、VQA模型设计与改造。2、“问题‑状态树”设计。3、信息自动化提取。4、结构化信息整合。本发明以视觉问答技术为基础,以生成医疗影像诊断报告为目的,着眼于增强问题与模型之间的交互性,设计了以“问题‑状态树”为核心的一系列数据结构及其相互间的转化算法。本发明一定程度上降低了视觉问答技术中问题组织上的随意性,有助于VQA模型在医学影像中获取更加有效的信息。使用这种技术构建的模型具有高度的可扩展性,能够以更低的训练成本完成更为全面的业务,在实际应用中可根据具体不同的应用场景灵活生成逻辑完整、包含丰富信息的医疗影像诊断报告。

    一种分阶段多路径文本生成图像的网络架构方法

    公开(公告)号:CN115775284A

    公开(公告)日:2023-03-10

    申请号:CN202211505806.7

    申请日:2022-11-29

    Abstract: 本发明公开了一种新的基于残差学习和多尺度学习的文本生成图像的分阶段多路径网络架构,用于提高提取图像不同尺度的特征,生成细节更具细粒度的图像,来提高文本生成图像跨模态任务的生成效果。本发明提出的是一种新的改进后的生成对抗神经网络架构,来提高图像生成的清晰度。利用分阶段残差连接将相邻阶段信息的信息和文本信息组成的特征图直接传递到当前阶段的末尾,参与到当前阶段的图像生成中,避免了长时间存储的要求,提高当前阶段的生成效果。多尺度学习利用多个不同卷积核大小的并行路径提取输入图像的特征,适当集成来自不同空间的特征图获取更高质量的特征和细粒度的文本细节。

Patent Agency Ranking