-
公开(公告)号:CN114911958B
公开(公告)日:2023-04-18
申请号:CN202210647107.X
申请日:2022-06-09
Applicant: 电子科技大学
IPC: G06F16/51 , G06F16/53 , G06F16/583 , G06V10/74 , G06V10/77 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种基于语义偏好的快速图像检索方法,首先以语义(标签)关联度指导训练语义中心分配模块,得到语义中心矩阵V,然后基于语义中心矩阵V,对固定特征提取模块进行训练,这样通过依照语义关联度约束语义中心在特征空间的分布,并令特征向量朝着对应语义中心聚集,从而在语义关联度的指导下充分利用特征空间,有效避免了具备不同标签的特征向量的混淆,解决了特征分布不合理的情况,有效避免不同类特征向量的混淆,提升检索准确度;其次,本发明为码字指定了语义偏好,实现了不可导的量化损失与有偏的软量化损失之间的折衷,采用偏差较低的方案优化码字,从而提升量化器性能,以保证执行快速检索时,量化向量能更好地近似特征向量,实现了降低量化误差的目的。
-
公开(公告)号:CN109671125B
公开(公告)日:2023-04-07
申请号:CN201811542578.4
申请日:2018-12-17
Applicant: 电子科技大学
IPC: G06T9/00
Abstract: 本发明涉及深度学习领域,其公开了一种高度融合的GAN网络装置及实现文本生成图像的方法,解决传统技术中存在的生成图像尺寸较小,质量较低,网络训练过程不稳定的问题,有效地实现由输入文本生成清晰高质语义图像。本发明中的高度融合的GAN网络装置,包括:文本编译器、条件增加模块、生成器和三个独立的判别器;基于该高度融合的GAN网络装置,在只有一个生成器和三个独立判别器的情况下仍可生成匹配文本语义信息的高质量RGB图像。为进一步优化生成器网络结构,充分利用网络中间层生成的不同尺寸的特征图,生成器除了采用残差网络中的残差生成块,还采用了金字塔网络结构从低维的64*64特征,逐步生成到语义信息丰富的高维256*256特征。
-
公开(公告)号:CN110008915B
公开(公告)日:2023-02-03
申请号:CN201910289577.1
申请日:2019-04-11
Applicant: 电子科技大学
Abstract: 本发明涉及人体姿态估计技术,其公开了一种基于掩码‑RCNN进行稠密人体姿态估计的系统及方法,解决传统技术在实例分割时,存在的由于目标检测框包含多个目标而无法精准进行稠密人体姿态估计的问题。本发明中的系统包括:目标检测模块,用于获取精确的目标检测框;语义分割模块,用于对目标检测框的检测对象进行语义分割,获得语义分割掩码;实例分割模块,用于对语义分割掩码进行处理获得人体实例分割掩码;稠密姿态估计模块,用于建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标,从而将RGB图像上的纹理信息映射到3D人体表面模型上。本发明适用于各种场景下的稠密人体姿态估计。
-
公开(公告)号:CN111931928B
公开(公告)日:2022-12-27
申请号:CN202010687142.5
申请日:2020-07-16
Applicant: 成都井之丽科技有限公司 , 电子科技大学
Abstract: 本发明涉及计算机视觉技术领域,提供一种场景图的生成方法、装置和设备,旨在使用训练数据集构建难度较小的人工神经网络来实现场景图的生成。场景图的生成方法包括:通过人工神经网络的物体检测模块来提取被分析图像中的实体对象信息;通过人工神经网络的实体关系检测模块获得被分析图像中的实体对象关系信息;根据所述实体对象信息和实体对象关系信息生成场景图,所述场景图包括至少一个由主体、谓语和客体构成的关系三元组;其中,所述人工神经网络的训练数据集中,任意一个作为监督信息的关系三元组仅存在于一个训练图像。
-
公开(公告)号:CN109711380B
公开(公告)日:2022-09-16
申请号:CN201910004792.2
申请日:2019-01-03
Applicant: 电子科技大学
IPC: G06V20/40 , G06V10/82 , G06N3/04 , H04N21/234 , H04N21/44
Abstract: 本发明涉及视频分析技术领域,其公开了一种基于全局上下文信息的时序行为片段生成系统及方法,解决传统技术不能获取全局上下文信息、只能编码过往信息、没有考虑不同单元的行为重要性从而直接采取平均池化的问题。该系统包括:视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络;通过时序行为片段生成网络中的双向并行的LSTM模块有效利用了视频的全局上下文信息,弥补了时序卷积层只能捕获有限时序信息和单向LSTM只能编码过往信息的缺点。基于行为进行概率的时序行为片段重新排序网络权衡了不同视频单元所包含行为的重要性,从而高效的融合了时序行为片段的特征。本发明适用于视频中的行为分析和定位。
-
公开(公告)号:CN111898456B
公开(公告)日:2022-08-09
申请号:CN202010639352.7
申请日:2020-07-06
Abstract: 本发明公开了一种基于多层次注意力机制的文本修改图片网络模型训练方法,涉及计算机处理技术领域,该方法提出了用局部注意力网络和全局注意力网络,结合文本特征与图片特征训练文本修改图片网络模型,且在模型训练的过程中,考虑了cycle loss,继而利用最终得到的文本修改图片网络模型修改图片时,能精确修改图片的视觉属性,不会对文本信息中未提及的视觉属性进行修改;采用该训练方法训练出的模型,已在当前主流的数据集上进行了验证,取得了当前最好的结果。
-
公开(公告)号:CN113435399B
公开(公告)日:2022-04-15
申请号:CN202110793167.8
申请日:2021-07-14
Applicant: 电子科技大学
IPC: G06V20/40 , G06V10/82 , G06F40/30 , G06F16/332 , G06F16/432 , G06F16/48 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多层次排序学习的多轮视觉对话方法,提出了上下文控制门机制,自适应地赋予对话历史信息权重以回答当前的问题,避免了盲目使用对话历史信息造成的冗余信息。同时本发明设计了多层次排序学习模块,将所有选项划分为3个层次,提升了与正确答案语义相近但是没有被标注为正确答案的选项的排名,从而提升了模型的泛化能力。
-
公开(公告)号:CN113779310A
公开(公告)日:2021-12-10
申请号:CN202111063055.3
申请日:2021-09-10
Applicant: 电子科技大学
IPC: G06F16/783
Abstract: 本发明涉及视频理解技术领域,其公开了一种基于层级表征网络的视频理解文本生成方法,解决了由于视频信息的复杂性,不能很好地表示多层次概念的视频特征的问题,该方法包括:S1、视频帧特征提取;S2、对提取的视频帧特征进行多层编码,获得事件级、动作级和目标级视觉特征;S3、获取文本嵌套特征,并结合分层的视觉特征通过分层注意力机制获取分层的上下文信息;S4、根据分层的上下文信息利用语言模型生成单词,应用于视频问答任务或视频描述任务。
-
公开(公告)号:CN111899203A
公开(公告)日:2020-11-06
申请号:CN202010661461.9
申请日:2020-07-10
Abstract: 本发明公开了一种基于标注图在无监督训练下的真实图像生成方法及存储介质,该方法包括将标注图输入生成器生成3张不同尺寸的输出图像;采用分级视觉感知判别器得到6个判别结果;将判别结果采用对抗损失函数转化为对抗损失;生成模糊图片,之后计算模糊图片输入分级视觉感知判别器得到的判别结果的对抗损失;将输出图像进行相邻两两分组后,输入VGG19网络中,之后计算图像一致损失;将输出图片输入到三个不共享参数的语义分割网络ICNet中,计算返还分割损失;采集四个损失值得到的最终损失对整个网络进行优化,并在网络未收敛时返回第一步,收敛时将优化后的生成器作为图像生成模型;采用图像生成模型将输入的标注图生成真实图像。
-
公开(公告)号:CN111898566A
公开(公告)日:2020-11-06
申请号:CN202010771698.2
申请日:2020-08-04
Applicant: 成都井之丽科技有限公司 , 电子科技大学
Abstract: 本发明公开了一种姿态估计方法、装置、电子设备和存储介质,以解决提高拥挤场景下姿态估计准确度的技术问题。该方法包括:从行人检测框所限定的区域图像中提取视觉特征;根据视觉特征识别区域图像中所有关节并建立候选关节集;对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息;根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。通过提取的视觉特征识别区域图像中所有关节并建立候选关节集,这时,候选关节集中既包括目标关节又干扰关节,然后再对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息,从而提高拥挤场景下姿态估计准确度。
-
-
-
-
-
-
-
-
-