一种基于文本的行人检索自监督视觉表示学习系统及方法

    公开(公告)号:CN111860193A

    公开(公告)日:2020-10-30

    申请号:CN202010590313.2

    申请日:2020-06-24

    Abstract: 本发明提供了一种基于文本的行人检索自监督视觉表示学习系统及方法,其基本思想是通过构建辅助任务(性别判断和行人相似性回归)使得模型关注行人的细节信息,并且学习到具有鲁棒性的视觉特征,从而更加准确地检索目标人物的图片,其次,为了利用图片中的物体信息,本发明构建模型提取行人与物体之间的关系,并且对这些关系进行筛选和汇总。本发明通过以上设计,解决了现有的网络只关注图片和文本之间的相似度,却忽略了图片中行人的细节信息,以无法获取样本之间具体的相似度值,缺少监督信息的问题。

    一种基于全局上下文信息的时序行为片段生成系统及方法

    公开(公告)号:CN109711380A

    公开(公告)日:2019-05-03

    申请号:CN201910004792.2

    申请日:2019-01-03

    Abstract: 本发明涉及视频分析技术领域,其公开了一种基于全局上下文信息的时序行为片段生成系统及方法,解决传统技术不能获取全局上下文信息、只能编码过往信息、没有考虑不同单元的行为重要性从而直接采取平均池化的问题。该系统包括:视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络;通过时序行为片段生成网络中的双向并行的LSTM模块有效利用了视频的全局上下文信息,弥补了时序卷积层只能捕获有限时序信息和单向LSTM只能编码过往信息的缺点。基于行为进行概率的时序行为片段重新排序网络权衡了不同视频单元所包含行为的重要性,从而高效的融合了时序行为片段的特征。本发明适用于视频中的行为分析和定位。

    一种高度融合的GAN网络模型及实现文本生成图像的方法

    公开(公告)号:CN109671125A

    公开(公告)日:2019-04-23

    申请号:CN201811542578.4

    申请日:2018-12-17

    Abstract: 本发明涉及深度学习领域,其公开了一种高度融合的GAN网络模型及实现文本生成图像的方法,解决传统技术中存在的生成图像尺寸较小,质量较低,网络训练过程不稳定的问题,有效地实现由输入文本生成清晰高质语义图像。本发明中的高度融合的GAN网络模型,包括:文本编译器、条件增加模块、生成器和三个独立的判别器;基于该高度融合的GAN网络模型,在只有一个生成器和三个独立判别器的情况下仍可生成匹配文本语义信息的高质量RGB图像。为进一步优化生成器网络结构,充分利用网络中间层生成的不同尺寸的特征图,生成器除了采用残差网络中的残差生成块,还采用了金字塔网络结构从低维的64*64特征,逐步生成到语义信息丰富的高维256*256特征。

Patent Agency Ranking