视觉定位方法、装置、设备及介质

    公开(公告)号:CN117876651B

    公开(公告)日:2024-05-24

    申请号:CN202410281924.7

    申请日:2024-03-13

    Abstract: 本发明涉及人工智能技术领域,公开了一种视觉定位方法、装置、设备及介质,包括:从输入图像中提取元素属性特征并输入到关联提取网络,得到元素关系特征和元素索引库;将元素关系特征和元素属性特征进行拼接,得到元素第一综合特征;从输入文本中获取文本编码特征并与元素第一综合特征进行跨模态编码,提取元素第二综合特征;对元素第二综合特征与元素索引库进行溯源编码,得到视觉溯源特征;将视觉溯源特征和文本编码特征拼接成多模态溯源特征,经定位解码器处理后输出从输入图像中定位的导致输入文本事件发生的对应元素位置。这样能够根据视觉要素和关系进行视觉因果溯源的综合推理,从而推理出人类需求在视觉上的体现,得到准确的定位结果。

    一种视觉语言理解方法、装置、设备及可读存储介质

    公开(公告)号:CN117746441B

    公开(公告)日:2024-05-10

    申请号:CN202410186665.X

    申请日:2024-02-20

    Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉语言理解方法、装置、设备及可读存储介质,通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码,以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中,使模型更好地理解图像或视频的内容和上下文信息,引导模型聚焦图像或视频与其对应的语言信息中的重要部分,解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题,提升了计算机视觉的视频语言理解能力,进而精确响应视觉语言相关问题。

    一种视觉情感识别方法、装置、设备及可读存储介质

    公开(公告)号:CN117911929A

    公开(公告)日:2024-04-19

    申请号:CN202410186654.1

    申请日:2024-02-20

    Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉情感识别方法、装置、设备及可读存储介质,通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,将视觉文本跨模态编码配置为基于视觉文本跨模态共识信息进行编码,相较于对齐编码增强了视觉文本跨模态编码表达能力,在初始视觉模型中配置文本情感评价编码、视觉文本跨模态编码以及融合编码的多头注意力机制,利用样本数据集、任务目标和各注意力头的损失值训练模型中各注意力头的权重,使视觉情感识别模型更准确地理解跨模态情感共识,进而调用视觉情感识别模型执行待处理视觉情感识别任务,实现更为准确的视觉情感识别。

    运动轨迹预测方法、模型训练方法、装置、设备及介质

    公开(公告)号:CN117874529A

    公开(公告)日:2024-04-12

    申请号:CN202410275992.2

    申请日:2024-03-12

    Abstract: 本申请公开了模型训练技术领域内的一种运动轨迹预测方法、模型训练方法、装置、设备及介质。本申请使模型输入数据由目标运动轨迹的下一时刻的预测位置信息、目标运动轨迹的下一时刻的拟合位置信息、由目标运动轨迹的邻近运动轨迹计算得到的位移模仿信息、预测位置信息和位移模仿信息之间的相似程度以及基于邻近运动轨迹确定的预测位置信息的移动约束构成,那么第二轨迹预测模型可综合考虑目标运动轨迹与其所在空间内其他轨迹之间的关系,并且结合了同一目标运动轨迹的两种预测结果,能够提高轨迹预测的准确率。

    基于多模态预训练模型的三维内容生成方法及相关组件

    公开(公告)号:CN117473105B

    公开(公告)日:2024-04-05

    申请号:CN202311827111.5

    申请日:2023-12-28

    Abstract: 本申请公开了一种基于多模态预训练模型的三维内容生成方法及相关组件,涉及数据处理领域,用于解决生成三维内容速度慢的问题。该方案获取用户输入的目标文本描述;基于目标文本描述及多模态预训练模型在三维内容数据库中检索,确定第一三维内容并确定对应的第三文本描述;确定目标文本描述与第三文本描述间的文本描述差异;基于文本描述差异驱动第一三维内容变形,得到目标三维内容。本申请利用多模态预训练模型在三维内容数据库中进行检索,能够更快速地确定第一三维内容,再基于目标文本描述对其进行变形,得到与目标文本描述对应的目标三维内容,相比于从零生成三维内容,能够更快地生成符合要求的目标三维内容,提高了生成的效率和速度。

Patent Agency Ranking