一种视觉语言理解方法、装置、设备及可读存储介质

    公开(公告)号:CN117746441B

    公开(公告)日:2024-05-10

    申请号:CN202410186665.X

    申请日:2024-02-20

    Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉语言理解方法、装置、设备及可读存储介质,通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码,以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中,使模型更好地理解图像或视频的内容和上下文信息,引导模型聚焦图像或视频与其对应的语言信息中的重要部分,解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题,提升了计算机视觉的视频语言理解能力,进而精确响应视觉语言相关问题。

    一种视觉情感识别方法、装置、设备及可读存储介质

    公开(公告)号:CN117911929A

    公开(公告)日:2024-04-19

    申请号:CN202410186654.1

    申请日:2024-02-20

    Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉情感识别方法、装置、设备及可读存储介质,通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,将视觉文本跨模态编码配置为基于视觉文本跨模态共识信息进行编码,相较于对齐编码增强了视觉文本跨模态编码表达能力,在初始视觉模型中配置文本情感评价编码、视觉文本跨模态编码以及融合编码的多头注意力机制,利用样本数据集、任务目标和各注意力头的损失值训练模型中各注意力头的权重,使视觉情感识别模型更准确地理解跨模态情感共识,进而调用视觉情感识别模型执行待处理视觉情感识别任务,实现更为准确的视觉情感识别。

    运动轨迹预测方法、模型训练方法、装置、设备及介质

    公开(公告)号:CN117874529A

    公开(公告)日:2024-04-12

    申请号:CN202410275992.2

    申请日:2024-03-12

    Abstract: 本申请公开了模型训练技术领域内的一种运动轨迹预测方法、模型训练方法、装置、设备及介质。本申请使模型输入数据由目标运动轨迹的下一时刻的预测位置信息、目标运动轨迹的下一时刻的拟合位置信息、由目标运动轨迹的邻近运动轨迹计算得到的位移模仿信息、预测位置信息和位移模仿信息之间的相似程度以及基于邻近运动轨迹确定的预测位置信息的移动约束构成,那么第二轨迹预测模型可综合考虑目标运动轨迹与其所在空间内其他轨迹之间的关系,并且结合了同一目标运动轨迹的两种预测结果,能够提高轨迹预测的准确率。

    异构算力的耗时预测仿真方法、装置、设备、介质及系统

    公开(公告)号:CN117827619A

    公开(公告)日:2024-04-05

    申请号:CN202410230017.X

    申请日:2024-02-29

    Abstract: 本发明公开了计算机技术领域内的一种异构算力的耗时预测仿真方法、装置、设备、介质及系统。本发明能够构建包括通信图节点和计算图节点的有向图,从而根据多个异构算力设备的网络拓扑信息仿真得到的仿真网络预测多个通信图节点的通信耗时,根据有向图预测多个计算图节点的计算耗时,累计通信耗时和计算耗时得到模型训练任务的训练耗时。由于无需部署实际的算力设备,因此没有部署难度,实现成本低,可根据预测的训练耗时优化算力设备的部署策略,预测准确度更高,适用于多元异构计算系统。

    基于多模态预训练模型的三维内容生成方法及相关组件

    公开(公告)号:CN117473105B

    公开(公告)日:2024-04-05

    申请号:CN202311827111.5

    申请日:2023-12-28

    Abstract: 本申请公开了一种基于多模态预训练模型的三维内容生成方法及相关组件,涉及数据处理领域,用于解决生成三维内容速度慢的问题。该方案获取用户输入的目标文本描述;基于目标文本描述及多模态预训练模型在三维内容数据库中检索,确定第一三维内容并确定对应的第三文本描述;确定目标文本描述与第三文本描述间的文本描述差异;基于文本描述差异驱动第一三维内容变形,得到目标三维内容。本申请利用多模态预训练模型在三维内容数据库中进行检索,能够更快速地确定第一三维内容,再基于目标文本描述对其进行变形,得到与目标文本描述对应的目标三维内容,相比于从零生成三维内容,能够更快地生成符合要求的目标三维内容,提高了生成的效率和速度。

    一种情绪引导的摘要生成方法、系统、装置及介质

    公开(公告)号:CN117807995A

    公开(公告)日:2024-04-02

    申请号:CN202410224873.4

    申请日:2024-02-29

    Abstract: 本发明公开了一种情绪引导的摘要生成方法、系统、装置及介质,涉及人工智能技术领域,用于解决当前生成的摘要不包含情绪信息的问题。该方案利用用户输入的视觉模态信息和目标情绪信息,提取对应的第一视觉特征和目标情绪特征;利用预训练语言模型对第一视觉特征编码得到第一摘要特征;对第一摘要特征及目标情绪特征整合编码得到目标情绪摘要特征;根据目标情绪摘要特征生成与视觉模态信息对应的目标情绪摘要。本发明能够在摘要生成过程中将情绪信息融入到摘要文本中,满足用户对含有情绪信息的摘要的需求,通过结合视觉模态信息和情绪信息,能够提供更丰富、更具情绪色彩的摘要内容,从而满足用户的情绪需求。

Patent Agency Ranking