-
公开(公告)号:CN116049459B
公开(公告)日:2023-07-14
申请号:CN202310324164.9
申请日:2023-03-30
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F16/53 , G06F16/583 , G06F16/55 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/047 , G06N3/084
Abstract: 本申请公开了跨模态互检索的方法、装置、服务器及存储介质,涉及数据处理技术领域,其中训练方法包括:构建文本信息特征编码器和图像序列特征编码器;基于文本信息特征编码器和图像序列特征编码器进行检索网络构建,得到初始图像文本检索网络;基于每个样本的正样本组和负样本组构造对齐损失函数;基于对齐损失函数和训练数据对初始图像文本检索网络进行训练,得到多模态图像文本检索网络。以提高对于多结构文本数据和图像数据进行图文互检的准确性。
-
公开(公告)号:CN116226434A
公开(公告)日:2023-06-06
申请号:CN202310484681.2
申请日:2023-05-04
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F16/583 , G06F16/33 , G06N3/08 , G06N3/049 , G06N3/0464
Abstract: 本申请在信息处理技术领域,公开了一种多元异构模型训练及应用方法、设备及可读存储介质,在本申请中,在训练图像检索模型时,会从异质图神经网络中抽取步骤节点特征,从图像序列特征提取网络中抽取步骤图像特征。然后,利用文本到图像的补齐网络,实现步骤节点特征向步骤图像特征的数目对齐,从而得到并基于文本对齐拟合特征计算文本补齐损失;利用图像到文本的补齐网络,实现步骤图像特征向步骤节点特征的数目对齐,从而得到并基于图像对齐拟合特征计算图像补齐损失。最终,结合模型损失、文本补齐损失和图像补齐损失,训练多元异构模型,训练出的多元异构模型实现在模态不对称的情况下,完成有效地图文检索。
-
公开(公告)号:CN115905591A
公开(公告)日:2023-04-04
申请号:CN202310147175.4
申请日:2023-02-22
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F16/532 , G06F16/583 , G06F16/55 , G06F40/247 , G06F40/216 , G06V10/80 , G06F18/25
Abstract: 本申请属于计算机应用技术领域,并公开了一种视觉问答方法、系统、设备及可读存储介质,该方法包括:获取输入图像和问句文本,并分别提取图像特征和文本特征;利用图像特征,获得输入图像的词汇字典;结合词汇字典和图像特征,对文本特征进行降噪处理,得到降噪后的文本特征;对降噪后的文本特征和图像特征进行交互编码;从交互编码结果中,确定出问句答案和问句文本的错误提示。在本申请中,针对有问题的问句,通过以图中信息来对其进行降噪处理,仍然能够进行答案预测,具有较强鲁棒性。
-
公开(公告)号:CN115376054B
公开(公告)日:2023-03-24
申请号:CN202211314784.6
申请日:2022-10-26
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V20/40 , G06V10/774 , G06V10/762 , G06V10/74 , G06V10/30
Abstract: 本申请涉及人工智能技术领域,公开了一种目标检测方法、装置、设备及存储介质,包括:获取目标视频的全部待检测视频帧,并利用目标检测模型对所述待检测视频帧中预设类型的目标进行检测,得到初始目标检测框;对所述初始目标检测框中的目标特征进行提取并利用聚类模型对提取到的目标特征进行聚类处理,得到所述初始目标检测框之间的聚类关系;基于所述聚类关系通过对所述初始目标检测框进行去噪处理的方式确定出关键目标检测框,以对所述待检测视频帧中的预设类型的关键目标进行检测。可见,本申请可针对任意视频的视频帧进行关键目标检测,无须依赖关键目标检测数据集以提高检测效率,同时避免出现假阳性检测结果以提高检测精度。
-
公开(公告)号:CN115495615A
公开(公告)日:2022-12-20
申请号:CN202211420795.2
申请日:2022-11-15
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F16/783 , G06F16/732 , G06F16/75 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本申请公开了计算机技术领域内的一种视频与文本的互检方法、装置、设备、存储介质及终端。本申请在确定目标视频中每帧画面的特征后,利用以强化学习方式训练得到的视频播放模型确定目标视频中每帧画面的播放速度,得到目标视频的播放控制策略,通过播放控制策略可以在目标视频中选择出能够表示视频画面转折点的多帧关键画面,后续检索与这些关键画面匹配的目标文本。该方案不以视频里的全部帧进行检索,而是从中选出能够表示视频画面转折点的一些关键画面进行检索,降低了数据处理量,保障了检索精度,提升了检索效率。本申请提供的一种视频与文本的互检装置、设备、存储介质及终端,也同样具有上述技术效果。
-
公开(公告)号:CN114862683B
公开(公告)日:2022-12-09
申请号:CN202210791426.8
申请日:2022-07-07
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06T3/40 , G06T7/11 , G06V10/774
Abstract: 本申请涉及大场景超分辨率图像目标检测技术领域,公开了一种模型生成方法、目标检测方法、装置、设备及介质,模型生成方法包括:利用各超分辨率图像的真实框构成各图像的样本集合;从样本集合中选择一真实框,根据选择的真实框对超分辨率图像裁切,得到裁切图像;从超分辨率图像的样本集合中删除裁切图像包含的真实框,返回执行从样本集合中选择一真实框的步骤,直至样本集合为空集;利用各超分辨率图像的裁切图像及其包含的真实框作为第一训练集,对第一模型进行训练,得到第一目标检测模型。本申请公开的技术方案,通过每次从样本集合中删除裁切图像包含的真实框及重复执行至样本集合为空集解决过采样和欠采样问题,提高模型性能。
-
公开(公告)号:CN114663737B
公开(公告)日:2022-12-02
申请号:CN202210546400.7
申请日:2022-05-20
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了一种物体识别方法、装置、电子设备及计算机可读存储介质,涉及模式识别领域,其中本方法在获取到包含物体且模态不确定的目标图像和候选图像时,可利用自注意力特征提取方式及跨注意力特征提取方式对各图像进行交互特征提取,以得到各图像对应的交互特征矩阵,可有效提升注意力机制在应对非确定跨模态物体重识别问题时的针对性;此外,本方法还可将上述两个交互特征矩阵融入概率空间,并在该空间中生成可表征目标图像和候选图像属于同一物体的概率的预测值,即能够采用概率预测方法,在概率空间中处理非确定跨模态物体的重识别问题,进而能够有效提升非确定跨模态物体重识别的准确度。
-
公开(公告)号:CN114694185B
公开(公告)日:2022-11-04
申请号:CN202210603348.4
申请日:2022-05-31
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种跨模态目标重识别方法、装置、设备及介质,涉及人工智能技术领域,所述方法包括:对不同模态下采集得到的参考图像和待识别图像进行图像块截取处理,得到参考图像的图像块和待识别图像的图像块;对参考图像的图像块和待识别图像的图像块进行特征提取,得到参考图像块特征和待识别图像块特征;计算参考图像块特征与待识别图像块特征之间的距离,以确定出参考图像和待识别图像之间的相似度,基于相似度确定参考图像上的目标与待识别图像上的目标是否相匹配,可见,本申请对不同模态下采集得到的图像进行截取,通过计算不同模态下图像块之间的距离确定所述不同模态下的图像是否相匹配,提高了不同模态图像之间互相识别的准确性。
-
公开(公告)号:CN115050077A
公开(公告)日:2022-09-13
申请号:CN202210760941.X
申请日:2022-06-30
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了情绪识别方法、装置、设备及存储介质,应用于神经网络技术领域,该情绪识别模型训练方法包括:获取待测视频和待测音频;在待测视频中确定多个待测视频帧,并利用标签集合中的各个情绪标签分别与待测文本模板拼接生成各个情绪标签分别对应的待测文本数据;将待测视频帧、待测文本数据和待测音频输入情绪识别模型,得到待测非文本编码数据和各个待测文本数据分别对应的各个待测文本编码数据;利用待测非文本编码数据分别和各个待测文本编码数据生成待测相似度数据;将最大待测相似度数据对应的情绪标签确定为待测视频对应的情绪识别结果;该方法引入了标签的本身所包含的语义信息,提高准确率。
-
公开(公告)号:CN110992387B
公开(公告)日:2022-06-10
申请号:CN201911088672.1
申请日:2019-11-08
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种图像处理方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取待处理图像,并根据所述待处理图像的尺寸和滑动窗口的尺寸计算所述待处理图像对应的均值矩阵和方差矩阵;基于所述均值矩阵和方差矩阵计算所述待处理图像中每个像素点对应的二值化阈值;利用所述二值化阈值对每个所述像素点进行处理,得到处理完成的二值化图像。本申请提供的图像处理方法,引入矩阵相关操作,将原有基于整幅图像的单点计算均值和方差的操作改进为基于整幅图像的操作,提高了局部自适应阈值二值化的效率。
-
-
-
-
-
-
-
-
-