-
公开(公告)号:CN114648681A
公开(公告)日:2022-06-21
申请号:CN202210546381.8
申请日:2022-05-20
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V10/774 , G06V10/74 , G06V10/82 , G06N3/04 , G06N3/08 , G06T3/00 , G06F40/30 , G06F16/36 , G06K9/62
Abstract: 本申请公开了一种图像生成方法、装置、设备及介质,涉及人工智能领域,该方法包括:获取弱相关图文数据对,并根据弱相关图文数据对创建图文数据集,弱相关图文数据对为图文之间呈弱相关关系的图文数据对,利用图文数据集对预先基于对抗网络构建的图像生成模型进行训练,以得到训练后图像生成模型,图像生成模型中包含用于生成图片的生成器以及用于鉴别图片真假并计算相应损失值的判别器,当获取到待处理文本数据,则利用训练后图像生成模型生成与待处理文本数据对应的图片。本方法采用呈弱相关关系的图文数据,并使用单阶段端到端的训练方法,使生成的图像更加贴近实际的生活场景,容易落地实施,可用于指导艺术化、抽象化等图像的生成。
-
公开(公告)号:CN114327811A
公开(公告)日:2022-04-12
申请号:CN202111401382.5
申请日:2021-11-19
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种任务调度方法、装置、设备及可读存储介质。本申请将充分考虑考虑任务特性和资源特征,能够基于一个任务的任务特性将其分配给最为合适的空闲模块,且同时保障获得的效能最优,针对每个任务如此处理,那么可获得最大的总效能之和,既实现了计算资源的合理分配,提高了任务分配的准确性和效率,还保证了任务实际被执行时的效能最优,有利于当前服务系统的平稳运行。相应地,本申请提供的一种任务调度装置、设备及可读存储介质,也同样具有上述技术效果。
-
公开(公告)号:CN111881757A
公开(公告)日:2020-11-03
申请号:CN202010605966.3
申请日:2020-06-29
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种行人重识别方法、装置、设备及介质,包括:利用第一行人重识别模型提取原始训练集的特征;其中,所述原始训练集包括行人样本图像和对应的标签信息;根据所述原始数据集的特征空间分布特性,进行聚类;根据聚类结果筛选出困难样本;将所述困难样本添加至所述原始训练集,得到目标训练集;利用所述目标训练集对所述第一行人重识别模型进行训练,得到第二行人重识别模型;当获取到待识别行人图像,则利用所述第二行人重识别模型输出对应的识别结果。这样,挖掘出困难样本,通过挖掘出的困难样本改变原始数据集中的样本空间分布,能够增加对困难样本的关注度,从而提升行人重识别的准确度。
-
公开(公告)号:CN118395196B
公开(公告)日:2024-09-17
申请号:CN202410853496.0
申请日:2024-06-28
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F18/214 , G06V20/40 , G06V10/764 , G06F18/2431 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频定位领域,用于解决传统方法中因忽略上下文信息而导致的事件定位准确性不足的问题。该方案通过获取训练视频数据,根据每个视觉片段和音频片段的起始时间和结束时间确定视觉拓展片段和音频拓展片段,并根据视觉拓展片段和音频拓展片段优化视频定位模型,得到目标视频定位模型,目标视频定位模型用于对待处理视频数据进行类别标签定位。通过引入拓展片段,更全面地考虑事件在时间和空间上的延续性,有效地避免了局部信息的限制,使得模型能够更全面地理解和分析视频中的事件,提升了事件定位的精度和鲁棒性。
-
公开(公告)号:CN118395196A
公开(公告)日:2024-07-26
申请号:CN202410853496.0
申请日:2024-06-28
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F18/214 , G06V20/40 , G06V10/764 , G06F18/2431 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频定位领域,用于解决传统方法中因忽略上下文信息而导致的事件定位准确性不足的问题。该方案通过获取训练视频数据,根据每个视觉片段和音频片段的起始时间和结束时间确定视觉拓展片段和音频拓展片段,并根据视觉拓展片段和音频拓展片段优化视频定位模型,得到目标视频定位模型,目标视频定位模型用于对待处理视频数据进行类别标签定位。通过引入拓展片段,更全面地考虑事件在时间和空间上的延续性,有效地避免了局部信息的限制,使得模型能够更全面地理解和分析视频中的事件,提升了事件定位的精度和鲁棒性。
-
公开(公告)号:CN114862683B
公开(公告)日:2022-12-09
申请号:CN202210791426.8
申请日:2022-07-07
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06T3/40 , G06T7/11 , G06V10/774
Abstract: 本申请涉及大场景超分辨率图像目标检测技术领域,公开了一种模型生成方法、目标检测方法、装置、设备及介质,模型生成方法包括:利用各超分辨率图像的真实框构成各图像的样本集合;从样本集合中选择一真实框,根据选择的真实框对超分辨率图像裁切,得到裁切图像;从超分辨率图像的样本集合中删除裁切图像包含的真实框,返回执行从样本集合中选择一真实框的步骤,直至样本集合为空集;利用各超分辨率图像的裁切图像及其包含的真实框作为第一训练集,对第一模型进行训练,得到第一目标检测模型。本申请公开的技术方案,通过每次从样本集合中删除裁切图像包含的真实框及重复执行至样本集合为空集解决过采样和欠采样问题,提高模型性能。
-
公开(公告)号:CN110992387B
公开(公告)日:2022-06-10
申请号:CN201911088672.1
申请日:2019-11-08
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种图像处理方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取待处理图像,并根据所述待处理图像的尺寸和滑动窗口的尺寸计算所述待处理图像对应的均值矩阵和方差矩阵;基于所述均值矩阵和方差矩阵计算所述待处理图像中每个像素点对应的二值化阈值;利用所述二值化阈值对每个所述像素点进行处理,得到处理完成的二值化图像。本申请提供的图像处理方法,引入矩阵相关操作,将原有基于整幅图像的单点计算均值和方差的操作改进为基于整幅图像的操作,提高了局部自适应阈值二值化的效率。
-
公开(公告)号:CN118395195B
公开(公告)日:2024-09-24
申请号:CN202410853495.6
申请日:2024-06-28
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F18/214 , G06F18/2431 , G06F16/36 , G06F18/22 , G06N3/0464 , G06V20/40 , G06V10/764
Abstract: 本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频数据处理领域,用于解决定位音频事件时将视频模态视作噪声导致定位不准确的问题。获取训练数据集;根据视觉特征得到第一知识图结构,根据音频特征得到第二知识图结构;根据两个知识图结构对第一神经网络模型优化得到目标神经网络模型,目标神经网络模型用于对待处理视频数据进行类别标签定位。本发明通过构建视觉特征和音频特征对应的知识图结构,使用知识图结构优化第一神经网络模型,并未将视觉信息视为噪声,能捕捉和利用音频与视频间的复杂关联关系,能够更好地整合和利用多模态数据,提高得到的目标神经网络模型的定位精度和可靠性。
-
公开(公告)号:CN117876940B
公开(公告)日:2024-05-31
申请号:CN202410270242.6
申请日:2024-03-11
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V20/40 , G06V10/82 , G06N3/0499 , G06N3/08
Abstract: 本发明公开了一种视频语言任务执行及其模型训练方法、装置、设备、介质,应用于视频理解技术领域。其中,方法包括将具有文本标签的视频样本、待学习视频参数和待学习帧参数输入至视频语言模型,视觉语言预训练模型提取视觉特征和参数特征,视频帧适配器基于待学习帧参数,将视觉特征转换为满足视觉语言预训练模型需求的帧视觉信息,视频适配器基于待学习视频参数提取视频视觉信息;根据帧视觉信息、视频视觉信息与文本语义特征之间损失信息,对视频语言模型进行迭代更新,直至满足预设模型训练结束条件。本发明可以解决相关技术视频语言模型收敛慢,训练耗时耗资源的问题,能够有效提升视频语言模型的训练效率,节省模型训练所需的计算资源。
-
公开(公告)号:CN117892140A
公开(公告)日:2024-04-16
申请号:CN202410295706.9
申请日:2024-03-15
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F18/214 , G06F16/332 , G06F18/25 , G06F18/22 , G06N5/04
Abstract: 本发明公开了一种视觉问答及其模型训练方法、装置、电子设备、存储介质,应用于人工智能领域。其中,方法包括获取视觉问答训练样本数据集;将问题‑图像对样本输入至视觉问答模型,图文编码器对问题‑图像对样本进行图文编码处理,交互解码器从接收到的图文编码特征中提取交互对象的语义特征,推理解码器融合接收到的图文编码特征和交互对象特征,并基于融合图文编码特征对应的正确答案‑正确事件知识标签、与从知识库检索的答案、事件知识间的损失不断地迭代更新,直至满足预设模型训练结束条件。本发明可以解决相关技术无法满足用户高精度问答需求和答案可解释需求的问题,提升了基于场景交互任务中的视觉问答精度,让答案更具有可解释性。
-
-
-
-
-
-
-
-
-