-
公开(公告)号:CN117765450A
公开(公告)日:2024-03-26
申请号:CN202410186667.9
申请日:2024-02-20
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及计算机视觉技术领域,具体公开了一种视频语言理解方法、装置、设备及可读存储介质,除视频样本自带的注释文本外,还通过获取如搜索关键词或视频分段信息等视频样本的关联信息,以利用注释文本和关联信息来构建视频样本对应的文本样本,从而弥补视觉模态与文本模态弱相关的问题,在进行视频语言模型的训练时可以为模型提供更为丰富的上下文信息以帮助模型更好地理解视频内容;在视频语言模型的训练中基于该文本样本与视频样本进行视觉文本跨模态编码,解决了传统视频语言模型泛化能力差的问题,提升了计算机视觉的视频理解能力,进而可以精确响应视频语言相关问题。
-
公开(公告)号:CN117746441A
公开(公告)日:2024-03-22
申请号:CN202410186665.X
申请日:2024-02-20
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及计算机视觉领域,具体公开了一种视觉语言理解方法、装置、设备及可读存储介质,通过在训练视觉理解模型时根据样本数据集通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,以进行基于视觉文本跨模态共识信息的视觉文本跨模态编码,以视觉文本跨模态共识信息为桥梁将视觉语言中蕴含的知识学习到模型中,使模型更好地理解图像或视频的内容和上下文信息,引导模型聚焦图像或视频与其对应的语言信息中的重要部分,解决了传统视觉语言模型或视频语言模型均存在的由视觉模态和文本模态语义不对齐导致的学习损失较大的问题,提升了计算机视觉的视频语言理解能力,进而精确响应视觉语言相关问题。
-
公开(公告)号:CN117474903B
公开(公告)日:2024-03-22
申请号:CN202311800569.1
申请日:2023-12-26
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06T7/00 , G06T7/90 , G06V10/74 , G06V10/764 , G06V10/774
Abstract: 本发明涉及人工智能技术领域,具体公开了一种图像侵权检测方法、装置、设备及可读存储介质,通过对第一样本图像数据集中的部分第一样本图像进行颜色扭曲处理后训练二分类探针检测模型,并对未授权图像进行颜色扭曲处理后以处理后的未授权图像替换未授权图像进行发布,从而对于文生图模型训练任务对应的文生图训练图像数据集,可以利用二分类探针检测模型识别得到文生图训练图像数据集中的探针检测结果以检测样本侵权事件。颜色扭曲相较于直接添加水印来说不易被人眼识别也难以被常用的预处理增强干扰,从而有效避免未授权图像被抹掉水印的情况,而能够被训练的二分类探针检测模型检出,从而实现对文生图模型训练时采用的图像是否侵权进行检出。
-
公开(公告)号:CN116843030B
公开(公告)日:2024-01-19
申请号:CN202311118770.1
申请日:2023-09-01
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06N5/04 , G06N3/045 , G06N3/0464 , G06N3/08 , G06T11/60 , G06F40/126 , G06F40/205 , G06F40/30 , G06F40/58
Abstract: 像模态直观且具体地描述因果推理结果。本发明公开了一种基于预训练语言模型的因果图像生成方法、装置及设备,涉及生成式人工智能技术领域,以解决因果图像难以生成的问题,该方法包括:获取待预测图像和问题文本;根据待预测图像和问题文本,利用预训练语言模型编码器,得到图文推理特征;根据待预测图像和图文推理特征,利用图像生成器,生成因果推理图像;本发明通过根据待预测图像和问题文本,利用预训练语言模型编码器,得到图文推理特征,利用预训练语言模型的因果推理能力,生成(56)对比文件莫建文;徐凯亮.结合皮尔逊重构的文本到图像生成模型.桂林电子科技大学学报.2020,(第01期),全文.
-
公开(公告)号:CN117315158A
公开(公告)日:2023-12-29
申请号:CN202311413665.0
申请日:2023-10-30
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06T17/00 , G06T15/20 , G06F16/332 , G06N3/04
Abstract: 本发明公开了一种数据集生成方法、三维内容生成方法、装置、设备及介质,应用于人工智能技术领域。其中,方法包括利用预先基于预训练语言模型微调后的文本问答模型获取三维内容数据集所包含的部件名称信息,获取该数据集中各三维内容在多视角下的二维内容图像。根据部件名称信息和各二维内容图像,基于像素、部件名称、每个三维点之间的对应关系,确定各部件名称对应的所有三维点;根据三维内容数据集中每个三维内容的部件名称及相对应的三维点,得到文本与三维内容部件对应数据集。本发明可以解决相关技术生成的文本与三维内容部件对应数据集的精度和规模均不满足用户需求的问题,能够生成大规模高质量的文本与三维内容部件对应数据集。
-
公开(公告)号:CN116955578A
公开(公告)日:2023-10-27
申请号:CN202311221189.2
申请日:2023-09-21
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/242 , G06F18/214
Abstract: 本发明公开了一种预训练语言模型的信息处理方法、装置、设备及介质,应用于人工智能技术领域,为解决现有的预训练语言模型不能更好地满足用户需求的问题,提出通过本地预训练语言模型在循环生成待回复文本的下一个词时,生成当前词典概率表;根据当前词典概率表中的各词判断是否存在最优词;若是,则将最优词作为下一个词进行生成;若否,则基于当前已生成文本生成对应的自然语言问题及问题类型;基于问题类型将自然语言问题发送至其他相应的预训练语言模型,并接收各个预训练语言模型返回的答复;从各个答复中选择出最优答复,并将最优答复作为下一个词进行生成;从而可以使基于本地预训练语言模型智能体能更好满足用户需求,提高用户使用体验。
-
公开(公告)号:CN116756536A
公开(公告)日:2023-09-15
申请号:CN202311034853.2
申请日:2023-08-17
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F18/21 , G06F18/214 , G06F18/241 , G06N5/02
Abstract: 本发明公开了一种数据识别方法、模型训练方法、装置、设备及存储介质,涉及计算机技术领域,旨在解决传统技术中无法对多源域数据进行快速高效识别的问题,所述数据识别方法应用于客户端,包括:获取初始识别模型;所述初始识别模型包括本地模型和全局模型;利用本地样本对所述初始识别模型进行训练,获得本地模型梯度和全局模型梯度;将所述全局模型梯度上传至服务器,以使所述服务器利用各所述全局模型梯度对服务器模型参数进行更新处理,获得服务器模型更新参数;利用所述本地模型梯度对本地模型参数进行更新,利用所述服务器模型更新参数对全局模型参数进行更新,直至获得满足预设条件的数据识别模型;利用所述数据识别模型执行数据识别操作。
-
公开(公告)号:CN111881757B
公开(公告)日:2023-09-01
申请号:CN202010605966.3
申请日:2020-06-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V40/10 , G06V10/762 , G06V10/774
Abstract: 本申请公开了一种行人重识别方法、装置、设备及介质,包括:利用第一行人重识别模型提取原始训练集的特征;其中,所述原始训练集包括行人样本图像和对应的标签信息;根据所述原始数据集的特征空间分布特性,进行聚类;根据聚类结果筛选出困难样本;将所述困难样本添加至所述原始训练集,得到目标训练集;利用所述目标训练集对所述第一行人重识别模型进行训练,得到第二行人重识别模型;当获取到待识别行人图像,则利用所述第二行人重识别模型输出对应的识别结果。这样,挖掘出困难样本,通过挖掘出的困难样本改变原始数据集中的样本空间分布,能够增加对困难样本的关注度,从而提升行人重识别的准确度。
-
公开(公告)号:CN115858848B
公开(公告)日:2023-08-15
申请号:CN202310166849.5
申请日:2023-02-27
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F16/583 , G06F16/33 , G06N3/042 , G06N3/0455 , G06N3/08
Abstract: 本申请公开了图文互检方法及装置、训练方法及装置、服务器、介质,涉及数据处理技术领域,该训练方法包括:构建图像多连接特征编码器和文本特征编码器;其中,图像多连接特征编码器包括:图像分类网络、图像检测网络、图像的图结构构建网络;基于图像多连接特征编码器和文本特征编码器进行网络构建,得到初始图文互检网络;构造图文检索损失函数;基于图文检索损失函数和训练数据对初始图文互检网络进行训练,得到图文互检网络。提高对多模态数据进行处理的效果和推理准确度。
-
公开(公告)号:CN116246214B
公开(公告)日:2023-08-11
申请号:CN202310509062.4
申请日:2023-05-08
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V20/40 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/042 , G06N3/0442 , G06N3/0464 , G06N3/048 , G06N3/084 , G10L25/30 , G10L25/51
Abstract: 本申请公开了一种视听事件定位方法、模型训练方法、装置及设备和介质,涉及人工智能技术领域,该视听事件定位方法包括:利用目标网络模型确定多个视听片段的视听事件类别,并确定多个视听事件类别的起始时间和结束时间,实现多个视听事件类别的定位;目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,注意力机制神经网络层用于提取多个视频段的全局视频特征和多个音频段的全局音频特征,并确定多个视听片段的视听事件类别,图卷积层用于提取多个视频段的局部视频特征和多个音频段的局部音频特征,输出卷积网络层用于确定多个视听事件类别的起始时间和结束时间,实现多个视听事件类别的定位。
-
-
-
-
-
-
-
-
-