-
公开(公告)号:CN118395196B
公开(公告)日:2024-09-17
申请号:CN202410853496.0
申请日:2024-06-28
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F18/214 , G06V20/40 , G06V10/764 , G06F18/2431 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频定位领域,用于解决传统方法中因忽略上下文信息而导致的事件定位准确性不足的问题。该方案通过获取训练视频数据,根据每个视觉片段和音频片段的起始时间和结束时间确定视觉拓展片段和音频拓展片段,并根据视觉拓展片段和音频拓展片段优化视频定位模型,得到目标视频定位模型,目标视频定位模型用于对待处理视频数据进行类别标签定位。通过引入拓展片段,更全面地考虑事件在时间和空间上的延续性,有效地避免了局部信息的限制,使得模型能够更全面地理解和分析视频中的事件,提升了事件定位的精度和鲁棒性。
-
公开(公告)号:CN118113444B
公开(公告)日:2024-07-30
申请号:CN202410534357.1
申请日:2024-04-30
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F9/48 , G06F9/50 , G06F16/901 , G06N20/20
Abstract: 本申请公开了一种任务处理方法、装置及电子设备和存储介质,涉及自然语言理解技术领域,该方法包括:获取目标任务的输入内容和输出描述;利用预训练语言模型基于所述目标任务的输入内容和输出描述对所述目标任务进行步骤分解,以生成所述目标任务对应的思维树;其中,所述思维树中的节点为步骤分解得到的步骤;基于预设搜索算法在所述思维树中搜索执行所述目标任务的最佳步骤路径;基于所述最佳步骤路径根据所述输入内容执行所述目标任务,输出所述目标任务的执行结果。本申请提高了执行目标任务的效果,可适用于不同类型的任务,泛化性较高。
-
公开(公告)号:CN118395196A
公开(公告)日:2024-07-26
申请号:CN202410853496.0
申请日:2024-06-28
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F18/214 , G06V20/40 , G06V10/764 , G06F18/2431 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种模型训练方法、视频定位方法、系统、设备、产品及介质,涉及视频定位领域,用于解决传统方法中因忽略上下文信息而导致的事件定位准确性不足的问题。该方案通过获取训练视频数据,根据每个视觉片段和音频片段的起始时间和结束时间确定视觉拓展片段和音频拓展片段,并根据视觉拓展片段和音频拓展片段优化视频定位模型,得到目标视频定位模型,目标视频定位模型用于对待处理视频数据进行类别标签定位。通过引入拓展片段,更全面地考虑事件在时间和空间上的延续性,有效地避免了局部信息的限制,使得模型能够更全面地理解和分析视频中的事件,提升了事件定位的精度和鲁棒性。
-
公开(公告)号:CN117474796B
公开(公告)日:2024-04-05
申请号:CN202311813617.0
申请日:2023-12-27
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06T5/70 , G06T11/60 , G06T7/10 , G06N3/0455 , G06N3/0464 , G06V10/74
Abstract: 本发明涉及图像生成技术领域,具体公开了一种图像生成方法、装置、设备及计算机可读存储介质,在利用文生图扩散模型对待处理文本进行预设次数的去噪处理的过程中,在每次去噪处理中对生成的中间图像进行图像识别,根据图像识别结果和待处理文本的内容误差更新文生图扩散模型的第一阶段去噪向量,得到第二阶段去噪向量,以第二阶段去噪向量作为本次去噪处理的去噪向量;利用最终的第二阶段去噪向量生成与待处理文本对应的结果图像。通过两阶段去噪,加强了每次去噪过程中对待处理文本中包含的细节信息的把控,由此生成的结果图像可以对待处理文本中包含的细节信息进行精准刻画,从而提高了文本图像模态转换的准确性。
-
公开(公告)号:CN117474796A
公开(公告)日:2024-01-30
申请号:CN202311813617.0
申请日:2023-12-27
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06T5/70 , G06T11/60 , G06T7/10 , G06N3/0455 , G06N3/0464 , G06V10/74
Abstract: 本发明涉及图像生成技术领域,具体公开了一种图像生成方法、装置、设备及计算机可读存储介质,在利用文生图扩散模型对待处理文本进行预设次数的去噪处理的过程中,在每次去噪处理中对生成的中间图像进行图像识别,根据图像识别结果和待处理文本的内容误差更新文生图扩散模型的第一阶段去噪向量,得到第二阶段去噪向量,以第二阶段去噪向量作为本次去噪处理的去噪向量;利用最终的第二阶段去噪向量生成与待处理文本对应的结果图像。通过两阶段去噪,加强了每次去噪过程中对待处理文本中包含的细节信息的把控,由此生成的结果图像可以对待处理文本中包含的细节信息进行精准刻画,从而提高了文本图像模态转换的准确性。
-
公开(公告)号:CN117877125B
公开(公告)日:2024-06-07
申请号:CN202410270243.0
申请日:2024-03-11
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V40/20 , G06V20/40 , G06V10/25 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种动作识别及其模型训练方法、装置、电子设备、存储介质,应用于视频理解技术领域。其中,方法包括将具有动作标签和音频数据的视频样本输入动作识别模型,提取视频样本的视觉特征、文本语义特征及音频特征,对视觉特征、音频特征进行视觉交互和视听交互,并为文本语义特征添加交互特征,得到多模态动作标签特征;根据视觉交互特征、视听交互特征、音频特征与多模态动作标签特征之间的损失,对动作识别模型进行迭代更新。本发明可以解决相关技术精细动作识别差且动作识别任务收敛慢的问题,能够使得动作识别模型更全面地理解和描述精细动作特征,提高动作识别的性能和鲁棒性,还能增强模型扩展性和灵活性。
-
公开(公告)号:CN117349029A
公开(公告)日:2024-01-05
申请号:CN202311640960.X
申请日:2023-12-04
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了一种异构计算系统、能耗确定方法、装置、电子设备及介质,应用于异构计算领域。其中,系统包括主控制器、至少一个异构计算单元及能耗计算器。主控制器和各异构计算单元通过目标总线相连,并通过目标总线进行通信;能耗计算器在检测到主控制器将待处理任务分配至异构计算单元,根据待处理任务执行过程中的通信操作和计算操作,得到任务执行时序信息;根据任务执行时序信息,分别确定待处理任务过程执行过程中的动态能量消耗、各异构计算单元的静态功耗和通信功耗,从而得到异构计算系统的总能耗。本发明可以解决相关技术无法精准计算异构计算系统的模型计算任务的能耗的问题,可以有效提高异构计算系统的能耗确定精度。
-
公开(公告)号:CN116246214A
公开(公告)日:2023-06-09
申请号:CN202310509062.4
申请日:2023-05-08
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V20/40 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/042 , G06N3/0442 , G06N3/0464 , G06N3/048 , G06N3/084 , G10L25/30 , G10L25/51
Abstract: 本申请公开了一种视听事件定位方法、模型训练方法、装置及设备和介质,涉及人工智能技术领域,该视听事件定位方法包括:利用目标网络模型确定多个视听片段的视听事件类别,并确定多个视听事件类别的起始时间和结束时间,实现多个视听事件类别的定位;目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,注意力机制神经网络层用于提取多个视频段的全局视频特征和多个音频段的全局音频特征,并确定多个视听片段的视听事件类别,图卷积层用于提取多个视频段的局部视频特征和多个音频段的局部音频特征,输出卷积网络层用于确定多个视听事件类别的起始时间和结束时间,实现多个视听事件类别的定位。
-
公开(公告)号:CN116229332A
公开(公告)日:2023-06-06
申请号:CN202310501619.X
申请日:2023-05-06
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06V20/40 , G06V10/82 , G06V10/764 , G06N20/00
Abstract: 本申请公开了一种视频预训练模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域,该训练方法包括:采用初始视频上下文预测模型和上下文预测数据集进行训练,得到已训练的视频上下文预测模型中的第一编码器;采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练,得到已训练的视频跨模态模型中的第二编码器;采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练,得到已训练的内容识别模型中的第三编码器;将所述第三编码器作为视频预训练模型,以利用所述视频预训练模型对视频数据进行预处理。在相同效果的情况下减少了数据集的数量,提高了对视频预训练模型进行训练的效率。
-
公开(公告)号:CN114840632A
公开(公告)日:2022-08-02
申请号:CN202210609563.5
申请日:2022-05-31
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F16/31 , G06F16/36 , G06F40/253 , G06F40/30
Abstract: 本申请公开了一种知识抽取方法、系统、设备及存储介质,应用于数据处理技术领域,包括:确定文本语料库并进行标注,构建索引得到标注语料库;设置用于表征关系信息的种子数据并检索出相应句子确定出句子的检索词距离,检索词的语法解析树距离,以及动词词组的语法解析树距离;并基于确定出的句子各项距离,按照权重规则确定出句子的各动词词组各自的加权值;通过汇总得出加权值之和最高的K个目标动词词组;从标注语料库中检索出包括目标动词词组的各句子,并按预设规则进行校验;将通过校验之后的各个句子,汇总为对应于种子数据的知识抽取内容。应用本申请的方案,可以有效进行知识抽取,且通用性高、召回率高,可得到高质量的知识抽取内容。
-
-
-
-
-
-
-
-
-