-
公开(公告)号:CN115062765A
公开(公告)日:2022-09-16
申请号:CN202210709171.6
申请日:2022-06-21
Applicant: 杭州海康威视数字技术股份有限公司
Abstract: 本申请提供一种任务处理方法、装置、电子设备及存储介质,该方法包括:在对Transformer模型进行训练的过程中,对于Transformer模型中的任一归一化层,确定该归一化层当前批次的第一统计值,依据该第一统计值以及该归一化层历史批次的统计值,利用滑动平均策略,对该第一统计值进行平滑处理,得到第二统计值,并利用将该归一化层的第二统计值进行前向或反向传播;在利用训练好的Transformer模型进行任务处理的过程中,对于Transformer模型中的任一归一化层,将该归一化层的统计值固定为第三统计值进行推理计算。该方法可以在降低Transformer模型的计算内存消耗的情况下,保证处理性能。
-
公开(公告)号:CN119830982A
公开(公告)日:2025-04-15
申请号:CN202411865347.2
申请日:2022-05-31
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06N3/082 , G06N3/0464 , G06V10/82 , G06V10/764
Abstract: 本申请提供一种神经网络模型裁剪方法、装置、电子设备及存储介质,该方法包括:依据待裁剪神经网络模型的结构特性,将所述待裁剪神经网络模型划分为多个结构分组;依据对所述待裁剪神经网络模型进行裁剪前后的损失函数变化,确定对所述多个结构分组中各结构分组进行裁剪的目标裁剪率;其中,所述损失函数变化依据第一因子和第二因子确定,所述第一因子用于表征各结构分组中各个权重的重要性,所述第二因子用于表征不同结构分组之间的相互作用;依据所述目标裁剪率,分别对各结构分组进行裁剪,得到裁剪后的神经网络模型。该方法可以在较小性能损失的情况下加速压缩神经网络模型。
-
公开(公告)号:CN113554169A
公开(公告)日:2021-10-26
申请号:CN202110859734.5
申请日:2021-07-28
Applicant: 杭州海康威视数字技术股份有限公司
Abstract: 本申请提供一种模型优化方法、装置、电子设备及可读存储介质,该方法包括:对当前网络模型进行预设轮数的稀疏约束训练,并依据预设阈值对训练后的第一网络模型进行裁剪,得到第一裁后模型;对第一裁后模型的各层进行等比例扩充,并对扩充后的网络模型进行非稀疏约束训练;迭代执行上述操作,直至得到的第二网络模型满足预设停止规则时,确定迭代完成;依据预设裁后计算量,以及迭代过程中得到的第二网络模型,确定第二裁后模型;依据第二裁后模型,对原始网络模型进行变权重稀疏约束训练,得到原始网络模型对应的稀疏模型,并对所述稀疏模型进行离线裁剪。该方法可以实现基于变权重稀疏约束的网络模型自动裁剪。
-
公开(公告)号:CN111741236B
公开(公告)日:2021-01-01
申请号:CN202010857184.9
申请日:2020-08-24
Applicant: 浙江大学 , 杭州海康威视数字技术股份有限公司
IPC: H04N5/278 , H04N21/488 , H04N21/81 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤:S1:以预先提取的视觉场景图及文本场景图作为先验知识,通过结构对抗学习方法从图先验中进行演绎与推理,生成作为共识知识的共识图表征;S2:基于视觉空间图与共识图表征,结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述;S3:在S2中生成文本描述的同时,根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性,从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题,并获取更优的字幕生成与对象定位性能。
-
公开(公告)号:CN112348102B
公开(公告)日:2024-03-19
申请号:CN202011278817.7
申请日:2020-11-16
Applicant: 浙江大学 , 杭州海康威视数字技术股份有限公司
IPC: G06V20/40 , G06V10/82 , G06V10/80 , G06V10/764 , G06V10/766 , G06F16/783
Abstract: 本发明公开了一种基于查询的自底向上视频定位方法和系统。首先,获取查询内容Query和待定位视频Ref,其次将查询内容Query特征与待定位视频Ref的特征融合到一个全新的特征图#imgabs0#中。最后特征图#imgabs1#通过深度学习方法检测出查询内容Query所对应的真实视频片段GT‑v位于待定位视频Ref中的起始位置和终止位置。本发明方法根据查询内容Query可以准确而又高效的识别真实视频片段GT‑v在待定位视频Ref的起始位置和终止位置。
-
公开(公告)号:CN113554169B
公开(公告)日:2023-10-27
申请号:CN202110859734.5
申请日:2021-07-28
Applicant: 杭州海康威视数字技术股份有限公司
Abstract: 本申请提供一种模型优化方法、装置、电子设备及可读存储介质,该方法包括:对当前网络模型进行预设轮数的稀疏约束训练,并依据预设阈值对训练后的第一网络模型进行裁剪,得到第一裁后模型;对第一裁后模型的各层进行等比例扩充,并对扩充后的网络模型进行非稀疏约束训练;迭代执行上述操作,直至得到的第二网络模型满足预设停止规则时,确定迭代完成;依据预设裁后计算量,以及迭代过程中得到的第二网络模型,确定第二裁后模型;依据第二裁后模型,对原始网络模型进行变权重稀疏约束训练,得到原始网络模型对应的稀疏模型,并对所述稀疏模型进行离线裁剪。该方法可以实现基于变权重稀疏约束的网络模型自动裁剪。
-
公开(公告)号:CN119830956A
公开(公告)日:2025-04-15
申请号:CN202411863753.5
申请日:2022-06-21
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06N3/0455 , G06N3/0499 , G06F9/48 , G06N3/084 , G06N5/04
Abstract: 本申请提供一种任务处理方法、装置、电子设备及存储介质,该方法包括:在对Transformer模型进行训练的过程中,对于Transformer模型中的任一归一化层,确定该归一化层当前批次的第一统计值,依据该第一统计值以及该归一化层历史批次的统计值,利用滑动平均策略,对该第一统计值进行平滑处理,得到第二统计值,并利用将该归一化层的第二统计值进行前向或反向传播;在利用训练好的Transformer模型进行任务处理的过程中,对于Transformer模型中的任一归一化层,将该归一化层的统计值固定为第三统计值进行推理计算。该方法可以在降低Transformer模型的计算内存消耗的情况下,保证处理性能。
-
公开(公告)号:CN114897164A
公开(公告)日:2022-08-12
申请号:CN202210615980.0
申请日:2022-05-31
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06N3/08 , G06N3/04 , G06V10/764 , G06V10/82
Abstract: 本申请提供一种神经网络模型裁剪方法、装置、电子设备及存储介质,该方法包括:依据待裁剪神经网络模型的结构特性,将所述待裁剪神经网络模型划分为多个结构分组;依据对所述待裁剪神经网络模型进行裁剪前后的损失函数变化,确定对所述多个结构分组中各结构分组进行裁剪的目标裁剪率;其中,所述损失函数变化依据第一因子和第二因子确定,所述第一因子用于表征各结构分组中各个权重的重要性,所述第二因子用于表征不同结构分组之间的相互作用;依据所述目标裁剪率,分别对各结构分组进行裁剪,得到裁剪后的神经网络模型。该方法可以在较小性能损失的情况下加速压缩神经网络模型。
-
公开(公告)号:CN112348102A
公开(公告)日:2021-02-09
申请号:CN202011278817.7
申请日:2020-11-16
Applicant: 浙江大学 , 杭州海康威视数字技术股份有限公司
IPC: G06K9/62 , G06K9/00 , G06F16/783
Abstract: 本发明公开了一种基于查询的自底向上视频定位方法和系统。首先,获取查询内容Query和待定位视频Ref,其次将查询内容Query特征与待定位视频Ref的特征融合到一个全新的特征图中。最后特征图通过深度学习方法检测出查询内容Query所对应的真实视频片段GT‑v位于待定位视频Ref中的起始位置和终止位置。本发明方法根据查询内容Query可以准确而又高效的识别真实视频片段GT‑v在待定位视频Ref的起始位置和终止位置。
-
-
-
-
-
-
-
-