面向图像分类的神经网络架构构建和训练方法及系统

    公开(公告)号:CN116758325A

    公开(公告)日:2023-09-15

    申请号:CN202310065582.0

    申请日:2023-01-16

    Abstract: 本发明公开了一种面向图像分类的神经网络架构构建和训练方法及系统,其中构建和训练方法包括获取搜索空间,并对其每个搜索单元赋予一个权重形成超网;采用图像分类训练集对超网中的可训练权重进行训练和更新;对训练后超网中可训练权重进行训练和更新,每个次更新可训练权重后,根据所有搜索单元的无偏估计量更新架构参数;选取搜索空间中每条边所有架构参数中最大值对应的搜索单元,存储至单元集合中;遍历单元集合中搜索单元,将模型参数未超过设定阈值的搜索单元加入架构中,形成神经网络架构;连接多个神经网络架构形成图像分类神经网络,并对图像分类神经网络进行训练;将采集的分类图像输入训练后的图像分类神经网络,输出分类图像的类别。

    多粒度级联交互网络的跨模态时序行为定位方法及装置

    公开(公告)号:CN114064967B

    公开(公告)日:2022-05-06

    申请号:CN202210052687.8

    申请日:2022-01-18

    Abstract: 本发明公开了多粒度级联交互网络的跨模态时序行为定位方法及装置,用于解决未修剪视频中基于给定文本查询的时序行为定位问题。本发明实施一种新的多粒度级联跨模态交互网络,以由粗到细的方式进行级联跨模态交互,用以提升模型的跨模态对齐能力。此外,本发明引入了一种局部‑全局上下文感知的视频编码器(local‑global context‑aware video encoder),用于提升视频编码器的上下文时序依赖建模能力。本发明实现方法简单,手段灵活,在提升视觉‑语言跨模态对齐精度方面具有优势,且训练所得模型在成对的视频‑查询测试数据上可显著提升时序定位准确度。

Patent Agency Ranking