基于多提示学习的弱监督底层视觉颜色成像方法和装置

    公开(公告)号:CN119649170A

    公开(公告)日:2025-03-18

    申请号:CN202510167902.2

    申请日:2025-02-17

    Inventor: 李兵 游强 张朝

    Abstract: 本发明提供了基于多提示学习的弱监督底层视觉颜色成像方法和装置。所述方法包括获取六种数据集,生成训练集和相似任务的弱监督提示信息;构建基于深度学习大模型的端到端CLIP网络作为教师网络,利用训练集和弱监督提示信息,对教师网络进行预训练,得到预训练后的教师网络;构建学生网络,利用训练集、KL散度和均方误差损失函数学习多任务共同提示信息,利用多任务共同提示信息,根据知识蒸馏函数对所述学生网络进行知识蒸馏,得到蒸馏后的学生网络;将颜色相关任务输入蒸馏后的学生网络,输出对应任务的目标图像。以此方式,仅用单一模型结构统一底层颜色任务并只需学习极少量参数,减小了计算量的开销,获得更好的颜色特征表示。

    一种组合零样本图像分类及模型的训练方法和装置

    公开(公告)号:CN119785129A

    公开(公告)日:2025-04-08

    申请号:CN202510292848.4

    申请日:2025-03-13

    Inventor: 张欣 游强 张朝

    Abstract: 本公开属于计算机视觉技术领域,具体涉及一种组合零样本图像分类及模型的训练方法和装置。其中组合零样本图像分类模型的训练方法包括:获取图像分类数据集,并划分为训练集和测试集;构建神经网络模型,基于所述训练集对所述神经网络模型进行训练,生成所述组合零样本图像分类模型,其中,所述神经网络模型至少包括组合识别分支和基元识别分支,所述组合识别分支用于基于训练集样本的全局特征获取每个样本的组合特征表示,所述基元识别分支用于通过挖掘训练样本的全局基元关系得到解耦后的基元特征以进行基元的识别,所述基元包括属性和对象。本公开提高组合零样本图像分类的性能。

    一种音频数据自动化片段对齐标注的技术方法

    公开(公告)号:CN118841041A

    公开(公告)日:2024-10-25

    申请号:CN202411219212.9

    申请日:2024-09-02

    Abstract: 本发明涉及音频数据处理技术领域,且公开了一种音频数据自动化片段对齐标注的技术方法,S1,输入后的音频/语音数据首先通过人声分离模块将原始数据分离为音乐音轨和人声音轨两个文件;S2,人声音轨进入有效片段切分模块,模块只使用人声音轨数据进行音频切分;S3,切分后的有效人声片段将被输入到自动语音识别(ASR)模块进行文本转录;S4,片段聚类模块使用DBSCAN聚类算法对文字识别结果进行文本聚类,聚类时使用的特征是文本的TF‑IDF特征。该音频数据自动化片段对齐标注的技术方法,可以极大程度的降低人工标注的时间成本和人力成本,自动化的提供高质量的音频标注数据,推动了音频比对模型的进一步发展与应用。

    一种视频描述生成方法、装置、计算机设备及存储介质

    公开(公告)号:CN118283380A

    公开(公告)日:2024-07-02

    申请号:CN202410329443.9

    申请日:2024-03-21

    Abstract: 本发明涉及一种视频描述生成方法、装置、计算机设备及存储介质,该方法包括:从目标视频中采样得到视频帧序列;从视频帧序列中提取出多个视觉特征以及语义概念特征;根据多个视觉特征和语义概念特征进行多特征融合编码,得到视频编码特征;基于一组可学习的事件查询以及视频编码特征,使用解码器进行解码,得到多个事件建议表示;利用多个子任务头对多个事件建议表示进行并行解码,得到事件建议集合;从事件建议集合中筛选出目标事件建议作为目标视频的描述结果。通过本申请,解决了相关技术中的密集视频描述方法缺乏对语义概念的关注与利用导致的密集视频描述中事件定位以及事件描述不准确的问题,实现了提升密集视频描述准确度的效果。

Patent Agency Ranking