视频定位模型训练方法
    1.
    发明公开

    公开(公告)号:CN118587409A

    公开(公告)日:2024-09-03

    申请号:CN202411054298.4

    申请日:2024-08-02

    摘要: 本申请提供视频定位模型训练方法,包括:通过初始视频定位模型提取样本数据集中样本文本的单词级文本特征,以及样本数据集中样本视频的帧级视频特征;融合单词级文本特征与帧级视频特征,得到句子级文本特征和包含上下文语义信息的视觉特征;确定视觉特征对应的剪辑视频段的阶段特定表示,并根据阶段特定表示,在剪辑视频段中选取候选视频段;通过候选视频段与样本数据集中的真实视频段,对初始视频定位模型进行训练,直至满足训练停止条件,得到目标视频定位模型。本申请能够获取更具辨识力的多模态融合特征,并增强模型的跨模态对齐能力,实现视频和文本之间的细粒度对齐,提高了模型的组合泛化能力,保障模型能够实现高效的组合时刻定位。

    神经网络模型转换加速方法、装置、计算设备及存储介质

    公开(公告)号:CN118550713A

    公开(公告)日:2024-08-27

    申请号:CN202411019869.0

    申请日:2024-07-29

    发明人: 赵孝德

    IPC分类号: G06F9/50 G06N3/10

    摘要: 本申请提供神经网络模型转换加速方法、装置、计算设备及存储介质,其中,所述神经网络模型转换加速方法包括:接收至少一个待处理神经网络模型;将所述至少一个待处理神经网络模型进行分组,并将分组得到的至少一个待处理神经网络模型组发送至预设的至少一个解析设备;加载层信息缓存文件;基于所述层信息缓存文件,通过所述至少一个解析设备,解析对应的待处理神经网络模型组,并将解析结果存储至所述层信息缓存文件。充分利用了硬件性能,极大提高了模型转换效率,减少了用户等待时间。

    目标检测候选框筛选方法及装置
    3.
    发明公开

    公开(公告)号:CN118537545A

    公开(公告)日:2024-08-23

    申请号:CN202411010498.X

    申请日:2024-07-26

    发明人: 赵孝德

    IPC分类号: G06V10/25

    摘要: 本申请提供目标检测候选框筛选方法及装置,其中所述目标检测候选框筛选方法包括:根据目标检测模型对目标图像进行检测,得到多个候选框,以及与多个候选框一一对应的置信度;自多个候选框中选择初始候选框;计算初始候选框与其他候选框之间的交并比,根据计算结果初次筛选多个候选框;基于高斯指数算法,计算与初次筛选后的候选框一一对应的增强置信度,并根据增强置信度计算结果,对初次筛选后的候选框进行二次筛选;自二次筛选后的候选框中选择初始候选框,重复执行初次筛选与二次筛选,直至候选框的数量不变,得到目标候选框。实现了在不过度增加算法复杂度的前提下,减少重叠目标以及小目标被过滤概率的同时,不会增加误检概率。

    白蚁灭杀监测方法及装置

    公开(公告)号:CN118334709A

    公开(公告)日:2024-07-12

    申请号:CN202410748763.8

    申请日:2024-06-12

    摘要: 本申请提供白蚁灭杀监测方法及装置,其中所述白蚁灭杀监测方法包括:基于预设的时间周期,对目标区域进行图像采集,得到包含样本图像帧的样本图像信息;根据样本图像信息,提取背景对象,并对样本图像帧与背景对象进行帧差处理,得到帧差图像集;对帧差图像集进行二值化处理,确定运动轮廓对象列表,并基于样本图像信息,通过预设的白蚁检测模型,确定白蚁目标对象列表;基于运动轮廓对象列表与白蚁目标对象列表,确定运动白蚁列表与静止白蚁列表;根据运动白蚁列表与静止白蚁列表,更新白蚁基准上报对象,当满足预设的上报条件时,将白蚁基准上报对象发送至预设设备。实现准确、可靠的确认检测白蚁灭杀情况。

    基于时域去噪掩码的视频时序一致性增强方法

    公开(公告)号:CN111986105B

    公开(公告)日:2024-03-26

    申请号:CN202010733344.9

    申请日:2020-07-27

    IPC分类号: G06F7/544 G06T7/00

    摘要: 本发明公开了一种基于时域去噪掩码的视频时序一致性增强方法,属于视频处理领域。为解决现有图像处理方法不能在时序一致性和感知一致性之间达到很好的平衡,且其对应的输出效果很大程度上依赖于视频的预处理算法的问题,本申请方法包括:首先,对源视频进行采样,并进行预处理;其次,提取源视频的帧序列中的时序特征,并提取经预处理后视频的帧序列中的感知特征;然后,根据所述时序特征及所述感知特征构建时序去噪掩码网络,并通过所述构建的时序去噪网络重构源视频帧,并训练时序去噪掩码网络;最后,通过所述训练好的时序去噪掩码网络将输入的视频输出为时序稳定的视频。本发明能够减少图像处理算法的依赖性,进而能够增强视频时序一致性。

    用于多模态大语言模型的迭代优化方法及系统

    公开(公告)号:CN117709483A

    公开(公告)日:2024-03-15

    申请号:CN202311726942.3

    申请日:2023-12-15

    IPC分类号: G06N20/00 G06V10/80 G06V10/74

    摘要: 本发明公开了用于多模态大语言模型的迭代优化方法及系统,方法包括:选择评估基准对目标多模态大语言模型进行评估,用模型能够正确完成的所有指令构建成功案例池;用模型不能够正确完成的所有指令构建失败案例池;通过训练好的大语言模型对成功案例池中的成功源指令进行进化,以替换评估基准中对应的成功源指令;通过训练好的大语言模型对失败案例池中的失败源指令进行处理,以生成训练指令作为增量训练数据集;用增量训练数据集对目标多模态大语言模型进行训练。本发明实现了动态的、反馈导向的训练与评估机制,确保模型的持续优化,确保产生更为有针对性和高效的指令数据,从而更加精确地补充模型的不足之处。

    接触网定位器线夹螺母缺陷的检测方法及装置

    公开(公告)号:CN116843686A

    公开(公告)日:2023-10-03

    申请号:CN202311113672.9

    申请日:2023-08-31

    摘要: 本发明公开了接触网定位器线夹螺母缺陷的检测方法及装置,方法包括步骤:基于目标检测模型,从接触网图像中获取包括接触网定位器线夹螺母组件的第一图像;基于语义分割模型,对所述第一图像进行分割,获取包含各组件区域的多通道分割图像;利用所述中心校正区对所述多通道分割图像进行旋转矫正,获得第二图像;扫描获取第二图像中单行或单列各组件的顺序,解析后获得接触网定位器线夹螺母缺陷结果。本发明有效提升了定位器线夹上螺母组件的定位准确性,采用了目标检测与语义分割技术的有机结合,提高了检测的准确率和鲁棒性;具有较低的提报率从而降低了人工审核成本,同时还具备较高的识别准确率和可靠性。

    一种预警铁路边坡异常的系统和方法

    公开(公告)号:CN116385948B

    公开(公告)日:2023-09-15

    申请号:CN202310668981.6

    申请日:2023-06-07

    摘要: 本发明公开了一种预警铁路边坡异常的系统和方法,方法包括:获取目标区域的监控视频流,逐帧进行移动侦测,筛选出第一异常目标;利用训练好的神经网络模型,对第一信息列表中包含第一异常目标的图像进行进一步识别,筛选出第二异常目标;根据第一信息列表中包含第一异常目标的图像帧,判断其对应的第二图像中包含第二异常目标的图像帧是否大于八帧,若是,则判定该帧图像存在边坡异常目标,并进行第一次上报。本发明通过多次且不同方法的异常目标识别,避免了对高清图像和算力的依赖,同时保证了良好的识别准确度,大大提高了铁路边坡异常预警的工作效率,减少人工巡检的频率,从而降低工作人员在复杂环境中进行巡检的安全风险。

    一种跨域对齐嵌入空间的零样本跨模态检索方法

    公开(公告)号:CN110990595B

    公开(公告)日:2023-05-05

    申请号:CN201911228649.8

    申请日:2019-12-04

    IPC分类号: G06F16/43 G06F16/48 G06F16/45

    摘要: 本发明涉及跨模态检索技术领域,具体的说,是一种跨域对齐嵌入空间的零样本跨模态检索方法。所述的零样本跨模态检索方法先将不同模态数据和类别标签一起通过变分自动编码器映射到不同模态共同的低维的潜在嵌入空间,然后采用跨模态重构机制进行数据重构、采用跨域对齐机制进行跨域对齐、采用循环一致性约束机制进行循环一致性约束,经过整个网络训练后进行跨模态检索。本发明利用一个多模态变分自动编码器来构建类别嵌入和相同类别下不同模态的共同低维潜在嵌入空间而不是直接使用类别嵌入作为语义空间,并且避免了使用难以稳定训练的对抗生成网络,同时解决了“异构鸿沟”的问题。

    一种图像处理方法、装置、设备及介质

    公开(公告)号:CN114708161A

    公开(公告)日:2022-07-05

    申请号:CN202210319332.0

    申请日:2022-03-29

    摘要: 本申请公开了一种图像处理方法、装置、设备及介质,包括:获取训练样本集;其中,所述训练样本集包括暗光图像样本和所述暗光图像样本对应的标签,所述标签为与所述暗光图像样本在同一场景下的亮光图像;利用所述训练样本集对初始神经网络模型进行训练,得到训练后神经网络模型;当获取到待处理暗光图像,则利用所述训练后神经网络模型输出所述待处理暗光图像对应的特征图;将所述特征图归一化至人眼可辨的灰度范围,得到处理后图像。这样,能够在暗光条件下得到清晰的图像,并降低硬件成本。