视频定位模型训练方法
    1.
    发明公开

    公开(公告)号:CN118587409A

    公开(公告)日:2024-09-03

    申请号:CN202411054298.4

    申请日:2024-08-02

    摘要: 本申请提供视频定位模型训练方法,包括:通过初始视频定位模型提取样本数据集中样本文本的单词级文本特征,以及样本数据集中样本视频的帧级视频特征;融合单词级文本特征与帧级视频特征,得到句子级文本特征和包含上下文语义信息的视觉特征;确定视觉特征对应的剪辑视频段的阶段特定表示,并根据阶段特定表示,在剪辑视频段中选取候选视频段;通过候选视频段与样本数据集中的真实视频段,对初始视频定位模型进行训练,直至满足训练停止条件,得到目标视频定位模型。本申请能够获取更具辨识力的多模态融合特征,并增强模型的跨模态对齐能力,实现视频和文本之间的细粒度对齐,提高了模型的组合泛化能力,保障模型能够实现高效的组合时刻定位。

    白蚁灭杀监测方法及装置

    公开(公告)号:CN118334709A

    公开(公告)日:2024-07-12

    申请号:CN202410748763.8

    申请日:2024-06-12

    摘要: 本申请提供白蚁灭杀监测方法及装置,其中所述白蚁灭杀监测方法包括:基于预设的时间周期,对目标区域进行图像采集,得到包含样本图像帧的样本图像信息;根据样本图像信息,提取背景对象,并对样本图像帧与背景对象进行帧差处理,得到帧差图像集;对帧差图像集进行二值化处理,确定运动轮廓对象列表,并基于样本图像信息,通过预设的白蚁检测模型,确定白蚁目标对象列表;基于运动轮廓对象列表与白蚁目标对象列表,确定运动白蚁列表与静止白蚁列表;根据运动白蚁列表与静止白蚁列表,更新白蚁基准上报对象,当满足预设的上报条件时,将白蚁基准上报对象发送至预设设备。实现准确、可靠的确认检测白蚁灭杀情况。

    基于时域去噪掩码的视频时序一致性增强方法

    公开(公告)号:CN111986105B

    公开(公告)日:2024-03-26

    申请号:CN202010733344.9

    申请日:2020-07-27

    IPC分类号: G06F7/544 G06T7/00

    摘要: 本发明公开了一种基于时域去噪掩码的视频时序一致性增强方法,属于视频处理领域。为解决现有图像处理方法不能在时序一致性和感知一致性之间达到很好的平衡,且其对应的输出效果很大程度上依赖于视频的预处理算法的问题,本申请方法包括:首先,对源视频进行采样,并进行预处理;其次,提取源视频的帧序列中的时序特征,并提取经预处理后视频的帧序列中的感知特征;然后,根据所述时序特征及所述感知特征构建时序去噪掩码网络,并通过所述构建的时序去噪网络重构源视频帧,并训练时序去噪掩码网络;最后,通过所述训练好的时序去噪掩码网络将输入的视频输出为时序稳定的视频。本发明能够减少图像处理算法的依赖性,进而能够增强视频时序一致性。

    用于多模态大语言模型的迭代优化方法及系统

    公开(公告)号:CN117709483A

    公开(公告)日:2024-03-15

    申请号:CN202311726942.3

    申请日:2023-12-15

    IPC分类号: G06N20/00 G06V10/80 G06V10/74

    摘要: 本发明公开了用于多模态大语言模型的迭代优化方法及系统,方法包括:选择评估基准对目标多模态大语言模型进行评估,用模型能够正确完成的所有指令构建成功案例池;用模型不能够正确完成的所有指令构建失败案例池;通过训练好的大语言模型对成功案例池中的成功源指令进行进化,以替换评估基准中对应的成功源指令;通过训练好的大语言模型对失败案例池中的失败源指令进行处理,以生成训练指令作为增量训练数据集;用增量训练数据集对目标多模态大语言模型进行训练。本发明实现了动态的、反馈导向的训练与评估机制,确保模型的持续优化,确保产生更为有针对性和高效的指令数据,从而更加精确地补充模型的不足之处。

    接触网定位器线夹螺母缺陷的检测方法及装置

    公开(公告)号:CN116843686A

    公开(公告)日:2023-10-03

    申请号:CN202311113672.9

    申请日:2023-08-31

    摘要: 本发明公开了接触网定位器线夹螺母缺陷的检测方法及装置,方法包括步骤:基于目标检测模型,从接触网图像中获取包括接触网定位器线夹螺母组件的第一图像;基于语义分割模型,对所述第一图像进行分割,获取包含各组件区域的多通道分割图像;利用所述中心校正区对所述多通道分割图像进行旋转矫正,获得第二图像;扫描获取第二图像中单行或单列各组件的顺序,解析后获得接触网定位器线夹螺母缺陷结果。本发明有效提升了定位器线夹上螺母组件的定位准确性,采用了目标检测与语义分割技术的有机结合,提高了检测的准确率和鲁棒性;具有较低的提报率从而降低了人工审核成本,同时还具备较高的识别准确率和可靠性。

    一种预警铁路边坡异常的系统和方法

    公开(公告)号:CN116385948B

    公开(公告)日:2023-09-15

    申请号:CN202310668981.6

    申请日:2023-06-07

    摘要: 本发明公开了一种预警铁路边坡异常的系统和方法,方法包括:获取目标区域的监控视频流,逐帧进行移动侦测,筛选出第一异常目标;利用训练好的神经网络模型,对第一信息列表中包含第一异常目标的图像进行进一步识别,筛选出第二异常目标;根据第一信息列表中包含第一异常目标的图像帧,判断其对应的第二图像中包含第二异常目标的图像帧是否大于八帧,若是,则判定该帧图像存在边坡异常目标,并进行第一次上报。本发明通过多次且不同方法的异常目标识别,避免了对高清图像和算力的依赖,同时保证了良好的识别准确度,大大提高了铁路边坡异常预警的工作效率,减少人工巡检的频率,从而降低工作人员在复杂环境中进行巡检的安全风险。

    一种跨域对齐嵌入空间的零样本跨模态检索方法

    公开(公告)号:CN110990595B

    公开(公告)日:2023-05-05

    申请号:CN201911228649.8

    申请日:2019-12-04

    IPC分类号: G06F16/43 G06F16/48 G06F16/45

    摘要: 本发明涉及跨模态检索技术领域,具体的说,是一种跨域对齐嵌入空间的零样本跨模态检索方法。所述的零样本跨模态检索方法先将不同模态数据和类别标签一起通过变分自动编码器映射到不同模态共同的低维的潜在嵌入空间,然后采用跨模态重构机制进行数据重构、采用跨域对齐机制进行跨域对齐、采用循环一致性约束机制进行循环一致性约束,经过整个网络训练后进行跨模态检索。本发明利用一个多模态变分自动编码器来构建类别嵌入和相同类别下不同模态的共同低维潜在嵌入空间而不是直接使用类别嵌入作为语义空间,并且避免了使用难以稳定训练的对抗生成网络,同时解决了“异构鸿沟”的问题。

    一种图像处理方法、装置、设备及介质

    公开(公告)号:CN114708161A

    公开(公告)日:2022-07-05

    申请号:CN202210319332.0

    申请日:2022-03-29

    摘要: 本申请公开了一种图像处理方法、装置、设备及介质,包括:获取训练样本集;其中,所述训练样本集包括暗光图像样本和所述暗光图像样本对应的标签,所述标签为与所述暗光图像样本在同一场景下的亮光图像;利用所述训练样本集对初始神经网络模型进行训练,得到训练后神经网络模型;当获取到待处理暗光图像,则利用所述训练后神经网络模型输出所述待处理暗光图像对应的特征图;将所述特征图归一化至人眼可辨的灰度范围,得到处理后图像。这样,能够在暗光条件下得到清晰的图像,并降低硬件成本。

    一种基于语言重建和图机制的视频段落定位方法

    公开(公告)号:CN114357124A

    公开(公告)日:2022-04-15

    申请号:CN202210270425.9

    申请日:2022-03-18

    摘要: 本发明涉及多模态视频理解中的跨模态内容检索技术领域,公开了一种基于语言重建和图机制的视频段落定位方法,包括:选择数据集,构建视频段落,使用损失函数训练模型,最后验证模型效果。本发明用于提高细粒度的异构数据之间的信息交互能力,增强对视频内容的理解,提高模型对视频‑文本的跨模态内容理解能力。本发明可用于各种多模态视频理解场合,如网络视频APP、智慧安防系统、大规模视频内容检索等,可改善用户软件使用体验,提高视频、安防、社会治理等相关领域工作人员的工作效率。

    一种基于点云拟合光平面调平的方法及设备

    公开(公告)号:CN114022650B

    公开(公告)日:2022-04-12

    申请号:CN202210011866.7

    申请日:2022-01-07

    IPC分类号: G06T19/20

    摘要: 本发明公开了一种基于点云拟合光平面调平的方法及设备,该方法包括:在待处理的点云中选择特征点云簇;拟合特征点云簇所在的光平面;计算所述光平面的位姿;通过光平面的位姿将待处理的点云平铺到目标坐标系中。通过上述步骤的基于点云拟合光平面调平后方便切除点云的背景面,使得点云画面更加纯净。并且在基于视觉的无序抓取中可将点云调整到与机器人基座所在坐标系平行,从而可以以Z轴为方向从上到下进行抓取,使得处理速度更快且干扰更少。