基于高效微调视觉预训练模型的自动驾驶检测方法及系统

    公开(公告)号:CN119007154A

    公开(公告)日:2024-11-22

    申请号:CN202411153109.9

    申请日:2024-08-21

    Inventor: 马超 杨小康

    Abstract: 本发明提供一种基于高效微调视觉预训练模型的自动驾驶检测方法和系统,包括:获取初始视觉预训练大模型;将微调模块插入所述初始视觉预训练大模型中,构成检测网络;训练所述检测网络,训练过程中仅微调所述微调模块的参数;利用训练好的检测网络进行自动驾驶检测。本发明创新性地将微调模块整合至大模型中,并仅针对微调模块的参数进行调整,显著降低了参数学习的规模,有效节省了计算资源和时间成本,展现出卓越的高效性和实用性,相比现有方法提升了在多场景下的检测性能。

    一种用于人人交互场景的三维人体反应生成方法与系统

    公开(公告)号:CN117934704A

    公开(公告)日:2024-04-26

    申请号:CN202311729804.0

    申请日:2023-12-15

    Abstract: 本发明公开了一种用于人人交互场景的三维人体反应生成方法与系统,涉及三维成像技术领域,主要包括步骤:通过扩散模型将动作反应方的人体反应,进行随机采样时间步长下的正向过程加噪;将条件输入和加噪后的人体反应分别由全连接层处理并拼接后获得最终表征;将随机采样时间步长和条件输入所对应的动作类别由全连接层处理并拼接,拼接结果与最终表征合并获得合并结果;将合并结果输入逆过程模型,在基于距离的双人动作表征损失函数约束,以及扩散模型损失函数对扩散模型的约束下进行训练;动作反应方人体反应的实时生成。本发明通过构建扩散模型和自注意力机制解码器结构的人体反应生成网络,获取人体实时反应结果,优化了可视化效果。

    一种全参考音频质量评价方法及装置

    公开(公告)号:CN111508525B

    公开(公告)日:2023-05-23

    申请号:CN202010171569.X

    申请日:2020-03-12

    Abstract: 本发明提供了一种全参考音频质量评价方法及装置,方法包括:将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作,得到适用于音频质量评价的方法;用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计,得到局部音频质量估计结果;对所述局部音频质量估计结果进行时域池化,得到音频的整体质量评价结果。本发明提供的全参考音频质量评价方法及装置,可有效地评价音频质量。

    一种工业二维码无参考质量评估系统及方法

    公开(公告)号:CN110930356B

    公开(公告)日:2023-02-28

    申请号:CN201910966425.0

    申请日:2019-10-12

    Abstract: 本发明提供了一种无参考的针对工业二维码图像的质量评价系统,包括工业二维码数据库模块,提供待评估的工业二维码测试样本和用于训练的工业二维码训练样本,输入多任务MTL卷积神经网络模块进行模块;多任务MTL卷积神经网络模块,通过在工业二维码训练样本上对多任务MTL卷积神经网络进行训练,并采用训练后的多任务MTL卷积神经网络完成对待评估的工业二维码进行的质量评价任务;工业二维码经过浅层多任务卷积神经网络和深层多任务卷积神经网络的预测后,一方面,可以判定图像的多种失真类型,另一方面,可以预测图像的质量等级。本发明可以大大减少工业二维码预处理与解码的时间成本与计算成本,提高工业二维码的解码效率,增加工业流水线的吞吐量。

    一种手机照片质量比较评价方法、系统及终端

    公开(公告)号:CN111539914B

    公开(公告)日:2022-12-20

    申请号:CN202010211227.6

    申请日:2020-03-24

    Abstract: 本发明提供一种手机照片质量比较评价方法、系统及终端,方法包括:对同一场景下的两幅照片进行调整,使所述两幅照片的内容对齐;移除对齐后的所述两幅照片的画面中运动物体,减少画面内容的差异部分;将移除运动物体后的所述两幅照片分别划分为多个区域,逐一比对所述两幅照片中相对应的区域,提取出所述两幅照片中相似度最低的区域;对提取到的所述相似度最低的区域进行清晰度、噪声进行分析,得到综合评价结果。系统包括:图像调整对齐模块、运动物体移除模块、差异最大区域提取模块和综合质量评价模块。本发明可以实现照片客观质量评价,不需要主观评价者的参与,节省人力,可操作性高。

    基于无标注视频训练的目标跟踪方法、系统、终端及介质

    公开(公告)号:CN113628244A

    公开(公告)日:2021-11-09

    申请号:CN202110757887.9

    申请日:2021-07-05

    Abstract: 本发明提供了一种基于无标注视频训练的目标跟踪方法及系统,对原始视频进行无监督光流预测,提取所述原始视频中每一帧的候选框,得到候选框序列;基于所述候选框序列,构建运动物体在所述原始视频中的伪标定框序列;基于所述伪标定框序列构建训练样本,并将所述训练样本输入至朴素孪生网络对所述朴素孪生网络进行训练,生成初步跟踪模型;对所述初步跟踪模型进行存储循环训练,得到目标跟踪模型;利用所述目标跟踪模型对待跟踪视频中的目标进行跟踪。同时提供了一种相应的终端及介质。本发明大幅度减少视频数据人工标注的成本,同时丰富训练可利用的视频数据;在无标注情况下,实现一种从无标注视频中训练一个基于标定框回归的目标跟踪模型。

    一种基于对抗攻击技术的视觉问答数据增强方法及装置

    公开(公告)号:CN112364138A

    公开(公告)日:2021-02-12

    申请号:CN202011082774.5

    申请日:2020-10-12

    Inventor: 马超 杨小康

    Abstract: 本发明公开了一种基于对抗攻击技术的视觉问答数据增强方法及装置,该方法包括:将生成原始外文问题Q对应的对抗样本qadv并保存;利用对抗样本qadv进行训练,并在训练过程中动态生成原始图像v的对抗样本vadv,计算损失函数,更新网络参数,直至网络收敛。该装置包括:对抗样本单元以及网络训练单元;对抗样本单元用于生成原始外文问题Q对应的对抗样本qadv并保存;网络训练单元用于利用对抗样本qadv进行训练,计算损失函数,更新网络参数,直至网络收敛。通过本发明,解决了视觉问答数据增强中图像、问题以及答案三种语义匹配难题,以及现有视觉问答的数据增强方法没有做到图像与文本的双增强。

    具有语义感知的即时定位与地图构建系统及方法

    公开(公告)号:CN111968129A

    公开(公告)日:2020-11-20

    申请号:CN202010678065.7

    申请日:2020-07-15

    Inventor: 杨小康 马超

    Abstract: 本发明提供了一种具有语义感知的即时定位与地图构建系统及方法,图像采集与预处理模块获取相机采集的RGB图像并进行预处理,得到预处理图;语义分割模块对预处理图进行二维语义分割,得到二维语义分割图;深度估计模块获取预处理图的深度信息,得到预处理图的深度预测图;相机位姿估计模块根据输入的预处理图及其深度预测图进行相机位姿估计,得到相机位姿矩阵;三维稠密点云重建模块对当前帧预处理图及其深度预测图以及当前帧相机位姿矩阵进行三维场景的稠密点云重建,并将二维语义分割图映射到三维场景的稠密点云上,完成具有语义信息的三维场景重建。本发明并且具有准确性和鲁棒性,仅靠单目相机实现了对场景的理解与重建。

Patent Agency Ranking