基于毫米波雷达和相机鸟瞰图融合的三维感知方法

    公开(公告)号:CN118038396A

    公开(公告)日:2024-05-14

    申请号:CN202410272146.5

    申请日:2024-03-11

    Applicant: 北京大学

    Abstract: 本发明公开一种基于毫米波雷达和相机鸟瞰图融合的三维感知方法,属于计算机视觉技术领域。本发明针对毫米波雷达的特性,利用毫米波雷达主干网络,进行点云鸟瞰图特征提取,使用两种特征表征方式对毫米波雷达点云进行特征表示,并使用基于雷达反射截面(RCS)的离散方法得到鸟瞰图特征,基于可形变的跨注意力机制对毫米波雷达特征和相机鸟瞰图特征进行鲁棒和高效的融合,从而提高自动驾驶的感知任务的性能和多模态鲁棒性。采用本发明能够提高自动驾驶的三维感知(如三维目标检测、语义分割等)性能,可广泛应用于自动驾驶中实际应用的计算机视觉任务(如三维物体检测、语义分割等)。

    基于长短时序混合编码的端到端多模态多任务自动驾驶感知方法和装置

    公开(公告)号:CN117710917A

    公开(公告)日:2024-03-15

    申请号:CN202311456289.3

    申请日:2023-11-03

    Applicant: 北京大学

    Abstract: 本发明涉及一种基于长短时序混合编码的端到端多模态多任务自动驾驶感知方法和装置。该方法的步骤包括:针对车载传感器的多帧输入,使用多个编码网络进行长短时序的特征提取;然后对提取的特征进行基于注意力机制的时序融合,并进行跨模态融合,并对每个任务生成BEV特征图,然后采用不同任务的解码器获得每个任务的预测结果。本发明能够动态调整网络推理速度与精度,能够提高在同样计算量下的网络性能,能够针对不同编码网络得到的多帧BEV特征图进行时序融合,对于动态物体能够更好地进行跨帧对齐。本发明能够生成多尺度的BEV特征,进行时序和跨模态融合后,保留多尺度特征,经过特征选择,能够分别给予各任务解码器不同尺度的特征图。

    基于三维场景数据仿真和感知模型的联合训练优化方法

    公开(公告)号:CN117408149A

    公开(公告)日:2024-01-16

    申请号:CN202311370586.6

    申请日:2023-10-23

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于三维场景数据仿真和感知模型的联合训练优化方法。本发明打破了现有三维场景数据仿真与感知的训练优化隔阂,将三维场景动态仿真网络与多感知模型的训练进行端到端的联合优化,将感知、仿真等模块结合到一个可以联合训练的统一系统中,提高了计算效率,系统目标统一,更易获得全局最优解。本发明实现了从数据源头到感知模型的端到端训练,打造数据闭环与模型同步调优的全流程技术框架,在提升感知模型性能的同时能够进一步提高数据仿真的准确性、完整性和逼真程度,且能被用于更多后续的、下游的任务(如决策、控制),实现仿真‑感知的同步训练、协同优化,打造了仿真数据生成与感知模型训练端到端联合训练优化的新范式。

    基于大规模语言-图像模型引导的3D自监督预训练方法

    公开(公告)号:CN116681107A

    公开(公告)日:2023-09-01

    申请号:CN202310708348.5

    申请日:2023-06-15

    Applicant: 北京大学

    Abstract: 本发明公开一种基于大规模语言‑图像模型引导的3D自监督预训练方法,属于计算机视觉技术领域。本发明将大规模语言‑图像模型的语义理解能力和多模态处理能力作为指导目标,将3D网络特征与大规模语言‑图像模型的特征空间用对比学习进行对齐。此外,利用图像掩码的方式,采用3D特征和语言描述,对掩码后的图像进行重建,从而使得3D网络能够学习到与大规模语言‑图像模型相同的通用的LiDAR点云表征。在实际应用中,训练得到的具有强表征能力的网络能够被应用在多种自动驾驶的下游任务中,包括但不限于3D目标检测、3D实例分割、语义分割等任务,可以加速模型在下游任务训练时的收敛速度,同时提高网络性能。

    基于可学习特征变换的神经网络知识蒸馏方法

    公开(公告)号:CN115565021A

    公开(公告)日:2023-01-03

    申请号:CN202211196707.5

    申请日:2022-09-28

    Applicant: 北京大学

    Inventor: 王勇涛 刘子炜

    Abstract: 本发明提出了一种基于可学习特征变换的神经网络知识蒸馏方法,属于计算机视觉技术领域。本发明对齐学生模型与教师模型的中间特征和输出结果,无需针对不同任务设计复杂的特征变换模块,不引入复杂的超参数,免去了繁琐的参数调整步骤,可以提高知识蒸馏在多个任务上的通用性,提升知识蒸馏效果的同时免去了手工设计结构的繁琐,在多个计算机视觉任务上(如图片分类、目标检测、语义分割等)实现了性能提升。

    一种针对目标检测器对抗稳定性的测试方法、系统

    公开(公告)号:CN115240039A

    公开(公告)日:2022-10-25

    申请号:CN202210845988.6

    申请日:2022-07-19

    Applicant: 北京大学

    Inventor: 王勇涛 黄灏 汤帜

    Abstract: 本发明公开了一种针对目标检测器的对抗稳定性测试方法、系统,属于人工智能安全领域。本发明在攻击前生成一个随机的扰动作为初始的对抗补丁Xadv,并在后续的迭代中对该对抗补丁进行更新,最终利用训练好的对抗补丁对目标检测器进行对抗稳定性测试,并计算mAP作为量化指标。本发明通过使用已封装的模块、修改必要的外部接口,可以快速、灵活地针对目标模型实现对抗补丁式的攻击,能够满足对给定的检测器进行自定义攻击及对抗测试的要求。

    基于超参数搜索和二阶段训练的场景文字识别方法及系统

    公开(公告)号:CN112990196A

    公开(公告)日:2021-06-18

    申请号:CN202110279301.2

    申请日:2021-03-16

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于超参数搜索和二阶段训练的场景文字识别方法及系统,包括最佳训练超参数搜索、二阶段训练和场景文字识别;基于对场景文字识别训练涉及的因素和超参数进行分析,建立搜索空间;基于该搜索空间,使用进化算法和代理任务建立最佳训练超参数搜索算法,搜索得到最优训练参数;再采用二阶段训练方式:通过使用辅助解码器指导编码器的学习过程增强编码器的图像特征提取能力,在模型训练过程中先后经过两种监督,提高场景文字的识别精度。本发明方法简单方便,且场景文字识别精度高。

    基于多标签分类的道路交通标志的识别方法

    公开(公告)号:CN109993058A

    公开(公告)日:2019-07-09

    申请号:CN201910144912.9

    申请日:2019-02-27

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于多标签分类的道路交通标志的识别方法,提取出每个道路交通标志的所有标签;进行预测得到道路交通标志的多标签模板,用于判断待识别的道路交通标志图像是否属于该道路交通标志;所述预测使用卷积神经网络作为学习器,使用多标签分类器进行分类,通过计算待识别的道路交通标志图像的多标签模板和标准道路交通标志的多标签模板之间的匹配程度,判别待识别的道路交通标志图像是否属于该道路交通标志。本发明能够解决对道路交通标志类别的识别问题,具有可解释性,提高卷积神经网络模型识别道路交通标志的准确率,且识别方法具有高鲁棒性。

    基于对白和分镜联合识别的漫画图像版面识别方法和系统

    公开(公告)号:CN105574524B

    公开(公告)日:2018-10-19

    申请号:CN201510920816.0

    申请日:2015-12-11

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于对白和分镜联合识别的漫画图像版面识别方法和系统,将漫画图像分为分镜层和对白层;包括:提取得到漫画图像版面中的分镜;提取得到漫画图像版面中的对白;进行分镜与分镜、对白与对白、分镜与对白的联合识别:利建立能量最小化函数,通过优化求解能量最小化函数,得到分镜多边形和对白包围框的标记结果;根据多边形几何位置关系,识别得到阅读顺序;由此完成漫画图像版面的识别。本发明突破了只注重构成对象的独立提取、忽视构成对象间联系的识别方法的局限性,提高了分镜识别的准确率,具有更强的通用性。

    一种基于单幅线条图像的三维立体重建方法

    公开(公告)号:CN104252715B

    公开(公告)日:2017-05-03

    申请号:CN201410450000.1

    申请日:2014-09-05

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于单幅线条图像的三维立体重建方法。该方法首先将输入的线条图像进行矢量化处理,将其转换为二维矢量线条图,然后应用子图同构的方法将二维矢量线条图与预先设定的三维模型库进行匹配,与之匹配的模型称为候选模型,最后将线条图与候选模型的坐标差距函数进行最小化求解,以选择最优的模型并得出重建结果。本发明可以有效地对单幅线条图像进行三维立体重建,极大地提高了相关文档的阅读体验。

Patent Agency Ranking