-
公开(公告)号:CN107729848A
公开(公告)日:2018-02-23
申请号:CN201710986773.5
申请日:2017-10-20
Applicant: 北京大学
IPC: G06K9/00
Abstract: 本发明公开了一种对象检测方法及装置,属于计算机技术领域。所述方法包括:将视频中未进行对象检测的视频帧中的第一个视频帧确定为测试帧;根据所述测试帧的图像特征,确定所述测试帧中的多个候选图像,以及确定各个候选图像的类别和置信度;对于所述多个候选图像中属于同一类别的至少一个候选图像,根据所述至少一个候选图像的置信度中最高的置信度,对所述至少一个候选图像的置信度进行调整;根据所述多个候选图像的调整后的置信度,从所述多个候选图像中获取多个包含有预设对象的目标图像。本发明提高了从该测试帧中获取目标图像时的准确度,避免了对该测试帧中较为模糊的目标图像的遗漏,进而提高了该视频整体的对象检测效果。
-
公开(公告)号:CN116402139A
公开(公告)日:2023-07-07
申请号:CN202310328749.8
申请日:2023-03-30
Applicant: 北京大学
IPC: G06N5/04 , G06N3/045 , G06N3/08 , G06F18/214
Abstract: 本发明涉及一种基于动态推理网络检测通用物体的方法和系统。该方法包括:基于给定的通用物体检测器,构建多出口的动态推理物体检测器;为所述多出口的动态推理物体检测器插入多尺度自适应门控网络;利用无超参数的训练策略,训练所述多出口的动态推理物体检测器及所述多尺度自适应门控网络;利用训练完成的所述多出口的动态推理物体检测器及所述多尺度自适应门控网络,采用可变时延推理策略进行通用物体检测。本发明可广泛应用于多种通用物体检测器部署当中,进而应用于智能安防、自动驾驶、无人机勘测等多种应用场景,以快速实现同一模型在多种硬件需求的有效部署、应用,降低人力、物力、财力的消耗。
-
公开(公告)号:CN115205633A
公开(公告)日:2022-10-18
申请号:CN202210889746.7
申请日:2022-07-27
Applicant: 北京大学
IPC: G06V10/774 , G06V10/80 , G06V10/776 , G06V10/82 , G06V20/64 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法,属于计算机视觉技术领域。该方法利用不同的数据增广对LiDAR点云数据和图像数据进行变换,经过网络分别提取特征后,将两个模态特征投影到同一个鸟瞰图(BEV)空间中,之后利用反变换将两者的特征对齐,通过细粒度的对比学习来使得网络能够学习到通用的LiDAR点云和图像表征。在实际应用中,训练得到的具有强表征能力的网络能够被应用在多种自动驾驶的下游任务中,包括但不限于3d目标检测、3d实例分割、语义分割等任务。上述预训练的网络能够被用来初始化检测器的骨干网络,加速模型在训练时的收敛速度,同时提高网络性能。
-
公开(公告)号:CN113076557A
公开(公告)日:2021-07-06
申请号:CN202110360515.2
申请日:2021-04-02
Applicant: 北京大学
Abstract: 本发明公布了一种基于对抗攻击的多媒体隐私保护方法、装置及设备,方法包括以下步骤:获得对多媒体样本进行侵犯的神经网络模型和原始训练数据;根据神经网络模型针对的任务类型设计出不同的损失函数,利用损失函数的值对任一原始训练数据加上首次随机扰动求梯度,得到第一次对抗扰动;循环将原始训练数据加上第一次对抗扰动后输入到所述神经网络模型中进行计算,得到输出训练数据,再次利用损失函数计算损失,将损失回传求梯度,得到本次对抗扰动;当得到对应的输出训练数据与输入原始训练数据差距变大时,保存对抗扰动结果;将对抗扰动结果作为保护水印叠加到软件端上传或硬件端生成的多媒体内容上,主动保护该多媒体内容不被恶意利用或篡改。
-
公开(公告)号:CN105574524A
公开(公告)日:2016-05-11
申请号:CN201510920816.0
申请日:2015-12-11
Applicant: 北京大学
CPC classification number: G06K9/2054 , G06K9/6269
Abstract: 本发明公布了一种基于对白和分镜联合识别的漫画图像版面识别方法和系统,将漫画图像分为分镜层和对白层;包括:提取得到漫画图像版面中的分镜;提取得到漫画图像版面中的对白;进行分镜与分镜、对白与对白、分镜与对白的联合识别:利建立能量最小化函数,通过优化求解能量最小化函数,得到分镜多边形和对白包围框的标记结果;根据多边形几何位置关系,识别得到阅读顺序;由此完成漫画图像版面的识别。本发明突破了只注重构成对象的独立提取、忽视构成对象间联系的识别方法的局限性,提高了分镜识别的准确率,具有更强的通用性。
-
公开(公告)号:CN104252715A
公开(公告)日:2014-12-31
申请号:CN201410450000.1
申请日:2014-09-05
Applicant: 北京大学
IPC: G06T17/00
Abstract: 本发明公布了一种基于单幅线条图像的三维立体重建方法。该方法首先将输入的线条图像进行矢量化处理,将其转换为二维矢量线条图,然后应用子图同构的方法将二维矢量线条图与预先设定的三维模型库进行匹配,与之匹配的模型称为候选模型,最后将线条图与候选模型的坐标差距函数进行最小化求解,以选择最优的模型并得出重建结果。本发明可以有效地对单幅线条图像进行三维立体重建,极大地提高了相关文档的阅读体验。
-
公开(公告)号:CN102999758A
公开(公告)日:2013-03-27
申请号:CN201210456998.7
申请日:2012-11-14
Applicant: 北京大学
Abstract: 本发明公布了一种基于多边形检测的漫画图像版面理解系统和方法。该方法可以自动识别出组成分镜边框的多边形,并且根据识别出的多边形之间的几何位置关系判断分镜之间的阅读顺序,从而完成漫画版面理解。通过对于用户输入的漫画图像进行自动分析,从而获取漫画版面中的分镜,并且根据识别的分镜之间的几何位置关系判定其阅读顺序,从而使得漫画图像能更好地在移动设备上阅读。该方法能够自动理解漫画版面,解决了目前方法不能处理复杂布局版面的问题,可以提升处理效率和用户体验。
-
公开(公告)号:CN119006886A
公开(公告)日:2024-11-22
申请号:CN202410981520.9
申请日:2024-07-22
Applicant: 北京大学
IPC: G06V10/764 , G06V10/26 , G06V20/56 , G06N3/0464
Abstract: 本发明公开了一种基于大型视觉语言模型注意力图的开放式通用感知方法,属于计算机视觉技术领域。本发明利用大型视觉语言模型在生成物体类别时,产生对应的特征,使用该特征对应的注意力图作为中间提示,利用SAM进行高精度的物体分割,从而同时获得物体类别和感知结果,以解决开放式感知任务。本发明能够普遍的适用于大多数大型视觉语言模型和基于SAM的改进模型,在最小改变模型框架的基础上,实现更好的开放式感知性能。
-
公开(公告)号:CN112990196B
公开(公告)日:2023-10-24
申请号:CN202110279301.2
申请日:2021-03-16
Applicant: 北京大学
IPC: G06V30/19 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明公布了一种基于超参数搜索和二阶段训练的场景文字识别方法及系统,包括最佳训练超参数搜索、二阶段训练和场景文字识别;基于对场景文字识别训练涉及的因素和超参数进行分析,建立搜索空间;基于该搜索空间,使用进化算法和代理任务建立最佳训练超参数搜索算法,搜索得到最优训练参数;再采用二阶段训练方式:通过使用辅助解码器指导编码器的学习过程增强编码器的图像特征提取能力,在模型训练过程中先后经过两种监督,提高场景文字的识别精度。本发明方法简单方便,且场景文字识别精度高。
-
公开(公告)号:CN115273247A
公开(公告)日:2022-11-01
申请号:CN202210845845.5
申请日:2022-07-19
Applicant: 北京大学
Abstract: 本发明公开了一种针对深度伪造的主动防御方法、系统,属于人工智能安全领域。本发明生成一种模型通用的主动防御水印,将该水印嵌入包含人脸信息的媒体后可使深度伪造模型的生成扭曲,并可通过该水印检测出该媒体内容是否经历过深度伪造,彻底防止深度伪造篡改。本发明对多种深度伪造模型具有防御能力,且无需深度伪造模型结构信息,即可达到防御效果。
-
-
-
-
-
-
-
-
-