一种漫画图像版面的识别方法和自动识别系统

    公开(公告)号:CN105528614A

    公开(公告)日:2016-04-27

    申请号:CN201510868065.2

    申请日:2015-12-02

    Applicant: 北京大学

    CPC classification number: G06K9/6261 G06K9/624

    Abstract: 本发明公布了一种漫画图像版面的识别方法和系统,通过利用能量最小化模型和图切分优化方法,自动识别出组成图像分镜边框的多边形,根据识别得到的多边形之间的几何位置关系得到图像分镜之间的阅读顺序,从而完成漫画版面的识别;包括前景背景分割、轮廓检测、多边形拟合、直线段检测、查找分镜和阅读顺序检测过程;识别系统包括前景背景分割模块、轮廓检测模块、直线段检测模块、分镜查找模块和后处理模块。本发明根据识别出的多边形的位置关系判断分镜阅读顺序,可以有效地处理较为复杂的漫画版面,提升处理效率并丰富移动设备用户的阅读体验。

    一种基于三维高斯的多帧环视自动驾驶场景仿真与编辑方法

    公开(公告)号:CN117934703A

    公开(公告)日:2024-04-26

    申请号:CN202311675493.4

    申请日:2023-12-07

    Applicant: 北京大学

    Inventor: 王勇涛 周啸宇

    Abstract: 本发明公开了一种基于三维高斯的多帧环视自动驾驶场景仿真与编辑方法,利用多模态传感器数据对大规模自动驾驶场景进行三维重建仿真。通过3D高斯表征分别表示静态背景和存在多物体的动态前景,提出使用增量式的3D静态高斯场建模大规模长时序的静态背景,并利用3D高斯动态图表征动态多物体,最终通过全局3D高斯splatting实现新视图渲染。同时,采用基于显式3D高斯的可控编辑技术,实现针对大规模自动驾驶场景的高效编辑,生成逼真的、多样化的corner cases驾驶场景,从而辅助训练和验证自动驾驶系统,提升自动驾驶系统在极端场景下的性能和保障安全性。

    基于大语言模型的可控布局三维场景表征与生成方法

    公开(公告)号:CN117409140A

    公开(公告)日:2024-01-16

    申请号:CN202311370589.X

    申请日:2023-10-23

    Applicant: 北京大学

    Inventor: 王勇涛 周啸宇

    Abstract: 本发明公开了一种基于大语言模型的可控布局三维场景表征与生成方法,利用文本和图像提示条件下的3D Layout作为三维多物体场景的空间状态表征,经过大语言模型和3D感知模型对指定的文本或图像进行三维空间状态抽取,并利用抽取得到的类别和空间位置状态信息生成3D Layout空间状态表征,之后利用神经辐射场和扩散模型在生成的3D Layout基础上进一步生成得到逼真的三维实景,从而实现高保真、多样化、高可控的三维场景生成。该方法打破了常规手动3D场景建模的思路,不依赖特定的大语言模型和扩散生成模型,且能够应用在复杂多样的三维场景生成中,包括但不限于多物体组合场景、室内场景、室外场景等,生成的场景几何形状精准、渲染质量高,简单高效,可控性强。

    一种防御文本生成图像模型微调的通用对抗水印生成方法和系统

    公开(公告)号:CN117333345A

    公开(公告)日:2024-01-02

    申请号:CN202311261160.7

    申请日:2023-09-27

    Applicant: 北京大学

    Inventor: 王勇涛 叶晓雨

    Abstract: 本发明涉及一种防御文本生成图像模型微调的通用对抗水印生成方法和系统。该方法包括:获取生成通用对抗水印所需的训练数据;利用训练数据攻击文本生成图像模型中的变分自动编码器,生成通用对抗水印;训练分类器,通过识别图片中出现的扰动和扭曲,判断图片是否为微调后的文本生成图像模型生成;利用训练完成的分类器识别待检测图片中是否含有通用对抗水印引入的扰动,进而判断待检测图片是否为微调后的文本生成图像模型生成的图片。本发明生成一种对模型、图片以及多种微调方法通用的主动防御水印,嵌入需要保护的媒体后,可检测出该媒体内容是否被利用于文本生成图像模型的微调训练,彻底防止文本生成图像模型利用该媒体进行微调训练。

    一种基于量化神经网络检测通用物体的方法

    公开(公告)号:CN116522994A

    公开(公告)日:2023-08-01

    申请号:CN202310041618.1

    申请日:2023-01-11

    Applicant: 北京大学

    Inventor: 王勇涛 林稚皓

    Abstract: 本发明提供一种基于量化神经网络检测通用物体的方法,属于物体检测技术领域。本发明通过建立混合精度配置并对其进行搜索,直接获取通用物体检测器各层权重和特征图的比特配置,据此搭建并实现通用物体检测器的量化,有效提升量化后通用物体检测器的精度,以优化对物体图像的检测。本发明可广泛应用于多种通用物体检测器部署当中,进而应用于智能安防、自动驾驶、无人机勘测等多种应用场景。

    一种基于对抗攻击的多媒体隐私保护方法、装置及设备

    公开(公告)号:CN113076557B

    公开(公告)日:2022-05-20

    申请号:CN202110360515.2

    申请日:2021-04-02

    Applicant: 北京大学

    Inventor: 王勇涛 黄灏 汤帜

    Abstract: 本发明公布了一种基于对抗攻击的多媒体隐私保护方法、装置及设备,方法包括以下步骤:获得对多媒体样本进行侵犯的神经网络模型和原始训练数据;根据神经网络模型针对的任务类型设计出不同的损失函数,利用损失函数的值对任一原始训练数据加上首次随机扰动求梯度,得到第一次对抗扰动;循环将原始训练数据加上第一次对抗扰动后输入到所述神经网络模型中进行计算,得到输出训练数据,再次利用损失函数计算损失,将损失回传求梯度,得到本次对抗扰动;当得到对应的输出训练数据与输入原始训练数据差距变大时,保存对抗扰动结果;将对抗扰动结果作为保护水印叠加到软件端上传或硬件端生成的多媒体内容上,主动保护该多媒体内容不被恶意利用或篡改。

    基于多信息路径聚合的特征金字塔神经网络架构搜索方法

    公开(公告)号:CN112699953A

    公开(公告)日:2021-04-23

    申请号:CN202110018395.8

    申请日:2021-01-07

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于多信息路径聚合的特征金字塔神经网络架构搜索方法,构建多种基本信息路径,建立全连接的有向无环图超网,搜索得到由多种基本信息路径聚合而成的多路径聚合特征金字塔网络;将多路径聚合特征金字塔网络嵌入各种骨干网络之后,增强由骨干网络提取到的特征表达;实际应用包括但不限于物体检测,实例分割,语义分割,关键点检测;本发明能够实现高效、有效的搜索,将搜索到特征金字塔网络嵌入检测器的骨干网络与检测器头之间,检测器其他部分的网络结构不需要改变,方法简单方便,且物体检测精度高,同时还降低检测器的参数量和计算复杂度。

    基于混合多尺度时序可分离卷积操作的视频行为识别方法

    公开(公告)号:CN111259782A

    公开(公告)日:2020-06-09

    申请号:CN202010037026.9

    申请日:2020-01-14

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于混合多尺度时序可分离卷积操作的视频行为识别方法,通过将原始视频抽取成图片序列,将图片序列分成多个间隔,每个间隔抽取一张图片组成图片子序列,对图片子序列进行特征提取,再对图片子序列特征进行分类,得到分类结果,作为视频内发生行为的类别;采用加入了混合多尺度时序可分离卷积的卷积神经网络模型作为学习器,提取图片子序列的语义特征,使用卷积神经网络模型中的全连接层对提取到的图片子序列特征进行分类。本发明方法用来解决视频中动作发生长短不同以及空间中不同语义特征具有不同时序变化尺度的问题,可应用于视频行为识别等方面的视频理解任务,能够高效地实现视频行为识别。

    基于特征金字塔网络的特征增强目标检测方法

    公开(公告)号:CN110084124A

    公开(公告)日:2019-08-02

    申请号:CN201910242976.2

    申请日:2019-03-28

    Applicant: 北京大学

    Abstract: 本发明公布了一种基于特征金字塔网络的图像目标检测方法,在送入目标检测器之前采用的骨干网络模型中增加自顶向下模块TDM、自底向上模块BUM和融合扩展模块FEM,从而形成新型的增强特征金字塔网络eFPN,能够同时增强对小尺寸物体、大尺寸物体和中等尺寸物体的检测性能,只引入很少的参数和计算量,更好地解决目标检测过程中多尺度目标的问题,显著增强单阶段网络和双阶段网络的性能,由此提高图像中多尺度目标物体的检测性能。

Patent Agency Ranking