一种笔画宽度可控的脱机签名图像生成方法

    公开(公告)号:CN115083023A

    公开(公告)日:2022-09-20

    申请号:CN202210573892.9

    申请日:2022-05-25

    Abstract: 本发明提供了一种笔画宽度可控的脱机签名图像生成方法,包括如下步骤:获得单像素轨迹图像和脱机签名图像,并对所述单像素轨迹图像和所述脱机签名图像进行预处理;计算预处理后的所述脱机签名图像的笔画宽度等级;构建并训练基于笔画宽度条件向量的循环生成对抗网络;基于训练后的所述基于笔画宽度条件向量的循环生成对抗网络,获得笔画宽度可控的脱机签名图像。本发明给出的模型可以自动生成大量形变自然的手写风格逼真的脱机签名图像,缓解了深度脱机签名认证领域训练数据不足的问题,具有较高的应用价值。

    一种基于渐进矫正机制的场景文本识别方法

    公开(公告)号:CN113723423A

    公开(公告)日:2021-11-30

    申请号:CN202111039925.3

    申请日:2021-09-06

    Abstract: 本发明公开了一种基于渐进矫正机制的场景文本识别方法,包括:采集场景文本图像,将所述场景文本图像进行渐进式矫正,获得目标文本图像,基于所述目标文本图像进行文本识别,获得识别结果。本发明通过采用一种渐进的矫正机制将不规则文本矫正为规则文本,并将其准确识别,能够消除拍摄角度带来的透视变形和字符的不规则排列带来的弯曲性等形变,同时剔除或抑制复杂背景带来的干扰,解决了包含不规则文本的场景识别问题,大大提高了识别系统对场景文本的鲁棒性,从而进一步提升了识别效果。

    一种较高精度可见光室内机器人定位装置

    公开(公告)号:CN109884589B

    公开(公告)日:2021-08-10

    申请号:CN201910095972.6

    申请日:2019-01-31

    Abstract: 本发明公开了一种较高精度可见光室内机器人定位装置,包括定位发射模块、定位模块、计算机模块、显示模块、驱动模块、电源模块和蓝牙模块;定位发射模块用于发射定位信号;所述定位模块设置于机器人背部,用于接收定位发射模块发射的定位信号,并将定位信号转化成参数传输到计算机模块;计算机模块用于接收控制数据以及进行定位参数的运算,并将位置信息传输到显示模块;显示模块用于实现人机交互;驱动模块用于通过计算机模块对机器人进行控制;电源模块用于对定位装置中的各个模块进行供电;蓝牙模块用于实现相关数据的传输以及对机器人进行远程控制。本发明能够有效地提高定位精度,减小定位误差。

    统一多任务与多领域版面生成的方法、装置、设备及介质

    公开(公告)号:CN120068798A

    公开(公告)日:2025-05-30

    申请号:CN202510026123.0

    申请日:2025-01-08

    Abstract: 本发明公开了一种统一多任务与多领域版面生成的方法、装置、设备及介质,其中方法包括:获取多个领域的版面生成数据;将每一个版面的所有元素的信息打平成一个序列,对序列进行随机的掩码作为输入,将完整的序列作为标签;将序列和标签输入到大语言模型进行训练,不同领域的版面数据在训练中混合使用;将根据不同任务需求、不同领域需求产生的部分版面信息输入到训练后模型中,让模型生成出一个完整的版面序列。本发明使用深度学习和基于大语言模型的序列生成技术,统一多种版面生成的任务以及多个领域的版面生成,实现一个通用、性能好的版面生成引擎。本发明可广泛应用于深度学习与模式识别领域。

    一种文档图像增强统一方法及系统

    公开(公告)号:CN118314048A

    公开(公告)日:2024-07-09

    申请号:CN202410453865.7

    申请日:2024-04-16

    Abstract: 本发明公开了一种文档图像增强统一方法及系统,其中方法包括以下步骤:基于待增强文档图像以及待执行的特定的增强任务进行二维视觉提示提取;利用提取到的二维视觉提示指导共享参数的深度神经网络对待增强文档图像执行特定的增强任务。本发明创新性地提出用底层视觉特征作为视觉提示指导模型执行不同的增强任务,在提升增强性能的同时实现仅用一个模型,训练一次,完成多种文档图像增强任务。

    一种获取指针水表读数的后处理方法、系统、装置及介质

    公开(公告)号:CN117095406A

    公开(公告)日:2023-11-21

    申请号:CN202310920583.9

    申请日:2023-07-25

    Abstract: 本发明公开了一种获取指针水表读数的后处理方法、系统、装置及介质,其中方法包括:获取指针水表图像,对指针水表图像中的各个指针进行检测,以及裁剪获取各个指针图片,根据指针的相对位置关系对所有指针图片进行排序;利用预设的图像编码器从各指针图片中提取视觉特征和文本特征;基于Transformer编码器对提取的视觉特征和文本特征进行上下文建模,得到增强后的多模态特征;根据多模态特征,基于Transformer解码器自回归输出最终读数。本发明充分利用指针间上下文信息,从而实现正确识别过度位置处的读数,且能正确识别存在视差的指针的读数。本发明可广泛应用于模式识别与人工智能技术领域。

    一种基于视觉令牌高效处理的多模态大语言模型免训练加速方法

    公开(公告)号:CN120046656A

    公开(公告)日:2025-05-27

    申请号:CN202510115032.4

    申请日:2025-01-24

    Abstract: 本发明公开了一种基于视觉令牌高效处理的多模态大语言模型免训练加速方法,包括以下步骤:获取多模态问答数据,并将多模态问答数据划分为验证集和测试集;将验证集输入到目标多模态大语言模型中,并通过搜索方法来进行模型各层的冗余度排序;根据冗余度排序,将测试集输入到目标多模态大语言模型中,获取目标多模态大语言模型每一层的冗余度大小;根据冗余度大小,对目标多模态大语言模型的部分层进行关于视觉令牌处理的加速操作。本发明利用视觉令牌所需算力要少于文本令牌的特点,通过定位大语言模型中的冗余层并对其中关于视觉令牌的自注意力操作和前馈神经网络操作进行优化,实现模型推理效率的大幅提升。

    一种拍照文档图像增强方法、系统、装置及介质

    公开(公告)号:CN116823650A

    公开(公告)日:2023-09-29

    申请号:CN202310713805.X

    申请日:2023-06-15

    Inventor: 金连文 张家鑫

    Abstract: 本发明公开了一种拍照文档图像增强方法、系统、装置及介质,属于模式识别与人工智能技术领域。其中方法包括:获取第一文档图像,以及获取所述第一文档图像对应的阴影图;根据所述第一文档图像和获得的阴影图进行光照矫正处理,得到第二文档图像;将所述第一文档图像和所述第二文档图像在通道维度进行拼接后,输入预设的第二深度卷积神经网络进行增强处理,输出第三文档图像,作为最终的增强结果。本发明能够处理各种光照退化:包括物体遮挡光源导致的阴影、光源不均匀导致的阴影、纸张不平整导致的阴影、光源不充足导致的低对比度。另外,还能处理字迹渗透等细节噪声。

    一种文档图像配准数据合成方法、系统、装置及介质

    公开(公告)号:CN116452641A

    公开(公告)日:2023-07-18

    申请号:CN202310113199.8

    申请日:2023-02-13

    Abstract: 本发明公开了一种文档图像配准数据合成方法、系统、装置及介质,其中方法包括:获取不包含几何形变退化、光照退化的第一文档图像;生成随机非刚性形变的偏移场;根据生成的偏移场对第一文档图像进行几何形变,得到第二文档图像;获取阴影图;根据阴影图对第一文档图像和/或第二文档图像进行退化处理,获得退化图像。本发明可以合成针对文档图像配准的数据,包括两张内容相同但相互之间含有非刚性形变的文档图像以及这两张文档图像之间的偏移场,合成的数据还可以模拟真实场景中拍摄文档图像含有的阴影、光照变化等退化;该合成方法可以有效地缓解现有文档图像配准任务中训练数据欠缺的问题。本发明可广泛应用于模式识别与人工智能技术领域。

Patent Agency Ranking