字符识别方法、模型训练方法、相关装置及电子设备

    公开(公告)号:CN113011420A

    公开(公告)日:2021-06-22

    申请号:CN202110261383.8

    申请日:2021-03-10

    Abstract: 本申请公开了字符识别方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取目标图片;对所述目标图片进行特征编码,得到所述目标图片的视觉特征;对所述视觉特征进行特征映射,得到所述目标图片的第一目标特征,所述第一目标特征为与所述目标图片的字符语义信息的特征具有匹配空间的特征;将所述第一目标特征输入至字符识别模型进行字符识别,以得到所述目标图片的第一字符识别结果。根据本申请的技术,解决了字符识别技术存在的字符识别准确性比较低的问题,提高了对图片进行字符识别的准确性。

    用于改变人物的发型的方法、装置、设备和存储介质

    公开(公告)号:CN112819921A

    公开(公告)日:2021-05-18

    申请号:CN202011379566.1

    申请日:2020-11-30

    Abstract: 本公开涉及人工智能领域,具体为计算机视觉和深度学习技术,更具体地,公开了用于改变人物的发型的方法、装置、设备和存储介质。在一种方法中,确定包括所述人物的原始图像的原始特征向量,所述原始图像中的所述人物具有原始发型。基于发型分类模型,获取与所述原始发型和所述目标发型相关联的边界向量。基于所述原始特征向量和所述边界向量,确定与所述目标发型相对应的目标特征向量。基于所述目标特征向量生成包括所述人物的目标图像,所述目标图像中的所述人物具有所述目标发型。采用上述实现方式,可以大大降低对于训练数据的要求,降低训练过程的计算量并且获得逼真的目标图像。

    一种票据信息的提取方法、装置、电子设备及存储介质

    公开(公告)号:CN112784829A

    公开(公告)日:2021-05-11

    申请号:CN202110084184.4

    申请日:2021-01-21

    Abstract: 本公开公开了一种票据信息的提取方法、装置、电子设备及存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术。具体实现方案为:将待识别票据输入至预先训练好的深度学习网络中,通过深度学习网络得到待识别票据对应的视觉图;将待识别票据对应的视觉图与预先构建的基础模板库中的各个票据模板对应的视觉图进行匹配;若待识别票据对应的视觉图与基础模板库中的任意一个票据模板对应的视觉图匹配成功,则使用任意一个票据模板提取待识别票据中的结构化信息。本申请实施例可以实现多版式的票据信息提取,扩大票据识别所覆盖的业务范围,从而可以适用于大规模票据自动处理,处理效果更好,识别速度更快。

    文字结构化提取方法、装置、设备以及存储介质

    公开(公告)号:CN112001368A

    公开(公告)日:2020-11-27

    申请号:CN202011049097.7

    申请日:2020-09-29

    Abstract: 本申请实施例公开了文字结构化提取方法、装置、设备以及存储介质,涉及计算机视觉、深度学习、自然语言处理等人工智能领域。该方法的一具体实施方式包括:对实体文本图像进行文字检测,得到实体文本图像的文字行的位置和内容;基于文字行的位置和内容,提取文字行的多元信息;对文字行的多元信息进行特征融合,得到文字行的多模态融合特征;基于文字行的多模态融合特征进行类别和关系推理,得到文字行的类别和关系概率矩阵;基于文字行的类别和关系概率矩阵,构建实体文本图像的结构化信息。该实施方式提供了一种基于类别和关系推理的文字结构化提取方法,适合大规模、自动化处理,应用范围广,且通用性强。

    图像识别方法、装置、设备和计算机存储介质

    公开(公告)号:CN111767858A

    公开(公告)日:2020-10-13

    申请号:CN202010611133.8

    申请日:2020-06-30

    Abstract: 本申请公开了图像识别方法、装置、设备和计算机存储介质。涉及人工智能技术领域,尤其涉及图像处理技术领域。具体实现方案为:对人脸图像进行器官识别,并在该人脸图像中标注人脸五官的位置,得到标注的人脸图像;将该标注的人脸图像输入主干网络模型进行特征提取,获得该主干网络模型不同层次的卷积神经网络层输出的该标注的人脸图像的瑕疵特征;将位于人脸图像同一区域的不同层次的该瑕疵特征进行融合,获得该人脸图像的瑕疵识别结果。本申请实施例能够提高人脸瑕疵的识别准确性和识别效率。

    图像去模糊方法和装置
    37.
    发明公开

    公开(公告)号:CN111626956A

    公开(公告)日:2020-09-04

    申请号:CN202010455735.9

    申请日:2020-05-26

    Abstract: 本申请公开了一种图像去模糊方法和装置,涉及计算机视觉技术领域。具体实现方案为:对第一模糊目标图像进行图像处理,得到第二模糊目标图像;其中,第一模糊目标图像基于真实采集的模糊目标图像得到;将第一模糊目标图像输入生成式对抗网络的图像生成器,得到图像生成器输出的第一清晰目标图像;将第二模糊目标图像输入图像生成器,得到图像生成器输出的第二清晰目标图像;其中,图像生成器对第一清晰目标图像和第二清晰目标图像采用距离损失函数进行约束;基于第一清晰目标图像和第二清晰目标图像,确定增强的清晰目标图像。该方案可以避免生成式对抗网络学习到输入的模糊目标图像以外的内容,确保清晰图像的内容不发生改变,提高了输出的清晰图像与模糊目标图像的一致性和准确度。

    皮肤光滑度的确定方法、装置和电子设备

    公开(公告)号:CN111507944A

    公开(公告)日:2020-08-07

    申请号:CN202010242706.4

    申请日:2020-03-31

    Abstract: 本申请公开了皮肤光滑度的确定方法、装置和电子设备,涉及计算机视觉技术领域。具体实现方案为:在计算皮肤光滑度时,先获取到包括人脸区域待检测图像,将待检测图像和待检测图像对应的光滑度分析掩膜图像输入至深度学习模型中,得到用于指示人脸的皮肤光滑度的多个特征向量,由于光滑度分析掩膜图像中不包括预设因素,且预设因素包括五官、反光、或者头发中的至少一种,避免了预设因素对皮肤光滑度的影响,在一定程度上保证了人脸皮肤光滑度的准确度,并且可以根据多个特征向量得到待检测图像中人脸的皮肤光滑度,实现了在保证准确度的情况下,提高了人脸皮肤光滑度的计算效率。

    用于生成信息的方法和装置
    39.
    发明公开

    公开(公告)号:CN110534085A

    公开(公告)日:2019-12-03

    申请号:CN201910806660.1

    申请日:2019-08-29

    Abstract: 本公开实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取待处理视频中原始音频对应的原始音素序列,以及待处理视频的原始视频帧序列;根据原始音频对应的文本生成合成语音,并确定合成语音对应的合成音素序列;基于合成音素序列对应的合成语音帧标识序列,对原始音素序列对应的原始语音帧标识序列进行处理,得到处理后语音帧标识序列,其中,处理后语音帧标识序列的长度与合成音素序列对应的合成语音帧标识序列长度相等;根据处理后语音帧标识序列,从原始视频帧序列中提取出视频帧生成处理后视频帧序列;使用合成语音和处理后视频帧序列,生成合成视频。该实施方式保证了合成视频中的合成语音和处理后视频帧序列同步。

    端到端模型的训练方法与系统、及中文识别方法与系统

    公开(公告)号:CN110490191A

    公开(公告)日:2019-11-22

    申请号:CN201910640953.7

    申请日:2019-07-16

    Abstract: 本发明涉及图像识别领域,公开了一种端到端模型的训练方法、训练系统、中文识别方法及识别系统。所述训练方法包括:采用第一精标样本对端到端模型进行第一训练,以使与该第一训练相应的第一损失收敛;基于经第一训练的所述端到端模型,采用第二精标样本对在线候选匹配模型进行第二训练,以使与该第二训练相应的第二损失收敛;以及基于经第二训练的所述在线候选匹配模型,采用第三精标样本和弱标样本对经第一训练的所述端到端模型进行第三训练,以使与该第三训练相应的第三损失收敛。本发明可克服大量精标样本的获取成本高及获取难度大的瓶颈,大幅度地降低模型训练过程中对大量精标样本的依赖性,从而极大地提升模型的中文识别能力。

Patent Agency Ranking