一种文本对齐语音的方法、装置、设备及介质

    公开(公告)号:CN114022668B

    公开(公告)日:2023-09-22

    申请号:CN202111275635.9

    申请日:2021-10-29

    摘要: 本申请提供了一种文本对齐语音的方法、装置、设备及介质,该方法包括:电子设备对视频的视觉分量进行识别,获得包括视频中文本所在的空间位置、文本出现和消失的时间以及文本的内容的第一识别结果,对视频的语音分量进行识别,获得包括视频中语音对应的至少一个单词以及至少一个单词出现的时间的第二识别结果,根据第一识别结果进行编码获得第一特征,对第二识别结果进行编码获得第二特征,然后根据第一特征和第二特征获得融合特征,通过分类器获得融合特征对应的文本是否对齐语音的属性,以实现文本对齐。如此,能够从语义层面对齐文本与语音,具有较高的准确度。

    图像字符识别方法、装置、介质及电子设备

    公开(公告)号:CN112883968B

    公开(公告)日:2023-02-28

    申请号:CN202110210136.5

    申请日:2021-02-24

    摘要: 本公开涉及一种图像字符识别方法、装置、介质及电子设备,所述方法包括:接收待识别图像,其中,所述待识别图像中包含多个语种的字符;根据所述待识别图像和字符识别模型,确定所述待识别图像对应的字符识别结果和语种分类结果;所述字符识别模型包括解码模块,在所述解码模块对所述待识别图像的图像特征进行迭代解码的过程中,基于解码获得的每一解码特征进行字符识别和语种分类,以获得所述字符识别结果和所述语种分类结果。由此可以基于该字符识别模型对包含多语种的字符的待识别图像进行准确地字符识别,提高字符识别结果的准确性,并且贴合多语种下的应用场景。

    图像字符识别方法、装置、介质及电子设备

    公开(公告)号:CN112883967B

    公开(公告)日:2023-02-28

    申请号:CN202110210130.8

    申请日:2021-02-24

    摘要: 本公开涉及一种图像字符识别方法、装置、介质及电子设备,所述方法包括:接收待识别图像,其中,所述待识别图像中包含多个语种的字符;根据所述待识别图像和字符识别模型,确定所述待识别图像对应的字符识别结果和语种分类结果;其中字符识别模型中包含字符识别子模型和语种分类子模型,所述语种分类子模型用于基于所述待识别图像对应的语义特征对所述多个语种的字符进行语种分类,所述字符识别子模型用于对所述多个语种的字符进行识别。因此可以基于该字符识别模型对包含多语种的字符的待识别图像进行准确地字符识别,提高字符识别结果的准确性,贴合多语种下的应用场景。

    文本识别方法、装置、可读介质及电子设备

    公开(公告)号:CN114627476A

    公开(公告)日:2022-06-14

    申请号:CN202210262343.X

    申请日:2022-03-16

    IPC分类号: G06V30/19 G06V10/46 G06V10/24

    摘要: 本公开涉及一种文本识别方法、装置、可读介质及电子设备,包括:提取为目标竖直文本图像的待识别文本图像的第一特征图,目标竖直文本图像中的文本为竖向排列、且图像尺寸满足第一预设尺寸;按照预设设置对第一特征图转换得到第二特征图,第二特征图的尺寸与待识别文本图像按照预设设置转换之后所提取得到的第三特征图的尺寸相同,待识别文本图像按照预设设置转换之后所得到的旋转图像的长和宽分别与待识别文本图像的宽和长相等;根据第二特征图识别文本内容。通过利用特征转换而非图像转换的方法,避免直接对图像模态进行转换,从而文本识别过程中对“旋转不变字符特征”的学习要求,从而降低了训练难度,进而提高了对竖直文本的识别精度。

    图像字符识别模型训练方法、图像字符识别方法及装置

    公开(公告)号:CN114049632A

    公开(公告)日:2022-02-15

    申请号:CN202111415332.2

    申请日:2021-11-25

    IPC分类号: G06V30/10 G06V10/774 G06K9/62

    摘要: 本申请实施例公开了图像字符识别模型训练方法、图像字符识别方法及装置,利用训练图像和训练图像对应的字符标识,训练由第一模型和第二模型构成的图像字符识别模型。训练图像包括遮蔽字符区域和显示字符区域。利用包括遮蔽字符区域的训练图像对图像字符识别模型进行训练,能够使得图像字符识别模型更好地提取双向上下文信息,如此训练得到的图像字符识别模型准确率较高。利用训练完成的图像字符识别模型对待识别图像进行识别,可以得到更为准确的待识别图像包括的字符。

    一种文本对齐语音的方法、装置、设备及介质

    公开(公告)号:CN114022668A

    公开(公告)日:2022-02-08

    申请号:CN202111275635.9

    申请日:2021-10-29

    摘要: 本申请提供了一种文本对齐语音的方法、装置、设备及介质,该方法包括:电子设备对视频的视觉分量进行识别,获得包括视频中文本所在的空间位置、文本出现和消失的时间以及文本的内容的第一识别结果,对视频的语音分量进行识别,获得包括视频中语音对应的至少一个单词以及至少一个单词出现的时间的第二识别结果,根据第一识别结果进行编码获得第一特征,对第二识别结果进行编码获得第二特征,然后根据第一特征和第二特征获得融合特征,通过分类器获得融合特征对应的文本是否对齐语音的属性,以实现文本对齐。如此,能够从语义层面对齐文本与语音,具有较高的准确度。

    一种文字识别方法及其相关设备

    公开(公告)号:CN113657369A

    公开(公告)日:2021-11-16

    申请号:CN202110988932.1

    申请日:2021-08-26

    IPC分类号: G06K9/20 G06K9/46 G06K9/62

    摘要: 本申请公开了一种文字识别方法及其相关设备,该方法包括:在获取到包括长文本的待识别文本图像之后,先将该待识别文本图像按照预设切片参数进行第一切分处理,得到至少一个图像切片和该至少一个图像切片的位置信息;再根据该至少一个图像切片的单字检测结果以及位置信息,确定该待识别文本图像对应的实际切图位置;然后,按照该待识别文本图像对应的实际切图位置,对该待识别文本图像进行第二切分处理,得到至少一个待使用图片;最后,根据该至少一个待使用图片的文字识别结果,确定该待识别文本图像的文字识别结果,如此能够实现针对长文本的文字识别过程。

    一种字符识别方法及其相关设备

    公开(公告)号:CN113610082A

    公开(公告)日:2021-11-05

    申请号:CN202110925424.9

    申请日:2021-08-12

    发明人: 蔡悦 黄灿 王长虎

    摘要: 本申请公开了一种字符识别方法及其相关设备,该方法包括:在获取到包括相同字符信息的多个待识别图像之后,先分别对各个待识别图像进行第一编码处理,得到各个待识别图像的编码特征;再对所有待识别图像的编码特征进行第二编码处理,得到该待识别文本的编码特征,以使该“待识别文本的编码特征”能够准确地表示出所有待识别图像携带的字符信息,从而使得该“待识别文本的编码特征”能够更准确地表述出该待识别文本中各个字符,进而使得基于该“待识别文本的编码特征”确定的该待识别文本的字符识别结果更准确,如此有利于提高多帧文本行识别的字符识别准确性。

    字符识别方法、装置、可读介质及电子设备

    公开(公告)号:CN113313064A

    公开(公告)日:2021-08-27

    申请号:CN202110698184.3

    申请日:2021-06-23

    摘要: 本公开涉及一种字符识别方法、装置、可读介质及电子设备,该字符识别方法通过获取待识别文本图像中每个字符对应的字符文本区域图像,以及该待识别文本图像中的行区域图像;根据该字符文本区域图像,通过预先训练的预设字符识别模型得到该待识别文本图像对应的待定字符识别结果;并根据该行区域图像,以及该待定字符识别结果中该行区域图像对应的字符识别结果,通过预先训练的预设非自回归模型得到该待识别文本图像对应的目标字符识别结果。如此通过该预设非自回归模型以待定字符识别结果为预测依据,不仅能够有效提升字符识别效率,还能够结合上下文语义信息,提升字符识别结果的准确率。