-
公开(公告)号:CN118334679A
公开(公告)日:2024-07-12
申请号:CN202410515060.0
申请日:2024-04-26
Applicant: 科大讯飞股份有限公司
IPC: G06V30/19 , G06V30/16 , G06V10/82 , G06T3/40 , G06N3/0455
Abstract: 本申请实施例公开了一种文本识别方法、装置、设备、存储介质和计算机程序产品,对待识别图像进行缩放处理,得到第一图像和第二图像;第一图像小于第二图像;对第一图像进行编码,得到第一编码特征;对第二图像分块进行编码,得到各个图像块的编码特征;将各个图像块的编码模特征拼接,得到第二编码特征;将第一编码特征和第二编码特征融合,得到融合特征;对融合特征进行解码,得到文本识别结果。本申请提高了文本识别准确率。
-
公开(公告)号:CN116343235A
公开(公告)日:2023-06-27
申请号:CN202310141914.9
申请日:2023-02-13
Applicant: 科大讯飞股份有限公司
IPC: G06V30/226 , G06V30/18 , G06V10/80
Abstract: 本申请提供了文本的识别方法、装置、设备及存储介质,具体实现方案为:获取待识别文本的动态笔迹的点级轨迹信息和笔画级轨迹信息;利用所述点级轨迹信息和所述笔画级轨迹信息确定对应的轨迹点特征;基于所述轨迹点特征得到所述待识别文本的识别结果。根据本申请的技术方案,能够有效提升手写文本识别的准确性。
-
公开(公告)号:CN115880700A
公开(公告)日:2023-03-31
申请号:CN202211638415.2
申请日:2022-12-19
Applicant: 科大讯飞股份有限公司
IPC: G06V30/32 , G06V30/148 , G06V30/19 , G06N20/00
Abstract: 本发明提供了一种书写内容识别方法、装置、设备及存储介质,其中,方法包括:获取书写轨迹点序列,并将书写轨迹点序列渲染成书写内容图像;根据书写轨迹点序列和书写内容图像,从书写内容图像中分割出若干子图像,并确定若干子图像分别对应的属性,一子图像为书写内容图像中一种属性的书写内容的图像,一子图像对应的属性为该子图像中书写内容的属性;针对每个子图像,采用该子图像对应的属性所对应的识别方法,对该子图像中的书写内容进行识别,得到该子图像对应的书写内容识别结果;根据若干子图像分别对应的书写内容识别结果,生成最终的书写内容识别结果。本发明提供的书写内容识别方法可实现多种属性的书写内容的混合识别。
-
公开(公告)号:CN114462571A
公开(公告)日:2022-05-10
申请号:CN202111678978.X
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例提供了一种训练深度学习模型的方法、数据处理方法及装置,通过将深度学习模型所需的至少部分模型参数压缩在一个共享参数池中,多个模型参数可以共享该共享参数池中同一位置存储的参数,能够在不影响模型精度的情况下压缩模型的参数量,解决了深度学习模型的参数的数量过多的技术问题。
-
公开(公告)号:CN119888763A
公开(公告)日:2025-04-25
申请号:CN202510388523.6
申请日:2025-03-31
Applicant: 科大讯飞股份有限公司
IPC: G06V30/244 , G06V30/19 , G06V10/82 , G06N3/0464
Abstract: 本发明涉及计算机技术领域,提供一种错字识别方法及装置,基于目标文字的图像特征与各元素原型之间的匹配度,确定目标文字所包含各类元素原型的数量,元素原型指构成文字的基本单元;基于图像特征以及各类元素原型的数量,对目标文字进行元素分解,得到目标文字的元素序列,元素序列指构成目标文字的基本单元序列;基于元素序列,确定目标文字的错字识别结果。本发明中各类元素原型的数量确定是不受语言信息干扰的,从而可以避免相关技术中模型在训练过程中过度依赖或学习到的语言信息,可能导致的错字识别精度较低的问题。
-
公开(公告)号:CN119763139A
公开(公告)日:2025-04-04
申请号:CN202411891668.X
申请日:2024-12-20
Applicant: 科大讯飞股份有限公司
IPC: G06V30/414 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种文档信息结构化抽取方法、装置、存储介质及设备,该方法包括:首先获取目标文档所在的目标图像;并提取目标图像的目标视觉特征;然后将目标视觉特征输入语义信息提取模型进行OCR信息提取,得到目标OCR信息,并对其进行编码处理,得到目标语义编码向量;接着将目标视觉特征和目标语义编码向量输入预先构建的多模态大语言模型,预测得到目标文档对应的信息结构化抽取结果。可见,由于本申请采用的是结合OCR信息与多模态大语言模型的通用信息结构化抽取方法,并采用了视觉特征和OCR信息分别作为空间和文本语义上的抽取依据,解决了通过纯文本进行结构化抽取时的空间信息匮乏问题,从而能够有效提高文档信息结构化抽取的准确率。
-
公开(公告)号:CN114462571B
公开(公告)日:2024-12-06
申请号:CN202111678978.X
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G06N3/0464 , G06N3/08 , G06V10/764
Abstract: 本申请实施例提供了一种训练深度学习模型的方法、数据处理方法及装置,通过将深度学习模型所需的至少部分模型参数压缩在一个共享参数池中,多个模型参数可以共享该共享参数池中同一位置存储的参数,能够在不影响模型精度的情况下压缩模型的参数量,解决了深度学习模型的参数的数量过多的技术问题。
-
公开(公告)号:CN118334680A
公开(公告)日:2024-07-12
申请号:CN202410515448.0
申请日:2024-04-26
Applicant: 科大讯飞股份有限公司
IPC: G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/047 , G06N3/08
Abstract: 本申请实施例公开了一种文本识别方法、装置、设备、存储介质和计算机程序产品,对待识别图像进行编码,得到编码特征;对编码特征进行解码,得到待识别图像中的各文本片段;其中,任一文本片段是至少基于该任一文本片段在待识别图像中的位置信息对编码特征进行解码得到;该任一文本片段在待识别图像中的位置信息是通过对编码特征进行解码得到的;解码得到的该任一文本片段在待识别图像中的位置信息与该任一文本片段在待识别图像中的真实位置信息之间的偏差在目标范围内。本申请在解码各个文本片段的位置信息时,允许解码得到的文本片段的位置信息与真实位置信息存在一定的偏差,该偏差控制在目标范围内,从而提高了文本解码结果的准确率。
-
公开(公告)号:CN117392427A
公开(公告)日:2024-01-12
申请号:CN202311136951.7
申请日:2023-09-04
Applicant: 科大讯飞股份有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/09
Abstract: 本发明提供一种分子结构识别方法、装置、电子设备和存储介质,其中方法包括:获取分子图像;初始化空的角度集合,在基于分子图像的图像特征进行分子结构解码、并首次解码到分支角度的情况下,将分支角度存入角度集合;从角度集合中取出一个分支角度,以分支角度为引导,基于分子图像的图像特征对分支角度下的分子结构进行解码,并基于解码得到新的分支角度更新角度集合以供下一分支角度下的分子结构解码,直至角度集合为空;基于各分支角度下的解码结果,确定分子图像对应的分子结构。本发明提供的方法、装置、电子设备和存储介质,提高了分子结构解码的可靠性和准确性。
-
公开(公告)号:CN117301062A
公开(公告)日:2023-12-29
申请号:CN202311381456.2
申请日:2023-10-23
Applicant: 科大讯飞股份有限公司
IPC: B25J9/16
Abstract: 本申请实施例公开了一种机械臂控制方法、装置、设备及存储介质,在获得包含目标物体和待控制的机械臂的图像后,基于图像获得目标物体的点云数据,以及灵巧手的目标夹爪位姿,然后基于强化学习训练得到的电机控制模型直接对机械臂中的各个电机的输出扭矩进行多次调节,从而控制灵巧手逐步向目标物体移动,直至灵巧手到达目标夹爪位姿,且灵巧手不会碰到目标物体,在灵巧手到达目标夹爪位姿时,再触发灵巧手执行抓握动作,使得灵巧手抓住目标物体。本申请通过引入强化学习训练得到的电机控制模型直接对机械臂中的电机进行控制,不再调用优化算法先规划路径再对机械臂中的电机进行控制,从而提高对机械臂的控制精度,进而提高机械臂的抓取成功率。
-
-
-
-
-
-
-
-
-