-
公开(公告)号:CN114332871B
公开(公告)日:2024-12-31
申请号:CN202111671276.9
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G06V30/148 , G06V10/74 , G06V10/774 , G06V30/19
Abstract: 本申请提出一种字符识别方法、装置、设备及存储介质,该方法包括:获取文本图像的解码特征,并根据所述解码特征,解码得到与所述文本图像对应的第一字符识别结果;通过将所述文本图像的解码特征,与预设字典中的各个字符的字符元素序列特征进行比对,确定与所述文本图像对应的第二字符识别结果;其中,所述字符元素序列由字符的各个构成元素,以及各个构成元素之间的位置关系信息组成;基于所述第一字符识别结果和所述第二字符识别结果,确定对所述文本图像的字符识别结果。采用上述方案能够取得更好的字符识别效果。
-
公开(公告)号:CN117612190A
公开(公告)日:2024-02-27
申请号:CN202311362989.6
申请日:2023-10-19
Applicant: 科大讯飞股份有限公司
IPC: G06V30/412 , G06V30/413
Abstract: 本发明提供一种表格全要素抽取方法、装置、电子设备及存储介质,该方法包括:获取目标表格中各初始单元格和各单元格文本;基于各初始单元格的各第一顶点的位置,确定与初始单元格对应的单元格,并基于各单元格的相对位置确定目标表格的结构信息,单元格之间具有公共的顶点;基于目标表格的结构信息和各单元格文本,确定目标表格中各单元格的属性信息,属性信息包括键或值;基于目标表格的结构信息和各单元格的属性信息,抽取目标表格中的全要素。基于目标表格的结构信息和各单元格的属性信息,可以正确抽取属性信息相对应的各要素,避免抽取的各要素的属性信息不对应的情况,进而可以提高要素抽取的准确度。
-
公开(公告)号:CN117576700A
公开(公告)日:2024-02-20
申请号:CN202311512589.9
申请日:2023-11-10
Applicant: 科大讯飞股份有限公司
IPC: G06V30/19 , G06V30/146 , G06F16/9032 , G06V30/42
Abstract: 本发明提供一种要素内容抽取方法、装置、电子设备及存储介质,该方法包括:获取目标图片中各文本行的文本;分别提取各文本行的文本各自对应的第一句子级token,以及至少一个问题文本对应的第二句子级token,各问题文本包括要素字段;将各第一句子级token和各第二句子级token均输入要素抽取模型,得到要素抽取模型输出的要素字段对应的要素内容。针对文本行整体提取该文本行对应的第一句子级token,可实现第一句子级token与文本行一一对应,因此,有效增加了token表征的文本内容的长度,即使在输入的token总数量受限的情况下,也能输入较长的文本,并能对该文本进行要素内容提取,提高了适用性。
-
公开(公告)号:CN115984878A
公开(公告)日:2023-04-18
申请号:CN202211678486.5
申请日:2022-12-26
Applicant: 科大讯飞股份有限公司
IPC: G06V30/244 , G06V30/19 , G06N3/09
Abstract: 本申请提供了一种错字检测方法及作业批改方法,涉及文字处理技术领域。该错字检测方法包括:获取目标图像,目标图像中包含待检测的目标字;基于目标图像,确定目标字对应的标准模板字,标准模板字的字内容与目标字的字内容相同,标准模板字为第一字体风格;基于目标图像,确定与目标字符合预设相似条件的第一参考字,第一参考字为正确字;基于第一参考字和标准模板字,确定目标字对应的错字检测结果。通过本申请中的方案,可以简化错字检测的流程,同时保证了错字检测的准确度。
-
公开(公告)号:CN116246278A
公开(公告)日:2023-06-09
申请号:CN202211637081.7
申请日:2022-12-16
Applicant: 科大讯飞股份有限公司
IPC: G06V30/19
Abstract: 本申请提供了一种文字识别方法、装置、存储介质及电子设备,涉及文字处理技术领域。该文字识别方法包括:对待识别字进行拆解,得到待识别字的偏旁序列,偏旁序列包括至少一个偏旁元素,至少一个偏旁元素组合构成待识别字;若至少一个偏旁元素均各自对应有书写模板,则确定至少一个偏旁元素各自的特征数据;确定至少一个偏旁元素各自对应的书写模板的特征数据;基于至少一个偏旁元素各自的特征数据和至少一个偏旁元素各自对应的书写模板的特征数据,确定待识别字对应的错别字识别结果。通过本申请中的方案,不仅能进行错字识别,也能进行别字和正确字识别,并且基于书写模板的特征数据,有效提高了待识别字的识别精度。
-
公开(公告)号:CN118675713A
公开(公告)日:2024-09-20
申请号:CN202410849752.9
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种医疗报告信息提取方法、系统、电子设备和可读存储介质,该方法包括:响应于得到医疗报告对应的待处理图像,对待处理图像进行编码,得到待处理图像对应的图像特征向量;获取与待处理图像中的要素类别相匹配的提示信息,基于提示信息对图像特征向量进行全局解码,得到待处理图像中要素类别及其对应的位置信息;其中,多种要素类别是基于待处理图像中的信息项预先定义的;基于要素类别及其对应的位置信息对图像特征向量进行要素解码,得到待处理图像中要素类别对应的要素提取信息。通过上述方式,本申请能够提高信息提取的准确率。
-
公开(公告)号:CN115690795A
公开(公告)日:2023-02-03
申请号:CN202211364710.3
申请日:2022-11-02
Applicant: 科大讯飞股份有限公司
IPC: G06V30/146 , G06V30/19 , G06F40/126
Abstract: 本发明提供一种简历信息提取方法、装置、电子设备和存储介质,属于图像处理技术领域,所述简历信息提取方法包括:对目标简历图像进行文本行检测和文本识别,得到目标简历图像中各文本行的位置信息和各文本行对应的文本识别结果;基于各文本行的位置信息和文本识别结果,对目标简历图像中各文本行进行排序,得到排序后的文本行内容;对排序后的文本行内容进行编解码处理,得到目标简历图像的文本行结构化信息。本发明通过得到简历图像的文本行结构化信息,可以突破对简历的各种限制,实现从各具特色、各种类型的简历中准确提取出有用的信息,可有效提升简历筛选效率,降低筛选错误率。
-
公开(公告)号:CN114332871A
公开(公告)日:2022-04-12
申请号:CN202111671276.9
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G06V30/148 , G06K9/62 , G06V10/74 , G06V10/774 , G06V30/19
Abstract: 本申请提出一种字符识别方法、装置、设备及存储介质,该方法包括:获取文本图像的解码特征,并根据所述解码特征,解码得到与所述文本图像对应的第一字符识别结果;通过将所述文本图像的解码特征,与预设字典中的各个字符的字符元素序列特征进行比对,确定与所述文本图像对应的第二字符识别结果;其中,所述字符元素序列由字符的各个构成元素,以及各个构成元素之间的位置关系信息组成;基于所述第一字符识别结果和所述第二字符识别结果,确定对所述文本图像的字符识别结果。采用上述方案能够取得更好的字符识别效果。
-
-
-
-
-
-
-