-
公开(公告)号:CN118334679A
公开(公告)日:2024-07-12
申请号:CN202410515060.0
申请日:2024-04-26
Applicant: 科大讯飞股份有限公司
IPC: G06V30/19 , G06V30/16 , G06V10/82 , G06T3/40 , G06N3/0455
Abstract: 本申请实施例公开了一种文本识别方法、装置、设备、存储介质和计算机程序产品,对待识别图像进行缩放处理,得到第一图像和第二图像;第一图像小于第二图像;对第一图像进行编码,得到第一编码特征;对第二图像分块进行编码,得到各个图像块的编码特征;将各个图像块的编码模特征拼接,得到第二编码特征;将第一编码特征和第二编码特征融合,得到融合特征;对融合特征进行解码,得到文本识别结果。本申请提高了文本识别准确率。
-
公开(公告)号:CN118196804A
公开(公告)日:2024-06-14
申请号:CN202410143667.0
申请日:2024-02-01
Applicant: 科大讯飞股份有限公司
IPC: G06V30/14 , G06V30/148 , G06N3/04 , G06N3/08
Abstract: 本申请提出一种试题答案文本的处理方法、装置、设备、存储介质及计算机程序产品,该方法包括:获取试题答案图像;其中,所述试题答案图像包括初始答案文本;从试题答案图像中分割出各个答案区域;其中,每一项答案各自对应一个答案区域;对各个所述答案区域进行文字识别,得到所述初始答案文本中的各项答案;拼接各项答案,并在相邻所述答案之间插入分隔符,得到目标答案文本。本申请无需人工对答案文本进行处理,而是采用自动化的方式生成目标答案文本,提升了答案文本的处理效率。尤其,在面对大量需要处理的答案文本时,无疑可以更快的完成处理。
-
公开(公告)号:CN117934547A
公开(公告)日:2024-04-26
申请号:CN202311868970.9
申请日:2023-12-28
Applicant: 科大讯飞股份有限公司
IPC: G06T7/246 , G06V10/75 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种目标跟踪方法、目标跟踪装置、设备和介质,该方法包括:获取跟踪目标在历史视频帧中的历史跟踪位置信息;基于跟踪目标的历史跟踪位置信息进行运动预测,得到跟踪目标在当前视频帧的预测结果;其中,预测结果至少包括预测位置信息;至少基于跟踪目标在当前视频帧中的预测位置信息,确定跟踪目标在当前视频帧中的目标跟踪结果,能够提高跟踪效率。
-
公开(公告)号:CN113240666B
公开(公告)日:2024-04-16
申请号:CN202110625389.9
申请日:2021-06-04
Applicant: 科大讯飞股份有限公司
IPC: G06T7/00 , G06T7/11 , G06T7/136 , G06T7/187 , G06V10/764 , G06V10/82 , G06N3/0475 , G06N3/0464 , G06N3/094
Abstract: 本申请提供了一种医学影像预处理方法、装置、设备及存储介质,其中,方法包括:在获得待处理医学影像后,首先从待处理医学影像中获取候选感兴趣影像块,然后基于预先建立的影像转换模型将候选感兴趣影像块转换为无设备信息的影像块。由于影像转换模型采用对抗生成网络中的生成网络,以使对抗生成网络中的判别网络无法判别训练样本对应的转换后样本所属的域为训练目标训练得到,因此,基于训练得到的影像转换模型能够将从待处理医学影像中获取的候选感兴趣影响块转换为无设备信息的影像块,进而使得后续对无设备信息的候选感兴趣影像块进行感兴趣影像块/非感兴趣影像块的分类时,因无设备信息的影响,能够获得比较准确的分类结果。
-
公开(公告)号:CN117831053A
公开(公告)日:2024-04-05
申请号:CN202311870569.9
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
IPC: G06V30/412 , G06V30/413
Abstract: 本申请提供一种图像中表格内容的提取方法、装置和电子设备,涉及图像处理技术领域。该方法包括:在提取表格中的内容时,可以先获取待提取图像,待提取图像中包括目标表格,并基于待提取图像和关键词,从目标表格中提取关键词对应的目标内容;其中,目标内容包括表头内容、项目列内容或者行内容中的至少一种,表头内容中的表头项通过行方向单元格分隔符分隔、项目列内容中的项目列通过列方向单元格分隔符分隔,行内容中的内容通过行方向单元格分隔符分隔,这样基于分隔符可以较好地从目标表格中,提取出关键词对应的目标内容。
-
公开(公告)号:CN117789292A
公开(公告)日:2024-03-29
申请号:CN202311718052.8
申请日:2023-12-13
Applicant: 科大讯飞股份有限公司
IPC: G06V40/20 , G06V20/40 , G06V10/42 , G06V10/44 , G06V10/62 , G06V10/764 , G06V10/80 , G06V10/82 , G06F40/30 , G06N3/0895 , G06N3/096
Abstract: 本发明涉及计算机技术领域,提供一种行为识别方法、训练方法、装置、电子设备和存储介质,其中行为识别方法包括:获取待识别视频,以及文本特征,所述文本特征是通过对比学习预训练大模型对预设的描述文本进行特征提取得到的;基于行为识别模型,对所述待识别视频中连续帧图像进行时序特征提取,并应用提取到的时序特征和所述文本特征,对所述待识别视频进行行为识别。本发明提供的行为识别方法、训练方法、装置、电子设备和存储介质,能够增强行为识别模型针对细粒度物品的特征表达能力,从而提高识别效果且使泛化性能更好。
-
公开(公告)号:CN117763412A
公开(公告)日:2024-03-26
申请号:CN202311708141.4
申请日:2023-12-12
Applicant: 科大讯飞股份有限公司
IPC: G06F18/241 , G06F40/295 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种文字识别方法、识别模型训练方法和相关装置,该方法包括:获取待识别样本;将所述待识别样本输入至训练后的识别模型中的卷积模块,得到所述待识别样本对应的不同识别轮次的分类特征;将所述分类特征输入至所述识别模型中的分类模块,得到所述待识别样本对应的目标文本;其中,所述分类模块包括第一分类层和第二分类层,所述第一分类层对应有至少一个第一候选字符,所述第一候选字符包括占位符,所述第二分类层对应有多个区别于所述第一候选字符的第二候选字符。通过上述方式,本申请能够提高文字识别的效率和准确性。
-
公开(公告)号:CN117711067A
公开(公告)日:2024-03-15
申请号:CN202311789594.4
申请日:2023-12-22
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种行为识别方法、装置、设备及存储介质,本申请考虑到不同类型行为动作所需要时间信息是不同的,改进了现有单一的时序建模方式,同时配置了长时分支网络和短时分支网络,分别对拍摄的连续帧图像在时序维度上提取不同稀疏程度的图像特征,得到长时图像特征和短时图像特征,基于长时图像特征预测第一行为分类结果,基于短时图像特征预测第二行为分类结果,融合两个分类结果得到最终的行为分类结果。本申请方案能够自适应的对不同类型的行为动作进行长短时时序建模,并融合长时分支网络和短时分支网络的分类结果,改善了传统方案时序建模方式单一的弊端,能够适用于对多种不同类型行为动作的识别场景。
-
公开(公告)号:CN117593502A
公开(公告)日:2024-02-23
申请号:CN202311559240.0
申请日:2023-11-21
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种图像预处理方法、装置、电子设备和存储介质,所述方法包括:对待处理的原始图像进行图像分割,得到多个原始图块,并为各原始图块创建对应的线程;并行在各线程上对各原始图块进行预处理,得到对应的预处理图块;对各预处理图块进行合并,得到预处理图像。本发明提供的图像预处理方法、装置、电子设备和存储介质,对待处理的原始图像进行图像分割,得到多个原始图块,并为各原始图块创建对应的线程,从而可以并行在各线程上对各原始图块进行预处理,大幅度提高图像预处理的效率,进而能够高效率地实现推理过程中的预处理,降低推理的延迟并且提高吞吐。
-
公开(公告)号:CN117316158A
公开(公告)日:2023-12-29
申请号:CN202311599003.7
申请日:2023-11-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种交互方法、装置、控制设备及存储介质,交互方法包括:获取目标用户的手部图像序列和语音序列;识别语音序列中的指令词,并获取指令词对应的时间;根据手部图像序列以及指令词对应的时间,确定目标用户发出指令词时的手部指向区域;根据目标用户发出指令词时的手部指向区域,确定交互设备;控制交互设备执行指令词对应的操作。本发明提供的交互方法为结合语音的指向交互方法,该交互方法有效利用了不同模态信息的互补性,其不但能够实现丰富的交互功能,而且具有较好的交互稳定性,用户体验较好。
-
-
-
-
-
-
-
-
-