-
公开(公告)号:CN119649378A
公开(公告)日:2025-03-18
申请号:CN202411674214.7
申请日:2024-11-21
Applicant: 科大讯飞股份有限公司
IPC: G06V30/18 , G06F40/232
Abstract: 本申请公开了一种错字识别方法、装置、设备和存储介质,该方法包括:获取待识别文字的第一笔画序列、以及待识别文字对应的正确文字的第二笔画序列;对第一笔画序列和第二笔画序列进行笔画匹配,分别确定待识别文字中未成功匹配的第一差异笔画和正确文字中未成功匹配的第二差异笔画;利用错字识别模型基于第一差异笔画和第二差异笔画进行错字识别,确定待识别文字的目标识别结果,目标识别结果用于表征待识别文字是否为错字。通过上述方式,本申请能够提高错字识别的准确度。
-
公开(公告)号:CN119496960A
公开(公告)日:2025-02-21
申请号:CN202411486424.3
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
IPC: H04N21/81 , H04N21/466 , H04N21/44 , H04N21/234 , H04N21/25
Abstract: 本申请提出一种视频生成方法、视频生成装置、视频生成设备以及计算机存储介质。所述视频生成方法包括:获取若干模态的输入数据;提取每一种模态输入数据的单模态特征;将若干单模态特征映射到同一维度的潜在表示空间,获取若干潜在模态特征;将所述若干潜在模态特征融合,得到融合模态特征;利用所述融合模态特征,生成目标视频。通过上述视频生成方法,利用映射到同一维度的潜在表示空间将多模态特征实现统一处理,在多模态输入之间建立有效的融合机制,提高多模态信息之间的高效互补和联合表征,有利于生成目标视频的准确性。
-
公开(公告)号:CN119312820A
公开(公告)日:2025-01-14
申请号:CN202411494986.2
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种翻译方法、装置、系统、设备、存储介质和程序产品,其中方法包括:基于用户输入中的输入文本和输入图像进行语义分析,基于分析结果确定输出回复;在输出回复为对用户的输入引导的情况下,获取用户对应于输入引导的补充输入;基于用户输入和补充输入进行翻译,得到用户输入对应的翻译结果,采用交互式的方式进行翻译,可以在分析确定当前无法得出准确结果时,提供引导以使用户针对性的进行信息补充,以获取更多有关翻译目标的信息,基于此进行翻译,克服了传统方案中翻译结果不准确、不可靠和不实用的问题,提升了翻译灵活性,可以更好地应对复杂场景,减少歧义,得到准确可靠的翻译结果,并可为用户提供有效帮助,优化用户体验。
-
公开(公告)号:CN114419148B
公开(公告)日:2024-12-17
申请号:CN202111491453.5
申请日:2021-12-08
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种触碰检测方法、装置、设备和计算机可读存储介质,该方法包括:获取对触碰检测平面拍摄到的第一图像和第二图像;分别对第一图像和第二图像进行目标检测,得到目标对象的目标部位分别在第一图像中的第一图像位置和在第二图像中的第二图像位置;对第一图像位置和第二图像位置进行联合分析,得到触碰检测结果;其中,触碰检测结果包括目标部位是否触碰到触碰检测平面。上述方案,能够提高触碰检测结果的精度,且成本较低。
-
公开(公告)号:CN118968558A
公开(公告)日:2024-11-15
申请号:CN202411120920.7
申请日:2024-08-15
Applicant: 科大讯飞股份有限公司
IPC: G06V40/10 , G06V10/764 , G06V10/766 , G06V10/42 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/098
Abstract: 本申请公开了一种学习专注度评估方法及相关装置,涉及计算机视觉技术领域,包括:利用预测模型分别确定学习者的待处理的学习视频中每帧原始图像中学习者与物品的交互关系,并根据各帧原始图像中学习者与物品的交互关系,确定学习者的学习专注度评估结果。预测模型是通过将目标检测分支和注视区域热图回归预测分支整合到一个统一的网络框架中,并通过对目标检测分支和注视区域热图回归预测分支进行联合训练得到的。由于这种联合训练不仅简化了预测模型的训练过程,还显著提升了预测模型的推理效率和效果,提升了学习者与物品的交互关系的确定效率和确定精度,因此,保证了学习专注度评估的效率和专注度评估结果的准确性。
-
公开(公告)号:CN118230334A
公开(公告)日:2024-06-21
申请号:CN202410140968.8
申请日:2024-01-31
Applicant: 科大讯飞股份有限公司
IPC: G06V30/19 , G06V30/14 , G06V30/414 , G06V10/82 , G06F16/22 , G06N3/0464 , G06N3/08
Abstract: 本申请提出一种题库资源加工方法、装置、电子设备、存储介质及产品,该方法包括:对试题图像进行版面要素检测,确定试题图像对应的版面要素信息;版面要素信息包括:版面要素的类型、位置和内容;基于试题图像对应的版面要素信息和预先设置的阅读顺序,确定试题集合;试题集合中包括按照阅读顺序排序的试题题干和试题解答;基于试题集合中各个试题题干对应的版面要素信息和试题集合中各个试题解答对应的版面要素信息,确定各个试题题干与各个试题解答之间的匹配结果。采用本方案,能够对试题图像中的各个试题题干和试题解答进行自动匹配,提高了试题题干与试题解答之间的匹配效率,从而提高了题库资源的加工效率,减少了题库资源的加工成本。
-
公开(公告)号:CN118114647A
公开(公告)日:2024-05-31
申请号:CN202410159255.6
申请日:2024-02-04
Applicant: 科大讯飞股份有限公司
IPC: G06F40/205 , G06F40/279 , G06V30/19 , G06V30/41
Abstract: 本申请提供了一种文档结构确定方法、装置、设备、存储介质及程序产品,具体实现方案为:对待解析文档进行版面解析,确定所述待解析文档中的各个建模单元的位置坐标;其中,所述建模单元包括段落、图像、表格、文档名称、页眉、页脚中的至少一项;基于所述各个建模单元的位置坐标,确定各个建模单元对应的文本内容和各个建模单元对应的类别信息;基于各个建模单元对应的文本内容和类别信息,确定所述待解析文档对应的文档结构根据本申请的技术方案,能够有效提升输出的文档结构的准确性。
-
公开(公告)号:CN111161268B
公开(公告)日:2024-04-30
申请号:CN201911275373.9
申请日:2019-12-12
Applicant: 科大讯飞股份有限公司
IPC: G06T7/10 , G06T7/00 , G06N3/0464
Abstract: 本申请提供了一种图像处理方法、装置、电子设备及计算机存储介质,首先获取目标用户的胸片图像;接着,将所述胸片图像输入训练好的分割模型,根据所述训练好的分割模型的输出确定原始肋骨图像;最后,对所述原始肋骨图像进行分割处理,得到目标肋骨图像,所述分割处理用于获取无粘连的肋骨图像。可以将深度学习的神经网络模型与后续处理结合,自动分割出每一根肋骨都独立的目标肋骨图像,提升图像处理的准确性和效率,也为医生提供了便利。
-
公开(公告)号:CN117316158B
公开(公告)日:2024-04-12
申请号:CN202311599003.7
申请日:2023-11-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种交互方法、装置、控制设备及存储介质,交互方法包括:获取目标用户的手部图像序列和语音序列;识别语音序列中的指令词,并获取指令词对应的时间;根据手部图像序列以及指令词对应的时间,确定目标用户发出指令词时的手部指向区域;根据目标用户发出指令词时的手部指向区域,确定交互设备;控制交互设备执行指令词对应的操作。本发明提供的交互方法为结合语音的指向交互方法,该交互方法有效利用了不同模态信息的互补性,其不但能够实现丰富的交互功能,而且具有较好的交互稳定性,用户体验较好。
-
公开(公告)号:CN117831045A
公开(公告)日:2024-04-05
申请号:CN202311867437.0
申请日:2023-12-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种二维速算题识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标图像;其中,目标图像中包含待识别的目标二维速算题;然后将目标图像输入编码器进行编码,得到目标图像对应的编码后的目标图像特征;接着,可以将目标图像特征输入预先构建的解码器进行条件式的解码,得到目标二维速算题的解码结果;并根据该解码结果,确定目标二维速算题的最终识别结果。可见,由于本申请是先对包含目标二维速算题的目标图像进行编码,再利用解码器对编码后的目标图像特征进行条件式的解码,以根据解码结果更为准确的确定出目标二维速算题的最终识别结果,从而提高了二维速算题识别结果的准确率。
-
-
-
-
-
-
-
-
-