-
公开(公告)号:CN119252514B
公开(公告)日:2025-04-29
申请号:CN202411765514.6
申请日:2024-12-04
Applicant: 科大讯飞股份有限公司
Abstract: 本发明涉及人工智能技术领域,提供一种健康监测方法、装置、电子设备和存储介质,其中方法包括:对当前采集的视频帧进行人脸检测,得到当前帧的人脸区域图像;对人脸区域图像进行关键点检测,得到人脸关键点;基于人脸关键点,从人脸区域图像中确定出人脸局部区域;基于人脸区域图像中的目标关键点,将当前帧的人脸局部区域与上一帧的人脸局部区域进行对齐,并应用对齐后的人脸局部区域进行健康监测,得到健康指标。本发明通过基于检测到的人脸关键点,从人脸区域图像中确定出人脸局部区域,可以抑制过多干扰像素对特征提取的影响,通过将当前帧的人脸局部区域与上一帧进行对齐,可以显著缓解像素错位带来的影响,从而提高健康监测的准确性。
-
公开(公告)号:CN119649378A
公开(公告)日:2025-03-18
申请号:CN202411674214.7
申请日:2024-11-21
Applicant: 科大讯飞股份有限公司
IPC: G06V30/18 , G06F40/232
Abstract: 本申请公开了一种错字识别方法、装置、设备和存储介质,该方法包括:获取待识别文字的第一笔画序列、以及待识别文字对应的正确文字的第二笔画序列;对第一笔画序列和第二笔画序列进行笔画匹配,分别确定待识别文字中未成功匹配的第一差异笔画和正确文字中未成功匹配的第二差异笔画;利用错字识别模型基于第一差异笔画和第二差异笔画进行错字识别,确定待识别文字的目标识别结果,目标识别结果用于表征待识别文字是否为错字。通过上述方式,本申请能够提高错字识别的准确度。
-
公开(公告)号:CN114220114B
公开(公告)日:2025-02-28
申请号:CN202111626108.8
申请日:2021-12-28
Applicant: 科大讯飞股份有限公司
IPC: G06V30/414 , G06V30/19
Abstract: 本申请公开了一种文本图像识别方法、装置、设备以及存储介质,该方法包括:获取文本图像,文本图像包括M个文本框,根据预先训练的检测模型,获取M个文本框中每个文本框的属性信息,根据M个文本框的属性信息,确定M个文本框中每个文本框的关联信息,根据M个文本框中每个文本框的属性信息和关联信息,确定文本图像的文本结构信息,文本结构信息包括M个文本框的排版结构和每个文本框的文本类别。从而,可准确地识别出文本图像的文本结构信息,提高了文本图像识别的适用性。
-
公开(公告)号:CN119496960A
公开(公告)日:2025-02-21
申请号:CN202411486424.3
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
IPC: H04N21/81 , H04N21/466 , H04N21/44 , H04N21/234 , H04N21/25
Abstract: 本申请提出一种视频生成方法、视频生成装置、视频生成设备以及计算机存储介质。所述视频生成方法包括:获取若干模态的输入数据;提取每一种模态输入数据的单模态特征;将若干单模态特征映射到同一维度的潜在表示空间,获取若干潜在模态特征;将所述若干潜在模态特征融合,得到融合模态特征;利用所述融合模态特征,生成目标视频。通过上述视频生成方法,利用映射到同一维度的潜在表示空间将多模态特征实现统一处理,在多模态输入之间建立有效的融合机制,提高多模态信息之间的高效互补和联合表征,有利于生成目标视频的准确性。
-
公开(公告)号:CN114332318B
公开(公告)日:2025-01-24
申请号:CN202111679099.9
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种虚拟形象生成方法及其相关设备,该方法包括:在获取到待处理语音数据之后,先对该待处理语音数据进行语音特征提取,得到待使用语音特征,以使该待使用语音特征能够表示出该待处理语音数据所携带的语音信息;再根据该待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型,确定该待处理语音数据对应的虚拟形象展示数据,以使该虚拟形象展示数据能够表示出与该待处理语音数据相匹配的虚拟形象,从而使得该虚拟形象能够展示出在发出该待处理语音数据时人物所呈现的脸部状态,如此能够实现自动生成虚拟形象的目的。
-
公开(公告)号:CN119312820A
公开(公告)日:2025-01-14
申请号:CN202411494986.2
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种翻译方法、装置、系统、设备、存储介质和程序产品,其中方法包括:基于用户输入中的输入文本和输入图像进行语义分析,基于分析结果确定输出回复;在输出回复为对用户的输入引导的情况下,获取用户对应于输入引导的补充输入;基于用户输入和补充输入进行翻译,得到用户输入对应的翻译结果,采用交互式的方式进行翻译,可以在分析确定当前无法得出准确结果时,提供引导以使用户针对性的进行信息补充,以获取更多有关翻译目标的信息,基于此进行翻译,克服了传统方案中翻译结果不准确、不可靠和不实用的问题,提升了翻译灵活性,可以更好地应对复杂场景,减少歧义,得到准确可靠的翻译结果,并可为用户提供有效帮助,优化用户体验。
-
公开(公告)号:CN119206676A
公开(公告)日:2024-12-27
申请号:CN202411392557.4
申请日:2024-10-08
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种疲劳检测方法、装置、电子设备和存储介质,其中方法包括:获取人脸图像,对所述人脸图像的眼部区域进行眼部关键点检测,得到所述眼部区域的关键点位置信息,并基于所述关键点位置信息,确定眼部开合度;对所述人脸图像进行头姿估计,得到所述人脸图像的头姿信息,并基于所述头姿信息,对所述眼部开合度进行校正,得到校正开合度;基于所述校正开合度,确定所述人脸图像的疲劳检测结果。本发明提供的方法、装置、电子设备和存储介质,头姿信息在眼部开合度校正中的应用,消除了头姿变化对于眼部开合度的影响,能够有效提升基于关键点检测得到的眼部开合度的可靠性,进而保证疲劳检测的可靠性和准确性。
-
公开(公告)号:CN118968558A
公开(公告)日:2024-11-15
申请号:CN202411120920.7
申请日:2024-08-15
Applicant: 科大讯飞股份有限公司
IPC: G06V40/10 , G06V10/764 , G06V10/766 , G06V10/42 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/098
Abstract: 本申请公开了一种学习专注度评估方法及相关装置,涉及计算机视觉技术领域,包括:利用预测模型分别确定学习者的待处理的学习视频中每帧原始图像中学习者与物品的交互关系,并根据各帧原始图像中学习者与物品的交互关系,确定学习者的学习专注度评估结果。预测模型是通过将目标检测分支和注视区域热图回归预测分支整合到一个统一的网络框架中,并通过对目标检测分支和注视区域热图回归预测分支进行联合训练得到的。由于这种联合训练不仅简化了预测模型的训练过程,还显著提升了预测模型的推理效率和效果,提升了学习者与物品的交互关系的确定效率和确定精度,因此,保证了学习专注度评估的效率和专注度评估结果的准确性。
-
公开(公告)号:CN118657930A
公开(公告)日:2024-09-17
申请号:CN202411040055.5
申请日:2024-07-31
Applicant: 科大讯飞股份有限公司
IPC: G06V10/25 , G06V10/26 , G06V10/774 , G06V10/40 , G06V10/764 , G06V10/80
Abstract: 本申请公开了一种目标检测方法、目标检测模型训练方法、装置及相关设备,目标检测模型在训练阶段与语义分割网络联合训练,语义分割网络以目标检测模型提取的隐层特征作为输入,用于预测语义分割结果,联合训练的总损失值包括目标检测模型的目标检测损失值和所述语义分割网络的语义分割损失值。采用联合训练策略后,可以使得目标检测模型在学习目标检测的同时,也能学习到语义分割信息,具备对局部细节刻画的能力,有助于提高对遮挡目标的检测效果。此外,本申请中的目标检测模型可以采用轻量化模型结构,实现提升对遮挡目标的检测效果。
-
公开(公告)号:CN118522287A
公开(公告)日:2024-08-20
申请号:CN202410576858.6
申请日:2024-05-10
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音识别方法、装置、设备、存储介质及产品,本申请提供的语音识别方法,在根据待识别语音的各个语音段的声学特征对各个语音段分别进行语音识别,得到各个语音段各自对应的第一识别文本后,根据第一语音段对应的声学特征和与第一语音段相关的至少一个第二语音段对应的第一识别文本的文本特征,对第一语音段再次进行语音识别,使得与第一语音段相关的第二语音段提供的上下文信息能够充分参与到对第一语音段进行语音识别的过程中,从而得到对第一语音段更准确的语音识别结果,进而提高待识别语音的语音识别准确性。
-
-
-
-
-
-
-
-
-