-
公开(公告)号:CN115984878A
公开(公告)日:2023-04-18
申请号:CN202211678486.5
申请日:2022-12-26
Applicant: 科大讯飞股份有限公司
IPC: G06V30/244 , G06V30/19 , G06N3/09
Abstract: 本申请提供了一种错字检测方法及作业批改方法,涉及文字处理技术领域。该错字检测方法包括:获取目标图像,目标图像中包含待检测的目标字;基于目标图像,确定目标字对应的标准模板字,标准模板字的字内容与目标字的字内容相同,标准模板字为第一字体风格;基于目标图像,确定与目标字符合预设相似条件的第一参考字,第一参考字为正确字;基于第一参考字和标准模板字,确定目标字对应的错字检测结果。通过本申请中的方案,可以简化错字检测的流程,同时保证了错字检测的准确度。
-
公开(公告)号:CN115984877A
公开(公告)日:2023-04-18
申请号:CN202310130152.2
申请日:2023-02-07
Applicant: 科大讯飞股份有限公司
IPC: G06V30/226 , G06V30/19 , G06V30/146
Abstract: 本发明涉及模式识别技术领域,提供一种手写识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别的手写数据,手写数据包括匹配的笔画轨迹和手写图像;基于轨迹编码器,提取笔画轨迹的轨迹特征,并基于图像编码器,提取手写图像的图像特征,轨迹编码器和图像编码器采用差异化的训练策略训练得到;基于双模态解码器,应用图像特征和轨迹特征之间的差异化信息,将轨迹特征和图像特征进行融合,并基于融合后的特征进行手写识别。本发明提供的手写识别方法、装置、电子设备和存储介质,能够显著提升在双模态数据不匹配场景下的识别能力。
-
公开(公告)号:CN115908657A
公开(公告)日:2023-04-04
申请号:CN202211435654.8
申请日:2022-11-16
Applicant: 科大讯飞股份有限公司
IPC: G06T13/40 , G06T15/04 , G06T19/00 , G06N3/0455 , G06F40/30
Abstract: 本申请提供了一种虚拟形象的生成方法、装置、设备及存储介质,具体实现方案为:利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征;其中,所述文本与纹理的特征库中记录有文本以及与文本对应的纹理特征;基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征;基于所述语义特征生成虚拟形象。根据本申请的技术方案,能够降低虚拟形象的生成难度,提升虚拟形象的生成效率。
-
公开(公告)号:CN115439614B
公开(公告)日:2023-03-14
申请号:CN202211326579.1
申请日:2022-10-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种虚拟形象的生成方法、装置、电子设备和存储介质,能够从目标用户的音频数据中提取得到音素特征,以及从与音频数据同步的视频数据中提取得到面部表情特征。基于上述音素特征和面部表情特征,解算得到目标用户的面部表情参数序列。其中,面部动作较为复杂的部分集中在下半张脸的口唇区域,而用户说话的语音音素与口唇动作有较强的相关性,因此,本申请引入音素特征,根据音素特征和面部表情特征解算面部表情参数序列,利用面部表情参数序列驱动目标用户对应的三维虚拟形象模型生成的虚拟形象,能够精确还原目标用户面部的动作。
-
公开(公告)号:CN115393532B
公开(公告)日:2023-03-14
申请号:CN202211326540.X
申请日:2022-10-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种脸部绑定方法、装置、设备及存储介质,涉及人工智能技术领域,具体实现方案为:利用获取到的目标对象的脸部图像,在目标对象对应的三维人脸模型中确定三维人脸模型的脸部特征区域;在脸部特征区域中确定对应的三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系;根据三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系,确定目标对象的三维人脸模型顶点与脸部骨骼点的绑定关系根据本申请的技术方案,能够在三维建模软件中实现三维人脸模型顶点与脸部骨骼点的自动绑定,提高脸部绑定效率,进而提升虚拟形象的生成效率。
-
公开(公告)号:CN115762574A
公开(公告)日:2023-03-07
申请号:CN202211435101.2
申请日:2022-11-16
Applicant: 科大讯飞股份有限公司
IPC: G10L25/57 , G10L25/03 , G06F18/25 , G06F18/2431 , G06N3/0455 , G06N3/0464 , G06N3/042 , G06N3/08
Abstract: 本申请提出一种基于语音的动作生成方法、装置、电子设备及存储介质,该方法包括:确定目标语音中包含的动作意图,并确定与所述动作意图相匹配的第一动作序列;以及,从所述目标语音中提取得到语音韵律特征,并基于所述语音韵律特征预测得到与所述语音韵律特征相匹配的第二动作序列;对所述第一动作序列和所述第二动作序列进行融合处理,生成与所述目标语音相匹配的动作序列。上述方案通过多维度的信息生成了与目标语音相匹配的动作序列,从而使得生成的与目标语音相匹配的动作序列更准确,并且更加自然、协调。
-
公开(公告)号:CN115588227A
公开(公告)日:2023-01-10
申请号:CN202211401340.6
申请日:2022-11-09
Applicant: 科大讯飞股份有限公司
IPC: G06V40/16 , G06V10/774 , G06V10/82 , G10L25/63
Abstract: 本发明提供一种情绪识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别人员的语音数据和图像数据;基于语音数据和所述图像数据进行情绪识别,得到待识别人员的情绪类别;基于图像数据进行人脸检测,得到待识别人员的嘴部关键点的位置信息,基于嘴部关键点的位置信息,确定待识别人员在情绪类别下的情绪强度,通过多模态的情绪信息实现了高效准确的情绪识别,克服了传统方案中情绪识别精度不高,以及对于算力要求较高,以致应用范围受限的缺陷,能够在不依赖硬件条件的情况下,保证高召回率,提高了情绪识别的精确度和准确率,不仅减少了运行系统的资源占用,还延长了硬件的使用期限,保证了资源的充分利用,降低了运行成本。
-
公开(公告)号:CN115565162A
公开(公告)日:2023-01-03
申请号:CN202211378229.X
申请日:2022-11-04
Applicant: 科大讯飞股份有限公司
IPC: G06V20/59 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本申请提供了一种视线估计模型的训练方法及装置、视线估计方法及装置,涉及计算机视觉技术领域。该训练方法包括基于目标对象的双眼区域图像集合,确定目标对象的样本图像对,样本图像对中包括两幅样本图像;确定两幅样本图像各自对应的第一视线特征;基于两幅样本图像各自对应的第一视线特征,确定待训练神经网络模型的损失函数;基于损失函数训练待训练神经网络模型,得到视线估计模型。与现有视线估计模型训练方法相比,显著提升了视线特征的表示能力,扩大了视线估计模型的有效工作范围,提升了视线方向预测的精准度。此外,本申请实施例训练生成的视线估计模型能够为分析驾驶员的驾驶状态提供全面、准确的支持,从而提高车辆行驶的安全性。
-
公开(公告)号:CN115546815A
公开(公告)日:2022-12-30
申请号:CN202211362565.5
申请日:2022-11-02
Applicant: 科大讯飞股份有限公司
IPC: G06V30/413 , G06V30/18 , G06V10/82 , G06N3/08 , G06N3/04
Abstract: 本申请提供了一种表格识别方法、装置、设备及存储介质,具体实现方案为:从待测图像中检测确定表格区域;基于所述表格区域确定对应的文本特征和位置特征;对所述文本特征和所述位置特征进行融合得到表格特征;利用所述表格特征确定所述待测图像中的表格识别结果。根据本申请的技术方案,能够准确地识别表格。
-
公开(公告)号:CN115424356A
公开(公告)日:2022-12-02
申请号:CN202211381906.3
申请日:2022-11-07
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种座舱内手势交互方法及装置,座舱内手势交互方法包括:接收座舱内的实时图像;将实时图像输入手势识别模型,获得手势识别模型输出的第一手势类别检测结果和第一位置类别检测结果;依据第一座舱位置上第一手势对应的控制指令控制座舱内的设备;其中,对于不同的第一座舱位置,相同的第一手势对应的控制指令不同。本发明通过手势识别模型直接获得手势类别检测结果,避免两阶段手势识别导致的车机工作压力,并通过识别手势动作人所在的座舱位置,为不同座舱位置上的相同手势配置不同的功能,提高了手势交互的丰富度。
-
-
-
-
-
-
-
-
-