-
公开(公告)号:CN120015036A
公开(公告)日:2025-05-16
申请号:CN202510312047.X
申请日:2025-03-17
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音意图识别方法及相关装置,涉及语音处理技术领域,本方案中,利用多通道语音识别模型可以提升多通道语音信号的识别效果。另外,一方面基于预设高频交互文本库对各个通道的语音识别文本进行意图识别能保证高频意图被快速识别出来,另一方面基于训练后的意图识别模型对各个通道的语音识别文本进行意图识别又能保证非高频意图的识别效率和准确率。因此,本方案能够准确地、快速地实现对多通道语音信号的意图识别。
-
公开(公告)号:CN119883006A
公开(公告)日:2025-04-25
申请号:CN202510380799.X
申请日:2025-03-28
Applicant: 科大讯飞股份有限公司
IPC: G06F3/01 , G06T13/40 , G06N3/006 , G06F16/958
Abstract: 本申请公开了一种虚拟人交互方法、装置、相关设备及计算机程序产品,涉及人工智能技术领域,本申请支持创建两个以上的虚拟人角色,可以响应虚拟人角色创建请求,根据角色标识创建两个以上的虚拟人角色,分别通过不同的虚拟人引擎生成虚拟人角色的视频流。可以同时控制两个以上的虚拟人角色,将两个以上的虚拟人角色的视频流中对应视频帧进行合并处理,生成合并后的目标视频流并推送给客户端播放。本申请能够将两个以上的虚拟人角色组合到一个视频流中,实现两个以上虚拟人的同屏交互,提升了可交互的虚拟人角色的数量,进而提升虚拟人展示的多样性,丰富了虚拟人的表现力,能够在更复杂的场景中使虚拟人更加生动,满足用户个性化需求。
-
公开(公告)号:CN119832084A
公开(公告)日:2025-04-15
申请号:CN202411802565.1
申请日:2024-12-09
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种相机标定及姿态重建方法及相关装置、设备和存储介质,该方法包括:获取若干第一目标图像,各第一目标图像由若干位于不同位置相机在相同时刻对同一目标对象分别采集得到;从若干第一目标图像中,确定多个图像块组;图像块组中的不同图像块属于不同第一目标图像,且为包含目标对象中至少一相同关键点的图像区域;确定各图像块组中不同图像块之间的多组第一匹配点;基于各图像块组中的多组第一匹配点标定各相机,得到各相机的目标标定参数。通过上述方式,本申请能够精确标定相机的位置。
-
公开(公告)号:CN114299225B
公开(公告)日:2025-04-04
申请号:CN202111524469.1
申请日:2021-12-14
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种动作图像生成方法、模型构建方法、计算机设备及存储介质,其中,该模型构建方法包括:获取目标人物的第一图像集和第二图像集,第一图像集和第二图像集包括关于目标人物动作的序列图像;根据第一图像集的序列图像进行三维重建,得到多个第一3D模型;获取目标人物的纹理图,根据纹理图对所述多个第一3D模型进行贴图,得到多个纹理贴图;对多个第一3D模型进行投影,得到多个2D投影图像;根据第二图像集的序列图像、2D投影图像和纹理贴图构建动作生成模型。该动作生成模型可以生成更为真实的动作图像,即动作图像包括更多细节,由此可以提高用户的体验度。
-
公开(公告)号:CN119648874A
公开(公告)日:2025-03-18
申请号:CN202411486623.4
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
Abstract: 本说明书实施例提供了一种动作合成方法,该方法通过确定输入视频相应关键点序列;然后基于关键点序列执行加噪处理;并在对噪声序列进行去噪处理的过程中,将噪声序列和特征信息作为条件引导扩散概率模型执行分段训练进程,其第一阶段基于音频特征进行,其第二阶段在第一阶段的隐空间中基于语义特征进行;该训练后的扩散概率模型可以用于合成对象动作。应用上述训练得到的扩散概率模型能够实现多样性的动作合成过程,由于在训练进程中第二阶段在第一阶段隐空间继续生成稳定的序列结构,在音频特征的基础上,细化描述了语义特征,提高了动作合成的准确性。
-
公开(公告)号:CN119444955A
公开(公告)日:2025-02-14
申请号:CN202510032187.1
申请日:2025-01-09
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种图像渲染方法、装置、设备和存储介质,该方法包括:获取三维点云,三维点云包括多个三维点,三维点的属性包括位置属性和色彩相关属性,色彩相关属性包括颜色信息,还包括透明度和反射率中的至少一者;从三维点云中确定目标视角下的渲染图中各像素点分别对应的点集;基于各像素点对应的点集中三维点的属性,确定各像素点的像素值。上述方案,能够提升渲染效果。
-
公开(公告)号:CN119417956A
公开(公告)日:2025-02-11
申请号:CN202411478902.6
申请日:2024-10-22
Applicant: 科大讯飞股份有限公司
IPC: G06T13/40 , G06V40/20 , G06V10/82 , G06N3/044 , G06N3/0442
Abstract: 本发明提供一种运动仿真方法、装置、电子设备和存储介质,其中方法包括:基于虚拟运动参数,从各种步态序列中,选取出仿真所需的目标序列,所述各种步态序列是基于真实运动视频中各帧图像的步态识别结果,对所述真实运动视频进行划分得到的;基于所述目标序列,进行运动仿真。本发明提供的方法、装置、电子设备和存储介质,需基础的摄像机即可实现,无需成套的拍摄设备,且一条真实运动视频即可拆分各种步态序列以支持运动仿真,运动仿真所需的视频数据量大减,这使得运动仿真所需的成本大大降低,为运动仿真的实现提供了便利。另外,以步态识别结果拆分所得的步态序列,实现了针对运动仿真的精细化控制,有助于运动仿真的效果优化。
-
公开(公告)号:CN114913532B
公开(公告)日:2025-02-07
申请号:CN202210480055.1
申请日:2022-05-05
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种文字笔画书写顺序评估方法、装置、设备及存储介质,方法包括:获取目标文字对应的轨迹点序列,并对获取的轨迹点序列进行规整,规整后的轨迹点序列作为目标轨迹点序列;根据目标轨迹点序列,按实际的笔画书写顺序依次预测目标文字的每个笔画所属的笔画类别,得到目标文字的笔画类别序列;根据目标文字的笔画类别序列和目标文字对应的标准文字的笔画类别序列,对目标文字的笔画书写顺序是否正确以及笔画书写顺序不正确时的顺序错误笔画,并输出评估结果。经由本发明提供的方法获得的评估结果能够有效地帮助用户纠正笔画书写顺序错误,从而帮助用户掌握文字的笔画书写顺序,对培养用户养成正确的书写习惯具有十分重要的意义。
-
公开(公告)号:CN119360417A
公开(公告)日:2025-01-24
申请号:CN202411459811.8
申请日:2024-10-18
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种单目手势识别方法及相关装置,涉及手势识别技术领域,单目手势识别方法包括:获取目标手部图像序列;基于预先训练得到的单目3D手部姿态估计模型,获取目标手部图像序列的每个目标手部图像对应的手部3D关键点位置信息,得到目标手部3D关键点位置信息序列,其中,单目3D手部姿态估计模型采用标注有手部3D关键点位置信息的训练手部图像,同时辅以训练手部图像的手部姿态描述文本和/或真实手部3D重建标签训练得到;根据目标手部3D关键点位置信息序列,进行手势识别,得到手势识别结果。本申请公开的单目手势识别方法具有较高的识别精度。
-
公开(公告)号:CN119252514A
公开(公告)日:2025-01-03
申请号:CN202411765514.6
申请日:2024-12-04
Applicant: 科大讯飞股份有限公司
Abstract: 本发明涉及人工智能技术领域,提供一种健康监测方法、装置、电子设备和存储介质,其中方法包括:对当前采集的视频帧进行人脸检测,得到当前帧的人脸区域图像;对人脸区域图像进行关键点检测,得到人脸关键点;基于人脸关键点,从人脸区域图像中确定出人脸局部区域;基于人脸区域图像中的目标关键点,将当前帧的人脸局部区域与上一帧的人脸局部区域进行对齐,并应用对齐后的人脸局部区域进行健康监测,得到健康指标。本发明通过基于检测到的人脸关键点,从人脸区域图像中确定出人脸局部区域,可以抑制过多干扰像素对特征提取的影响,通过将当前帧的人脸局部区域与上一帧进行对齐,可以显著缓解像素错位带来的影响,从而提高健康监测的准确性。
-
-
-
-
-
-
-
-
-