-
公开(公告)号:CN110517698B
公开(公告)日:2022-02-01
申请号:CN201910837580.2
申请日:2019-09-05
Applicant: 科大讯飞股份有限公司 , 咪咕数字传媒有限公司
Abstract: 本申请提供了一种声纹模型的确定方法、装置、设备及存储介质,其中,方法包括:获取目标语音的至少一个语谱片段,通过预先建立的声纹提取模型,确定每个语谱片段的至少一个第一特征图,其中,第一特征图中的各特征点相互独立,通过声纹提取模型,确定每个第一特征图对应的、包含其全局信息的第二特征图,获得每个语谱片段的至少一个第二特征图,其中,一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图;至少利用每个语谱片段的至少一个第二特征图,以及声纹提取模型,确定目标语音的声纹模型。本申请提供的声纹模型确定方法能够针对目标语音确定出稳定且精准的声纹模型。
-
公开(公告)号:CN110517698A
公开(公告)日:2019-11-29
申请号:CN201910837580.2
申请日:2019-09-05
Applicant: 科大讯飞股份有限公司 , 咪咕数字传媒有限公司
Abstract: 本申请提供了一种声纹模型的确定方法、装置、设备及存储介质,其中,方法包括:获取目标语音的至少一个语谱片段,通过预先建立的声纹提取模型,确定每个语谱片段的至少一个第一特征图,其中,第一特征图中的各特征点相互独立,通过声纹提取模型,确定每个第一特征图对应的、包含其全局信息的第二特征图,获得每个语谱片段的至少一个第二特征图,其中,一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图;至少利用每个语谱片段的至少一个第二特征图,以及声纹提取模型,确定目标语音的声纹模型。本申请提供的声纹模型确定方法能够针对目标语音确定出稳定且精准的声纹模型。
-
公开(公告)号:CN120015036A
公开(公告)日:2025-05-16
申请号:CN202510312047.X
申请日:2025-03-17
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音意图识别方法及相关装置,涉及语音处理技术领域,本方案中,利用多通道语音识别模型可以提升多通道语音信号的识别效果。另外,一方面基于预设高频交互文本库对各个通道的语音识别文本进行意图识别能保证高频意图被快速识别出来,另一方面基于训练后的意图识别模型对各个通道的语音识别文本进行意图识别又能保证非高频意图的识别效率和准确率。因此,本方案能够准确地、快速地实现对多通道语音信号的意图识别。
-
公开(公告)号:CN119883006A
公开(公告)日:2025-04-25
申请号:CN202510380799.X
申请日:2025-03-28
Applicant: 科大讯飞股份有限公司
IPC: G06F3/01 , G06T13/40 , G06N3/006 , G06F16/958
Abstract: 本申请公开了一种虚拟人交互方法、装置、相关设备及计算机程序产品,涉及人工智能技术领域,本申请支持创建两个以上的虚拟人角色,可以响应虚拟人角色创建请求,根据角色标识创建两个以上的虚拟人角色,分别通过不同的虚拟人引擎生成虚拟人角色的视频流。可以同时控制两个以上的虚拟人角色,将两个以上的虚拟人角色的视频流中对应视频帧进行合并处理,生成合并后的目标视频流并推送给客户端播放。本申请能够将两个以上的虚拟人角色组合到一个视频流中,实现两个以上虚拟人的同屏交互,提升了可交互的虚拟人角色的数量,进而提升虚拟人展示的多样性,丰富了虚拟人的表现力,能够在更复杂的场景中使虚拟人更加生动,满足用户个性化需求。
-
公开(公告)号:CN119832084A
公开(公告)日:2025-04-15
申请号:CN202411802565.1
申请日:2024-12-09
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种相机标定及姿态重建方法及相关装置、设备和存储介质,该方法包括:获取若干第一目标图像,各第一目标图像由若干位于不同位置相机在相同时刻对同一目标对象分别采集得到;从若干第一目标图像中,确定多个图像块组;图像块组中的不同图像块属于不同第一目标图像,且为包含目标对象中至少一相同关键点的图像区域;确定各图像块组中不同图像块之间的多组第一匹配点;基于各图像块组中的多组第一匹配点标定各相机,得到各相机的目标标定参数。通过上述方式,本申请能够精确标定相机的位置。
-
公开(公告)号:CN114299225B
公开(公告)日:2025-04-04
申请号:CN202111524469.1
申请日:2021-12-14
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种动作图像生成方法、模型构建方法、计算机设备及存储介质,其中,该模型构建方法包括:获取目标人物的第一图像集和第二图像集,第一图像集和第二图像集包括关于目标人物动作的序列图像;根据第一图像集的序列图像进行三维重建,得到多个第一3D模型;获取目标人物的纹理图,根据纹理图对所述多个第一3D模型进行贴图,得到多个纹理贴图;对多个第一3D模型进行投影,得到多个2D投影图像;根据第二图像集的序列图像、2D投影图像和纹理贴图构建动作生成模型。该动作生成模型可以生成更为真实的动作图像,即动作图像包括更多细节,由此可以提高用户的体验度。
-
公开(公告)号:CN119648874A
公开(公告)日:2025-03-18
申请号:CN202411486623.4
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
Abstract: 本说明书实施例提供了一种动作合成方法,该方法通过确定输入视频相应关键点序列;然后基于关键点序列执行加噪处理;并在对噪声序列进行去噪处理的过程中,将噪声序列和特征信息作为条件引导扩散概率模型执行分段训练进程,其第一阶段基于音频特征进行,其第二阶段在第一阶段的隐空间中基于语义特征进行;该训练后的扩散概率模型可以用于合成对象动作。应用上述训练得到的扩散概率模型能够实现多样性的动作合成过程,由于在训练进程中第二阶段在第一阶段隐空间继续生成稳定的序列结构,在音频特征的基础上,细化描述了语义特征,提高了动作合成的准确性。
-
公开(公告)号:CN119444955A
公开(公告)日:2025-02-14
申请号:CN202510032187.1
申请日:2025-01-09
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种图像渲染方法、装置、设备和存储介质,该方法包括:获取三维点云,三维点云包括多个三维点,三维点的属性包括位置属性和色彩相关属性,色彩相关属性包括颜色信息,还包括透明度和反射率中的至少一者;从三维点云中确定目标视角下的渲染图中各像素点分别对应的点集;基于各像素点对应的点集中三维点的属性,确定各像素点的像素值。上述方案,能够提升渲染效果。
-
公开(公告)号:CN119417956A
公开(公告)日:2025-02-11
申请号:CN202411478902.6
申请日:2024-10-22
Applicant: 科大讯飞股份有限公司
IPC: G06T13/40 , G06V40/20 , G06V10/82 , G06N3/044 , G06N3/0442
Abstract: 本发明提供一种运动仿真方法、装置、电子设备和存储介质,其中方法包括:基于虚拟运动参数,从各种步态序列中,选取出仿真所需的目标序列,所述各种步态序列是基于真实运动视频中各帧图像的步态识别结果,对所述真实运动视频进行划分得到的;基于所述目标序列,进行运动仿真。本发明提供的方法、装置、电子设备和存储介质,需基础的摄像机即可实现,无需成套的拍摄设备,且一条真实运动视频即可拆分各种步态序列以支持运动仿真,运动仿真所需的视频数据量大减,这使得运动仿真所需的成本大大降低,为运动仿真的实现提供了便利。另外,以步态识别结果拆分所得的步态序列,实现了针对运动仿真的精细化控制,有助于运动仿真的效果优化。
-
公开(公告)号:CN114913532B
公开(公告)日:2025-02-07
申请号:CN202210480055.1
申请日:2022-05-05
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种文字笔画书写顺序评估方法、装置、设备及存储介质,方法包括:获取目标文字对应的轨迹点序列,并对获取的轨迹点序列进行规整,规整后的轨迹点序列作为目标轨迹点序列;根据目标轨迹点序列,按实际的笔画书写顺序依次预测目标文字的每个笔画所属的笔画类别,得到目标文字的笔画类别序列;根据目标文字的笔画类别序列和目标文字对应的标准文字的笔画类别序列,对目标文字的笔画书写顺序是否正确以及笔画书写顺序不正确时的顺序错误笔画,并输出评估结果。经由本发明提供的方法获得的评估结果能够有效地帮助用户纠正笔画书写顺序错误,从而帮助用户掌握文字的笔画书写顺序,对培养用户养成正确的书写习惯具有十分重要的意义。
-
-
-
-
-
-
-
-
-