-
公开(公告)号:CN115908657A
公开(公告)日:2023-04-04
申请号:CN202211435654.8
申请日:2022-11-16
Applicant: 科大讯飞股份有限公司
IPC: G06T13/40 , G06T15/04 , G06T19/00 , G06N3/0455 , G06F40/30
Abstract: 本申请提供了一种虚拟形象的生成方法、装置、设备及存储介质,具体实现方案为:利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征;其中,所述文本与纹理的特征库中记录有文本以及与文本对应的纹理特征;基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征;基于所述语义特征生成虚拟形象。根据本申请的技术方案,能够降低虚拟形象的生成难度,提升虚拟形象的生成效率。
-
公开(公告)号:CN115439614B
公开(公告)日:2023-03-14
申请号:CN202211326579.1
申请日:2022-10-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种虚拟形象的生成方法、装置、电子设备和存储介质,能够从目标用户的音频数据中提取得到音素特征,以及从与音频数据同步的视频数据中提取得到面部表情特征。基于上述音素特征和面部表情特征,解算得到目标用户的面部表情参数序列。其中,面部动作较为复杂的部分集中在下半张脸的口唇区域,而用户说话的语音音素与口唇动作有较强的相关性,因此,本申请引入音素特征,根据音素特征和面部表情特征解算面部表情参数序列,利用面部表情参数序列驱动目标用户对应的三维虚拟形象模型生成的虚拟形象,能够精确还原目标用户面部的动作。
-
公开(公告)号:CN115393532B
公开(公告)日:2023-03-14
申请号:CN202211326540.X
申请日:2022-10-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种脸部绑定方法、装置、设备及存储介质,涉及人工智能技术领域,具体实现方案为:利用获取到的目标对象的脸部图像,在目标对象对应的三维人脸模型中确定三维人脸模型的脸部特征区域;在脸部特征区域中确定对应的三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系;根据三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系,确定目标对象的三维人脸模型顶点与脸部骨骼点的绑定关系根据本申请的技术方案,能够在三维建模软件中实现三维人脸模型顶点与脸部骨骼点的自动绑定,提高脸部绑定效率,进而提升虚拟形象的生成效率。
-
公开(公告)号:CN115762574A
公开(公告)日:2023-03-07
申请号:CN202211435101.2
申请日:2022-11-16
Applicant: 科大讯飞股份有限公司
IPC: G10L25/57 , G10L25/03 , G06F18/25 , G06F18/2431 , G06N3/0455 , G06N3/0464 , G06N3/042 , G06N3/08
Abstract: 本申请提出一种基于语音的动作生成方法、装置、电子设备及存储介质,该方法包括:确定目标语音中包含的动作意图,并确定与所述动作意图相匹配的第一动作序列;以及,从所述目标语音中提取得到语音韵律特征,并基于所述语音韵律特征预测得到与所述语音韵律特征相匹配的第二动作序列;对所述第一动作序列和所述第二动作序列进行融合处理,生成与所述目标语音相匹配的动作序列。上述方案通过多维度的信息生成了与目标语音相匹配的动作序列,从而使得生成的与目标语音相匹配的动作序列更准确,并且更加自然、协调。
-
公开(公告)号:CN115588227A
公开(公告)日:2023-01-10
申请号:CN202211401340.6
申请日:2022-11-09
Applicant: 科大讯飞股份有限公司
IPC: G06V40/16 , G06V10/774 , G06V10/82 , G10L25/63
Abstract: 本发明提供一种情绪识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别人员的语音数据和图像数据;基于语音数据和所述图像数据进行情绪识别,得到待识别人员的情绪类别;基于图像数据进行人脸检测,得到待识别人员的嘴部关键点的位置信息,基于嘴部关键点的位置信息,确定待识别人员在情绪类别下的情绪强度,通过多模态的情绪信息实现了高效准确的情绪识别,克服了传统方案中情绪识别精度不高,以及对于算力要求较高,以致应用范围受限的缺陷,能够在不依赖硬件条件的情况下,保证高召回率,提高了情绪识别的精确度和准确率,不仅减少了运行系统的资源占用,还延长了硬件的使用期限,保证了资源的充分利用,降低了运行成本。
-
公开(公告)号:CN115565162A
公开(公告)日:2023-01-03
申请号:CN202211378229.X
申请日:2022-11-04
Applicant: 科大讯飞股份有限公司
IPC: G06V20/59 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本申请提供了一种视线估计模型的训练方法及装置、视线估计方法及装置,涉及计算机视觉技术领域。该训练方法包括基于目标对象的双眼区域图像集合,确定目标对象的样本图像对,样本图像对中包括两幅样本图像;确定两幅样本图像各自对应的第一视线特征;基于两幅样本图像各自对应的第一视线特征,确定待训练神经网络模型的损失函数;基于损失函数训练待训练神经网络模型,得到视线估计模型。与现有视线估计模型训练方法相比,显著提升了视线特征的表示能力,扩大了视线估计模型的有效工作范围,提升了视线方向预测的精准度。此外,本申请实施例训练生成的视线估计模型能够为分析驾驶员的驾驶状态提供全面、准确的支持,从而提高车辆行驶的安全性。
-
公开(公告)号:CN115546815A
公开(公告)日:2022-12-30
申请号:CN202211362565.5
申请日:2022-11-02
Applicant: 科大讯飞股份有限公司
IPC: G06V30/413 , G06V30/18 , G06V10/82 , G06N3/08 , G06N3/04
Abstract: 本申请提供了一种表格识别方法、装置、设备及存储介质,具体实现方案为:从待测图像中检测确定表格区域;基于所述表格区域确定对应的文本特征和位置特征;对所述文本特征和所述位置特征进行融合得到表格特征;利用所述表格特征确定所述待测图像中的表格识别结果。根据本申请的技术方案,能够准确地识别表格。
-
公开(公告)号:CN115424356A
公开(公告)日:2022-12-02
申请号:CN202211381906.3
申请日:2022-11-07
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种座舱内手势交互方法及装置,座舱内手势交互方法包括:接收座舱内的实时图像;将实时图像输入手势识别模型,获得手势识别模型输出的第一手势类别检测结果和第一位置类别检测结果;依据第一座舱位置上第一手势对应的控制指令控制座舱内的设备;其中,对于不同的第一座舱位置,相同的第一手势对应的控制指令不同。本发明通过手势识别模型直接获得手势类别检测结果,避免两阶段手势识别导致的车机工作压力,并通过识别手势动作人所在的座舱位置,为不同座舱位置上的相同手势配置不同的功能,提高了手势交互的丰富度。
-
公开(公告)号:CN115393533A
公开(公告)日:2022-11-25
申请号:CN202211326575.3
申请日:2022-10-27
Applicant: 科大讯飞股份有限公司
IPC: G06T17/00
Abstract: 本申请提供一种三维点云构建方法、装置、电子设备及存储介质,所述三维点云构建方法,通过对第一分辨率的三维点云进行点云区域划分,并在划分得到的点云区域的基础上,分别对各区域的点云进行第二分辨率的三维点云重建,上述的处理过程将高精度三维点云构建过程分为低精度三维点云构建,以及对低精度三维点云进行分区域的并行高精度点云重建,有效的避免了大规模点云在重建过程中对计算机的内存和性能造成的压力,同时通过并行对多个点云区域的三维点云重建,有效的提高了三维点云的重建效率,并且能够构建得到高精度的三维点云。
-
公开(公告)号:CN115223184A
公开(公告)日:2022-10-21
申请号:CN202210830460.1
申请日:2022-07-15
Applicant: 科大讯飞股份有限公司
IPC: G06V30/414 , G06F40/126 , G06F40/284 , G06F40/58
Abstract: 本发明提供了一种文本分块方法、图文翻译方法及相关设备,其中,文本分块方法包括:获取目标图片中的若干文本行分别对应的文本行信息;根据目标图片、目标图片中的若干文本行分别对应的文本行信息,获取目标图片中的若干文本行分别对应的文本行特征;根据目标图片中的若干文本行分别对应的文本行特征,对目标图片中的若干文本行进行分块。本发明提供的文本分块方法可实现对图片中的若干文本行进行分块。在本发明提供的文本分块方法的基础上,本发明还提供了一种图文翻译方法,该翻译方法以文本块为单位进行翻译,由于一个文本块中的各文本行具有语义关系,因此,以文本块为单位进行翻译能够获得较为准确、连贯、通顺的译文。
-
-
-
-
-
-
-
-
-