一种基于语音深度表征映射的语音翻译方法及系统

    公开(公告)号:CN115312029B

    公开(公告)日:2023-01-31

    申请号:CN202211244884.6

    申请日:2022-10-12

    Abstract: 本发明公开了一种基于语音深度表征映射的语音翻译方法及系统属于人工智能领域,涉及人工智能领域,本发明基于语音深度表征映射的语音翻译方法及海量无标注数据和大量成对数据训练深度学习模型,可以方便的使用海量影视等媒体数据进行模型训练,方便的应用于各种语言语音的互译,提供了一种便捷通用的语音互译方案;本发明基于语音深度表征映射的语音翻译方法提供了一种声纹嵌入的声码器进行语音合成,可实现语音翻译发音音色指定可控,并且能够使得合成的语音保真度更高;本发明的语音深度表征映射的语音翻译系统集成了基于语音深度表征映射的语音翻译方法,能够实现语音直接翻译任务,简化了语音翻译的流程,提高了语音翻译的精度。

    一种语音的合成方法、装置、设备及存储介质

    公开(公告)号:CN115457931A

    公开(公告)日:2022-12-09

    申请号:CN202211378555.0

    申请日:2022-11-04

    Abstract: 本说明书公开了一种语音的合成方法、装置、设备及存储介质,通过将获取到的语音文本数据拆分为多个字语音文本数据,并且每个子语音文本数据之间存在重叠,从而使得在将每个子语音文本数据对应的情感语音数据进行合成时,可以针对重叠的部分进行优化处理,以使各子语音文本数据对应的情感语音数据过渡时更加自然。进而通过预测模型,针对每个子语音文本数据,在考虑到预测出的上一个子语音文本数据对应的情感强度值的基础上,预测出该子语音文本数据的情感强度值,以避免任意相邻的两个子语音文本数据之间的情感强度的变化较为生硬的问题,最后通过语音合成模型,合成与所述语音文本数据对应的情感语音,进而可以使合成的情感语音数据更加拟人化。

    一种基于语音深度表征映射的语音翻译方法及系统

    公开(公告)号:CN115312029A

    公开(公告)日:2022-11-08

    申请号:CN202211244884.6

    申请日:2022-10-12

    Abstract: 本发明公开了一种基于语音深度表征映射的语音翻译方法及系统属于人工智能领域,涉及人工智能领域,本发明基于语音深度表征映射的语音翻译方法及海量无标注数据和大量成对数据训练深度学习模型,可以方便的使用海量影视等媒体数据进行模型训练,方便的应用于各种语言语音的互译,提供了一种便捷通用的语音互译方案;本发明基于语音深度表征映射的语音翻译方法提供了一种声纹嵌入的声码器进行语音合成,可实现语音翻译发音音色指定可控,并且能够使得合成的语音保真度更高;本发明的语音深度表征映射的语音翻译系统集成了基于语音深度表征映射的语音翻译方法,能够实现语音直接翻译任务,简化了语音翻译的流程,提高了语音翻译的精度。

    基于三维深度特征融合的语音情感识别方法及系统

    公开(公告)号:CN114566189A

    公开(公告)日:2022-05-31

    申请号:CN202210454745.X

    申请日:2022-04-28

    Abstract: 本发明属于人工智能领域,涉及基于三维深度特征融合的语音情感识别方法及系统,该方法包括:步骤一,采集开源数据集得到预训练的识别网络模型和经过去噪处理的干净情感语音音频;步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。本发明有效解决低资源训练模型导致的语音情感识别准确率低的问题。

    一种视频多目标人脸表情识别方法和系统

    公开(公告)号:CN112990119B

    公开(公告)日:2021-09-10

    申请号:CN202110446571.8

    申请日:2021-04-25

    Abstract: 本发明属于人工智能领域,具体涉及一种视频多目标人脸表情识别方法和系统,该方法包括如下步骤:S1、抽取视频流中图像帧并提取人脸区域;S2、对视频流中的目标进行人脸跟踪;S3、对跟踪目标进行表情识别;S4、结合历史表情识别结果进行分析。本发明提供的方法,通过融合目标跟踪技术实现视频中多目标表情识别、利用前后帧结果加权提升动态表情识别结果的正确性和鲁棒性,防止视频表情识别结果产生的单帧抖动,同时本发明的视频表情识别系统具有表情分析结果及原始视频存储功能,能够帮助做出合理分析和建议,例如在校教育场景,智能驾驶辅助场景等。

    一种基于视频基础单元分析的复杂行为识别方法

    公开(公告)号:CN112990122B

    公开(公告)日:2021-08-17

    申请号:CN202110448783.X

    申请日:2021-04-25

    Abstract: 本发明公开了一种基于视频基础单元分析的复杂行为识别方法。该方法将视频的行为识别拆分为时序上的原子行为,空间上基于目标检测和场景识别提取视频中的物体和背景信息,并将提取的语义信息送入时序模型进行分析。该方法相比以往的视频行为识别,将视频在时间和空间上进行分解为基础任务进行检测和识别,可解释性更强。同时基于此方法,可以针对不同的任务情况,选择性的提取需要的基础单元信息,通过拆分的方法增强了复杂行为识别任务的灵活性。

    一种基于视频基础单元分析的复杂行为识别方法

    公开(公告)号:CN112990122A

    公开(公告)日:2021-06-18

    申请号:CN202110448783.X

    申请日:2021-04-25

    Abstract: 本发明公开了一种基于视频基础单元分析的复杂行为识别方法。该方法将视频的行为识别拆分为时序上的原子行为,空间上基于目标检测和场景识别提取视频中的物体和背景信息,并将提取的语义信息送入时序模型进行分析。该方法相比以往的视频行为识别,将视频在时间和空间上进行分解为基础任务进行检测和识别,可解释性更强。同时基于此方法,可以针对不同的任务情况,选择性的提取需要的基础单元信息,通过拆分的方法增强了复杂行为识别任务的灵活性。

    一种歌声合成模型的训练方法、装置、介质及电子设备

    公开(公告)号:CN116469411A

    公开(公告)日:2023-07-21

    申请号:CN202310418617.4

    申请日:2023-04-14

    Abstract: 本说明书公开了一种歌声合成模型的训练方法、装置、介质及电子设备,包括:通过预先收集的歌曲的歌曲数据,训练待训练的歌声合成模型。在训练时,先根据歌曲的歌词数据,确定歌曲的音素,再将音素与歌谱数据进行拼接,并将拼接结果输入待训练的歌声合成模型的旋律预测层,得到歌曲的第一旋律分布。之后,将确定歌曲出的第一梅尔谱输入歌声预测层,得到预测音频以及第二旋律分布。然后,根据第一旋律分布与第二旋律分布的差异,音频数据与预测音频的差异,确定目标损失,并以目标损失最小为优化目标,对待训练的歌声合成模型进行训练。提高训练完成的歌声合成模型的采样率,使得根据歌声合成模型生成的歌声中的颤音减少。

    一种语音的合成方法、装置、设备及存储介质

    公开(公告)号:CN115457931B

    公开(公告)日:2023-03-24

    申请号:CN202211378555.0

    申请日:2022-11-04

    Abstract: 本说明书公开了一种语音的合成方法、装置、设备及存储介质,通过将获取到的语音文本数据拆分为多个字语音文本数据,并且每个子语音文本数据之间存在重叠,从而使得在将每个子语音文本数据对应的情感语音数据进行合成时,可以针对重叠的部分进行优化处理,以使各子语音文本数据对应的情感语音数据过渡时更加自然。进而通过预测模型,针对每个子语音文本数据,在考虑到预测出的上一个子语音文本数据对应的情感强度值的基础上,预测出该子语音文本数据的情感强度值,以避免任意相邻的两个子语音文本数据之间的情感强度的变化较为生硬的问题,最后通过语音合成模型,合成与所述语音文本数据对应的情感语音,进而可以使合成的情感语音数据更加拟人化。

Patent Agency Ranking