声学模型训练方法、语音合成方法、装置及计算机设备

    公开(公告)号:CN116312458A

    公开(公告)日:2023-06-23

    申请号:CN202310133141.X

    申请日:2023-02-17

    发明人: 殷腾龙 马明

    摘要: 本申请涉及一种声学模型训练方法、语音合成方法、装置及计算机设备,应用于语音合成领域,可以提高文本合成语音的准确性。该方法包括:获取样本音素序列、样本音素序列对应的标准梅尔频谱和标准梅尔频谱的长度;将样本音素序列和标准梅尔频谱的长度输入声学模型,得到样本音素序列对应的梅尔频谱,声学模型包括音素嵌入层、编码器、长度预测器、长度调节器和解码器;长度预测器用于基于中间向量获得各个音素对应的长度占比,并基于标准梅尔频谱的长度和各个音素的长度占比确定各个音素对应的梅尔频谱的长度;基于样本音素序列对应的梅尔频谱和标准梅尔频谱,训练声学模型,得到训练好的目标声学模型。

    一种数据处理方法、装置和电子设备

    公开(公告)号:CN115617162A

    公开(公告)日:2023-01-17

    申请号:CN202211119932.9

    申请日:2022-09-14

    IPC分类号: G06F3/01 G06V40/16 G10L15/22

    摘要: 本公开涉及一种数据处理方法、装置和电子设备,涉及人机交互技术领域,语音解决如何通过数据虚拟人来播报答复信息的问题。该方法包括:接收电子设备发送的用于触发人机交互的语音信息;对语音信息进行识别,确定语音信息的回复信息;将回复信息输入至文本驱动模型,确定目标关键点集合;向电子设备发送携带回复信息和目标关键点集合的目标信息,以便电子设备根据预先配置的虚拟数字人的脸部对应的预设关键点集合、回复信息和目标关键点集合生成虚拟数字人的渲染图像。

    多音字消歧和韵律控制联合方法、系统以及电子设备

    公开(公告)号:CN113191143B

    公开(公告)日:2022-09-16

    申请号:CN202110568660.X

    申请日:2021-05-25

    发明人: 马明 刘宇

    摘要: 本申请提供多音字消歧和韵律控制联合方法、系统以及电子设备;获取待处理文本和其词性,转换为字符向量和词性向量并拼接得到成拼接向量;通过交替训练策略训练获取联合模型、第一组权重和第二组权重;联合模型包括第一神经网络和第二神经网络,通过联合模型对拼接向量进行编码,得到字符的第一句中编码和第二句中编码;按照第一组权重得到多音加权和,通过第一全连接层,得到多音字的读音概率分布;通过掩码去除多音字的读音概率分布中不正确的读音,得到最终读音预测;按照第二组权重得到韵律加权和,通过第二全连接层和条件随机场,得到韵律停顿等级。消除流式结构处理导致误差累积,提高文本转语音的计算速度。

    语音模型训练数据集构建方法及装置

    公开(公告)号:CN113450779A

    公开(公告)日:2021-09-28

    申请号:CN202110697465.7

    申请日:2021-06-23

    发明人: 马明 刘宇

    摘要: 本申请实施例提供一种语音模型训练数据集构建方法及装置,方法包括:获取多音字样本和非多音字样本后,对多音字样本和非多音字样本分别向量表征。进一步对多音字样本向量表征进行重复采样处理,根据重复采样的多音字样本向量表征构建新的多音字样本向量表征。最后合并多音字样本向量表征,新的多音字样本向量表征以及非多音字样本向量表征,得到构建的语音模型训练数据集。本申请提供的语音模型训练数据集构建方法及提取装置,能够增加语音模型训练数据集中多音字样本向量表征,避免多音字训练样本和非多音字训练样本分布不平衡的情况,进而提升被训练语音模型的转化准确率,提升用户使用体验。

    一种服务器、显示设备及语音交互方法

    公开(公告)号:CN117809617A

    公开(公告)日:2024-04-02

    申请号:CN202311267720.X

    申请日:2023-09-27

    发明人: 马宏 杨善松 马明

    摘要: 本申请一些实施例示出一种服务器、显示设备及语音交互方法,所述方法包括:接收显示设备发送用户输入的语音数据;将所述语音数据输入至情感语音模型,以获取情感类型和情感强度,所述语音情感模型是基于不同人群针对多个语义场景的样本语音数据训练得到的;获取所述语音数据对应的播报文本;基于所述播报文本、所述情感类型及所述情感强度合成播报语音;将所述播报语音发送至所述显示设备,以使所述显示设备播放所述播报语音。本申请实施例结合交互场景及用户语音特征综合输出对语音合成文本的情感干预,从而使语音交互过程更加自然,提升语音交互的个性化特征,丰富语音交互播报的情感音色。

    模型训练方法、韵律边界预测方法、装置及电子设备

    公开(公告)号:CN115662390A

    公开(公告)日:2023-01-31

    申请号:CN202211189061.8

    申请日:2022-09-28

    发明人: 杨善松 马明

    摘要: 本公开涉及一种模型训练方法、韵律边界预测方法、装置及电子设备,尤其涉及语音合成技术领域;其中,该方法包括:获取训练样本,训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界;将音素序列和音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果;基于预设损失函数,根据韵律边界预测结果和预先标注的韵律边界,对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型。本公开实施例通过训练样本对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,能够实现韵律边界的自动预测,避免人工标注带来的高成本和误差,使得韵律边界预测结果更准确,且有利于提高合成的语音的准确性。

    音频数据处理方法、装置及电子设备

    公开(公告)号:CN114067807A

    公开(公告)日:2022-02-18

    申请号:CN202111345604.6

    申请日:2021-11-15

    发明人: 刘宇 马明

    IPC分类号: G10L17/22 G10L17/04 G10L17/06

    摘要: 本申请实施例提供一种音频数据处理方法、装置及电子设备,可以实现:将各条待处理音频数据转录为文本数据,并对该文本数据进行分组;对每一组文本数据进行去重处理,并在去重处理后的每一组文本数据对应的各条音频数据中选取一条满足预设饱和度需求的目标音频数据添加至训练数据集;当该训练数据集中的音频数据的条数大于或等于预设阈值时,输出该训练数据集;否则,根据训练数据集中的音频数据训练声纹模型,利用训练后的声纹模型提取声纹向量,并根据该声纹向量从备选音频数据集中选择可用音频数据添加到训练数据集。本申请实施例可以从海量的音频数据中筛选出饱和度高、文本多样化的音频数据,提升声纹识别模型的模型性能。

    多音字消歧和韵律控制联合方法、系统以及电子设备

    公开(公告)号:CN113191143A

    公开(公告)日:2021-07-30

    申请号:CN202110568660.X

    申请日:2021-05-25

    发明人: 马明 刘宇

    摘要: 本申请提供多音字消歧和韵律控制联合方法、系统以及电子设备;获取待处理文本和其词性,转换为字符向量和词性向量并拼接得到成拼接向量;通过交替训练策略训练获取联合模型、第一组权重和第二组权重;联合模型包括第一神经网络和第二神经网络,通过联合模型对拼接向量进行编码,得到字符的第一句中编码和第二句中编码;按照第一组权重得到多音加权和,通过第一全连接层,得到多音字的读音概率分布;通过掩码去除多音字的读音概率分布中不正确的读音,得到最终读音预测;按照第二组权重得到韵律加权和,通过第二全连接层和条件随机场,得到韵律停顿等级。消除流式结构处理导致误差累积,提高文本转语音的计算速度。

    一种显示设备及基于唤醒词声纹的指令识别方法

    公开(公告)号:CN118609575A

    公开(公告)日:2024-09-06

    申请号:CN202410772645.0

    申请日:2024-06-14

    摘要: 本申请提供一种显示设备及基于唤醒词声纹的指令识别方法,所述方法通过声音采集器获取待提取音频后,通过语音提取模型在待提取音频中识别唤醒词音频,并通过语音提取模型提取唤醒词音频的目标声纹向量,根据目标声纹向量在待提取音频中提取目标指令词音频,根据目标指令词音频生成控制指令,以及,响应于控制指令,控制显示器显示执行控制指令后的目标用户界面。本申请通过对唤醒词音频对应的声纹向量进行识别,并基于声纹向量获取有效的指令词音频以生成对应的控制指令,减少待提取音频中的其他指令词音频对有效指令词音频的干扰,提高显示设备识别指令的准确性。

    虚拟人交互方法、装置、电子设备和介质

    公开(公告)号:CN117648027A

    公开(公告)日:2024-03-05

    申请号:CN202211695705.0

    申请日:2022-12-28

    IPC分类号: G06F3/01 G06V40/16 G06V40/18

    摘要: 本发明涉及一种虚拟人交互方法、装置、电子设备和介质,包括:通过获取目标用户相对于智能设备的空间位置参数;根据空间位置参数,在多个预设范围内确定目标预设范围;确定目标预设范围对应的虚拟人图像为目标用户对应的目标虚拟人图像,其中,目标虚拟人图像中包含的目标虚拟人对应一个预设角度;针对目标虚拟人,根据空间位置参数和预设角度,获取目标虚拟人在目标坐标系中的视线参数,其中,目标坐标系是根据智能设备的显示界面进行构建的;根据视线参数、以及目标虚拟人眼球在目标坐标系中的至少一个初始关键点坐标,确定目标虚拟人的视线方向。采用该方法能够使得目标用户与虚拟人进行交流互动时自动面向用户,实现与用户的眼神交流互动。