-
公开(公告)号:CN116386590B
公开(公告)日:2023-08-15
申请号:CN202310613237.6
申请日:2023-05-29
Applicant: 北京科技大学
IPC: G10L13/02 , G10L13/08 , G10L21/0208 , G10L19/18
Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。
-
公开(公告)号:CN116386590A
公开(公告)日:2023-07-04
申请号:CN202310613237.6
申请日:2023-05-29
Applicant: 北京科技大学
IPC: G10L13/02 , G10L13/08 , G10L21/0208 , G10L19/18
Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。
-