Patent search ap:("北京科技大学") AND inv:"赖志豪" Page 1

1.

发明授权
一种多模态的表现性语音合成方法及装置有权

公开(公告)号：CN116386590B

公开(公告)日：2023-08-15

申请号：CN202310613237.6

申请日：2023-05-29

Applicant: 北京科技大学

Inventor： 刘艳 , 魏丽芳 , 钱馨园 , 张传飞 , 赖志豪 , 刘琦 , 张天昊 , 陈松路 , 殷绪成

IPC: G10L13/02 , G10L13/08 , G10L21/0208 , G10L19/18

Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置，属于语音合成技术领域，方法包括：将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器，通过噪声掩码编码器获得去噪掩码；将第二无声视频序列输入至多尺度风格编码器，通过多尺度风格编码器提供多尺度的风格嵌入；将文本信息输入至文本编码器，通过文本编码器获得文本信息嵌入；文本信息嵌入序列经过变量适配器的处理，获得帧级别的语音特征；将帧级别的语音特征与去噪掩码相乘，获得去噪后的帧级别的语音特征；将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接；将拼接得到的特征序列输入至解码器，通过解码器合成干净的语谱图。

2.

发明公开
一种多模态的表现性语音合成方法及装置有权

公开(公告)号：CN116386590A

公开(公告)日：2023-07-04

申请号：CN202310613237.6

申请日：2023-05-29

Applicant: 北京科技大学

Inventor： 刘艳 , 魏丽芳 , 钱馨园 , 张传飞 , 赖志豪 , 刘琦 , 张天昊 , 陈松路 , 殷绪成

IPC: G10L13/02 , G10L13/08 , G10L21/0208 , G10L19/18

Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置，属于语音合成技术领域，方法包括：将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器，通过噪声掩码编码器获得去噪掩码；将第二无声视频序列输入至多尺度风格编码器，通过多尺度风格编码器提供多尺度的风格嵌入；将文本信息输入至文本编码器，通过文本编码器获得文本信息嵌入；文本信息嵌入序列经过变量适配器的处理，获得帧级别的语音特征；将帧级别的语音特征与去噪掩码相乘，获得去噪后的帧级别的语音特征；将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接；将拼接得到的特征序列输入至解码器，通过解码器合成干净的语谱图。

Patent Agency Ranking