-
公开(公告)号:CN115602145A
公开(公告)日:2023-01-13
申请号:CN202110721773.9
申请日:2021-06-28
Applicant: 微软技术许可有限责任公司(US)
IPC: G10L13/08
Abstract: 根据本公开的实现,提出了一种基于文本生成语音的方案。在该方案中,生成与文本对应的初始音素序列,初始音素序列包括多个音素的特征表示。通过在初始音素序列中插入附加音素的特征表示来生成第一音素序列,附加音素与自然口语的特性有关。通过利用与多个音素和附加音素中的音素对应的专家模型来确定音素的持续时间,基于第一音素序列来生成第二音素序列。基于第二音素序列,确定与文本对应的自然口语类型的语音。以此方式,该方案能够基于自然口语类型的附加音素和多个专家模型来生成具有多变韵律的更真实的自然口语类型的语音。