使用合成语音作为监督信息的端到端语音翻译方法

    公开(公告)号:CN117252213A

    公开(公告)日:2023-12-19

    申请号:CN202310824069.5

    申请日:2023-07-06

    申请人: 天津大学

    发明人: 熊德意 薛征山

    摘要: 本发明公开了一种使用合成语音作为监督信息的端到端语音翻译方法,首先对待翻译的三元组原始语音翻译数据进行预处理,得到包含合成语音的四元组语音翻译数据;然后构建语音翻译模型,利用四元组的语音翻译数据作为样本训练该语音翻译模型,其中,设计了对齐适配器模块,用于将合成语音的语义表示作为监督信息,使原始语音的语义表示向合成语音的语义表示靠近;同时,在共享解码器端,将合成语音的logits分布蒸馏到原始语音的logits分布上。最后利用训练好的语音翻译模型,对待翻译的输入语音即可进行翻译,输出目标翻译文本。本发明使用标准的合成语音作为监督信息,融入到语音翻译模型训练框架中,在训练过程中,监督指导端到端的原始语音翻译的训练,从而提升翻译效果。

    模型训练方法、装置、电子设备和可读存储介质

    公开(公告)号:CN117059122A

    公开(公告)日:2023-11-14

    申请号:CN202311130396.7

    申请日:2023-09-01

    发明人: 冯萌

    IPC分类号: G10L21/043

    摘要: 本申请公开了一种模型训练方法、装置、电子设备和可读存储介质,属于人工智能技术领域。所述方法包括:获取语音训练集和音素序列训练集,其中,所述语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速,所述音素序列训练集包括与所述语音训练集中每一个语音对应的音素序列;将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型,并输出语音合成集,其中,所述语音合成集包括由所述第一模型合成的各个语音的第二语音特征向量;根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量,对所述第一模型进行训练。

    用于音频数据传输的采样率匹配方法、系统及存储介质

    公开(公告)号:CN116778950A

    公开(公告)日:2023-09-19

    申请号:CN202311044496.8

    申请日:2023-08-18

    发明人: 章调占 张志平

    IPC分类号: G10L21/043

    摘要: 本申请实施例涉及信号处理技术领域,公开了一种用于音频数据传输的采样率匹配方法、系统及存储介质,该方法包括:以初始转换比对音频数据进行采样率转换处理,即重采样处理,获得处理后的音频数据;将处理后的音频数据传输至音频播放系统的缓冲单元缓存,以使音频播放系统从缓冲单元中获取并播放处理后的音频数据;获取缓冲单元中缓存的处理后的音频数据的数据量;根据数据量与预设阈值的大小关系调整初始转换比,获得调整后的转换比,并以调整后的转换比对音频数据进行采样率转换处理。通过上述方式,本申请实施例实现了提升音频数据的播放效果。

    基于清浊音实现的语音信号变速方法、装置和音频设备

    公开(公告)号:CN113611325B

    公开(公告)日:2023-07-04

    申请号:CN202110452075.3

    申请日:2021-04-26

    IPC分类号: G10L21/043 G10L21/0272

    摘要: 本发明公开了一种基于清浊音实现的语音信号变速方法、装置和音频设备,其中,所述方法包括:步骤S100,对待变速音频信号帧进行子带分解;步骤S200,对每个子带信号进行分析得到每个子带信号的子带分析结果;步骤S300,通过变速因子对各个子带信号进行相位合成,得到合成相位后的子带集合;其中:当子带信号为清音信号时,将对应子带信号的变速因子确定为定常数1;当子带信号为浊音信号时,将对应子带信号的变速因子确定为与音频节奏和/或词长相关的系数;步骤S400,对合成相位后的子带集合进行子带合成得到变速后的音频信号。从而,实现了区分清、浊音进行分类变速,更贴合人的说话习惯,改善了用户听感的用户体验。

    音频延时器的时间补偿方法、音频延时器及计算机存储介质

    公开(公告)号:CN114420149B

    公开(公告)日:2022-09-20

    申请号:CN202210256588.1

    申请日:2022-03-16

    发明人: 周建国 刘阳

    IPC分类号: G10L21/043 H04H60/11

    摘要: 本申请公开了一种音频延时器时间补偿方法、音频延时器及计算机存储介质,属于电台广播音频播出系统技术领域。该音频延时器的时间补偿方法包括如下步骤:步骤S10,获取音频接收频率S1与删除时间T;步骤S30,降低音频播出频率S2,使得所述音频播出频率S2随着补偿时间按照函数公式F(T,t)变化;判断补偿是否结束,如果判断补偿结束,则保持所述音频播出频率S2等于所述音频接收频率S1,补偿结束;如果判断补偿未结束,则重复步骤S30。采用本申请提供的音频延时器时间补偿方法、音频延时器及计算机存储介质,至少解决音频无法自然过渡的问题。

    一种基于语音芯片的人物搜寻语音识别系统及方法

    公开(公告)号:CN114822505A

    公开(公告)日:2022-07-29

    申请号:CN202210394139.3

    申请日:2022-04-14

    发明人: 李国军

    摘要: 本发明公开了一种基于语音芯片的人物搜寻语音识别系统及方法,属于语音识别技术领域。本发明的一种基于语音芯片的人物搜寻语音识别系统及方法,包括静态特征提取和动态特征提取,所述静态特征提取和动态特征提取的输入端与声音预处理的输出端连接,且声音预处理的输入端与语音信号采集的输出端连接。为解决现有的语音识别系统仍存在较大的缺陷,其无法忽略来着周围环境以及用户自身因素的一些特征影响,从而会出现无法识别的问题,系统会针对该动态音频进行一次识别搜寻,如搜寻未果,则系统会在合理范围内对动态音频进行调整,并进行二次识别搜寻,如出现匹配音频后,则会进行详细比对后作出判断,这样可以提升语音的识别能力。

    音频延时器时间补偿方法、音频延时器及计算机存储介质

    公开(公告)号:CN114420149A

    公开(公告)日:2022-04-29

    申请号:CN202210256588.1

    申请日:2022-03-16

    发明人: 周建国 刘阳

    IPC分类号: G10L21/043 H04H60/11

    摘要: 本申请公开了一种音频延时器时间补偿方法、音频延时器及计算机存储介质,属于电台广播音频播出系统技术领域。该音频延时器的时间补偿方法包括如下步骤:步骤S10,获取音频接收频率S1与删除时间T;步骤S30,降低音频播出频率S2,使得所述音频播出频率S2随着补偿时间按照函数公式F(T,t)变化;判断补偿是否结束,如果判断补偿结束,则保持所述音频播出频率S2等于所述音频接收频率S1,补偿结束;如果判断补偿未结束,则重复步骤S30。采用本申请提供的音频延时器时间补偿方法、音频延时器及计算机存储介质,至少解决音频无法自然过渡的问题。