-
公开(公告)号:CN117252213A
公开(公告)日:2023-12-19
申请号:CN202310824069.5
申请日:2023-07-06
申请人: 天津大学
IPC分类号: G06F40/58 , G06F40/45 , G06F40/35 , G06N3/0455 , G06N3/0464 , G06N3/09 , G06N3/096 , G06N5/04 , G06F18/27 , G10L15/26 , G10L15/06 , G10L15/16 , G10L15/18 , G10L13/08 , G10L21/043
摘要: 本发明公开了一种使用合成语音作为监督信息的端到端语音翻译方法,首先对待翻译的三元组原始语音翻译数据进行预处理,得到包含合成语音的四元组语音翻译数据;然后构建语音翻译模型,利用四元组的语音翻译数据作为样本训练该语音翻译模型,其中,设计了对齐适配器模块,用于将合成语音的语义表示作为监督信息,使原始语音的语义表示向合成语音的语义表示靠近;同时,在共享解码器端,将合成语音的logits分布蒸馏到原始语音的logits分布上。最后利用训练好的语音翻译模型,对待翻译的输入语音即可进行翻译,输出目标翻译文本。本发明使用标准的合成语音作为监督信息,融入到语音翻译模型训练框架中,在训练过程中,监督指导端到端的原始语音翻译的训练,从而提升翻译效果。
-
公开(公告)号:CN117059122A
公开(公告)日:2023-11-14
申请号:CN202311130396.7
申请日:2023-09-01
申请人: 维沃移动通信有限公司
发明人: 冯萌
IPC分类号: G10L21/043
摘要: 本申请公开了一种模型训练方法、装置、电子设备和可读存储介质,属于人工智能技术领域。所述方法包括:获取语音训练集和音素序列训练集,其中,所述语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速,所述音素序列训练集包括与所述语音训练集中每一个语音对应的音素序列;将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型,并输出语音合成集,其中,所述语音合成集包括由所述第一模型合成的各个语音的第二语音特征向量;根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量,对所述第一模型进行训练。
-
公开(公告)号:CN116778950A
公开(公告)日:2023-09-19
申请号:CN202311044496.8
申请日:2023-08-18
申请人: 玖益(深圳)医疗科技有限公司
IPC分类号: G10L21/043
摘要: 本申请实施例涉及信号处理技术领域,公开了一种用于音频数据传输的采样率匹配方法、系统及存储介质,该方法包括:以初始转换比对音频数据进行采样率转换处理,即重采样处理,获得处理后的音频数据;将处理后的音频数据传输至音频播放系统的缓冲单元缓存,以使音频播放系统从缓冲单元中获取并播放处理后的音频数据;获取缓冲单元中缓存的处理后的音频数据的数据量;根据数据量与预设阈值的大小关系调整初始转换比,获得调整后的转换比,并以调整后的转换比对音频数据进行采样率转换处理。通过上述方式,本申请实施例实现了提升音频数据的播放效果。
-
公开(公告)号:CN116682449A
公开(公告)日:2023-09-01
申请号:CN202310800087.X
申请日:2023-06-30
申请人: 网易有道(杭州)智能科技有限公司
IPC分类号: G10L21/043 , G10L15/26 , G10L25/48
摘要: 本申请涉及一种音频播放方法、装置、存储介质以及电子设备。该方法包括:播放不同语速等级的原始音频,以根据原始音频的速度等级确定收听原始音频的目标对象的语速等级;根据目标对象的语速等级确定所要播放的目标音频。本申请解决了采用固定语速的音频练习口语听力效果差的技术问题。
-
公开(公告)号:CN113611325B
公开(公告)日:2023-07-04
申请号:CN202110452075.3
申请日:2021-04-26
申请人: 珠海市杰理科技股份有限公司
IPC分类号: G10L21/043 , G10L21/0272
摘要: 本发明公开了一种基于清浊音实现的语音信号变速方法、装置和音频设备,其中,所述方法包括:步骤S100,对待变速音频信号帧进行子带分解;步骤S200,对每个子带信号进行分析得到每个子带信号的子带分析结果;步骤S300,通过变速因子对各个子带信号进行相位合成,得到合成相位后的子带集合;其中:当子带信号为清音信号时,将对应子带信号的变速因子确定为定常数1;当子带信号为浊音信号时,将对应子带信号的变速因子确定为与音频节奏和/或词长相关的系数;步骤S400,对合成相位后的子带集合进行子带合成得到变速后的音频信号。从而,实现了区分清、浊音进行分类变速,更贴合人的说话习惯,改善了用户听感的用户体验。
-
公开(公告)号:CN114420149B
公开(公告)日:2022-09-20
申请号:CN202210256588.1
申请日:2022-03-16
申请人: 湖南双菱电子科技有限公司
IPC分类号: G10L21/043 , H04H60/11
摘要: 本申请公开了一种音频延时器时间补偿方法、音频延时器及计算机存储介质,属于电台广播音频播出系统技术领域。该音频延时器的时间补偿方法包括如下步骤:步骤S10,获取音频接收频率S1与删除时间T;步骤S30,降低音频播出频率S2,使得所述音频播出频率S2随着补偿时间按照函数公式F(T,t)变化;判断补偿是否结束,如果判断补偿结束,则保持所述音频播出频率S2等于所述音频接收频率S1,补偿结束;如果判断补偿未结束,则重复步骤S30。采用本申请提供的音频延时器时间补偿方法、音频延时器及计算机存储介质,至少解决音频无法自然过渡的问题。
-
公开(公告)号:CN114822505A
公开(公告)日:2022-07-29
申请号:CN202210394139.3
申请日:2022-04-14
申请人: 深圳唯创知音电子有限公司
发明人: 李国军
IPC分类号: G10L15/02 , G10L15/28 , G10L15/20 , G10L15/26 , G10L21/043 , G10L21/0316 , G06V20/40
摘要: 本发明公开了一种基于语音芯片的人物搜寻语音识别系统及方法,属于语音识别技术领域。本发明的一种基于语音芯片的人物搜寻语音识别系统及方法,包括静态特征提取和动态特征提取,所述静态特征提取和动态特征提取的输入端与声音预处理的输出端连接,且声音预处理的输入端与语音信号采集的输出端连接。为解决现有的语音识别系统仍存在较大的缺陷,其无法忽略来着周围环境以及用户自身因素的一些特征影响,从而会出现无法识别的问题,系统会针对该动态音频进行一次识别搜寻,如搜寻未果,则系统会在合理范围内对动态音频进行调整,并进行二次识别搜寻,如出现匹配音频后,则会进行详细比对后作出判断,这样可以提升语音的识别能力。
-
公开(公告)号:CN114420149A
公开(公告)日:2022-04-29
申请号:CN202210256588.1
申请日:2022-03-16
申请人: 湖南双菱电子科技有限公司
IPC分类号: G10L21/043 , H04H60/11
摘要: 本申请公开了一种音频延时器时间补偿方法、音频延时器及计算机存储介质,属于电台广播音频播出系统技术领域。该音频延时器的时间补偿方法包括如下步骤:步骤S10,获取音频接收频率S1与删除时间T;步骤S30,降低音频播出频率S2,使得所述音频播出频率S2随着补偿时间按照函数公式F(T,t)变化;判断补偿是否结束,如果判断补偿结束,则保持所述音频播出频率S2等于所述音频接收频率S1,补偿结束;如果判断补偿未结束,则重复步骤S30。采用本申请提供的音频延时器时间补偿方法、音频延时器及计算机存储介质,至少解决音频无法自然过渡的问题。
-
公开(公告)号:CN114420141A
公开(公告)日:2022-04-29
申请号:CN202111616202.5
申请日:2021-12-27
申请人: 北京百度网讯科技有限公司
IPC分类号: G10L19/16 , G10L25/30 , G10L13/047 , G10L13/04 , G10L13/033 , G10L13/08 , G10L21/043 , G06N3/04 , G06N3/08
摘要: 本公开提供了一种声码器的训练方法、装置、设备和存储介质,涉及计算机技术领域,具体涉及语音合成、深度学习等人工智能领域。声码器的训练方法包括:获取已有数据,所述已有数据包括:已有音频;对所述已有音频进行数据增强处理,以获得扩充音频;基于所述已有音频和所述扩充音频,训练声码器。本公开可以提高声码器的效果。
-
公开(公告)号:CN113936668A
公开(公告)日:2022-01-14
申请号:CN202111188936.8
申请日:2021-10-12
申请人: 百度在线网络技术(北京)有限公司 , 上海小度技术有限公司
IPC分类号: G10L17/26 , G10L17/18 , G06V40/16 , G10L13/047 , G10L13/04 , G10L21/043
摘要: 本公开提供了一种用于智能语音设备的方法、装置、设备和介质,涉及计算机技术领域,尤其涉及人工智能和语音技术。实现方案为:基于用户的生物特征,确定用户的年龄区间;基于年龄区间,选择预设的第一语速参数用于播报语音;响应于识别出用户的身份,基于用户的历史语速记录,调整第一语速参数,以确定第二语速参数,其中,历史语速记录包括智能语音设备在与用户的至少一次交互中,从用户的声纹特征中提取的特定于用户的语速参数;以及基于第二语速参数播报语音。
-
-
-
-
-
-
-
-
-