-
公开(公告)号:CN114420141A
公开(公告)日:2022-04-29
申请号:CN202111616202.5
申请日:2021-12-27
Applicant: 北京百度网讯科技有限公司
IPC: G10L19/16 , G10L25/30 , G10L13/047 , G10L13/04 , G10L13/033 , G10L13/08 , G10L21/043 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种声码器的训练方法、装置、设备和存储介质,涉及计算机技术领域,具体涉及语音合成、深度学习等人工智能领域。声码器的训练方法包括:获取已有数据,所述已有数据包括:已有音频;对所述已有音频进行数据增强处理,以获得扩充音频;基于所述已有音频和所述扩充音频,训练声码器。本公开可以提高声码器的效果。
-
公开(公告)号:CN113936668A
公开(公告)日:2022-01-14
申请号:CN202111188936.8
申请日:2021-10-12
Applicant: 百度在线网络技术(北京)有限公司 , 上海小度技术有限公司
IPC: G10L17/26 , G10L17/18 , G06V40/16 , G10L13/047 , G10L13/04 , G10L21/043
Abstract: 本公开提供了一种用于智能语音设备的方法、装置、设备和介质,涉及计算机技术领域,尤其涉及人工智能和语音技术。实现方案为:基于用户的生物特征,确定用户的年龄区间;基于年龄区间,选择预设的第一语速参数用于播报语音;响应于识别出用户的身份,基于用户的历史语速记录,调整第一语速参数,以确定第二语速参数,其中,历史语速记录包括智能语音设备在与用户的至少一次交互中,从用户的声纹特征中提取的特定于用户的语速参数;以及基于第二语速参数播报语音。
-
公开(公告)号:CN113674731A
公开(公告)日:2021-11-19
申请号:CN202110529691.4
申请日:2021-05-14
Applicant: 北京搜狗科技发展有限公司
IPC: G10L13/047 , G10L13/08 , G10L13/033 , G10L21/043
Abstract: 本发明实施例提供了一种语音合成处理方法、装置和介质。其中的方法具体包括:检测用户操作;在所述用户操作为语音合成编辑操作或时长获取操作的情况下,确定并展示音频时长信息;其中,所述音频时长信息为对文本信息进行时长预测得到。本发明实施例可以提高音频时长的获取效率,以及能够提高语音合成编辑的效率。
-
公开(公告)号:CN113611325A
公开(公告)日:2021-11-05
申请号:CN202110452075.3
申请日:2021-04-26
Applicant: 珠海市杰理科技股份有限公司
IPC: G10L21/043 , G10L21/0272
Abstract: 本发明公开了一种基于清浊音实现的语音信号变速方法、装置和音频设备,其中,所述方法包括:步骤S100,对待变速音频信号帧进行子带分解;步骤S200,对每个子带信号进行分析得到每个子带信号的子带分析结果;步骤S300,通过变速因子对各个子带信号进行相位合成,得到合成相位后的子带集合;其中:当子带信号为清音信号时,将对应子带信号的变速因子确定为定常数1;当子带信号为浊音信号时,将对应子带信号的变速因子确定为与音频节奏和/或词长相关的系数;步骤S400,对合成相位后的子带集合进行子带合成得到变速后的音频信号。从而,实现了区分清、浊音进行分类变速,更贴合人的说话习惯,改善了用户听感的用户体验。
-
公开(公告)号:CN113112988A
公开(公告)日:2021-07-13
申请号:CN202110337351.1
申请日:2021-03-30
Applicant: 上海红阵信息科技有限公司
IPC: G10L13/047 , G10L13/04 , G10L13/08 , G10L13/10 , G10L13/033 , G10L21/043
Abstract: 本发明公开了一种基于AI处理的语音合成处理系统及方法,属于语音合成技术领域,包括以下步骤:获取文本信息;文本与韵律分析模型,对文本分词、发音与韵律上上标注;声纹模型;声音合成。本发明通过其建立声纹模型,将语音信号中能反映说话人身份特征的个性特征参数提取出来,生成具有特定声纹的语音信息,通过声纹特征反变换得到相应的语音波形,依次进行拼接就得到了整个文本的合成语音,能够应用于广播节目中,提高了工作效率和质量,声纹特征向量能够反映语音信号中的一些关键信息,反变换会将关键信息还原全量信息,反变换的过程中能够对参数进行调整,改变合成语音的语调和语速,还能将合成的语音具备特定的音色,使得播出的语音更加逼真。
-
公开(公告)号:CN112334981A
公开(公告)日:2021-02-05
申请号:CN201980042047.5
申请日:2019-05-30
Applicant: 舒尔获得控股公司
Inventor: 迈克尔·莱恩·莱斯特 , 乔斯·罗伯托·雷加尔布托 , 大卫·格朗·卡森
IPC: G10L25/87 , H04M3/56 , H04R3/00 , G10L21/043
Abstract: 实施例允许自动混合器基于话音检测导通及关断麦克风,而不丢失或丢弃话音辨识周期期间接收的话音。实例方法包含接收及存储输入音频信号。所述方法还包含基于所述输入音频信号的第一片段确定所述输入音频信号包括话音,及确定所述输入音频信号与提供到扬声器的对应输出音频信号之间的延迟。所述方法还包含减小所述延迟,其中减小所述延迟包括移除所述经存储输入音频信号的一或多个片段以产生经时间压缩的音频信号及提供所述经时间压缩的音频信号作为所述对应输出音频信号。所述方法还包含确定所述延迟小于阈值持续时间,及响应地提供所述输入音频信号作为所述对应输出音频信号。
-
公开(公告)号:CN109448752B
公开(公告)日:2021-01-01
申请号:CN201811436053.2
申请日:2018-11-28
Applicant: 广州市百果园信息技术有限公司
Inventor: 娄帆
IPC: G10L21/043 , H04N21/439
Abstract: 本发明公开了音频数据的处理方法、装置、设备及存储介质,该方法包括:获取待处理的音频数据和所述音频数据中各音频帧播放时的变速速率;依次将各所述音频帧作为待处理的当前音频帧,并转换所述当前音频帧到频域,根据所述当前音频帧的变速速率及上一音频帧的变速速率,确定所述当前音频帧的目标相位信号;根据所述目标相位信号,时域转换得到处理后的当前音频帧。利用该方法,实现了对具备不同变速速率的音频数据在相位域的变速处理,既保证了变速后音频数据音调及音色与原始音频数据的一致性,还避免了不同变速速率的音频数据在相邻音频帧之间出现相位及幅度跳变的问题,由此保证了音质的完好性,从而保证了所处理音频数据的播放效果。
-
公开(公告)号:CN111341344A
公开(公告)日:2020-06-26
申请号:CN202010117010.9
申请日:2020-02-25
Applicant: 烽火通信科技股份有限公司
IPC: G10L25/48 , G10L21/043 , G10L21/0208
Abstract: 本发明公开了一种实现麦克风共享的方法及系统,涉及通信技术中的语音技术领域。该方法包括以下步骤:麦克风通过采样获取语音数据后,持续获取麦克风的语音数据并进行相应的优化处理,处理后不断生成包含固定个数采样点的数据块;当收到语音使用端的语音数据获取请求后,创建一个用于存储语音数据的管道,并不断将所述数据块存入该管道;同时将该管道的地址通过响应消息告知语音使用端;语音使用端根据获知的管道地址,从相应管道中取出语音数据并使用。本发明能有效解决麦克风冲突问题,实现无损麦克风自身性能的麦克风共享,不但节省硬件成本,而且能兼容各种场景,满足了实际应用需求。
-
公开(公告)号:CN109644192A
公开(公告)日:2019-04-16
申请号:CN201780052227.2
申请日:2017-08-25
Applicant: 谷歌有限责任公司
Inventor: 柯皑瑞 , 乔纳斯·埃里克·林德伯格 , 瑟奇·拉切贝尔 , 亨里克·伦丁
IPC: H04L29/06 , G10L21/043 , G10L25/78
Abstract: 一种计算机实现的技术可以包括在第一和第二计算设备之间建立音频通信会话,以及由第一计算设备使用由麦克风捕捉的音频数据来获得音频输入信号。第一计算设备可以分析音频输入信号以检测其第一用户的语音输入,以及可以确定从音频输入信号被获得直到分析已经完成的检测周期的持续时间。然后,第一计算设备可以向第二计算设备传送(i)在语音输入开始时开始的音频输入信号的部分和(ii)检测周期持续时间,其中音频输入信号的部分和检测周期持续时间的接收使得第二计算设备加速音频输入信号的部分的重放,以补偿检测周期持续时间。
-
公开(公告)号:CN109427342A
公开(公告)日:2019-03-05
申请号:CN201811022498.6
申请日:2018-09-03
Applicant: 三星SDS株式会社
IPC: G10L21/043
CPC classification number: G10L25/78 , G10L15/04 , G10L15/22 , G10L21/043
Abstract: 本发明公开一种用于防止语音延迟的语音数据处理装置及方法。根据本发明的一实施例的语音数据处理装置包括:接收部,接收语音数据;存储部,将接收的所述语音数据存储于缓冲区;区间分类部,将存储的所述语音数据分割为一个以上的区间,并将被分割的所述一个以上的区间分别分类为语音区间或静音区间;语音输出部,将分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。
-
-
-
-
-
-
-
-
-