语音合成数据的质检方法以及装置

    公开(公告)号:CN113035236B

    公开(公告)日:2021-08-27

    申请号:CN202110562516.5

    申请日:2021-05-24

    摘要: 本申请公开了一种语音合成数据的质检方法以及装置,属于语音合成领域,质检方法包括:根据原始文本,使用不同的语音合成方式合成多条目标音频;通过ASR模型对多条目标音频进行识别,得到各自的识别文本;在识别文本与原始文本不一致的情况下,判断识别文本对应的目标音频不合格;在识别文本与原始文本一致的情况下,判断识别文本对应的目标音频初步合格;通过端到端的判别模型输出每个初步合格的目标音频的对齐后的音素的概率值;根据音素的概率值进行音素的发音打分;通过回归模型将音素的得分转化为相应的句子的得分;在句子的得分高于阈值的情况下,判断句子对应的目标音频合格,并将得分最高的句子对应的目标音频判断为最佳音频。

    语音处理方法和装置
    12.
    发明公开

    公开(公告)号:CN112331219A

    公开(公告)日:2021-02-05

    申请号:CN202011220024.X

    申请日:2020-11-05

    摘要: 本申请公开了一种说话人识别技术中语音处理方法和装置,语音处理方法包括:获取第一语音以及与第一语音对应的标注文本;获取第一语音的音素对齐序列;根据音素对齐序列获取第一语音对应的音素集合,其中,音素集合包括多个音素单元;从数据库中挑选出由音素单元重新组合形成的第一词汇;对构成第一词汇的音素单元的波形进行拼接,以合成与第一词汇对应的第二语音;对第一语音与第二语音进行合并,得到第三语音,其中,第三语音的语音时长大于第一语音的语音时长。之后对语音时长更长的第三语音进行说话人识别,增加了说话人语音数据的时长和多样性,也相应提高了说话人识别技术的准确性。

    一种识别同一说话人的方法和装置

    公开(公告)号:CN111508503A

    公开(公告)日:2020-08-07

    申请号:CN202010545180.7

    申请日:2020-06-16

    摘要: 本发明公开一种识别同一说话人的方法和装置,该方法包括以下步骤:采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;获取与所述第一背景环境对应的第一阈值;判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。本发明针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率。

    一种合成音乐的方法和装置

    公开(公告)号:CN111724764B

    公开(公告)日:2023-01-03

    申请号:CN202010598390.2

    申请日:2020-06-28

    IPC分类号: G10L13/02 G10H7/00

    摘要: 本发明公开一种合成音乐的方法和装置,该方法包括以下步骤:获取用户输入的目标乐器的乐谱信息,将所述目标乐器的乐谱信息分解为所述目标乐器的乐谱音节;将所述目标乐器的乐谱音节转换为对应的统一基础音节;根据所述统一基础音节和用户选择的音乐风格,生成对应的音乐文件。本发明能够基于用户录入的乐谱信息(例如,古筝谱)以及选择的音乐风格(例如,郎朗风格),生成相应的音乐文件,帮助没有音乐基础的用户参与到音乐制作中,从而满足用户合成音乐的需求。

    音频处理方法以及装置
    15.
    发明授权

    公开(公告)号:CN112839044B

    公开(公告)日:2021-12-17

    申请号:CN202110039776.4

    申请日:2021-01-13

    IPC分类号: H04L29/06 G06F21/62 G06F21/60

    摘要: 本申请公开了一种音频处理方法以及装置,音频处理方法包括:芯片持续地获取音频数据;芯片在算法库中随机选择出目标提取算法,对音频数据的声学特征进行提取,以得到第一声学特征;芯片通过自身的私钥加密算法进行一次加密;芯片使用与数据平台共享的公钥加密算法进行二次加密;芯片将经过二次加密后的目标数据发送至数据平台;数据平台接收目标数据,使用公钥解密算法进行一次解密;数据平台使用私钥解密算法进行二次解密;数据平台重新提取音频数据的第二声学特征;数据平台在第二声学特征与第一声学特征一致的情况下,确定音频数据未被篡改。可以保证音频传输的完整性和保密性。

    语音合成数据的质检方法以及装置

    公开(公告)号:CN113035236A

    公开(公告)日:2021-06-25

    申请号:CN202110562516.5

    申请日:2021-05-24

    摘要: 本申请公开了一种语音合成数据的质检方法以及装置,属于语音合成领域,质检方法包括:根据原始文本,使用不同的语音合成方式合成多条目标音频;通过ASR模型对多条目标音频进行识别,得到各自的识别文本;在识别文本与原始文本不一致的情况下,判断识别文本对应的目标音频不合格;在识别文本与原始文本一致的情况下,判断识别文本对应的目标音频初步合格;通过端到端的判别模型输出每个初步合格的目标音频的对齐后的音素的概率值;根据音素的概率值进行音素的发音打分;通过回归模型将音素的得分转化为相应的句子的得分;在句子的得分高于阈值的情况下,判断句子对应的目标音频合格,并将得分最高的句子对应的目标音频判断为最佳音频。

    人工智能数据标注任务分配方法以及装置

    公开(公告)号:CN113033718A

    公开(公告)日:2021-06-25

    申请号:CN202110581715.0

    申请日:2021-05-27

    IPC分类号: G06K9/62

    摘要: 本申请公开了一种人工智能数据标注任务分配方法以及装置,涉及人工智能的数据标注领域。方法包括:以人工标注员的个性化信息作为标注终端的特征向量,人工标注员的数量为N;获取待标注数据,待标注数据包括试标数据和量产数据;将试标数据等分为N个试标子数据,向每一个标注终端发送一个试标子数据;在试标子数据经过标注终端标注并返回结果的情况下,经过统计分析模块输出得到待标注数据的特征向量;将量产数据拆分为M个量产子数据;建立带权二分图;计算量产子数据端点‑标注终端端点形成的边的权值,通过KM算法计算出带权二分图的最佳匹配结果,或者,进行聚类处理计算出带权二分图的最佳匹配结果;将量产数据分配给最佳匹配标注终端。

    音频脱敏的方法、装置、电子设备以及可读存储介质

    公开(公告)号:CN112885371A

    公开(公告)日:2021-06-01

    申请号:CN202110039707.3

    申请日:2021-01-13

    IPC分类号: G10L25/03 G10L25/48 G10L15/18

    摘要: 本申请公开了一种音频脱敏的方法、装置、电子设备以及可读存储介质,音频脱敏的方法包括:获取用户的第一音频数据,第一音频数据包括全部音素的发音片段;获取所述第一音频中所述全部音素的发音片段;利用语音合成技术对发音片段进行合成,以得到敏感词汇对应的合成音频;建立与对应的敏感音频特征模型;获取用户的第二音频数据;通过敏感音频特征模型对第二音频数据的声学特征进行相似度匹配;在相似度大于预设值的情况下,对第二音频数据进行内容识别,以得到与第二音频数据对应的内容识别文本;以敏感内容词库作为匹配数据库,判断内容识别文本中是否含有敏感词汇;在内容识别文本中存在敏感词汇时,对敏感词汇对应的语音片段进行替换。

    音频标注的检错方法和装置

    公开(公告)号:CN112417850A

    公开(公告)日:2021-02-26

    申请号:CN202011263694.X

    申请日:2020-11-12

    摘要: 本申请公开了一种音频标注的检错方法,包括:获取音频数据,并将音频数据切分为多个音频片段;对音频片段进行标注,得到初始标注文本;采用通用文本检错模型对初始标注文本进行检错处理,以得到第一标注文本;确定通用文本检错模型的混淆词典;采用文本分类模型识别第一标注文本的领域类别;根据领域类别,采用领域类别对应的领域文本检错模型对第一标注文本进行检错处理,以得到第二标注文本;将通用文本检错模型的混淆词典与领域文本检错模型的第二标注文本作为微调模型的数据库;根据第二标注文本的语义,采用微调模型对第二标注文本进行微调处理,以得到最终的第三标注文本。

    一种识别同一说话人的方法和装置

    公开(公告)号:CN111508503B

    公开(公告)日:2020-10-20

    申请号:CN202010545180.7

    申请日:2020-06-16

    摘要: 本发明公开一种识别同一说话人的方法和装置,该方法包括以下步骤:采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;获取与所述第一背景环境对应的第一阈值;判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。本发明针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率。