-
公开(公告)号:CN114171031A
公开(公告)日:2022-03-11
申请号:CN202111423927.2
申请日:2021-11-26
Applicant: 广东电力信息科技有限公司
Abstract: 本申请公开了一种基于多任务学习和对抗训练的声纹识别模型训练方法,涉及声纹技术领域。该方法包括:获取待训练的音频样本集,音频样本集中的每个音频样本标注有用户标签以及领域标签;获取每个音频样本的人声声纹特征以及领域特征;从人声声纹特征中过滤掉领域特征,得到过滤后的人声声纹特征作为人声通用特征;基于每个音频样本的人声通用特征、用户标签以及领域标签,对对抗网络进行训练,直至对抗网络满足预设条件,得到训练后的声纹识别模型。如此,采用了领域对抗训练的方式,增强了训练得到的声纹识别模型在不同环境下的鲁棒性和泛化能力,进而提高了声纹识别模型在面对环境噪声时的识别准确率,提高了用户体验。
-
公开(公告)号:CN113704425A
公开(公告)日:2021-11-26
申请号:CN202110997386.8
申请日:2021-08-27
Applicant: 广东电力信息科技有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06N20/00
Abstract: 本发明提供的一种结合知识增强和深度强化学习的对话策略优化方法,所述优化方法包括:获取用户给出的语言描述信息;将所述语言描述信息进行增强,获得增强数据集;根据所述语言描述信息采用深度强化学习的方法获得Q网络参数的算法,所述Q网络参数为对话状态的空间和对话状态的输入过程中建立的对应关系。首先对用户的问题进行主题知识增强,然后使用深度强化学习方法应用于DPL学习对话的动作决策中,最后加权选择最终的决策。这种方式泛化能力强,极大地减少了人工成本,并且提高了人机对话系统的灵活性。
-
公开(公告)号:CN113643684B
公开(公告)日:2024-02-27
申请号:CN202110827082.7
申请日:2021-07-21
Applicant: 广东电力信息科技有限公司
IPC: G10L13/02 , G10L15/02 , G10L15/26 , G06F40/191 , G06F40/253
Abstract: 本申请公开了一种语音合成方法、装置、电子设备及存储介质,涉及语音处理技术领域。该方法包括:在语音播报的过程中,当检测到用户的输入语音时,识别所述输入语音的语音特征;根据所述语音特征,确定用于播报语音的语音参数,所述语音参数用于针对待播报的文本信息生成与所述语音参数对应的语音;基于对所述待播报的文本信息的语法分析,将标识信息添加至所述待播报的文本信息中,得到目标文本信息;基于所述语音参数以及目标文本信息,生成用于播报的目标语音。如此,可以根据用户的语音特征,确定对应的语音参数,并基于该语音参数生成与(56)对比文件CN 109451188 A,2019.03.08彭永超.基于Android的车载语音助手设计与实现《.中国优秀硕士学位论文全文数据库信息科技辑》.2020,全文.
-
公开(公告)号:CN114694655A
公开(公告)日:2022-07-01
申请号:CN202210314205.1
申请日:2022-03-28
Applicant: 广东电力信息科技有限公司
Abstract: 本申请公开了一种针对粤语音频的拓展方法,包括:获取样本音频集中各样本音频对应的音素文本;根据样本音频集中各样本音频对应的音素文本,统计各音素的音素词频;对于各样本音频,将样本音频所对应音素文本中音素对应的音素词频进行均值计算,得到样本音频对应的第一平均词频;根据样本音频对应的第一平均词频,确定样本音频对应的拓展权重;根据各样本音频对应的拓展权重,在样本音频集中确定待拓展的目标样本音频;将目标样本音频进行音频拓展,得到拓展音频;拓展音频和样本音频集中的样本音频用于对语音识别模型进行训练。通过本申请的方法能够解决用于训练语音识别模型的音频发音分布不均衡的问题,保证语音识别模型的识别准确度。
-
公开(公告)号:CN113643684A
公开(公告)日:2021-11-12
申请号:CN202110827082.7
申请日:2021-07-21
Applicant: 广东电力信息科技有限公司
IPC: G10L13/02 , G10L15/02 , G10L15/26 , G06F40/191 , G06F40/253
Abstract: 本申请公开了一种语音合成方法、装置、电子设备及存储介质,涉及语音处理技术领域。该方法包括:在语音播报的过程中,当检测到用户的输入语音时,识别所述输入语音的语音特征;根据所述语音特征,确定用于播报语音的语音参数,所述语音参数用于针对待播报的文本信息生成与所述语音参数对应的语音;基于对所述待播报的文本信息的语法分析,将标识信息添加至所述待播报的文本信息中,得到目标文本信息;基于所述语音参数以及目标文本信息,生成用于播报的目标语音。如此,可以根据用户的语音特征,确定对应的语音参数,并基于该语音参数生成与针对该用户的个性化的目标语音,提升了用户的语音交互体验。
-
-
-
-