对话式语音识别方法、系统、电子设备和存储介质

    公开(公告)号:CN111508498B

    公开(公告)日:2024-01-30

    申请号:CN202010276065.4

    申请日:2020-04-09

    Abstract: 本发明涉及语音识别技术领域,提供一种对话式语音识别方法、系统、电子设备和存储介质。对话式语音识别方法包括:获得对话式语音的双通道音频,对双通道音频进行压缩还原和通道分离,获得单通道的原始音频;对原始音频进行分帧处理,获得多个音频帧,并根据每个音频帧的能量对原始音频进行切割处理,获得多个有效音频段;提取有效音频段的梅尔倒谱特征、声调特征以及有效音频段所在通道的说话人特征,输入语音识别模型,获得有效音频段的识别结果;以及根据各有效音频段的识别结果,生成原始音频的语音识别结果。本发明能实现对双通道的对话式语音的准确切割,并在屏蔽周围杂音的情况下(56)对比文件CN 105118502 A,2015.12.02CN 108597505 A,2018.09.28CN 106782500 A,2017.05.31WO 2018107810 A1,2018.06.21US 2003088402 A1,2003.05.08JP 2009206612 A,2009.09.10JP 2016042152 A,2016.03.31EP 0504927 A2,1992.09.23JP 2004347761 A,2004.12.09US 2017084292 A1,2017.03.23黄光许等.低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统《.计算机应用研究》.2017,第34卷(第2期),

    模型训练的方法、声纹识别的方法、系统、设备及介质

    公开(公告)号:CN111091835B

    公开(公告)日:2022-11-29

    申请号:CN201911256610.7

    申请日:2019-12-10

    Inventor: 任君 罗超 胡泓

    Abstract: 本发明公开了一种模型训练的方法、声纹识别的方法、系统、设备及介质,其中模型训练的方法,包括以下步骤:获取多个客户的音频数据;将音频数据进行预处理转化为具有预设音频时长的待训练音频数据;从待训练音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练;其中,三元组音频数据包括第一音频数据、第二音频数据以及第三音频数据,卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数。本发明利用第一损失函数和第二损失函数对神经网络模型进行联合优化,提高了利用模型对客户来电语音的声纹识别的准确度。

    基于多人通话的身份识别方法、系统、设备及存储介质

    公开(公告)号:CN112562682A

    公开(公告)日:2021-03-26

    申请号:CN202011394092.8

    申请日:2020-12-02

    Abstract: 本发明提供了基于多人通话的身份识别方法、系统、设备及存储介质,该方法包括:将原始对话语音就转换获得第一文本;将具有多位用户参与的对话语音分割为多个对话语句音频;将每个对话语句音频切割为多段子音频和对应每个对话语句音频的第二文本;自子音频提取音频特征,输入深度学习网络,获得子音频的声纹特征信息;基于每段子音频的声纹特征信息,获得用户的子音频集合;根据每个子音频集合中子音频所对应的第二文本进行汇总得到第三文本,将第三文本输入身份识别神经网络获得子音频集合对应的预设身份,本发明能够辅助客服整理多人通话材料,减少工作人员在每通音频上花费的时间,大大减少人力,提高工作效率;提升授权等场景的安全性能。

    声纹数据处理方法、装置、电子设备和存储介质

    公开(公告)号:CN112328994A

    公开(公告)日:2021-02-05

    申请号:CN202011289173.1

    申请日:2020-11-17

    Abstract: 本发明涉及声纹识别技术领域,提供一种声纹数据处理方法、装置、电子设备和存储介质。声纹数据处理方法包括:获得指示操作订单的实时音频流和订单的用户标识;根据实时音频流,获得包含当前声纹特征和当前音频质量的当前声纹数据;根据用户标识,自声纹数据库中检索是否存在以用户标识为索引的第一声纹数据,获得第一判断结果;当第一判断结果为是,比对当前声纹数据与第一声纹数据是否相似,获得第二判断结果;当第二判断结果为是,根据当前音频质量,以当前声纹数据更新第一声纹数据。本发明实现基于用户当前通话的音频质量对声纹数据库进行更新,并能实现基于声纹识别的用户身份确定订单操作权限,保护用户的财产和信息安全。

    训练数据更新方法及系统、语音识别方法及系统、设备

    公开(公告)号:CN112216284B

    公开(公告)日:2024-02-06

    申请号:CN202011073681.6

    申请日:2020-10-09

    Abstract: 本发明公开了一种训练数据更新方法及系统、语音识别方法及系统、设备。其中,语音识别模型的训练数据更新方法包括以下步骤:将目标场景下的目标音频数据输入第一语音识别模型,得到第一文本;将所述目标音频数据输入第二语音识别模型,得到第二文本;比较所述第一文本和所述第二文本,得到目标核心词;根据所述目标核心词在所述目标音频数据中的目标位置,从包括所述目标位置以及所述目标位置附近的部分目标音频数据中选取标注数据;将所述标注数据以及对应的标注文本更新至所述第二语音识别模型的训练数据中。本发明能够实现自动补充核心词,从而提高第二语音识别模型的更新效率,进而提高语音识别的准确率。

    基于声纹识别的远程授权方法、系统、设备及存储介质

    公开(公告)号:CN112565242A

    公开(公告)日:2021-03-26

    申请号:CN202011390528.6

    申请日:2020-12-02

    Abstract: 本发明提供了基于声纹识别的远程授权方法、系统、设备及存储介质,该方法包括:接到用户的语音,客服与用户进行预设认证问题的问答;实时将接收到的用户语音的实时音频根据预设时长为单位切割为多段子音频;自子音频提取音频特征,输入深度学习网络,获得子音频的声纹特征信息;将每段子音频的声纹特征信息与该用户预存的声纹特征信息进行余弦相似度比较,获得相似度值;判断相似度平均值是否满足预设相似度阈值,若是,则认证成功,用户获得预设授权;本发明能够直接将授权者授权的订单进行处理,实现自动化,节省大量人力,在授权者口头授权的过程中完成身份认证,完善安全检测环节,维护用户利益。

    对话式语音识别方法、系统、电子设备和存储介质

    公开(公告)号:CN111508498A

    公开(公告)日:2020-08-07

    申请号:CN202010276065.4

    申请日:2020-04-09

    Abstract: 本发明涉及语音识别技术领域,提供一种对话式语音识别方法、系统、电子设备和存储介质。对话式语音识别方法包括:获得对话式语音的双通道音频,对双通道音频进行压缩还原和通道分离,获得单通道的原始音频;对原始音频进行分帧处理,获得多个音频帧,并根据每个音频帧的能量对原始音频进行切割处理,获得多个有效音频段;提取有效音频段的梅尔倒谱特征、声调特征以及有效音频段所在通道的说话人特征,输入语音识别模型,获得有效音频段的识别结果;以及根据各有效音频段的识别结果,生成原始音频的语音识别结果。本发明能实现对双通道的对话式语音的准确切割,并在屏蔽周围杂音的情况下对对话式语音进行准确识别。

    模型训练的方法、声纹确认的方法、系统、设备及介质

    公开(公告)号:CN111145761A

    公开(公告)日:2020-05-12

    申请号:CN201911374334.4

    申请日:2019-12-27

    Inventor: 任君 罗超 胡泓

    Abstract: 本发明公开了一种模型训练的方法、声纹确认的方法、系统、设备及介质,其中模型训练的方法,包括以下步骤:获取多个客户的原始音频数据;将所述原始音频数据进行切割拆分成为时序上连续的多段音频数据;对所述音频数据进行端点检测,生成待训练的音频数据;从所述待训练的音频数据中筛选出每个客户对应的三元组音频数据输入卷积神经网络模型中进行训练所述卷积神经网络模型使用的损失函数包括第一损失函数和第二损失函数,所述第一损失函数为二元组损失函数,所述第二损失函数为三元组损失函数。本发明利用两个损失函数既区分说话人之间的差别,又能拉近同一说话人类内的关系,直接实现了端到端的训练和预测。

    多用户流式语音识别方法、系统、设备及介质

    公开(公告)号:CN110995943A

    公开(公告)日:2020-04-10

    申请号:CN201911358893.6

    申请日:2019-12-25

    Abstract: 本发明公开了一种多用户流式语音识别方法、系统、设备及介质,其中多用户流式语音识别方法包括:从若干个通话线路中获取对应的若干用户的音频流;根据音频信息和身份信息生成请求对象;利用语音识别模型解析请求对象中的音频信息得到与身份信息对应的解码结果;判断音频流是否为静音,若否,则调用部分解码器解析解码结果得到中间识别文字,若是,则调用最终解码器,解析解码结果得到最终识别文字。本发明实现了并行多用户的通话语音的实时识别,也极大了提高了音频识别的速度,提高了客服的通话处理操作速度,提升了OTA智能客服的响应速度,让多个用户在对话中均不需要长时间的文字识别的等待,提升了用户良好的通话感受。

    语音通话的质检方法、系统、设备及存储介质

    公开(公告)号:CN112509582B

    公开(公告)日:2024-11-29

    申请号:CN202011325106.0

    申请日:2020-11-24

    Abstract: 本发明公开了一种语音通话的质检方法、系统、设备和存储介质,所述语音通话的质检方法包括:基于QMQ机制实时接收语音通话数据;对所述语音通话数据进行自动语音识别处理,以得到对应的转写文本;基于所述转写文本进行质检处理。本发明通过在语音识别架构中引入了异步带同步的QMQ机制确保了语音通话数据获得过程的稳定性,并通过对语音通话数据进行自动语音识别处理得到对应的转写文本,基于转写文本完成质检处理,从而解决了语音通话质检效率较低、实时性不够和成本较高的问题。

Patent Agency Ranking