一种基于增强技术的对话状态追踪方法及系统

    公开(公告)号:CN114996479B

    公开(公告)日:2024-08-09

    申请号:CN202210707870.7

    申请日:2022-06-21

    Abstract: 本申请提供一种基于增强技术的对话状态追踪方法,包括:获取数据库和已知领域对话状态追踪模型;利用数据增强技术从数据库和已知领域训练样本获取新领域本轮对话文本、上轮对话状态、本轮对话状态标签;使用槽位值类别预测器预测新槽位的类型,输出本轮对话文本编码矩阵;利用特征增强技术对本轮对话文本编码矩阵提取多个上下文特征向量;根据预测的槽位类型、多个上下文特征向量在槽位值解码器中解码得到新槽位值,将上轮对话状态中的槽位值进行更新得到本轮对话状态;比较本轮对话状态与本轮对话状态标签的差异并梯度回传,采用神经网络技术迭代训练对话状态追踪模型以减少差异,该模型能够实现新领域的当前轮次会话状态追踪。

    一种声学回波消除与去混响方法及装置

    公开(公告)号:CN111768796B

    公开(公告)日:2024-05-03

    申请号:CN202010676232.4

    申请日:2020-07-14

    Abstract: 本发明实施例公开了一种声学回波消除与去混响方法及装置,方法包括:根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号,确定与其对应的频域信号;根据麦克风拾取语音频域信号、远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽;根据估计掩蔽、麦克风拾取语音频域信号的幅度谱及预置的级联网络中的去混响阶段神经网络,确定隐掩蔽;根据麦克风拾取语音频域信号的幅度谱、估计掩蔽、隐掩蔽与麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。本发明实施例通过预置的级联网络既抑制麦克风拾取语音时域信号中的回波,又抑制混响,增强了麦克风拾取语音时域信号,保持目标语音的完整。

    一种融合信噪比与可懂度双重目标的语音增强方法及系统

    公开(公告)号:CN112309421B

    公开(公告)日:2024-03-19

    申请号:CN201910689178.4

    申请日:2019-07-29

    Abstract: 本发明属于语音增强信号处理技术领域,具体涉及一种融合信噪比与可懂度双重目标的语音增强方法,包括:将原始语音信号转换为原始时频域特征;将原始时频域特征输入预建立的第一神经网络模型中,获取具有信噪比的第一有效特征;将原始时频域特征输入预建立的第二神经网络模型中,获取具有可懂度的第二有效特征;对第一有效特征和第二有效特征进行处理得到权重矩阵,根据预设的相关性权重阈值,从权重矩阵中逐列选取第二有效特征中与第一有效特征相关性高的元素,提取该元素的相关性权重阈值,并用其替换第一有效特征中对应位置上的阈值,将替换后的第一有效特征作为语音增强后的时频域特征,将语音增强后的时频域特征转换为增强后的语音信号。

    一种基于深度学习的多声源测向方法及系统

    公开(公告)号:CN112257484B

    公开(公告)日:2024-03-15

    申请号:CN201910661146.3

    申请日:2019-07-22

    Abstract: 本发明涉及一种基于深度学习的多声源测向方法及系统,所述方法包括:将阵列接收的声源信号转换成数字声音信号;对所述数字声音信号进行做傅里叶变换,得到傅里叶变换后的信号;将傅里叶变换后的信号输入深度神经网络,使用反向传播方法训练深度神经网络,直至深度神经网络收敛;从收敛后的深度神经网络输出的后验概率中找到峰值对应的方位,该方位为声源出现的方位。本发明的方法利用了深度神经网络,通过优化准则函数,寻找声源波达方向的最优解,该方法直接从阵列接受的信号得到目标的方位,实现了简单而高效的多声源测向。

    用于音频事件检测的神经网络系统和方法

    公开(公告)号:CN116230016A

    公开(公告)日:2023-06-06

    申请号:CN202310005727.8

    申请日:2023-01-04

    Abstract: 本发明实施例公开了一种用于音频事件检测的神经网络系统和方法,所述系统包括,特征提取层、卷积层、循环神经网络、前馈网络以及自注意力模块,通过对提取音频获得的对数梅尔谱特征进行处理获得卷积核空间三个维度的特征图;并通过对三个维度的特征图进行计算确定卷积核空间三个维度的频率自适应注意力权重;基于三个维度的频率自适应注意力权重和基础卷积核进行乘法运算确定频率自适应卷积核;使用频率自适应卷积核对对提取音频获得的对数梅尔谱特征进行多维频率动态卷积处理得到第一输出特征;并对第一输出特征的序列数据进行处理得到第二输出特征;获得所述音频的强标签和弱标签。

    一种利用咳嗽声检测肺部疾病的方法和装置

    公开(公告)号:CN116189715A

    公开(公告)日:2023-05-30

    申请号:CN202211594426.5

    申请日:2022-12-13

    Abstract: 本发明涉及一种利用咳嗽声检测肺部疾病的方法,所述方法具体包括:去除原始咳嗽音频中非咳嗽音片段,得到咳嗽音频,以及该咳嗽音频中各单个咳嗽片段的起始和结束时间;依据各单个咳嗽片段的起始和结束时间,分别生成各单个咳嗽片段对应的对数梅尔普矩阵,并分别计算各单个咳嗽片段对应的位置编码矩阵;依据各单个咳嗽片段对应的对数梅尔普矩阵和位置编码矩阵,得到所述咳嗽音频的特征矩阵;将咳嗽音频的特征矩阵归一化后乘比例因子,将得到的乘积与咳嗽音频的特征矩阵相加后输入分类网络分类。还涉及了装置,包括:咳嗽音检测单元、音频信号处理单元、拼接单元、归一化单元和分类网络单元。本发明的方法和装置,能够提高检测结果的准确度。

    一种多通道远场语音增强方法

    公开(公告)号:CN111081267B

    公开(公告)日:2023-03-28

    申请号:CN201911415062.8

    申请日:2019-12-31

    Abstract: 本发明公开了一种多通道远场语音增强方法,包括:对多通道远场语音时域信号处理得到多通道远场语音频域信号,再通过加权预测误差算法处理得到抑制晚期混响后的多通道远场语音频域信号并估计出干扰;使用干扰协方差矩阵和抑制晚期混响后的多通道远场语音频域信号,通过协方差白化的方法计算相对早期传输函数作为导向矢量;利用干扰协方差矩阵和导向矢量对抑制晚期混响后的多通道远场语音频域信号依次进行最小方差无失真响应波束形成处理和单通道维纳滤波处理得到单通道语音频域信号,在其为单通道目标语音频域信号时进行逆傅里叶变换,得到目标语音时域信号。本方法可以同时有效抑制远场语音中的噪声和混响的干扰并保持目标声源的完整。

    一种韵律控制语音合成方法、系统及电子装置

    公开(公告)号:CN111754976B

    公开(公告)日:2023-03-07

    申请号:CN202010705955.2

    申请日:2020-07-21

    Abstract: 本申请涉及一种韵律控制语音合成方法、系统和电子装置,其中所述方法包括:对待合成文本进行正则获取语言学特征和音素序列;将所述音素序列输入Tacotron2模型的编码器;将编码结果和所述语言学特征输入韵律参数预测模型,预测待合成文本的韵律参数,获得音素级别的时长和DCT参数化基频;将所述音素级别时长和DCT参数化基频映射为二维向量,与所述编码结果拼接输入Tacotron2的解码器,输出韵律声学特征序列;将所述韵律声学特征序列送入声码器合成语音信号。该方法通过使用DCT参数化的基频和时长,使得Tacotron2模型中能够引入额外的语言学特征来辅助韵律的控制,并且该方法使得模型能够收敛,更加具有解释性。该方法相比其他方法更加鲁棒,对于长句更加稳定。

    一种融合分布对齐和对抗学习的无监督跨域声纹识别方法

    公开(公告)号:CN112820301B

    公开(公告)日:2023-01-20

    申请号:CN202110277452.4

    申请日:2021-03-15

    Abstract: 本发明公开了一种融合分布对齐和对抗学习的无监督跨域声纹识别方法,该方法包括以下步骤:分别从源领域和目标领域的语音中提取多维声学特征;将提取的多维声学特征分别打上领域标签;将提取的源领域和目标领域的多维声学特征作为训练数据送入网络,训练得到源领域的分类损失、源领域和目标领域的对抗损失;根据领域分布对齐损失函数计算源领域和目标领域的差异损失;根据目标函数计算整个系统的损失函数;利用随机梯度下降作为优化器,进行梯度计算,同时对损失函数计算出的梯度进行反向传播,更新参数;经过多次迭代直至收敛,模型训练完成。本发明可以在目标领域缺少说话者数据标签的情况下更好的训练模型,进而可以提升跨领域声纹识别的准确性。

    一种基于窗口输入的双向回馈神经网络的语音识别方法

    公开(公告)号:CN111091817B

    公开(公告)日:2022-10-11

    申请号:CN201811242398.4

    申请日:2018-10-24

    Abstract: 本发明公开了一种基于窗口输入的双向回馈神经网络的语音识别方法,所述方法包括:步骤1)建立和训练基于窗口输入的双向回馈神经网络BLSTM‑E;步骤2)将待识别的语音帧输入步骤1)的基于窗口输入的双向回馈神经网络BLSTM‑E,通过BLSTM‑E的前向计算,计算出每个语音帧的后验概率;步骤3)将步骤2)中每个语音帧的后验概率输入解码器,解码器在语言模型的限制下,利用维特比算法在状态空间中搜索一条最优的结果作为识别结果。本发明提出的基于窗口输入的双向回馈神经网络BLSTM‑E的语音识别方法,能够在每一帧的语音判决过程中将更广的时间域内的信息利用起来,取得了相比于传统BLSTM语音识别方法更精确的识别结果。

Patent Agency Ranking