高频音频重建技术的集成
    21.
    发明公开

    公开(公告)号:CN118782078A

    公开(公告)日:2024-10-15

    申请号:CN202411156478.3

    申请日:2019-04-25

    摘要: 本公开涉及高频音频重建技术的集成。本发明揭示一种用于解码经编码音频位流的方法。所述方法包含接收所述经编码音频位流且解码音频数据以产生经解码低频带音频信号。所述方法进一步包含提取高频重建元数据且使用分析滤波器组来对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号。所述方法还包含提取指示是对所述音频数据执行频谱平移还是谐波转置的标记且根据所述标记使用所述经滤波低频带音频信号及所述高频重建元数据来再生所述音频信号的高频带部分。将所述高频再生执行为每个音频频道具有3010个样本的延迟的后处理操作。

    非负矩阵分解的蓝牙接收端语音降噪方法、装置、介质

    公开(公告)号:CN118782061A

    公开(公告)日:2024-10-15

    申请号:CN202411064028.1

    申请日:2024-08-05

    摘要: 本申请公开了一种基于非负矩阵分解的蓝牙接收端语音降噪方法、装置、存储介质及设备,属于蓝牙音频技术领域,该方法包括:在蓝牙接收端,输入单声道带噪语音码流,并执行解码至变换域噪声整形,得到MDCT谱系数;根据MDCT谱系数计算子带能量,并构建子带能量观察矩阵;对子带能量观察矩阵执行非负矩阵分解,并计算语音子带能量值和噪声子带能量值;根据语音子带能量值和噪声子带能量值计算子带降噪增益,并对子带降噪增益执行插值,得到所有的频仓增益;根据频仓增益和MDCT谱系数,得到降噪谱系数;以及对降噪谱系数继续执行解码过程,输出降噪语音PCM数据。本申请在蓝牙接收端基于子带能量执行非负矩阵分解实现降噪,保证了音质,并极大降低了运算量。

    长短语音通用说话人嵌入层模型获得方法及说话人识别方法

    公开(公告)号:CN118053432B

    公开(公告)日:2024-10-11

    申请号:CN202410325470.9

    申请日:2024-03-21

    摘要: 本发明旨在提供长短语音通用说话人嵌入层模型获得方法及说话人识别方法,属于说话人识别技术领域,获取训练数据集;构建说话人识别网络;通过训练数据集和说话人识别网络,获得对长语音输入识别准确率优化的说话人识别网络,并将其中的说话人嵌入层模型记为第一说话人嵌入层模型;通过训练数据集,微调所述对长语音输入识别准确率优化的说话人识别网络,获得第二说话人嵌入层模型;根据所述第一说话人嵌入层模型和第二说话人嵌入层模型,基于模型平均方法获得长短语音通用说话人嵌入层模型。本发明提出的通用说话人嵌入层模型和识别方法在兼顾识别精度的同时,提升了系统资源利用率和识别效率,尤其适应于多样化时长语音识别需求的应用环境。

    语音信号的编解码方法、装置、电子设备及存储介质

    公开(公告)号:CN113470667B

    公开(公告)日:2024-09-27

    申请号:CN202010167199.2

    申请日:2020-03-11

    发明人: 肖玮 黄庆博

    摘要: 本申请提供了一种语音信号的编解码方法、装置、电子设备及存储介质,该解码方法包括:获取待解码的码流,码流包括第一子码流,其中,第一子码流是对原始语音信号的低频子带信号采用第一编码方式进行编码得到的码流;若码流中未包含第二子码流,则基于第一子码流进行信号重建,得到重建的语音信号;若码流中包含至少一种第二子码流,则基于第一子码流和至少一种第二子码流进行信号重建,得到重建的语音信号;其中,各第二子码流是通过各自对应的第二编码方式对原始语音信号的高频子带信号进行编码得到的码流。基于该方案,能够有效提高解码端重建出语音信号的可能性,进一步的,在信号传输网络状态较好的情况下,能够重建得到质量很高的语音信号。

    一种由双编码器组成的transformer的重庆方言语音识别方法

    公开(公告)号:CN116416968B

    公开(公告)日:2024-09-24

    申请号:CN202111656134.5

    申请日:2021-12-30

    摘要: 本发明公开一种由双编码器组成的transformer的重庆方言语音识别方法,包括以下步骤:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1输入到Gate CNN网络中,得到语音识别文本概率分布p1;将编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本概率分布p2;8)计算得到语音识别文本P。本发明设计了两个不同的解码器分别对两个dropout输出做解码,进一步增加了整个解码结构的鲁棒性。

    语音分离网络生成方法、装置、电子设备以及存储介质

    公开(公告)号:CN115331694B

    公开(公告)日:2024-09-20

    申请号:CN202210975124.6

    申请日:2022-08-15

    摘要: 本公开关于一种语音分离网络生成方法、装置、电子设备以及存储介质,属于语音处理技术领域,该方法包括:在给定多个样本音频信号的基础上,迭代训练获取到的语音分离超网络,其中,该语音分离超网络包括编码器和解码器,编码器和解码器均包括多个网络层和搜索空间,该搜索空间配置有多个网络层的结构参数。进一步地,基于训练后的语音分离超网络,生成符合目标条件的目标语音分离子网络。在上述过程中,通过设计一种配置有结构参数的搜索空间,实现了基于语音分离超网络,自动生成符合目标条件的目标语音分离子网络,避免了手动调节网络中不同网络层的结构参数,提高了语音分离网络的生成效率。

    高频音频重建技术的集成
    28.
    发明授权

    公开(公告)号:CN112189231B

    公开(公告)日:2024-09-20

    申请号:CN201980034785.5

    申请日:2019-04-25

    摘要: 本发明揭示一种用于解码经编码音频位流的方法。所述方法包含接收所述经编码音频位流且解码音频数据以产生经解码低频带音频信号。所述方法进一步包含提取高频重建元数据且使用分析滤波器组来对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号。所述方法还包含提取指示是对所述音频数据执行频谱平移还是谐波转置的标记且根据所述标记使用所述经滤波低频带音频信号及所述高频重建元数据来再生所述音频信号的高频带部分。将所述高频再生执行为每个音频频道具有3010个样本的延迟的后处理操作。

    一种用于多路实时语音报价的交易终端及系统

    公开(公告)号:CN118629430A

    公开(公告)日:2024-09-10

    申请号:CN202411117487.1

    申请日:2024-08-15

    发明人: 王倩 裴坤

    摘要: 本发明涉及语音识别技术领域,尤其涉及一种用于多路实时语音报价的交易终端及系统,本发明通过设置信号采集模块、信号预分析模块、特征分析模块以及传输控制模块,通过信号预分析模块将音频信号时域图切分为若干音频信号时域片段,基于各音频信号时域片段的幅值波动程度判定音频信号是否存在传输冗余现象,通过筛选单元筛选特征音频信号时域片段,通过特征聚合单元计算信号传输冗余表征系数,以判定信号传输冗余类别,通过传输控制模块基于信号传输冗余类别确定对特征音频信号时域片段的处理方式,进而,实现了对语音拖拉的特征进行分析,并根据不同的语音特征调整语音传输方式,提高了语音的传输效率以及报价信息的有效性。