-
公开(公告)号:CN118782078A
公开(公告)日:2024-10-15
申请号:CN202411156478.3
申请日:2019-04-25
申请人: 杜比国际公司
IPC分类号: G10L21/0388 , G10L19/008 , G10L19/02 , G10L19/24 , H04S3/00
摘要: 本公开涉及高频音频重建技术的集成。本发明揭示一种用于解码经编码音频位流的方法。所述方法包含接收所述经编码音频位流且解码音频数据以产生经解码低频带音频信号。所述方法进一步包含提取高频重建元数据且使用分析滤波器组来对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号。所述方法还包含提取指示是对所述音频数据执行频谱平移还是谐波转置的标记且根据所述标记使用所述经滤波低频带音频信号及所述高频重建元数据来再生所述音频信号的高频带部分。将所述高频再生执行为每个音频频道具有3010个样本的延迟的后处理操作。
-
公开(公告)号:CN118782061A
公开(公告)日:2024-10-15
申请号:CN202411064028.1
申请日:2024-08-05
申请人: 深圳百瑞互联技术有限公司
摘要: 本申请公开了一种基于非负矩阵分解的蓝牙接收端语音降噪方法、装置、存储介质及设备,属于蓝牙音频技术领域,该方法包括:在蓝牙接收端,输入单声道带噪语音码流,并执行解码至变换域噪声整形,得到MDCT谱系数;根据MDCT谱系数计算子带能量,并构建子带能量观察矩阵;对子带能量观察矩阵执行非负矩阵分解,并计算语音子带能量值和噪声子带能量值;根据语音子带能量值和噪声子带能量值计算子带降噪增益,并对子带降噪增益执行插值,得到所有的频仓增益;根据频仓增益和MDCT谱系数,得到降噪谱系数;以及对降噪谱系数继续执行解码过程,输出降噪语音PCM数据。本申请在蓝牙接收端基于子带能量执行非负矩阵分解实现降噪,保证了音质,并极大降低了运算量。
-
公开(公告)号:CN118766752A
公开(公告)日:2024-10-15
申请号:CN202411026682.3
申请日:2024-07-30
申请人: 苏州申博电子科技有限公司
IPC分类号: A61H39/04 , G10L19/02 , G10L21/0216 , G10L21/0232 , G10L25/18 , G10L25/21 , G10L25/24 , G10L25/45 , A61H23/00 , A61H23/02 , A61M21/00 , B60R16/037 , B60N2/90
摘要: 本发明提供一种结合车载音乐律动和座椅按摩设备的系统,通过音乐调式的特点调控按摩的穴位和强度,从而提升驾乘者的舒适度和健康水平,本系统通过车载音乐系统播放音乐调式,根据音乐特点调节座椅按摩的手法和力度,使音乐疗法和按摩疗法相辅相成,达到宁心安神、调节气血的效果。
-
公开(公告)号:CN118053432B
公开(公告)日:2024-10-11
申请号:CN202410325470.9
申请日:2024-03-21
申请人: 中科南京智能技术研究院
摘要: 本发明旨在提供长短语音通用说话人嵌入层模型获得方法及说话人识别方法,属于说话人识别技术领域,获取训练数据集;构建说话人识别网络;通过训练数据集和说话人识别网络,获得对长语音输入识别准确率优化的说话人识别网络,并将其中的说话人嵌入层模型记为第一说话人嵌入层模型;通过训练数据集,微调所述对长语音输入识别准确率优化的说话人识别网络,获得第二说话人嵌入层模型;根据所述第一说话人嵌入层模型和第二说话人嵌入层模型,基于模型平均方法获得长短语音通用说话人嵌入层模型。本发明提出的通用说话人嵌入层模型和识别方法在兼顾识别精度的同时,提升了系统资源利用率和识别效率,尤其适应于多样化时长语音识别需求的应用环境。
-
公开(公告)号:CN113470667B
公开(公告)日:2024-09-27
申请号:CN202010167199.2
申请日:2020-03-11
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L19/16 , G10L19/02 , G10L19/008
摘要: 本申请提供了一种语音信号的编解码方法、装置、电子设备及存储介质,该解码方法包括:获取待解码的码流,码流包括第一子码流,其中,第一子码流是对原始语音信号的低频子带信号采用第一编码方式进行编码得到的码流;若码流中未包含第二子码流,则基于第一子码流进行信号重建,得到重建的语音信号;若码流中包含至少一种第二子码流,则基于第一子码流和至少一种第二子码流进行信号重建,得到重建的语音信号;其中,各第二子码流是通过各自对应的第二编码方式对原始语音信号的高频子带信号进行编码得到的码流。基于该方案,能够有效提高解码端重建出语音信号的可能性,进一步的,在信号传输网络状态较好的情况下,能够重建得到质量很高的语音信号。
-
公开(公告)号:CN116416968B
公开(公告)日:2024-09-24
申请号:CN202111656134.5
申请日:2021-12-30
摘要: 本发明公开一种由双编码器组成的transformer的重庆方言语音识别方法,包括以下步骤:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1输入到Gate CNN网络中,得到语音识别文本概率分布p1;将编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本概率分布p2;8)计算得到语音识别文本P。本发明设计了两个不同的解码器分别对两个dropout输出做解码,进一步增加了整个解码结构的鲁棒性。
-
公开(公告)号:CN115331694B
公开(公告)日:2024-09-20
申请号:CN202210975124.6
申请日:2022-08-15
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G10L21/0272 , G10L25/30 , G10L19/16 , G10L19/02
摘要: 本公开关于一种语音分离网络生成方法、装置、电子设备以及存储介质,属于语音处理技术领域,该方法包括:在给定多个样本音频信号的基础上,迭代训练获取到的语音分离超网络,其中,该语音分离超网络包括编码器和解码器,编码器和解码器均包括多个网络层和搜索空间,该搜索空间配置有多个网络层的结构参数。进一步地,基于训练后的语音分离超网络,生成符合目标条件的目标语音分离子网络。在上述过程中,通过设计一种配置有结构参数的搜索空间,实现了基于语音分离超网络,自动生成符合目标条件的目标语音分离子网络,避免了手动调节网络中不同网络层的结构参数,提高了语音分离网络的生成效率。
-
公开(公告)号:CN112189231B
公开(公告)日:2024-09-20
申请号:CN201980034785.5
申请日:2019-04-25
申请人: 杜比国际公司
IPC分类号: G10L21/0388 , G10L19/02 , G10L19/24
摘要: 本发明揭示一种用于解码经编码音频位流的方法。所述方法包含接收所述经编码音频位流且解码音频数据以产生经解码低频带音频信号。所述方法进一步包含提取高频重建元数据且使用分析滤波器组来对所述经解码低频带音频信号滤波以产生经滤波低频带音频信号。所述方法还包含提取指示是对所述音频数据执行频谱平移还是谐波转置的标记且根据所述标记使用所述经滤波低频带音频信号及所述高频重建元数据来再生所述音频信号的高频带部分。将所述高频再生执行为每个音频频道具有3010个样本的延迟的后处理操作。
-
公开(公告)号:CN118629430A
公开(公告)日:2024-09-10
申请号:CN202411117487.1
申请日:2024-08-15
申请人: 北京英格福科贸有限公司
摘要: 本发明涉及语音识别技术领域,尤其涉及一种用于多路实时语音报价的交易终端及系统,本发明通过设置信号采集模块、信号预分析模块、特征分析模块以及传输控制模块,通过信号预分析模块将音频信号时域图切分为若干音频信号时域片段,基于各音频信号时域片段的幅值波动程度判定音频信号是否存在传输冗余现象,通过筛选单元筛选特征音频信号时域片段,通过特征聚合单元计算信号传输冗余表征系数,以判定信号传输冗余类别,通过传输控制模块基于信号传输冗余类别确定对特征音频信号时域片段的处理方式,进而,实现了对语音拖拉的特征进行分析,并根据不同的语音特征调整语音传输方式,提高了语音的传输效率以及报价信息的有效性。
-
公开(公告)号:CN118609563A
公开(公告)日:2024-09-06
申请号:CN202410795339.9
申请日:2024-06-19
申请人: 国家电网有限公司 , 国网福建省电力有限公司 , 国网福建省电力有限公司电力科学研究院
IPC分类号: G10L15/22 , G10L15/08 , G10L19/02 , G10L19/26 , G10L21/0232 , G10L25/18 , G10L25/24 , G10L25/87 , G10L25/90 , G10L17/04 , H04L9/32 , H04L9/40
摘要: 本发明公开了一种基于动态密码声纹鉴权的机器人临时控制方法及系统,控制方法包括以下步骤:提取用户的第一声纹特征,构建声纹模型并保存;生成具有时效性的动态口令并通知用户;实时监听环境声音,检测到关键词时连续录音,生成音频文件;提取音频文件的第二声纹特征,将所述第二声纹特征与声纹模型进行比对;提取所述音频文件中的口令特征,与保存的口令比对;使用自然语言处理技术解析比对成功的音频文件,生成动作指令发送至执行终端;执行终端根据收到的动作指令执行相应的动作。本发明能够快速准确地从短时录音中提取声纹特征进行身份鉴别和时效授权,有效提高识别准确率,增强鲁棒性以及增加声纹特征的区分能力。
-
-
-
-
-
-
-
-
-