-
公开(公告)号:CN118553254B
公开(公告)日:2024-11-05
申请号:CN202411018524.3
申请日:2024-07-26
申请人: 北京小米移动软件有限公司
IPC分类号: G10L21/003 , G10L21/013 , G10L25/06 , G10L25/90 , G10L25/30 , G10H7/00 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/048
摘要: 本公开涉及一种音频合成方法、装置、设备、存储介质和程序产品,涉及数据处理技术领域,该方法包括:通过获取待处理音频的原始合成数据,该原始合成数据包括目标伴奏、目标基音特征和目标干净音频,目标基音特征和目标干净音频基于待处理音频得到,并通过目标合成模型对原始合成数据进行处理,得到目标合成音频,该目标合成模型基于多个样本合成数据训练基础合成模型得到,样本合成数据包括样本伴奏、样本基音特征、样本干净音频以及真实合成音频。以便使该目标合成模型能够基于用户的目标伴奏、目标基音特征和目标干净音频,生成更加自然且更加接近用户的真实声音的歌声。
-
公开(公告)号:CN118538239A
公开(公告)日:2024-08-23
申请号:CN202310152247.4
申请日:2023-02-22
申请人: 中车株洲电力机车研究所有限公司
摘要: 本申请公开了一种风电机组的故障检测方法、系统、设备及存储介质,应用于信号处理技术领域,包括:接收待测声音数据;将待测声音数据输入至经过训练的深度学习降噪模型中;基于深度学习降噪模型对待测声音数据进行降噪,以消除待测声音数据中的风电机组的工作噪音;对深度学习降噪模型所输出的降噪之后的声音数据进行声学特征提取,并将提取结果输入至经过训练的标准化流非监督故障检测模型中,得到针对待测声音数据的风电机组故障检测结果。应用本申请的方案,可以有效地进行风电机组的故障检测,保障了故障检测的准确性,且便于实施。
-
公开(公告)号:CN118016096A
公开(公告)日:2024-05-10
申请号:CN202410054071.3
申请日:2024-01-12
申请人: 广东保伦电子股份有限公司
摘要: 本发明公开了一种噪音测算和音量自调节的方法、系统及存储介质,包括:S1:实时获取播放音频数据和环境噪音数据,并构造获取数据函数f(n)和g(n);S2:基于互相关算法计算互相关函数并提取互相关函数的若干峰值位置;S3:基于过零检测筛选若干参考位置;S4:基于数据方向检测确定对齐位置;S5:将对齐位置作为函数原点将数据函数f(n)和g(n)进行对齐;S6:基于余弦相似度算法计算相似度值;S7:根据相似度值调节播放音量百分比。本发明对齐精度高,尤其对非稳态噪音的识别对齐效果好,失真率低,不会将播放设备的声音识别成环境噪音,安装简便,经济适应性强,省时省力,听感体验佳。
-
公开(公告)号:CN117935817A
公开(公告)日:2024-04-26
申请号:CN202410138708.7
申请日:2024-01-31
申请人: 上海富瀚微电子股份有限公司
摘要: 本发明公开了一种声学警报识别方法及装置,属于音频信号处理技术领域,该声学警报识别方法,包括以下步骤:存储多个音调相同且固定的第一类源信号,并通过理想麦克风采集第一类源信号获得对应的理想麦克风信号,获取第一类源信号和理想麦克风信号之间的理想相关程度;提供待识别的输入信号,获取第一类源信号和输入信号之间的实际相关程度,第一类源信号、理想麦克风信号及输入信号具有相同的采样率;将理想相关程度和实际相关程度进行匹配,根据两者的匹配程度判断输入信号中是否含有第一类源信号。通过直接在时域进行识别,省去了DFT的资源消耗,提供了对于音调相同且固定的警报声的识别方法,只需要用到一个样本音频数据。
-
公开(公告)号:CN117894331A
公开(公告)日:2024-04-16
申请号:CN202410199446.5
申请日:2024-02-22
申请人: 出门问问创新科技有限公司
IPC分类号: G10L21/0208 , G10L21/0216 , G10L21/0232 , G10L25/06 , G10L25/18 , G10L25/24 , G10L25/21
摘要: 本公开提供了一种语音降噪方法、电子设备、存储介质及程序产品。本公开的语音降噪方法包括:获取双通道麦克风的麦克风信号;基于所述麦克风信号获取麦克风双通道的相关性和空间特征;基于所述相关性和空间特征获取语音存在可能性;基于所述语音存在可能性对所述麦克风信号中的环境噪声进行降噪处理,得到目标语音信号。
-
公开(公告)号:CN111968663B
公开(公告)日:2024-04-16
申请号:CN202010806424.2
申请日:2020-08-12
申请人: 福建星网智慧科技有限公司
IPC分类号: G10L21/0208 , G10L21/0232 , G10L25/06 , G10L25/18 , G10L25/21
摘要: 本发明提供了回声消除领域的一种回声残留判断方法,包括:步骤S10、确认近端信号对应的远端信号、误差信号;步骤S20、对三信号进行FFT变换得到频域信号,进而计算三信号各频点的功率谱密度、互功率谱密度;步骤S30、计算近端信号和误差信号、远端信号和近端信号的相干系数;步骤S40、将声音信号的频域部分划分为三子频带,计算各子频带的误差信号的平均功率谱密度;步骤S50、基于相干系数计算各频带的平均相干系数;步骤S60、基于频域信号计算各频带的误差信号的频谱平坦度,设定阈值;步骤S70、基于频谱平坦度、阈值、平均功率谱密度以及平均相干系数判断误差信号是否有回声残留。本发明的优点在于:极大的降低了回声状态的误检率,进而减少了回声残留。
-
公开(公告)号:CN117809676A
公开(公告)日:2024-04-02
申请号:CN202310791929.X
申请日:2023-06-29
申请人: 海信视像科技股份有限公司
发明人: 杨香斌
摘要: 本申请提供一种显示设备及唤醒提示音的音量调整方法。显示设备采集用户语音,在识别到用户语音包含唤醒词时被唤醒,并获取用户语音的信噪比和当前系统音量。显示设备根据信噪比和当前系统音量,调整唤醒提示音的音频的振幅,得到唤醒提示音的待播放音频,显示设备以当前系统音量播放该唤醒提示音的待播放音频。显示设备在被唤醒时,可以结合所处环境的吵杂程度以及当前系统音量调整唤醒提示音的音量,以播放合适音量的唤醒提示音。
-
公开(公告)号:CN117612558A
公开(公告)日:2024-02-27
申请号:CN202311587618.8
申请日:2023-11-24
申请人: 宁波送变电建设有限公司
摘要: 本发明提出了一种施工机械作业声纹信号的监测方法及系统,根据时域特征中声纹信号幅度/频率特征中声纹频率组成与声纹时域周期/声纹频率周期的关系,确定施工是否开始或结束;根据时域特征中声纹时域周期与频率特征中声纹频率周期的相似性,结合注意力机制,确定是否为异常噪声信号。充分利用了声纹信号中对机械施工影响大的特征信号进行机械施工的判断,提高对机械施工的监测的有效性。
-
公开(公告)号:CN117496942A
公开(公告)日:2024-02-02
申请号:CN202310699278.1
申请日:2023-06-13
申请人: 马上消费金融股份有限公司
IPC分类号: G10L13/027 , G10L21/013 , G10L25/06 , G10L25/27
摘要: 本申请实施例提供了一种音频合成模型的训练方法、音频合成方法及装置,其中训练方法包括:若确定N个第一样本音频满足音高变换条件,则对第一样本音频进行音高变换处理,得到第二样本音频;提取第二样本音频的音频特征并输入待训练的生成对抗网络模型,得到N个合成音频以及合成音频的音频特征;基于第二样本音频和合成音频的音频特征,确定第一损失和第二损失;根据第一损失和第二损失确定目标损失,在目标损失满足训练结束条件时,将当前训练周期的对抗生成网络模型确定为音频合成模型;第一损失包括音高损失、发音损失、相位损失和高频加权损失中的至少一个。通过本申请实施例,提升了音频合成模型的精度,进而提升了合成音频的音质。
-
公开(公告)号:CN117457012A
公开(公告)日:2024-01-26
申请号:CN202311532611.6
申请日:2023-11-16
申请人: 上海珠峰智人信息科技有限公司
IPC分类号: G10L21/007 , G10L25/63 , G10L25/06
摘要: 本申请提供一种模型训练方法、语音转换方法及装置,涉及语音转换领域。模型训练设备从样本集中选取多个语音文本样本对,其中,多个语音文本样本对包括多个样本语音以及与多个样本语音一一对应的多个情感描述文本;通过待训练文本模型,得到多个情感描述文本的多个文本特征;通过待训练语音模型对多个样本语音进行特征提取,得到多个样本语音的多个语音特征;计算多个文本特征与多个语音特征两两之间的相似度,得到情感相似度矩阵;根据情感相似度矩阵与其情感相似度真值矩阵之间的差异,更新待训练文本模型以及待训练语音模型。如此,训练出能够基于文本驱动且跨语音文本模态的情感特征提取器。
-
-
-
-
-
-
-
-
-