-
公开(公告)号:CN112567459A
公开(公告)日:2021-03-26
申请号:CN201880096367.4
申请日:2018-08-24
Applicant: 三菱电机株式会社
IPC: G10L21/028 , G10L21/0308
Abstract: 声音分离系统的声音分离装置(12)具备:特征量抽出部(121),抽出混合声音的声音特征量的时间序列数据;块分割部(122),将声音特征量的时间序列数据分割成具有一定的时间宽度的块;声音分离神经网络(1b),根据块化的声音特征量的时间序列数据,制作多个说话者各自的掩码的时间序列数据;以及声音恢复部(123),从掩码的时间序列数据和混合声音的声音特征量的时间序列数据,恢复多个说话者各自的声音数据。在多个说话者各自的掩码的时间序列数据的制作中,声音分离神经网络(1b)在正向的LSTM神经网络中使用与当前相比在时间上靠前的块的时间序列数据,在逆向的LSTM神经网络中使用与当前相比在时间上靠后的包括预先决定的数量的帧的块的时间序列数据。
-
公开(公告)号:CN116997961A
公开(公告)日:2023-11-03
申请号:CN202180095532.6
申请日:2021-04-07
Applicant: 三菱电机株式会社
Inventor: 相原龙
IPC: G10L21/0264
Abstract: 信息处理装置(100)具有:取得部(120),其取得声源位置信息(111)、混合声音信号和已学习模型(112);声音特征量提取部(130),其根据混合声音信号提取多个声音特征量;增强部(140),其根据声源位置信息(111)对多个声音特征量中的目标声音方向的声音特征量进行增强;估计部(150),其根据多个声音特征量和声源位置信息(111)估计目标声音方向;掩蔽特征量提取部(160),其根据估计出的目标声音方向和多个声音特征量提取掩蔽特征量;生成部(170),其根据被增强的声音特征量生成目标声音方向增强声音信号,根据掩蔽特征量生成目标声音方向掩蔽声音信号;以及目标声音信号输出部(180),其使用目标声音方向增强声音信号、目标声音方向掩蔽声音信号和已学习模型(112)输出目标声音信号。
-
公开(公告)号:CN119183594A
公开(公告)日:2024-12-24
申请号:CN202280096072.3
申请日:2022-05-20
Applicant: 三菱电机株式会社
Inventor: 相原龙
IPC: G10L21/0208
Abstract: 语音强调装置(130)具备:根据混合语音数据来计算声响成分的声响成分计算部(138);通过将声响成分输入到特征估计模型来估计声响特征量的声响特征量估计部(139);根据噪声数据来计算噪声成分的噪声成分计算部(140);通过将噪声成分输入到噪声估计模型来估计噪声特征量的噪声特征量估计部(141);通过将声响特征量和噪声特征量输入到相关性估计模型来估计声响特征量与噪声特征量的相关性的相关性估计部(142);利用估计出的相关性对声响特征量进行加权从而计算综合特征量的特征量综合部(143);通过将综合特征量输入到语音强调模型来估计目标语音掩蔽的掩蔽估计部(144);以及根据声响成分和目标语音掩蔽来恢复强调了目标语音的语音的语音恢复部(145)。
-
公开(公告)号:CN112567459B
公开(公告)日:2023-12-12
申请号:CN201880096367.4
申请日:2018-08-24
Applicant: 三菱电机株式会社
IPC: G10L21/028 , G10L21/0308
Abstract: 声音分离系统的声音分离装置(12)具备:特征量抽出部(121),抽出混合声音的声音特征量的时间序列数据;块分割部(122),将声音特征量的时间序列数据分割成具有一定的时间宽度的块;声音分离神经网络(1b),根据块化的声音特征量的时间序列数据,制作多个说话者各自的掩码的时间序列数据;以及声音恢复部(123),从掩码的时间序列数据和混合声音的声音特征量的时间序列数据,恢复多个说话者各自的声音数据。在多个说话者各自的掩码的时间序列数据的制作中,声音分离神经网络(1b)在正向的LSTM神经网络中使用与当前相比在时间上靠前的块的时间序列数据,在逆向的LSTM神经网络中使用与当前相比在时间上靠后的包括预先决定的数量
-
-
-