一种基于说话人嵌入空间的竞争说话人数量估计方法及系统

    公开(公告)号:CN111179959B

    公开(公告)日:2022-08-05

    申请号:CN202010009945.5

    申请日:2020-01-06

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于说话人嵌入空间的竞争说话人数量估计方法及系统。本方法为:1)利用麦克风阵列采集多说话人的混合多通道信号;2)提取所述混合多通道信号的多通道幅度信息和多通道相位信息;3)利用深度神经网络分别估计所述多通道幅度信息的嵌入空间和多通道相位信息的嵌入空间;4)利用全连接层将两所述嵌入空间映射到说话人嵌入空间;其中,所述多通道幅度信息的嵌入空间、多通道相位信息的嵌入空间和说话人嵌入空间均为相同维度的嵌入空间;5)估计所述说话人嵌入空间中的嵌入向量的平均协方差矩阵;6)对所述平均协方差矩阵做特征值分解,将得到的秩的个数判定为说话人的数量。本发明能够实现更精确的竞争说话人数量估计。

    一种房间混响环境下直达声和一次反射声定向方法

    公开(公告)号:CN114646915A

    公开(公告)日:2022-06-21

    申请号:CN202210233276.9

    申请日:2022-03-10

    Abstract: 本发明公开了一种房间混响环境下直达声和一次反射声定向方法。本方法为:1)构建声源定向网络,其包括全连接网络、维度变换模块和反卷积网络;2)使用球麦克风阵列采集不同仿真室内环境下的多通道信号,然后对每一所述多通道信号进行球谐函数变化得到对应球谐函数信号并计算其协方差矩阵,得到时域球谐函数信号协方差矩阵;将所得各时域球谐函数信号协方差矩阵作为训练集训练所述声源定向网络;3)将目标空间对应的时域球谐函数信号协方差矩阵输入训练后的所述声源定向网络,输出对应的波达方向二维空间伪谱;然后根据从波达方向二维空间伪谱中提取空间谱峰值定位声源方向。本发明提升了定向输出结果空间分辨率。

    一种基于移动麦克风阵列的房间边界估计方法

    公开(公告)号:CN111157952B

    公开(公告)日:2022-04-01

    申请号:CN202010010360.5

    申请日:2020-01-06

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于移动麦克风阵列的房间边界估计方法。本方法为:1)利用麦克风阵列采集设定房间中声源的声场信号;2)对房间中的直达声和反射声位置进行估计,得到声场的空间指向图;3)相对麦克风阵列一目标方向的空间位置,将空间指向图在该目标方向的能量大小作为该空间位置的能量估计;4)将麦克风阵列围绕声源运动,重复2)~3);估计房间的声场能量分布;5)根据声场能量分布搜索能量分布峰值点,估计真实声源位置和镜像声源位置;6)根据声源位置进行阵列波束形成,提取并计算直达声信号和反射声信号之间的时间差进行镜像声源位置修正;7)利用真实声源位置和修正后的镜像声源位置信息对反射边界进行估计,得到该房间结构。

    一种提升机器人手臂操纵精度的多关节联动方法及系统

    公开(公告)号:CN112077841B

    公开(公告)日:2022-02-11

    申请号:CN202010795671.7

    申请日:2020-08-10

    Applicant: 北京大学

    Abstract: 本发明提出一种提升机器人手臂操纵精度的多关节联动方法及系统,属于信息科学技术与机器人领域,构建并训练基于神经网络的内模型,该内模型包括正向模型和反向模型,该正向模型含有机器人手臂关节角度到笛卡尔空间中方向的映射关系,该反向模型含有笛卡尔空间中方向到机器人手臂关节角度的映射关系;机器人手臂基于训练好的内模型,根据获取的目标相对位置来生成控制指令,根据控制指令来预测手臂的运动方向,由此可以提升机器人手臂的精度。

    一种基于深度神经网络的个性化头相关传输函数建模方法

    公开(公告)号:CN108596016B

    公开(公告)日:2021-11-09

    申请号:CN201810182617.8

    申请日:2018-03-06

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于深度神经网络的个性化头相关传输函数建模方法。本方法是基于空间主成分分析对HRTF数据进行分解,将分解得到空间主成分、空间主成分系数和平均空间函数分别用神经网络建模,其中,空间主成分和平均空间函数只与空间方向有关,空间主成分系数是频率和被试个性化特征参数的函数;本发明用深层神经网络对空间主成分,平均空间函数和双耳时间差分别建模,将水平角及仰角等空间方向信息引入网络输入层;同时,用神经网络基于人体测量参数对空间主成分系数建模。基于上述模型,可根据被试少量的人体测量参数,得到其在空间任意方向个性化的HRTF。

    一种基于言语可懂度指数的听力评估方法及设备

    公开(公告)号:CN112205981B

    公开(公告)日:2021-09-28

    申请号:CN202011077820.2

    申请日:2020-10-10

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于言语可懂度指数的听力评估方法及设备,其步骤包括:1)利用言语可懂度指数建立听阈与言语识别表现的函数关系;2)根据选定的易混淆元音对、辅音对构建易混淆双音节词对语料作为言语测听的测试语料,利用快速频带权重测量方法测量该测试语料的频带权重函数BIF;3)使用步骤2)中构建的易混淆双音节词对对被试者进行言语测听;然后选择使得易混淆双音节词对测试结果似然值最大的声强条件作为该被试者的最终听阈。本发明在非专业环境下也能得到较为稳定可靠的结果,与纯音测听的结果相关性较大,因此是解决移动终端听力评估的一种可行方案。

    一种适应环境的声场重放空间解码方法

    公开(公告)号:CN113314129A

    公开(公告)日:2021-08-27

    申请号:CN202110480936.9

    申请日:2021-04-30

    Applicant: 北京大学

    Abstract: 本发明公开了一种适应环境的声场重放空间解码方法,其步骤包括:1)在目标环境中设置多个声源和一听音区域,测量各声源在该目标环境预设听音区域产生的声场;2)根据所测声场计算对应声源到该听音区域的声场传递函数,并用一组HOA系数进行表达,得到各声场传递函数对应的声源HOA域系数;3)利用声场传递函数对应的声源HOA域系数取代声场重放的空间解码过程中基于自由声场假设下的声源HOA域系数,将取代后的声源HOA域系数输入部分匹配投影解码算法计算得到空间解码矩阵D;4)将需要进行重放的目标声场编码为一组HOA系数作为目标HOA信号;将所述空间解码矩阵D与所述目标HOA信号相乘,得到解码结果。

    一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法

    公开(公告)号:CN107945811B

    公开(公告)日:2021-06-01

    申请号:CN201710992311.4

    申请日:2017-10-23

    Applicant: 北京大学

    Abstract: 本发明公开了一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法。本发明的生成式对抗网络训练方法为:对音频信号进行瞬态信号检测;然后根据检测结果分别对其进行MDCT变换,将得到的频谱作为真数据;对频谱进行分带,并计算高低频频谱能量包络比,然后对该高低频频谱能量包络比进行量化、反量化;将分带得到的低频频谱输入生成网络GAN,生成高频频谱;利用反量化的高频能量包络修正生成的高频频谱,得到最终生成的高频频谱;将最终生成的高频频谱和分带得到的低频频谱合成为全带的生成频谱,将该全带的生成频谱作为假数据;将得到真数据、假数据作为判别网络D的输入,训练生成式对抗网络。本发明训练的网络易收敛。

    一种抗高频空间混叠的3D音频系统及实现方法

    公开(公告)号:CN111193990B

    公开(公告)日:2021-01-19

    申请号:CN202010009944.0

    申请日:2020-01-06

    Applicant: 北京大学

    Abstract: 本发明公开了一种抗高频空间混叠的3D音频系统及实现方法。本方法为:1)对于给定的球麦克风阵列,对球面声压进行采样,并对采样的球面声压进行离散球傅里叶变换;其中离散球傅里叶变换的展开阶数不大于截断阶数N;2)根据步骤1)离散球傅里叶变换的展开系数与球面声压展开的真实系数之间的关系得到空间混叠矩阵E;3)通过公式min(||s||1)、求解得到信号s;4)根据得到的信号s,通过公式BN=YNs将s编码到高阶N,获得高阶的HOA信号BN;5)将得到的HOA信号乘以球傅立叶变换的逆矩阵,进行重建声场,得到3D音频。

    一种基于声传递函数学习的非监督声源定向方法

    公开(公告)号:CN111859241A

    公开(公告)日:2020-10-30

    申请号:CN202010485452.9

    申请日:2020-06-01

    Applicant: 北京大学

    Abstract: 本发明公开了一种基于声传递函数学习的非监督声源定向方法,其步骤包括:1)建立一网络模型,该网络模型包括一共享卷积层和多个自编码网络框架,每一自编码网络框架对应一设定的声源方向,用于实现对该声源方向的传递函数滤波和逆滤波过程的模拟;2)第一阶段,分批使用所有设定声源方向的采集信号对该网络模型的全部参数进行更新训练;其中每一批数据为同一设定声源方向的采集信号,用于训练对应方向的参数信息;第二阶段,固定共享卷积层的参数,更新自编码网络框架部分的参数;3)对于接收到的采集信号,将其输入到训练后的该网络模型,恢复出每一设定声源方向的声源信号;然后根据互相关系数和,确定该采集信号的声源方向。

Patent Agency Ranking