-
公开(公告)号:CN112731291A
公开(公告)日:2021-04-30
申请号:CN202011096916.3
申请日:2020-10-14
Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究生院
Abstract: 本发明公开了一种协同双通道时频掩码估计任务学习的双耳声源定位方法及系统。该方法为:1)使用双耳信号的短时傅里叶变换系数作为输入特征;2)使用对数维纳滤波作为目标时频掩码,同时估计双通道对数频谱特征的时频掩码;3)将估计得到的时频掩码与对数频谱特征相乘,得到增强后的对数频谱特征;4)利用增强后的对数频谱特征及相位谱特征作为输入,估计声源的方位角;5)利用两阶段训练模式,在初步训练好的双通道时频掩码估计网络和声源定位网络之间建立端到端的联系,微调所有网络参数。本发明能够利用卷积神经网络同时估计双通道时频掩码,提升定位特征的鲁棒性,并且利用时频掩码增强后的定位特征实现有效的端到端的声源定位。
-
公开(公告)号:CN108986832B
公开(公告)日:2020-12-15
申请号:CN201810765266.3
申请日:2018-07-12
Applicant: 北京大学深圳研究生院
IPC: G10L21/0208 , G10L21/0216 , G10L21/0232
Abstract: 本发明公开一种基于语音出现概率和一致性的双耳语音去混响方法和装置。该方法包括:1)将两个麦克风接收到的语音信号进行时延补偿,得到时间上对齐后的语音信号;2)进行加窗分帧处理,并通过傅里叶变换使语音信号从时域变换到频域;3)基于语音出现概率估计低频段部分的混响功率谱;4)计算语音信号的不同信号分量的一致性;5)基于一致性估计高频段部分的混响功率谱;6)根据高低频段的划分阈值对结合高低频的混响功率谱进行估计;7)利用递归平滑算法计算得到最终的混响功率谱;8)通过增益函数得到去混响后的频域信号;9)利用短时傅立叶逆变换得到去混响后的时域信号。本发明能够有效去除整个频带上的混响,提高语音感知质量。
-
公开(公告)号:CN107019901B
公开(公告)日:2020-10-20
申请号:CN201710208525.8
申请日:2017-03-31
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种基于图像识别及自动化控制的棋牌类游戏自动博弈机器人的建立方法。该方法包括:基于图像识别技术自动识别游戏场景;对每一个游戏场景执行相应操作,进入游戏对战博弈场景;识别当前游戏参与人的行动序列和当前游戏信息;将识别的信息传入人工智能计算系统,由人工智能计算系统给出应对策略;采用自动化操作技术根据人工智能计算系统给出的应对策略进行自动化操作。本发明使得机器博弈系统与人类玩家的大规模测试成为可能,为人工智能领域开展与人类玩家的博弈问题研究提供了新的对战测试方法、大规模实验方法及数据库数据积累方法。
-
公开(公告)号:CN110517705A
公开(公告)日:2019-11-29
申请号:CN201910808413.5
申请日:2019-08-29
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统,首先对双耳声音信号提取双耳能量差和互相关函数;接着将提取的双耳能量差和互相关函数输入训练完成的级联神经网络,在深度神经网络分支中判别声音源的方向,在卷积神经网络中提取声音源前后向区分的细节信息,得出声音源在机器人头部前半平面或后半平面的信息;最后,综合深度神经网络和卷积神经网络的输出结果,得出最终的定位结果。本发明能够在一定程度上抵抗噪声和混响的干扰,完成声源前后向及角度的判别问题,实现全向声源定位。
-
公开(公告)号:CN109086659A
公开(公告)日:2018-12-25
申请号:CN201810607403.0
申请日:2018-06-13
Applicant: 深圳市感动智能科技有限公司 , 北京大学深圳研究生院
Abstract: 本发明涉及一种基于多模道特征融合的人体行为识别方法和装置。该方法包括:1)针对输入的深度图像序列构建自适应分层结构;2)在自适应分层结构的每个层级提取DMM特征;3)串联每个层级的DMM特征,构建自适应深度运动图特征作为深度图像通道特征;4)针对输入的骨架图像序列选取相对稳定的骨架关节点作为参考关节点;5)计算每帧内的其余关节点与参考关节点的位移差,作为每帧内的特征表达;6)联合整个骨架图像序列,得到一个动作序列的特征表达作为骨架图像通道特征;7)通过特征融合并对融合后的特征进行分类,得到人体行为识别结果。本发明能够同时描述人体的时序运动信息以及空间结构信息,具有良好的识别效果和鲁棒性。
-
公开(公告)号:CN108986832A
公开(公告)日:2018-12-11
申请号:CN201810765266.3
申请日:2018-07-12
Applicant: 北京大学深圳研究生院
IPC: G10L21/0208 , G10L21/0216 , G10L21/0232
Abstract: 本发明公开一种基于语音出现概率和一致性的双耳语音去混响方法和装置。该方法包括:1)将两个麦克风接收到的语音信号进行时延补偿,得到时间上对齐后的语音信号;2)进行加窗分帧处理,并通过傅里叶变换使语音信号从时域变换到频域;3)基于语音出现概率估计低频段部分的混响功率谱;4)计算语音信号的不同信号分量的一致性;5)基于一致性估计高频段部分的混响功率谱;6)根据高低频段的划分阈值对结合高低频的混响功率谱进行估计;7)利用递归平滑算法计算得到最终的混响功率谱;8)通过增益函数得到去混响后的频域信号;9)利用短时傅立叶逆变换得到去混响后的时域信号。本发明能够有效去除整个频带上的混响,提高语音感知质量。
-
公开(公告)号:CN107358629A
公开(公告)日:2017-11-17
申请号:CN201710549596.4
申请日:2017-07-07
Applicant: 北京大学深圳研究生院 , 深圳市银星智能科技股份有限公司
IPC: G06T7/73
Abstract: 本发明涉及一种基于目标识别的室内定位与建图方法,其步骤包括:1)输入颜色深度图像,根据颜色深度图像建立目标物体模型数据库;2)输入实时测量的颜色深度图像,将其转换成3D点云,并求出当前视角能看到的场景表面;3)根据3D点云并基于最近迭代点估计相机的姿态;4)根据3D点云和建立的目标物体模型数据库,利用点对特征进行物体识别并估计物体的姿态;5)利用相机姿态和物体姿态优化姿态图;6)根据姿态图得到最优的物体姿态,利用已知的目标物体模型数据库进行表面渲染,得到当前环境的三维地图。本发明能在具有大量物体的场景下进行室内定位和地图建立,建图精度高,所用计算资源少。
-
公开(公告)号:CN106843216A
公开(公告)日:2017-06-13
申请号:CN201710081181.9
申请日:2017-02-15
Applicant: 北京大学深圳研究生院 , 深圳市银星智能科技股份有限公司
Abstract: 本发明公开了一种基于回溯搜索的生物激励机器人完全遍历路径规划方法,该方法融合了生物激励神经网络算法、回溯算法、D*(D Star)算法的优点,实现机器人在复杂环境下的完全遍历路径规划。具体方法为:1)利用生物激励神经网络模型来模拟动态环境,引导机器人进行往复运动;2)当机器人陷入死锁,首先用回溯算法快速找到逃离死锁的目标位置,然后用D*算法规划出一条从当前位置到目标位置的最短路径。本发明不仅保持了生物激励算法生成的路径平滑,转弯较少的优点,还加快了机器人逃离死锁的速度,使机器人能够快速覆盖整个工作空间。本发明不存在局部极小值问题,计算量小,实现简单,在动态未知环境下有很好的适应性。
-
公开(公告)号:CN105913011A
公开(公告)日:2016-08-31
申请号:CN201610216333.7
申请日:2016-04-08
Applicant: 北京大学深圳研究生院
CPC classification number: G06K9/00342 , G06K9/00751 , G06N3/08
Abstract: 本发明涉及一种基于参数自调节神经网络的人体异常行为检测方法。本发明是基于一种双层神经网络,即生长式神经气体模型,利用其灵活“生长”的优势对场景中的可变行为模式进行学习和建模。本发明针对其因固定参数无法实现自适应调整的问题进行了重要改进,提出了针对气体神经元生长、学习、删除等过程中的模型参数自适应调整方法。在模型用于判断行为是否异常时,本发明提出了基于双层高斯平滑窗的判断方法,实现多变场景中的快速的异常行为判别。
-
公开(公告)号:CN105869651A
公开(公告)日:2016-08-17
申请号:CN201610167885.3
申请日:2016-03-23
Applicant: 北京大学深圳研究生院
IPC: G10L21/0216 , G10L21/0208
CPC classification number: G10L21/0216 , G10L2021/02082 , G10L2021/02165 , G10L2021/02166
Abstract: 本发明公开了一种基于噪声混合相干性的双通道波束形成语音增强方法。自适应波束形成在无混响条件下可以有效地抑制方向性噪声信号,但在混响存在的条件下其效果大大降低。针对这个问题,本发明提出了一种基于噪声混合相干性的双通道波束形成方法。考虑到声场中同时存在相干性和散射性噪声,本发明提出用混合噪声声场来代替传统的散射性声场的假设,首先估计出混合噪声声场中的噪声相干性,用其来估计噪声的功率谱,并将噪声功率谱估计结果用于计算频域滤波的增益函数。噪声与混响信号经过频域滤波处理后,残留的噪声再通过最小方差无失真响应波束形成器进一步处理。实验证明利用本发明的方法增强后的语音质量相比于传统的方法有较明显的提高。
-
-
-
-
-
-
-
-
-