-
公开(公告)号:CN110503972B
公开(公告)日:2022-04-19
申请号:CN201910799126.2
申请日:2019-08-26
Applicant: 北京大学深圳研究生院
IPC: G10L21/0208 , G10L21/0216 , G10L25/30 , G10L25/03
Abstract: 本发明提供了一种语音增强方法、系统、计算机设备及存储介质,涉及人机语音交互的技术领域,包括通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;通过增强的幅度语谱图重构输出增强的目标语音信号,解决了多通道语音增强具有硬件成本较高、采集系统体积大、运算复杂度高的技术问题,在不同干扰噪声种类、强度和房间混响条件下都可获得优秀的语音增强效果的技术效果。
-
公开(公告)号:CN112035661A
公开(公告)日:2020-12-04
申请号:CN202010856600.3
申请日:2020-08-24
Applicant: 北京大学深圳研究生院
IPC: G06F16/35 , G06F40/211 , G06F40/289 , G06F40/30 , G06N3/04
Abstract: 本申请涉及一种基于图卷积网络的文本情感分析方法、系统和电子装置,其中所述方法包括:对输入的文本序列进行分词;按照所述文本序列顺序将每个所述分词转化为对应的词嵌入;提取每个所述词嵌入的正向语义特征和反向语义特征,将相同位置的所述正向语义特征和反向语义特征组合起来,获得每个词嵌入的上下文语义特征;根据所述每个词嵌入的上下文语义特征,计算任意两个词嵌入之间的语义关系值,获得连接矩阵;根据所述连接矩阵解析所述文本序列的依存句法树;以所述依存句法树为图进行图卷积运算,获得所述依存句法树ROOT节点的依存向量;将所述依存句法树中ROOT节点位置的依存向量进行情感极性分类打分,确定所述文本序列的情感极性类别。
-
公开(公告)号:CN108899051A
公开(公告)日:2018-11-27
申请号:CN201810668198.9
申请日:2018-06-26
Applicant: 北京大学深圳研究生院
Abstract: 本发明公布了一种基于联合特征表示的语音情感识别模型及识别方法,涉及语音情感识别技术。对卷积循环神经网络模型进行了改进,利用神经网络中的隐含层学习频谱深度特征和手工特征的联合特征表示,并在端到端的网络模型中实现联合特征提取和情感分类的一体化。联合特征利用了频谱深度特征和手工特征之间的互补性,充分利用了语音中携带的情感信息,对语音情感进行了更完善的建模。此外,端到端的网络模型减少了中间输出层带来的参数冗余。基于联合特征表示的语音情感识别方法相比原有基于单纯卷积循环神经网络的语音情感识别方法提高了语音情感的识别准确率。
-
公开(公告)号:CN108509939A
公开(公告)日:2018-09-07
申请号:CN201810348415.6
申请日:2018-04-18
Applicant: 北京大学深圳研究生院
Abstract: 本发明公布了一种基于深度学习的鸟类识别方法,建立两个阶段的训练框架,在第一阶段,利用在大规模公开数据集上训练好的深度网络训练CUB-200-2011鸟类数据集,获得对鸟类数据集的微调模型;第二阶段,在自建的红树林滨海湿地数据集上微调第一阶段的模型,获得对于红树林滨海湿地特定鸟类的分类模型,利用分类模型实现基于深度学习的鸟类识别。本发明能够实现基于深度学习的鸟类识别,解决现有采用机器学习方法对鸟类图像进行分类和识别中速度较慢、准确率过低的问题。
-
公开(公告)号:CN104103277B
公开(公告)日:2017-04-05
申请号:CN201310133745.0
申请日:2013-04-15
Applicant: 北京大学深圳研究生院
IPC: G10L21/02 , G10L21/0224
Abstract: 本发明涉及一种基于时频掩膜的单声学矢量传感器(Acoustic Vector Sensor,AVS)目标语音增强方法。所述方法已知目标语音的到达角,采用联合固定波束形成器与后置维纳滤波器方法实现目标语音增强,后置维纳滤波器权值的计算涉及目标语音的自功率谱估计,本发明利用语音信号的时频稀疏特性,通过计算AVS中2个梯度传感器输出分量信号间的数据比(Inter‑sensor data ratio,ISDR)来估算接收音频信号时频点关联到达角,通过计算时频点关联到达角与目标达到角之间的误差来设计时频掩膜,以此获得目标语音的自功率谱估计。本发明所述方法不需要任何噪声先验知识,在多说话人存在的复杂环境中,能够有效地增强目标语音,抑制干扰语音及背景噪声。此外该方法运算复杂度低,采用的麦克风阵列体积小(仅有1cm3左右),非常适用于便携设备上的应用。
-
公开(公告)号:CN104309964B
公开(公告)日:2017-01-25
申请号:CN201410447310.8
申请日:2014-09-03
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种基于声学矢量传感器的语音控制智能垃圾桶,实现了垃圾桶的听、转、走等功能。听,即识别用户的简单命令词;转,即转向所估计出的用户所在方位角;走,即移动到用户面前,属于语音人机交互技术领域。将垃圾桶命名为“小T”,当用户要丢垃圾时,只要说“小T过来”,小T识别用户命令后估计语者声源的方向角,并根据该方向角朝用户移动;当用户说“小T停下”时,小T识别出该命令后停下;当用户扔完垃圾后说“小T回去”,小T识别出该命令后回到原位置。本发明提供了友好的语音人机交互方式,用语音控制垃圾桶,满足了行动不便的老人、残疾人、孕妇或者卧床病人的使用要求,为智能家居、智慧医疗等应用场景带来极大的便利。
-
公开(公告)号:CN105592264A
公开(公告)日:2016-05-18
申请号:CN201510952923.1
申请日:2015-12-17
Applicant: 北京大学深圳研究生院
IPC: H04N5/232
CPC classification number: H04N5/23216 , H04N5/23245
Abstract: 本发明公开了一种语音控制拍照软件。利用最自然便捷的人机交互方式——语音,来控制拍照快门。采用语音识别技术实现语音命令控制拍照,识别的语音命令可由用户自定义设置,实现个性化语音识别;另外也通过声纹识别技术,让拍照只能由用户的语音进行控制,避免其他人对拍照过程进行干扰,实现“拍照听我的”的效果。最后可对拍摄的照片进行多种特效处理,使照片更具特色和美感。本发明实现语音控制拍照,解放双手,可以满足双手残疾人或双手不方便的人群进行拍照的需求;同时能减少人们自拍或合影带来的烦恼。
-
公开(公告)号:CN103760520B
公开(公告)日:2016-05-18
申请号:CN201310726022.1
申请日:2013-12-25
Applicant: 北京大学深圳研究生院
IPC: G01S3/802
Abstract: 本发明提供了一种基于AVS和稀疏表示的单语者声源DOA估计方法。所述方法采用声学矢量传感器(Acoustic Vector Sensor,AVS)实现音频信号采集,利用语音信号的时频稀疏特性和AVS接收分量之间的三角函数关系,采用正弦迹算法提取高信噪比时频点,计算压力梯度传感器与全向压力传感器间的数据比。在此基础上,利用声源的空间稀疏特性,获得传感器间数据比的过完备字典稀疏表示模型,将语者声源到达方向(Direction ofArrival,DOA)估计问题转化为稀疏矢量求解问题。采用l1-SVD方法求解稀疏矢量,计算其空间功率谱,计算得到语音声源的DOA。本发明所述方法在不同的噪声强度和房间混响条件下,能够准确地估计出语者声源的DOA。此外,该方法采用的麦克风阵列体积小(仅有1cm3),非常适用于便携设备上的语音技术。附图说明图1为本发明基于AVS和稀疏表示的单语者声源DOA估计方法示意图。
-
公开(公告)号:CN105469383A
公开(公告)日:2016-04-06
申请号:CN201410853481.0
申请日:2014-12-30
Applicant: 北京大学深圳研究生院
Abstract: 本发明提供了一种基于多特征融合的无线胶囊内窥镜冗余图像筛除方法。所述方法首先通过HSV颜色特征直方图与灰度共生矩阵提取出图像的颜色特征向量与纹理特征向量;其次,分别计算相邻图像的颜色特征归一化互信息量与纹理特征均方误差值作为相似性度量;然后,考虑到方法的鲁棒性,提出了基于W参数的均值法设定自适应相似性判断阈值;于是,通过依次对比相邻WCE图像的相似性测度值与判断阈值,可将具有一定时间相关性与颜色—纹理特征相似的WCE图像划分到相同的子图像片段中;最后,采用自适应K均值聚类算法对各子图像片段进行关键帧提取,从而达到筛除冗余图像的目的。该方法能够有效地筛除冗余图像,从而提高医生的工作效率。
-
公开(公告)号:CN101656538B
公开(公告)日:2011-11-23
申请号:CN200910109487.6
申请日:2009-08-21
Applicant: 北京大学深圳研究生院
Abstract: 本发明涉及一种基于拉格朗日插值的时间交替模拟数字转换系统时间失配实时补偿方法。所述方法主要利用时间交替模拟数字转换系统,即TIADC系统,各个子通道分别对输入信号进行周期采样的特点推导得出,算法执行前需要事先获取TIADC系统各通道的时间失配信息;所述方法采用易于硬件实现的多通道补偿数字滤波器实现TIADC系统的时间失配补偿;多通道滤波器的系数由TIADC系统采样频率、各通道时间失配信息和所用拉格朗日插值的点数共同决定;因此,在某一工作环境下对于特定的TIADC系统,多通道滤波器的系数是常数,只需要离线计算一次;本发明所述方法计算复杂度为O(N+1),硬件实现时,占用资源少,执行速度快,能够对TIADC系统的输出进行实时补偿,非常适用于TIADC系统芯片设计。
-
-
-
-
-
-
-
-
-