-
公开(公告)号:CN110503972A
公开(公告)日:2019-11-26
申请号:CN201910799126.2
申请日:2019-08-26
Applicant: 北京大学深圳研究生院
IPC: G10L21/0208 , G10L21/0216 , G10L25/30 , G10L25/03
Abstract: 本发明提供了一种语音增强方法、系统、计算机设备及存储介质,涉及人机语音交互的技术领域,包括通过声学矢量传感器采集多通道声学信号,对多通道声学信号进行预处理并获取时频谱,对时频谱进行滤波处理并输出信号图谱;通过非线性掩膜对信号图谱进行掩蔽处理并输出增强后的单通道语谱图;将单通道语谱图输入至深度神经网络掩膜估计模型并输出掩膜谱图,通过掩膜谱图对信号图谱进行时频掩蔽增强处理获得增强的幅度语谱图;通过增强的幅度语谱图重构输出增强的目标语音信号,解决了多通道语音增强具有硬件成本较高、采集系统体积大、运算复杂度高的技术问题,在不同干扰噪声种类、强度和房间混响条件下都可获得优秀的语音增强效果的技术效果。
-
公开(公告)号:CN105676167A
公开(公告)日:2016-06-15
申请号:CN201610022499.5
申请日:2016-01-13
Applicant: 北京大学深圳研究生院
IPC: G01S3/78
CPC classification number: G01S3/78
Abstract: 本发明提供了一种基于声学矢量传感器和双谱变换的鲁棒单语者声源DOA估计方法。所述方法采用声学矢量传感器Acoustic Vector Sensor(AVS),实现四通道语音信号采集,并对采集到的数据进行双谱变换,求其对应的双谱数据。利用双谱上AVS接收分量之间的三角函数关系,计算AVS传感器分量间的数据比。通过计算双谱掩膜谱,提取高信干比频率点,利用KDE方法对其聚类,在此基础上,计算得到语音声源的到达方向Direction of Arrival(DOA)。本发明所述方法在不同的房间混响、干扰噪声种类、干扰噪声强度的条件下,能够高精度地估计出语者声源的DOA。此外,该发明方法采用的体积仅有1cm3的AVS传感器非常适用于便携设备上的语音技术应用。
-
公开(公告)号:CN105631858A
公开(公告)日:2016-06-01
申请号:CN201510962834.5
申请日:2015-12-21
Applicant: 北京大学深圳研究生院
IPC: G06T7/00
CPC classification number: G06T7/0002 , G06T2207/20081 , G06T2207/30242
Abstract: 本发明提供了一种基于样本块的图像目标计数方法。所述方法通过滑动窗口从输入图像中依次提取出固定大小的图像块,之后根据其简单特征和相似度测量函数从训练集中搜索出最相似的K个候选图像块。基于这K个块,使用稀疏约束选择少量的用于重构的样本并计算样本对应重构权重。将该权重应用于样本对应的密度图,得出提取的图像块对应密度图,并将其置于输入图像密度图的相应位置。重复上述过程直至滑动窗口提取完所有图像块。最终累加输入图像的密度图中所有像素值得出感兴趣目标的数量。该方法与主流方法相比所需训练图像少、特征简单,即可达到满意的精度。其对于图像的分辨率也很鲁棒,即使输入图像或视频流分辨率较低也能保持很好的计数精度。
-
公开(公告)号:CN104309964A
公开(公告)日:2015-01-28
申请号:CN201410447310.8
申请日:2014-09-03
Applicant: 北京大学深圳研究生院
CPC classification number: B65F1/00 , B65F2210/165
Abstract: 本发明公开了一种基于声学矢量传感器的语音控制智能垃圾桶,实现了垃圾桶的听、转、走等功能。听,即识别用户的简单命令词;转,即转向所估计出的用户所在方位角;走,即移动到用户面前,属于语音人机交互技术领域。将垃圾桶命名为“小T”,当用户要丢垃圾时,只要说“小T过来”,小T识别用户命令后估计语者声源的方向角,并根据该方向角朝用户移动;当用户说“小T停下”时,小T识别出该命令后停下;当用户扔完垃圾后说“小T回去”,小T识别出该命令后回到原位置。本发明提供了友好的语音人机交互方式,用语音控制垃圾桶,满足了行动不便的老人、残疾人、孕妇或者卧床病人的使用要求,为智能家居、智慧医疗等应用场景带来极大的便利。
-
公开(公告)号:CN101290656B
公开(公告)日:2011-04-27
申请号:CN200810067409.X
申请日:2008-05-23
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种用于版面分析中的连通区域提取方法及装置,该方法包括如下步骤:对于目标像素p(x,y),定义其邻域N(p)为:N(p)={(x-1,y),(x+1,y),(x,y-1),(x,y+1),(x-1,y-1),(x+1,y-1),(x-1,y+1),(x+1,y+1),(x-4,y),(x-3,y),(x-2,y),(x+2,y),(x+3,y),(x+4,y),(x,y+2),(x,y-2)};对于和目标像素p(x,y)具有相同像素值的任意像素q(i,j),判断q(i,j)是否在邻域N(p)中,若是,则将像素p(x,y)和像素q(i,j)作为同一连通区域进行提取。本发明的方法和装置能大大减少了提取的连通区域的数目,增大了连通区域的面积,降低了后续处理中连通区域合并的计算量和处理复杂度,使后续处理变得简单易行。
-
公开(公告)号:CN101751782A
公开(公告)日:2010-06-23
申请号:CN200910238815.2
申请日:2009-12-30
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种基于多源信息融合的十字路口交通事件自动检测系统。本发明针对城市十字路口交通管理,建立了音视频交通信息采集、交通信息分析处理和交通事件自动报警三大子系统,发明主要包括:设计并实现了一种多源交通信息(交通音频信息、交通视频信息、多角度视频信息、高低角度视频信息)的采集子系统;实现了基于交通音频和交通视频的交通参数自动提取技术;实现了基于多源信息融合的交通事件(撞车、非法停车、拥堵、逆行事件)自动检测技术;实现了交通事件报告、交通事件关联视频信息传输、和交通指挥中心显示和处理软件系统,形成了完整的十字路口交通事件自动检测系统。
-
公开(公告)号:CN112035661B
公开(公告)日:2024-09-24
申请号:CN202010856600.3
申请日:2020-08-24
Applicant: 北京大学深圳研究生院
IPC: G06F16/35 , G06F40/211 , G06F40/289 , G06F40/30 , G06N3/042 , G06N3/0442
Abstract: 本申请涉及一种基于图卷积网络的文本情感分析方法、系统和电子装置,其中所述方法包括:对输入的文本序列进行分词;按照所述文本序列顺序将每个所述分词转化为对应的词嵌入;提取每个所述词嵌入的正向语义特征和反向语义特征,将相同位置的所述正向语义特征和反向语义特征组合起来,获得每个词嵌入的上下文语义特征;根据所述每个词嵌入的上下文语义特征,计算任意两个词嵌入之间的语义关系值,获得连接矩阵;根据所述连接矩阵解析所述文本序列的依存句法树;以所述依存句法树为图进行图卷积运算,获得所述依存句法树ROOT节点的依存向量;将所述依存句法树中ROOT节点位置的依存向量进行情感极性分类打分,确定所述文本序列的情感极性类别。
-
公开(公告)号:CN117541960A
公开(公告)日:2024-02-09
申请号:CN202311526939.7
申请日:2023-11-15
Applicant: 腾讯科技(深圳)有限公司 , 北京大学深圳研究生院
IPC: G06V20/40 , G06V10/80 , G06V40/16 , G06V10/762 , G06V10/774
Abstract: 本申请涉及目标对象的识别方法、装置、计算机设备和存储介质。所述方法包括:从目标视频对应的已分割视频片段集中获取第一视频片段及第二视频片段;基于第一视频片段的特征集合与第二视频片段的特征集合的相似度,对第一视频片段和第二视频片段进行聚类处理,直至所述已分割视频片段集中的各个视频片段处理完毕,得到所述目标视频对应的聚类簇,其中同一个聚类簇中的视频片段被识别为同一个目标对象所属音频的视频片段。本申请提高了说话人身份识别的准确度。
-
公开(公告)号:CN117219063A
公开(公告)日:2023-12-12
申请号:CN202310075146.1
申请日:2023-01-12
Applicant: 腾讯科技(深圳)有限公司 , 北京大学深圳研究生院
Abstract: 本申请实施例提供一种语音识别方法、装置、电子设备及存储介质,至少应用于人工智能领域和语音识别领域,其中,方法包括:对待识别语音的音频特征向量进行向量编码处理,得到音频编码向量;对音频编码向量进行分类处理,得到待识别语音中的每一语音帧对应于预设词表中的每一预测字符的预测概率分布;基于预测概率分布,对音频编码向量进行剪枝处理,得到剪枝处理后的音频编码向量;基于剪枝处理后的音频编码向量对待识别语音进行语音识别,得到语音识别结果。通过本申请,能够降低语音识别过程中的解码计算量,提高解码效率,从而提高语音识别效率。
-
公开(公告)号:CN109919295B
公开(公告)日:2022-10-28
申请号:CN201711315405.4
申请日:2017-12-12
Applicant: 北京大学深圳研究生院
Abstract: 本发明公布了一种嵌入式音频事件检测方法,涉及音频事件检测技术。首先对卷积神经网络模型进行改进,提出轻量级膨胀卷积神经网络(Lightened Dilated Convolution Neural Network,L‑D‑CNN),包括膨胀卷积层、池化层、特征求和层、输出层。采用L‑D‑CNN作为模型训练模块,模型大小减少了50‑60倍,可以降低神经网络的计算复杂度,在显卡上的运算速度提高了50‑60倍,可使用嵌入式的Nvidia TX2显卡运行;此外,对嵌入式音频事件的检测精度提高了2%‑8%。
-
-
-
-
-
-
-
-
-