-
公开(公告)号:CN106448684A
公开(公告)日:2017-02-22
申请号:CN201611006202.2
申请日:2016-11-16
Applicant: 北京大学深圳研究生院
Abstract: 本发明属于语音信号处理与机器学习领域,涉及一个基于深度置信网络特征矢量的信道鲁棒声纹识别系统,由语音采集及预处理模块、原始谱特征提取模块、深度置信网络训练模块、说话人声纹特征矢量提取模块、说话人声学模型生成模块和说话人身份鉴定模块构成。通过来自不同信道的语音数据和相对应的说话人身份编号,有监督地训练一个深度置信网络,并提出了一种判别比值选择具有最佳类别区分性的深度置信网络隐含层输出来构造说话人声纹特征矢量,该特征矢量具有信道鲁棒性。相比于传统的基于i-vector的说话人确认系统,本系统在信道失配情况下具有更高的声纹识别准确率。
-
公开(公告)号:CN105701469A
公开(公告)日:2016-06-22
申请号:CN201610022498.0
申请日:2016-01-13
Applicant: 北京大学深圳研究生院
IPC: G06K9/00
CPC classification number: G06K9/00711 , G06K9/00778
Abstract: 本发明提出了一种基于代价敏感稀疏线性回归的鲁棒人群计数方法。所述方法以基于有监督学习线性回归模型图像人群计数方法为基础,提出采用特征融合、稀疏约束和代价敏感策略提升人群计数的鲁棒性和准确率;其中,特征提取融合了前景特征,边缘特征和纹理特征,该融合特征提高了图像信息表达有效性同时也产生了特征相关性,此外,人群计数实际应用中可能出现训练数据不平衡的问题,因此,本发明采用特征融合提高图像信息表达能力,采用稀疏约束有利于选择可区分性特征,引入代价敏感学习方法以降低不平衡训练数据对模型的不利影响,继而提出了一种新的高效鲁棒的代价敏感稀疏线性回归模型图像人群计数方法。输入待测试图像,利用训练得到的模型参数,即可快速实现鲁棒的人群计数。
-
公开(公告)号:CN105447218A
公开(公告)日:2016-03-30
申请号:CN201410808895.1
申请日:2014-12-22
Applicant: 北京大学深圳研究生院
Abstract: 本发明涉及一种射频直接带通采样数字接收系统中时钟抖动消除方法。所述方法通过采用射频直接带通采样数字接收系统的非均匀采样输出值,利用带通采样定理,数字下变频原理和射频直接带通采样数字接收系统的特点,实现射频直接带通采样数字接收系统的时钟抖动的消除。该发明方法可根据射频直接带通采样数字接收实际需求选择不同的级联级数以满足所要求的时钟抖动消除性能。本发明所述方法实际实现复杂度低,易于硬件实现,消除效果好,对射频直接带通采样数字接收系统输入信号类型无限制,非常适用于射频直接带通采样数字接收系统在现代通讯,雷达,高精密数字仪器中的应用。
-
公开(公告)号:CN101499214B
公开(公告)日:2011-05-11
申请号:CN200910105577.8
申请日:2009-02-27
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种基于图像信息熵的交通参数自动提取方法。首先,从彩色视频序列中提取图像帧,并利用混合高斯背景建模方法获得背景图像。其次,利用图像纹理信息对检测区域图像进行预处理。然后,利用图像信息熵与自适应阈值相结合的方法,进行车辆存在检测。最后,计算车辆数、交通流、车道占有率和空间平均速率三个交通参数。实施结果表明,本发明提出的方法解决了运动车辆阴影以及环境光线变化对交通参数提取造成干扰的问题,有效地提高了交通参数提取的准确性。
-
公开(公告)号:CN101791259A
公开(公告)日:2010-08-04
申请号:CN201010042623.7
申请日:2010-01-07
Applicant: 北京大学深圳研究生院
IPC: A61F9/08
Abstract: 一种高密度外层型人造视网膜系统的实现方法,属于生物工程领域。本发明方法如下:采用CCD图像传感器获取眼外视频图像,对图像进行预处理,并联合显著图和视觉注意力图实现图像感兴趣区域(ROI)的提取,实现从高精度图像向低精度图像的有效映射。ROI图像经过编码和调制后,通过一对耦合线圈实现数据的无线传输,同时采用另一对线圈实现能量的无线传输,有效解决了无线传输单元高传输数据量和高传输能量效率的矛盾。在接收端,调制数据解调解码后,微刺激器采用驱动单元复用方法有效减小了面积,并采用宽摆幅共源共栅电路设计和电荷平衡机制,分别提高了其生物适应性和安全性。射频能量经过整流稳压为所有植入设备提供能量。
-
公开(公告)号:CN101604968A
公开(公告)日:2009-12-16
申请号:CN200910107454.8
申请日:2009-05-21
Applicant: 北京大学深圳研究生院
IPC: H03K23/40
Abstract: 本发明提供了一种通道可扩展多相位高性能时钟设计方法和系统,本发明的方法主要是利用时钟源产生全局时钟,多个呈树形级联分布的时钟分路器将这个全局时钟扩展成多通道时钟,可编程延迟器调节每通道的时钟相位,最后逻辑转换器实现时钟逻辑到用户设备逻辑的转换;本发明的系统采用内部和外部两种全局时钟源,其中内部时钟源采用了振荡器加分频器结构,1个1∶5时钟分路器实现时钟源选择和时钟分路,其中1路输出时钟经缓冲器驱动后用于和其他设备同步或者时钟通道扩展,其余4路输出时钟分别由4个可编程延迟器实现相位调节,最后由缓冲器实现时钟ECL-CMOS逻辑转换。输出的时钟信号普适于多通道多相位时钟应用,尤其适用于并行交替型模数转换器。
-
公开(公告)号:CN117219081A
公开(公告)日:2023-12-12
申请号:CN202310072038.9
申请日:2023-01-12
Applicant: 腾讯科技(深圳)有限公司 , 北京大学深圳研究生院
Abstract: 本申请公开了一种音频处理方法、装置、电子设备及存储介质,属于音频技术领域。本申请通过仅对预测词格和待操作词格进行一次交集操作,利用一次交集操作所得的目标词格及作为其副产物的路径关系信息,能够对目标词格中的每个状态都进行预测分数的赋值,使得利用各个状态的预测分数,能够方便地逐帧重建出来候选文本的预测概率,以便于基于预测概率来筛选出来语义匹配程度最高的识别文本,这样能够在不损失音频解码精度的前提下,由于一次交集操作极大压缩了计算开销,从而能够极大节约计算资源、提升计算速度,从而提升音频解码速度。
-
公开(公告)号:CN116432661A
公开(公告)日:2023-07-14
申请号:CN202310409878.X
申请日:2023-04-13
Applicant: 北京大学深圳研究生院
IPC: G06F40/30 , G06F16/33 , G06N3/045 , G06N3/0455 , G06N3/042 , G06N3/0464 , G10L25/03 , G10L25/27 , G10L25/51
Abstract: 本申请提供了一种音频文本匹配方法及装置,属于人工智能技术领域。该方法包括:获取N个音频‑文本对,各音频‑文本对包括音频及文本;通过分层文本编码器对文本进行编码,得到全局文本特征,根据文本构建语义关系图,并根据语义关系图采用图推理获取局部文本特征;通过分层音频编码器采用不同编码权重分别对音频进行计算,得到全局音频特征及局部音频特征;通过音频文本匹配模块根据全局音频特征、局部音频特征、全局文本特征及局部文本特征的映射结果进行匹配,得到全局匹配结果及局部匹配结果,根据全局匹配结果及局部匹配结果获取整体跨模态相似度。通过捕获全局和局部的跨模态信息,提高跨模态的检索精确率。
-
公开(公告)号:CN113034404A
公开(公告)日:2021-06-25
申请号:CN202110426042.1
申请日:2021-04-20
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一个基于多尺度对抗学习的交通图像去模糊方法及装置。其中,所述方法包括以下几个步骤:步骤1、采用运动模糊生成方法,生成清晰‑模糊交通图像对;步骤2、构建基于对抗学习的交通图像去模糊网络模型,对恢复得到的图像进行对抗学习,使其更接近真实清晰图像;步骤3、构建多个结构相同的尺度从小到大的图像去模糊网络模型,将小尺度下恢复得到的清晰图像作为输入传递给后续网络,逐尺度进行恢复,最终得到原尺寸的去模糊图像;步骤4、对多尺度对抗学习图像去模糊网络模型进行联合训练。本发明可以通过多尺度对抗学习的方法,提升去模糊图像质量。
-
公开(公告)号:CN108899051B
公开(公告)日:2020-06-16
申请号:CN201810668198.9
申请日:2018-06-26
Applicant: 北京大学深圳研究生院
Abstract: 本发明公布了一种基于联合特征表示的语音情感识别模型及识别方法,涉及语音情感识别技术。对卷积循环神经网络模型进行了改进,利用神经网络中的隐含层学习频谱深度特征和手工特征的联合特征表示,并在端到端的网络模型中实现联合特征提取和情感分类的一体化。联合特征利用了频谱深度特征和手工特征之间的互补性,充分利用了语音中携带的情感信息,对语音情感进行了更完善的建模。此外,端到端的网络模型减少了中间输出层带来的参数冗余。基于联合特征表示的语音情感识别方法相比原有基于单纯卷积循环神经网络的语音情感识别方法提高了语音情感的识别准确率。
-
-
-
-
-
-
-
-
-