一种基于卷积神经网络的言语置信度评测方法

    公开(公告)号:CN106901758B

    公开(公告)日:2019-10-25

    申请号:CN201710099098.4

    申请日:2017-02-23

    Abstract: 本发明公开了一种基于卷积神经网络的言语置信度评测方法。该方法首先对采集的语音样本进行分帧,并提取每帧的梅尔倒谱系数,构成单通道梅尔倒谱系数图像;然后构建六层卷积神经网络,构建前三层为使用尺寸不同的卷积滤波器的卷积层,第四层为生成全局特征图的聚合层,第五层和第六层为由2048个线性修正单元的全连层;最后将梅尔倒谱系数图像输入构建的卷积神经网络进行言语置信度评测。实验结果显示,该置信度评测方法对谎言的识别率达到73%。

    一种双耳助听器语音增强方法

    公开(公告)号:CN104038880B

    公开(公告)日:2017-06-23

    申请号:CN201410295526.7

    申请日:2014-06-26

    Abstract: 本发明公开了一种双耳助听器语音增强方法,该方法包括以下步骤:拾取双耳声学信号;将双耳声学信号分别进行频带分解,得到子带声学信号;计算双耳子带声学信号的联合特征,估计声源所在位置;分别延迟左耳和右耳的子带声学信号,并与不延迟的右耳和左耳的子带声学信号相减或相加,增强指定方向声音;根据噪声源位置,自适应调节延迟参数,抑制噪声信号,得到增强的语音信号。该方法可实现语音信号的方向性增强,并保留语音的自然度。

    一种基于声压级分段的数字助听器宽动态压缩方法

    公开(公告)号:CN105228069A

    公开(公告)日:2016-01-06

    申请号:CN201510629503.X

    申请日:2015-09-28

    Abstract: 本发明公开了一种基于声压级分段的数字助听器宽动态压缩方法,其特征在于,将语音信号分帧,并将分帧后的信号通过16通道非等宽的6阶IIR分解滤波器组进行滤波;然后计算各通道的语音信号的声压级,并结合患者的听力图,获得患者的听力补偿曲线;根据听力补偿曲线对患者进行分通道听力补偿,并将补偿后的多通道信号进行综合,得到补偿后的有用信号提供给患者。本发明所达到的有益效果是:通过将声压级进行八段细化,能够获得更加准确的输入/输出曲线;通过符合人耳听觉特性的6阶IIR分解综合滤波器组,能够得到更加符合患者实际需要的补偿增益值。

    基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法

    公开(公告)号:CN101814159B

    公开(公告)日:2013-07-24

    申请号:CN200910024432.5

    申请日:2009-02-24

    Abstract: 本发明公开了基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法,利用本方法可以提高说话人确认系统的性能。本发明充分考虑了AANN和GMM各自的优点,把AANN嵌入到GMM-UBM,并且提出了一种两阶段的学习方法,交替更新GMM和AANN的参数,并以极大似然概率作为训练GMM和AANN的共同目标,这样使AANN能够学习特征向量间的差异,把特征向量集映射能增大似然概率的子空间,并且由于神经网络的学习特性可以进一步消除信道的不匹配效果。实验表明,采用本发明的说话人确认方法可以有效地降低系统的错误识别率。

    一种微麦克风阵列接收信号压缩编码及信号恢复方法

    公开(公告)号:CN103152672A

    公开(公告)日:2013-06-12

    申请号:CN201310110995.2

    申请日:2013-04-03

    Abstract: 本发明提出了一种微麦克风阵列接收信号压缩编码及信号恢复方法。其具体方法是对每个时刻微麦克风阵列接收的信号进行压缩变换,并对压缩变换后的信号进行编码。压缩变换矩阵为对角元为1的下三角阵,其非对角元系数由自适应过程更新。自适应过程及其代价函数在更新过程中最小化压缩变换后的信号能量,对各麦克风阵元接收信号解相关,消除各阵元信号之间的冗余信息。每一时刻的压缩编码信号可以通过压缩变换矩阵的逆矩阵恢复出原始接收信号。由于压缩变换矩阵始终保持对角元为1的下三角阵,所以其逆矩阵始终存在,信号恢复过程稳定可靠。

    基于异构多尺度卷积循环网络的回声消除方法及系统

    公开(公告)号:CN119517061A

    公开(公告)日:2025-02-25

    申请号:CN202411576166.8

    申请日:2024-11-06

    Abstract: 本发明公开了基于异构多尺度卷积循环网络的回声消除方法及系统,首先基于多帧上下文提取相关特征模式构建相关编码器,再根据单帧提取频谱模式构建频谱编码器,接着采用相关编码器和频谱编码器组成异构多尺度编码器并获得多路编码特征;本发明实现了具有利用异构双路编码器从输入混合信号频谱和参考信号频谱中提取不同特征的功能,且为适应参考信号和混合信号之间的时延情况而采用相关性编码并从多帧频谱中提取相关性特征表达,同时为了加强当前帧的频谱分辨率而采用频谱编码从当前帧中提取频谱模式表达,还实现了对于双路特征具有进一步采用通道注意力特征软选择机制融合相关性特征编码和频谱编码的功能,适合被广泛推广和使用。

    基于跨层相似性知识蒸馏的语音增强方法

    公开(公告)号:CN114067819B

    公开(公告)日:2024-06-21

    申请号:CN202111385676.3

    申请日:2021-11-22

    Abstract: 本发明公开了基于跨层相似性知识蒸馏的语音增强方法,包括提取深度神经网络的输入特征,再构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,接着根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型,再利用预训练好的教师模型对学生模型进行蒸馏;本发明提出了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,能够有效的提升低复杂度语音增强模型的效果,具有良好的应用前景。

    基于唇语识别的重度听障患者言语理解度的改进方法

    公开(公告)号:CN112330713B

    公开(公告)日:2023-12-19

    申请号:CN202011346536.0

    申请日:2020-11-26

    Abstract: 本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法,包括:使用图像采集设备从现实环境中采集唇部运动图像序列,作为深度神经网络的输入特征;构建基于深度学习的视觉模态语音端点检测方法,在低信噪比条件下确认语音段位置;构建基于三维卷积‑残差网络‑双向GRU结构的深度学习模型作为基线模型;在基线模型的基础上构建基于时空信息特征的唇语识别模型;利用交叉熵损失训练网络模型,根据训练后的唇语识别模型识别出说话内容。本发明通过时空信息反馈来捕捉唇语图像的细粒度特征和时域关键帧,从而提高对复杂环境中唇语特征的适应性,提高唇语识别性能,改善了重度听障患者的语言理解能力,具有良好的应(56)对比文件Yue Xie;Cai-Rong Zou;Rui-Yu Liang;Hua-Wei Tao.Phoneme Recognition Based onDeep Belief Network《.2016 InternationalConference on Information System andArtificial Intelligence (ISAI)》.2016,全文.马宁;田国栋;周曦.一种基于long short-term memory的唇语识别方法.中国科学院大学学报.2018,(01),全文.荣传振;岳振军;贾永兴;王渊;杨宇.唇语识别关键技术研究进展.数据采集与处理.2012,(S2),全文.刘大运;房国志;骆天依;魏华杰;王倩.基于BiLSTM-Attention唇语识别的研究《.计算技术与自动化》.2020,全文.Bor-Shing Lin;Yu-Hsien Yao;Ching-FengLiu;Ching-Feng Lien;Bor-ShyhLin.Development of Novel Lip-ReadingRecognition Algorithm《.IEEE Access》.2017,全文.

Patent Agency Ranking