一种基于语义先验的选择性注意的多通道语音增强方法

    公开(公告)号:CN106531179A

    公开(公告)日:2017-03-22

    申请号:CN201510574907.3

    申请日:2015-09-10

    Abstract: 本发明提供了一种基于语义先验的选择性注意的多通道语音增强方法,所述方法包括:多传声器阵列拾取来自于混响环境中的任意方向的语音信号,采集多路语音信号并进行预处理;利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词;对未经切割的包含激活词段的信号进行处理得到完整的激活词段;采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析,得到目标声源的声波到达方向;对该方向的语音进行增强,并抑制其它方向的噪声以及远讲场景下的房间混响,获取得到目标方向的增强语音。本方明的方法可用于智能家电、智能家居、车载和可穿戴设备等需要远讲式语音输入和交互的场合,特别适用于复杂的声学噪声和干扰环境场合。

    一种神经网络声学模型训练方法

    公开(公告)号:CN106297773A

    公开(公告)日:2017-01-04

    申请号:CN201510290592.X

    申请日:2015-05-29

    Abstract: 本发明涉及一种神经网络声学模型训练方法,所述方法具体包含:步骤101)搭建基础DNN网络架构,所述DNN网络架构包含:输入层,隐含层和输出层,其中输出层用于输出三音素状态集;步骤102)对输出的三音素状态集聚类,并将聚类后的三音素根据中心音素进行分类,分为中文音素、英文音素及非语音音素三类;步骤103)在输出层增加一组线索结点,该组线索结点分别对应步骤102)对三音素分类得到的三类结果;其中,加入的线索结点与最后一层隐含层全连接,得到最终网络架构;步骤104)针对得到的最终网络架构进行训练,当训练完成后将线索结点从网络中剥离,进而完成针对神经网络声学模型训练,再基于剥离后的网络进行语音识别。

    一种基于音频的车辆监控装置及方法

    公开(公告)号:CN105989710A

    公开(公告)日:2016-10-05

    申请号:CN201510073084.6

    申请日:2015-02-11

    Abstract: 一种基于音频的车辆监控装置,包括:传声器阵列模块:用于采集并处理车辆发出的噪声信号,得到横向和纵向子阵列的相关矩阵C;车道位置和宽度计算模块:用于计算每个车道的位置和宽度;粗粒度检测区域能量谱计算模块:用于在每个车道上构造两个粗粒度检测区域,并利用相关矩阵C计算两个粗粒度检测区域上的能量谱;自动增益控制模块:用于计算前景阈值α和背景阈值β,对两个粗粒度检测区域上的能量谱进行归一化处理,并判断车辆是否进出两个粗粒度检测区域;车辆计数模块:用于统计每个车道通过的车辆数;车道占有率计算模块:用于计算每个车道的占有率;车速估计模块:用于估计车辆的速度;车型分类模块:用于对车辆的大小类型进行分类。

    一种房间混响合成方法
    105.
    发明授权

    公开(公告)号:CN104703111B

    公开(公告)日:2016-09-28

    申请号:CN201310661781.4

    申请日:2013-12-09

    Abstract: 本发明提供一种房间混响合成方法,通过利用房间混响镜像合成法合成早期反射,并以合成的早期反射为输入,在每个临界频带内利用参数方法计算出早期反射随时间衰减的曲线,并将每个频带内的曲线合并为一个所有频带范围内的曲面作为早期反射的EDR,利用该早期反射的EDR通过频域逼近方法求出逼近滤波器的系数作为FDN参数,通过反馈延时网络法对该FDN参数进行后期混响合成,进而合成房间混响,使本发明房间混响合成的方法具有了基于物理特性合成方法能够准确合成早期反射和基于感知合成方法的计算速度快的优点。

    用于英语口语考试自动评分的参考语法生成方法和设备

    公开(公告)号:CN103186658B

    公开(公告)日:2016-05-25

    申请号:CN201210568270.3

    申请日:2012-12-24

    Abstract: 本发明提供一种用于英语口语考试自动评分的参考语法生成方法和设备。该方法包括:人工编写少量基于ABNF规则的参考语法;利用单词发音词表,将基于ABNF规则的参考语法转译成音素词图;对音素词图做以元音音素为断点的音素链切分操作,构成基础音素链集中的音素链;计算基础音素链集中的音素链与考生语音数据音素链集中的音素链的编辑距离;以编辑距离为特征,对考生语音数据音素链集进行聚类,计算同类音素链的出现频率占总数的比例;剔除中占比小的音素链,将保留下来的音素链用音素链连接算法连接成完整的语法句式,最后以树结构的音素词图保存为参考答案。本发明的方法在构造参考语法的过程中只需少量的人工干预,大大减少了口语自动评分中的人工工作量,并减少了不相关人工干预对系统的不良影响。

    一种基于支配相关的多稀疏声源定位方法

    公开(公告)号:CN105403860A

    公开(公告)日:2016-03-16

    申请号:CN201410451825.5

    申请日:2014-08-19

    Abstract: 本发明涉及一种基于支配相关的多稀疏声源定位方法,包括:将通过麦克风阵列接收的声源信号转化成数字声音信号;提取每个麦克风的数字声音信号的频谱;利用相邻时间相同频点上所有麦克风的数字声音信号的频谱计算每个频点上的空间相关矩阵;提取空间相关矩阵的主特征向量;确定每个频点上所有麦克风对的时间延迟集合;采用迭代的方法,计算每个频点上处于支配地位的声源入射方向的方位角;对所有频点上的处于支配地位声源入射方向的方位角进行统计分析,确定最终的声源入射方向和声源个数。该方法考虑了声学鲁棒性,适用于多稀疏声源的实时定位。

    一种基于音视频信息的自动音乐记谱方法及系统

    公开(公告)号:CN103377647B

    公开(公告)日:2015-10-07

    申请号:CN201210122443.9

    申请日:2012-04-24

    Abstract: 本发明涉及一种基于音视频信息的自动音乐记谱方法及系统,所述方法包含:采集钢琴演奏的视频和音频数据;依据采集的视频信息用视频跟踪算法获取手部在钢琴上的所有位置信息,根据所述手部位置信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息,即依据视频采集信息获得钢琴弹奏的音符备选范围序列集,简称“视频音符备选范围序列集”;对采集的音频信息采用音频自动音乐记谱算法获取演奏者所演奏的弹奏音符的基频信息,根据基频信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息;将同步后的视频音符备选范围序列集和音频音符备选范围序列集取交集确定演奏的所有音符及这些音符的各个音符对应的弹奏时刻信息。

    一种用于消除声学回声的自适应滤波器及滤波方法

    公开(公告)号:CN104883462A

    公开(公告)日:2015-09-02

    申请号:CN201410073711.1

    申请日:2014-02-28

    Inventor: 吴超 付强 颜永红

    Abstract: 本发明提出了一种用于消除声学回声的自适应滤波器,所述自适应滤波器采用基于以下目标函数的自适应滤波算法,并采用限制系数对滤波器更新进行限制,且本发明的自适应滤波器每迭代R次对δ(k,m)进行一次更新。本发明克服已有的变步长控制方法的不足,提出一种收敛性能较好、稳态误差小且对双讲情况鲁棒的步长控制方法。该方法基于频域滤波器实现,通过对每次迭代过程中滤波器系数更新进行约束,获得较小的稳态误差和较好的双讲鲁棒性能,同时在频域对约束条件进行更新,提高了滤波器的收敛速度和跟踪速度。

    一种声学模型建立方法及基于该模型的语音解码方法

    公开(公告)号:CN104575497A

    公开(公告)日:2015-04-29

    申请号:CN201310517149.2

    申请日:2013-10-28

    Abstract: 本发明提供了一种声学模型建立方法及基于该模型的语音解码方法,所述方法包含:步骤101)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;步骤102)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;步骤103)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;步骤104)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型。本发明将致力于解决黏着语语音识别系统中的高声学模型混淆度问题。

Patent Agency Ranking