-
公开(公告)号:CN108269583A
公开(公告)日:2018-07-10
申请号:CN201710001937.4
申请日:2017-01-03
Applicant: 中国科学院声学研究所
IPC: G10L21/0272 , G10L21/0308 , G10L25/03
Abstract: 本发明涉及一种基于时间延迟直方图的语音分离方法,包括:将声源信号转换成数字声音信号;提取数字声音信号的频谱;利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值;利用时间延迟的估计值来计算每个语音源的波达方向估计值;利用每个语音源的波达方向估计值对混合语音的频谱进行分类,得到每个语音源的掩摸,进而根据该掩摸以及数字声音信号的频谱计算频域上的分离信号;在每个掩摸上对频域的分离信号进行傅里叶逆变换,得到分离的语音。
-
公开(公告)号:CN104571485B
公开(公告)日:2017-12-12
申请号:CN201310517226.4
申请日:2013-10-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提出了一种基于Java Map的人机语音交互系统及方法,所述系统包含:语音识别模块,用于接收用户输入的语音信息,并将语音信息识别为文本数据;口语理解模块,用于对文本数据进行语义挖掘,并且转换为机器能够识别的形式,其中语义挖掘中基于Java Map的上下文关键语义要素的存储与利用策略将会对用户输入的上下文信息进行整合,且所述语义挖掘为将识别的文本进行语义关键要素的抽取;对话管理模块,用于控制人机交互的对话流程;语言生成模块,用于将零碎的答案进行整合,得到通顺、符合人的逻辑语言表示形式的文本;语音合成模块,用于将生成的答案文本转化为语音信息,并将语音信息播报给用户。
-
公开(公告)号:CN107292382A
公开(公告)日:2017-10-24
申请号:CN201610191900.8
申请日:2016-03-30
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种神经网络声学模型激活函数定点量化方法,该方法具体包括:步骤(1)在DNN模型的第l层,将所述第l-1层的浮点激活向量中x(l-1)=[x1,…,xN]T的每个浮点激活值线性地量化为0~2K的整数,得到所述第l-1层的线性定点量化的激活向量x*(l-1);步骤(2)对步骤(1)中得到的所述第l-1层的线性定点量化的激活向量x*(l-1)中的每个激活值进一步分级,即将所述每个激活值近似为最为邻近的2的整次幂,最终得到所述第l-1层的分级定点量化激活向量x**(l-1);步骤(3)对第l层进行线性定点量化,即将该层浮点型权值矩阵W(l)的权值wM,N线性地量化为-127到127间的整数;步骤(4)进行DNN第l层的前馈计算,最终得到第l层的浮点型激活向量x(l)。
-
公开(公告)号:CN105792075B
公开(公告)日:2017-10-03
申请号:CN201410817839.4
申请日:2014-12-24
Applicant: 中国科学院声学研究所
IPC: H04R5/02
Abstract: 本发明提供了一种串声消除滤波器的生成方法,所述方法包括:步骤101)将线性扬声器阵列中的所有扬声器进行配对组合;步骤102)利用离散傅里叶变换将声音信号从时域转换到频域上,频点个数为M;步骤103)选定M个频率对应的M个最优扬声器组;步骤104)根据M个频率对应的M个最优扬声器组,采用规则化方法生成串声消除滤波器。基于上述方法生成的串声消除滤波器,本发明还提供了一种三维声音重放方法,所述方法包括:将听者的双耳声信号通过离散傅里叶变换从时域转换到频域;将频域信号输入到所述步骤104)中的串声消除滤波器和线性扬声器阵列后,传入听者的双耳,实现三维声音重放。
-
公开(公告)号:CN103885949B
公开(公告)日:2017-07-07
申请号:CN201210555192.3
申请日:2012-12-19
Applicant: 中国科学院声学研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于歌词的歌曲检索系统,包括:语音识别引擎,用于将用户输入的原始语音数据转化为文本识别结果;检索关键词选取模块,用于将文本识别结果中的部分词选出作为检索关键词;歌词定位模块,用于根据关键词在歌词库中定位候选歌曲的位置,得到候选定位点;以及候选歌曲精确匹配模块,用于在所述候选定位点中选出最佳的N个歌曲并将其返回给用户。本发明还提供了一种相应的基于歌词的歌曲检索方法。本发明能够通过用户说出的一两句歌词来检索到他想要的歌曲,拓展了用户检索歌曲的模式,满足用户多样性检索的需求。本发明的歌词输入方式便捷,在一些打字不方便的设备使用优势更加明显。并且,本发明识别正确率高,识别速度快。
-
公开(公告)号:CN106558309A
公开(公告)日:2017-04-05
申请号:CN201510629197.X
申请日:2015-09-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
CPC classification number: G10L15/20 , G10L15/063 , G10L15/16 , G10L15/26 , G10L21/10
Abstract: 本发明提供了一种口语对话策略生成方法,所述方法包括:步骤S1)使用人替代机器方式收集真实的人机对话数据样本;步骤S2)基于Agenda模拟用户模型,根据对话数据样本构建一个虚拟用户,用于模拟真实用户行为;步骤S3)为虚拟用户的语义信息添加噪声,构建噪声信道;步骤S4)根据虚拟用户的语义信息构建对话策略模板;步骤S5)提取对话策略模板中所有条件语句包含的自由参数构成参数向量,输入遗传算法中进行优化得到最优解;步骤S6)将最优解赋予对话策略模板得到对话策略。本发明的口语策略生成方法与现有的纯手工制定的对话策略相比具有更好的噪声鲁棒性;而且本发明定义的口语策略语言易于人工编辑和维护,更适合对系统行为有严格要求的商业环境。
-
公开(公告)号:CN106294460A
公开(公告)日:2017-01-04
申请号:CN201510291079.2
申请日:2015-05-29
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提出了一种基于字和词混合语言模型的关键词检索方法及系统,所述方法包含:步骤101),根据词性区分训练语料中非常见词和常见词,为组成非常见词的各个字添加标识信息,将原训练语料划分为由常见词和标识非常见词信息的符号构成的新语料;根据新语料构建词的语言模型并根据原训练语料按单字重新训练一个语言模型进而得到字的语言模型;步骤102)构建主解码网络和子解码网络,基于主解码网络和子解码网络进行关键词检索;其中,当进行解码时由所述词的语言模型决定是否进入带有标识非常见词信息的节点,且带有标识非常见词信息的节点连接一个由全部单字构成的子解码网络,当进入子解码网络后由所述字的语言模型限制搜索范围。
-
178.
公开(公告)号:CN103837858B
公开(公告)日:2016-12-21
申请号:CN201210483581.X
申请日:2012-11-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G01S5/20
Abstract: 域白化信号;计算预处理后信号的交叉相关,求本发明涉及一种用于平面阵列的远场波达 取所有麦克风对之间的时间延迟τi。角估计方法及系统,所述的方法包含:步骤101)将平面阵列作为麦克风对组成的线性子阵列的几何组合,且每一个线性子阵列决定一个子波达角;步骤102)在假定波达方向x已知的情况下:采用全局波达角来计算各子阵列的期望子波达角θi;通过各子阵列的时间差计算子阵列的估计子波达角 步骤103)基于估计子波达角和期望子波达角构造代价函数为:步骤104)将代价函数收敛时的波达角作为最终确定的波达角的(56)对比文件Futoshi Asano et al.“.SpeechEnhancement Based on the SubspaceMethod”《.IEEE TRANSACTIONS ON SPEECH ANDAUDIO PROCESSING》.2000,第8卷(第5期),497-507.Cha Zhang et al.“.Maximum LikelihoodSound Source Localization and Beamformingfor Directional Microphone Arrays inDistributed Meetings”《.IEEE TRANSACTIONSON MULTIMEDIA》.2008,第10卷(第3期),538-548.
-
公开(公告)号:CN105321518A
公开(公告)日:2016-02-10
申请号:CN201410387404.0
申请日:2014-08-05
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/26
Abstract: 本发明涉及一种低资源嵌入式语音识别的拒识方法,该方法包括:基于命令词表和垃圾音素列表,分别构建命令词解码网络和垃圾音素解码网络,将垃圾音素解码网络并联到命令词解码网络中,形成完整的解码网路空间;生成语音背景概率得分表。将待识别语音输入解码网络空间进行第一次识别:解码识别,对第一次识别结果中的垃圾因素拒识,再对第一次识别结果中的命令词进行第二次判别:置信度判别,得到最终识别结果。本方法可提高对集外词的拒识率,节省内存占用,满足了低资源条件嵌入式语音识别的应用需求。
-
公开(公告)号:CN105280181A
公开(公告)日:2016-01-27
申请号:CN201410336650.3
申请日:2014-07-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种语种识别模型的训练方法及语种识别方法,包括:提取训练语音数据的音素后验概率,将音素后验概率转换到对数域,进行降维和均值方差规整得到音素相关特征;利用音素相关特征计算Baum-Welch统计量,利用Baum-Welch统计量提取音素变化量因子;对音素变化量因子进行建模,建立SVM模型(语种识别模型);将待识别语音数据的音素变化量因子对SVM模型进行打分,对得分进行均值方差规整,并对规整后的得分使用线性鉴别性分析和高斯后端规整进行得分校正,得到最终识别结果。该方法与传统的语种识别方法相比,降低了计算复杂度,语种识别性能得到明显提升,具有很高的实用性。
-
-
-
-
-
-
-
-
-