-
公开(公告)号:CN1703923A
公开(公告)日:2005-11-30
申请号:CN200380101122.X
申请日:2003-10-17
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
CPC classification number: H04M1/271 , G10L15/26 , G10L2015/027
Abstract: 本发明公开一种具有语音操作系统的便携式数字移动通讯设备及语音操作控制方法,在进行语音识别时是利用特征码本对语音的特征矢量序列进行量化编码,而在解码运算中对有效语音特征码字矢量序列的各个码字,是直接从概率表中查到其在搜索路径上的观察概率;采用本发明,可以在手机中实现全音节的语音识别,无需训练,并可实现汉字语音输入和全音节的语音提示,系统具有语义分析、对话管理和语言生成模块,可以处理复杂的对话过程并产生灵活的提示信息反馈给用户,本发明还可由用户进行语音命令和提示内容的定制。
-
公开(公告)号:CN1567428A
公开(公告)日:2005-01-19
申请号:CN03137014.4
申请日:2003-06-19
Applicant: 北京中科信利技术有限公司 , 中国科学院声学研究所
Abstract: 本发明公开了一种基于数字信号处理的语音变声方法,包括步骤(1)选取需要变声的原始语音信号;(2)得到原始语音信号的基音周期长度;(3)根据基音周期长度定位整个原始语音信号的每一个基音周期的位置;(4)在原始语音信号中的基音周期之间删除/插入基音周期,得到缩短/伸长的语音信号;(5)将缩短/伸长的语音信号线性伸长/压缩至与原始语音信号一致的长度,得到变声后的语音信号。本发明是基于数字信号处理的语音变声方法,该方法简单实用,运算量很小,适于在DSP芯片上实时实现,变声的语音的自然度很高。而且变声后的语音的长度与原始语音长度一致,有利于实时传送变声后的语音信号。
-
公开(公告)号:CN1491018A
公开(公告)日:2004-04-21
申请号:CN02148685.9
申请日:2002-11-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种对话交互前端的回声消除和语音检测方法,包括下述步骤:利用含有录音和放音通道的电话卡作为通信机对话交互前端的声音接口卡,及利用电话卡的两个通道进行回声消除步骤得到干净的语音残差数据;然后将语音残差数据进行语音信号自适应检测步骤,判断语音残差数据的类型;及当语音残差数据判断为语音时,则停止进行回声消除步骤并关闭放音通道;本发明利用普通电话卡的录音和放音通道,结合语音增强、语音识别和信号处理手段,实现回声的实时消除及语音的实时检测,以实现对话交互功能。
-
公开(公告)号:CN1455386A
公开(公告)日:2003-11-12
申请号:CN02146655.6
申请日:2002-11-01
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L13/02
Abstract: 本发明公开了一种嵌入式语音合成方法及系统,用于手持数字移动通讯设备的操作系统,通过在该操作系统中加载文本分析模块、码字序列生成模块、语音解音码模块输入模块和波形拼接合成模块,可以使输入的文本信息转换成数字语音信号输出。该方法和系统可以充分利用该设备本身的资源,从而大大降低语音合成系统所占用的系统资源。依据本发明的语音合成系统占用的总资源不到500K字节,计算复杂度小于5MIPS,能够运行在当前主流的手机之中。
-
公开(公告)号:CN103077709B
公开(公告)日:2015-09-09
申请号:CN201210587263.8
申请日:2012-12-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/14
Abstract: 本发明涉及一种基于共有鉴别性子空间映射的语种识别方法及装置,该方法包括:提取一个语种的多个语音数据的语音特征;根据所述语音特征得到所述多个语音数据的高斯超向量,其中,每个语音数据对应一组高斯超向量;将所述高斯超向量映射到共有鉴别性子空间,得到与所述高斯超向量对应的低维向量,其中,所述共有鉴别性子空间是预先用多个语种的语音数据建立的;以及分别计算所述低维向量在多个支持向量机SVM模型上的得分,根据多个得分识别出所述语种,其中,所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的,每个SVM模型对应一个语种。相比于直接对高斯超向量进行建模,本发明的语种识别方法由于其低维和鉴别性,训练速度更快,识别性能有了明显提高。
-
公开(公告)号:CN101470893B
公开(公告)日:2011-01-19
申请号:CN200810172527.7
申请日:2008-10-29
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种基于位图缓存的矢量图形显示的加速方法,该方法在矢量动画的播放过程中,将连续显示的复杂矢量对象的渲染结果缓存,当显示对象再次出现时,取出对应的位图缓存对象,经过变换操作,直接显示在指定位置。该加速方法包括预缓存策略,缓存选择策略,缓存使用策略,缓存压缩保存策略和缓存替换策略。其优点在于:省去大量计算,节省渲染矢量图像的时间,加快显示速度;根据嵌入实式设备的内存大小和处理速度的不同,调整缓存容量大小和复杂图形的边缘曲线门限达到最佳效果;操作简单,只保存矢量对象的ID号,长宽,位图数据,优先级和最近使用帧号,用一个简单的链表即可实现;渲染步骤及播放流程透明,不影响矢量动画的播放过程。
-
公开(公告)号:CN1770256B
公开(公告)日:2010-05-05
申请号:CN200410088428.2
申请日:2004-11-02
Applicant: 北京中科信利技术有限公司 , 中国科学院声学研究所
Abstract: 本发明涉及一种数字混音方法,更具体的说,涉及一种基于变换域的数字音频混合方法。包括如下步骤:1)输入多个已数字化的音频流,进行分帧处理,得到各帧的时域音频序列;2)对多个音频流以帧为单位进行覆盖性频域插值,得到各帧频域混音后的时域音频序列;该覆盖性频域插值是先将原始音频序列由时域变换到频域,然后进行覆盖性频域插值运算,再由频域变回时域,最后得到混音音频序列;3)将混音信号的各帧数据组合成一个完整的输出音频流。与现有技术相比,本发明最大优点是有效地解决了经典混音中的溢出问题,在对数据的动态范围有严格限制的情况下,能够提供很好的“音效级”混合效果。本发明特别适用于嵌入式终端上的实时双路音频流混合。
-
公开(公告)号:CN101650941A
公开(公告)日:2010-02-17
申请号:CN200810224790.6
申请日:2008-12-26
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L11/00
Abstract: 本发明提供一种基于音频频谱特征分析的演唱音色明亮度的客观评测方法,包括如下步骤:1)选取需要度量音色明亮度的演唱片段音频信号;2)对所选取的演唱片段音频信号进行“演唱/间隙”判断;3)对步骤2)得到的演唱片段,计算得到三种频谱特征测度:2K-3KHz能量和、频谱能量总和以及频率加权的谱能量和;4)根据步骤3)得到的频谱特征,计算得到最终的客观度量参数指标:平均2K-3KHz能量比、平均谱重心,利用求出的参数指标对演唱音色的明亮度进行评测。本发明的评测方法,通过对演唱片段的频谱特征分析,利用计算机算法给出可以量化的客观评测参数指标,不受其他人为因素影响,并且具有稳定性、客观性以及便利性等优点。
-
公开(公告)号:CN1259648C
公开(公告)日:2006-06-14
申请号:CN200410070140.2
申请日:2002-11-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开一种语音识别系统,包括:模数变换单元,将输入语音的模拟信号变换为数字信号;特征提取单元,对该数字信号进行分帧处理,提取每一帧语音的特征参数,得到其特征矢量序列;特征码本,由一定数量的码字组成;量化编码单元,根据特征码本将输入语音的特征矢量序列转换为特征码字序列;概率表,存储了特征码本中每个码字对应高斯码本中每个码字的概率值;以及解码运算单元,对该特征码字序列进行解码运算得到识别结果,运算中对该特征码字序列中的各个码字,从概率表中直接查找与其具有最大匹配概率的高斯[0]码字。本发明的语音识别系统,可在保证语音系统识别性能的前提下,提高系统的识别速度。
-
公开(公告)号:CN1248477C
公开(公告)日:2006-03-29
申请号:CN02148685.9
申请日:2002-11-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种对话交互前端的回声消除和语音检测方法,包括下述步骤:利用含有录音和放音通道的电话卡作为通信机对话交互前端的声音接口卡,及利用电话卡的两个通道进行回声消除步骤得到干净的语音残差数据;然后将语音残差数据进行语音信号自适应检测步骤,判断语音残差数据的类型;及当语音残差数据判断为语音时,则停止进行回声消除步骤并关闭放音通道;本发明利用普通电话卡的录音和放音通道,结合语音增强、语音识别和信号处理手段,实现回声的实时消除及语音的实时检测,以实现对话交互功能。
-
-
-
-
-
-
-
-
-