-
公开(公告)号:CN103077724A
公开(公告)日:2013-05-01
申请号:CN201210585566.6
申请日:2012-12-28
Applicant: 中国科学院声学研究所 , 上海中科高等研究院 , 北京中科信利技术有限公司
IPC: G10L19/018
Abstract: 本发明涉及一种在音频中嵌入和解出水印的方法和装置。本发明充分利用了不同扩频码之间的不相关性,采用了随机使用扩频码来嵌入水印帧,降低了各个混音音频中的各个水印分量之间的相互干扰,大大提高了水印解码的正确率。同时,考虑到使用所有扩频码进行相关检测会让计算量猛增,提出了一种新的帧结构,让计算量大大降低。另外,提出了一种多同步技术,这让各个水印分量都能在解码同时得到同步,解决了以往的同步技术只能让一个混音分量得到同步的问题。从而实现了能够抵御混音攻击的数字音频水印算法。
-
公开(公告)号:CN103065626A
公开(公告)日:2013-04-24
申请号:CN201210557363.6
申请日:2012-12-20
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种英语口语朗读自动评分的方法和设备。该方法包括:对输入语音进行预处理,该预处理中包括分帧处理;从预处理的语音中提取语音特征;利用朗读文本搭建的线性语法网络和声学模型,对语音特征向量序列进行强制对齐,得到各音素分割点信息;按照各音素分割点信息,计算每个音素的后验概率;基于音素的后验概率,提取多维评分特征;根据评分特征和人工评分信息,使用支持向量回归法训练非线性回归模型,以便利用该非线性回归模型对英语口语朗读进行评分。使用专家打分数据训练评分模型,从统计上保证了机器评分的结果不会偏离人工评分,从而达到计算机对专家评分的高度模拟。
-
公开(公告)号:CN102800322A
公开(公告)日:2012-11-28
申请号:CN201110141137.5
申请日:2011-05-27
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种噪声功率谱估计与语音活动性检测方法,该方法基于一阶回归的序贯隐马尔可夫模型SHMM描述语音在每一频率分量上的时序相关性,最终推演出语音的在这个频率子带上的出现概率和噪声的功率谱信息,1)对于语音信号在每一个频率分量上提取对数幅度谱包络,并建立一个对应的二元隐马尔可夫模型,每一个状态均由高斯分布表示;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,采用极大似然估计算法建立一个初始化的模型;3)在得到初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新每一频带的HMM模型,依次递推得到噪声值和语音信号的出现概率。
-
公开(公告)号:CN102665156A
公开(公告)日:2012-09-12
申请号:CN201210083752.X
申请日:2012-03-27
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于耳机的虚拟3D重放方法,其包括设定虚拟3D声源的参数;计算空气对声音的吸收值,计算声音的声压衰减因子;计算房间脉冲响应RIR;计算RIR每样点与接收点位置距离d,依据d计算原声源经传输d距离后的声压;以插值法处理墙面频率点的吸收系数,以获得增加空气衰减及墙面吸收后的房间脉冲响应;计算声源点和头位置之间的水平角度和仰角,以选择最接近的头相关传输函数;将HRTF与增加空气衰减及墙面吸收后的房间脉冲响应卷积,以获得双耳房间脉冲响应BRIR;将BRIR与输入声信号卷积,以实现基于耳机的虚拟3D声信号。依照本发明提供的方法可较好地解决耳机重放时的“头内”问题、距离方位感、房间特性等问题,从而实现基于耳机的虚拟3D效果。
-
公开(公告)号:CN101650886B
公开(公告)日:2011-05-18
申请号:CN200810224792.5
申请日:2008-12-26
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种用于自动检测语言学习者朗读错误的方法,包括:根据朗读语料训练多发音模型;根据参考答案、发音字典、多发音模型构建精简搜索空间;根据参考答案及语言学知识构建朗读语言模型;对输入语音预处理分帧,提取语音特征;采用Viterbi算法在精简搜索空间中搜索一条声学模型得分、语言模型得分及发音得分的累积分数最高的一条发音路径作为识别发音序列;将识别的发音序列与参考答案的发音序列通过动态规划匹配算法对齐,进而得到朗读的多读、漏读、错读结果。本发明中采用隐马尔可夫模型作为声学模型,不需要模板语音,可大大提高使用的便利性,其性能和运行速度也较好。
-
公开(公告)号:CN101118745B
公开(公告)日:2011-01-19
申请号:CN200610089135.5
申请日:2006-08-04
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种用于语音识别系统的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据状态图、声学模型和该帧语音的特征向量,计算每一帧语音对应于状态图中每一个状态的似然概率p(xt/sj);按照帧号和状态号存储似然概率p(xt/sj);根据似然概率p(xt/sj)对状态进行剪枝;计算剪枝后声学空间的似然概率和以及广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。现有技术中,需要在进行音素搜索得到音素候选后,为计算置信度再使用不同的声学模型进行第二次搜索,而本发明是一种同步计算方法,是在识别器进行帧同步束搜索的过程中,使用相同的声学模型计算置信度,因此只需进行一次搜索,节省了系统的运行时间和计算的复杂度。
-
公开(公告)号:CN101887725A
公开(公告)日:2010-11-17
申请号:CN201010164874.2
申请日:2010-04-30
Applicant: 中国科学院声学研究所
Abstract: 本发明提供一种基于音素混淆网络的音素后验概率算法,包括:预处理分帧;提取每帧语音的语音特征;根据全音节循环网络状态图、声学模型和语音特征向量进行解码,得到最优路径上的各音素分割点信息;在各个音素段内,搭建其对应的音素混淆网络,对网络中的每一条路径计算语音的声学似然值;利用在学习文本对应的路径上获得的声学似然值来计算音素后验概率的分子部分,将混淆网络所有路径上的声学似然值进行时间规整后累加作为音素后验概率的分母,从而计算出更为精确的音素后验概率。本发明的方法,采用一种改进的基于音素混淆网络的音素后验概率算法作为评价音素发音质量的依据,在不影响计算速度的基础上大幅度提高了发音质量评估的准确性。
-
公开(公告)号:CN1963919B
公开(公告)日:2010-05-05
申请号:CN200510117698.6
申请日:2005-11-08
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L19/00
Abstract: 本发明涉及一种对单音进行音符切分的方法,更具体地说,本发明涉及一种基于能量的音符切分方法,包括:1)对语音信号进行分帧处理;2)计算出每一帧的谐波和能量。3)计算出每一帧的谐波和能量突出度δ;4)通过前后比较找出整个语音信号中突出度δ的极值点5)判断突出度δ极值点是否大于1,若判断为是,则把该极值点所在帧作为音符分割点。与现有技术相比,本发明的优点是:对于能量变化的各种情况有统一稳定的计算方式,音符切分的判决简单可靠。
-
公开(公告)号:CN101650943A
公开(公告)日:2010-02-17
申请号:CN200810239892.5
申请日:2008-12-19
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/06
Abstract: 本发明涉及一种基于混合模型状态修正的非母语语音识别系统及方法。该系统包括:非母语语音接口、母语模型模块、非母语模型模块、母语状态解码模块、非母语状态强制对齐模块、母语与非母语状态相似度矩阵计算模块、母语与非母语状态映射表计算模块及非母语状态修正模型解码模块,该系统及方法通过不同模型间的状态映射,利用说话人母语的声学模型在状态级别上对非母语声学模型进行修正,从而得到更为符合非母语发音特点的模型。该系统及方法有如下优点:在不增加任何非母语语音训练数据,仅依靠说话人母语训练数据的前提下,相对未采用该方法修正过的识别系统的识别性能有明显提高;同时系统识别语音的速度并未明显降低,具有很高的实用性。
-
公开(公告)号:CN101645064A
公开(公告)日:2010-02-10
申请号:CN200810239727.X
申请日:2008-12-16
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种浅层自然口语理解系统及方法,该系统包括:预处理模块、词汇特征提取模块、上下文特征提取模块、实体模糊匹配模块、最大熵分类模块及Viterbi搜索模块。该系统及方法首先通过预处理解决部分口语现象,以简化后续处理;接着对语句进行特征提取,包括基本字词特征,上下文字词特征和实体特征;采用最大熵分类器进行识别;对整句进行优化得到最后分类标记序列;最后从分类标记序列中提取出命名实体。本发明的系统及方法能够有效地、鲁棒地解决口语中特有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能出现的识别错误等问题。
-
-
-
-
-
-
-
-
-