-
公开(公告)号:CN111382302B
公开(公告)日:2023-08-11
申请号:CN201811619717.9
申请日:2018-12-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/683 , G06F16/632 , G06F16/61
Abstract: 本发明涉及一种基于变速模板的音频样例检索方法,该方法具体包括:针对长度5秒以上的变速模板的待检音频拆分为多个短音频片段,获取各个短音频片段的二进制音频指纹序列值,查找预先建立的哈希表;查找出各个短音频片段的二进制音频指纹序列值对应的模板音频的音频指纹序列值;计算各个短音频片段和模板音频之间指纹序列差异数D和模板音频与短音频片段之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为短音频片段与模板音频相似;如果D>Reject,则认为短音频片段存在错误,并提取该短音频片段。
-
公开(公告)号:CN113420121B
公开(公告)日:2023-07-28
申请号:CN202110704938.1
申请日:2021-06-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06F16/951 , G06F18/214
Abstract: 本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置,涉及自然语言处理技术领域。该方法包括:从互联网爬取对话文本,得到正样本;对对话文本中的语句进行变换操作,得到负样本和负样本的第一标签信息;将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量;根据第一特征向量、第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型。根据本申请实施例,能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。
-
公开(公告)号:CN112712096A
公开(公告)日:2021-04-27
申请号:CN201911022350.7
申请日:2019-10-25
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了基于深度递归非负矩阵分解的音频场景分类方法及系统,该方法包括:将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。本发明的方法将深度NMF用于音频场景分类,通过探索相邻帧之间NMF系数的递归关系,降低模型复杂度,提高泛化能力。
-
公开(公告)号:CN103077724A
公开(公告)日:2013-05-01
申请号:CN201210585566.6
申请日:2012-12-28
Applicant: 中国科学院声学研究所 , 上海中科高等研究院 , 北京中科信利技术有限公司
IPC: G10L19/018
Abstract: 本发明涉及一种在音频中嵌入和解出水印的方法和装置。本发明充分利用了不同扩频码之间的不相关性,采用了随机使用扩频码来嵌入水印帧,降低了各个混音音频中的各个水印分量之间的相互干扰,大大提高了水印解码的正确率。同时,考虑到使用所有扩频码进行相关检测会让计算量猛增,提出了一种新的帧结构,让计算量大大降低。另外,提出了一种多同步技术,这让各个水印分量都能在解码同时得到同步,解决了以往的同步技术只能让一个混音分量得到同步的问题。从而实现了能够抵御混音攻击的数字音频水印算法。
-
公开(公告)号:CN1963919B
公开(公告)日:2010-05-05
申请号:CN200510117698.6
申请日:2005-11-08
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L19/00
Abstract: 本发明涉及一种对单音进行音符切分的方法,更具体地说,本发明涉及一种基于能量的音符切分方法,包括:1)对语音信号进行分帧处理;2)计算出每一帧的谐波和能量。3)计算出每一帧的谐波和能量突出度δ;4)通过前后比较找出整个语音信号中突出度δ的极值点5)判断突出度δ极值点是否大于1,若判断为是,则把该极值点所在帧作为音符分割点。与现有技术相比,本发明的优点是:对于能量变化的各种情况有统一稳定的计算方式,音符切分的判决简单可靠。
-
公开(公告)号:CN101470893A
公开(公告)日:2009-07-01
申请号:CN200810172527.7
申请日:2008-10-29
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种基于位图缓存的矢量图形显示的加速方法,该方法在矢量动画的播放过程中,将连续显示的复杂矢量对象的渲染结果缓存,当显示对象再次出现时,取出对应的位图缓存对象,经过变换操作,直接显示在指定位置。该加速方法包括预缓存策略,缓存选择策略,缓存使用策略,缓存压缩保存策略和缓存替换策略。其优点在于:省去大量计算,节省渲染矢量图像的时间,加快显示速度;根据嵌入实式设备的内存大小和处理速度的不同,调整缓存容量大小和复杂图形的边缘曲线门限达到最佳效果;操作简单,只保存矢量对象的ID号,长宽,位图数据,优先级和最近使用帧号,用一个简单的链表即可实现;渲染步骤及播放流程透明,不影响矢量动画的播放过程。
-
公开(公告)号:CN101447186A
公开(公告)日:2009-06-03
申请号:CN200710178220.3
申请日:2007-11-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种单音旋律曲线的匹配方法,包括:1)将待匹配的两段单音旋律分帧,分别提取每一帧的基频,得到两个基频序列;2)选择划分点k,l,将所述基频序列A1,…,n和B1,…,m分别划分为前、后两个子序列,然后计算折线匹配代价;选择不同的划分点组合,找出使得该折线匹配代价最小的最优划分点组合k、l;3)回到步骤2),进一步找出前子序列和后子序列各自的最优划分点组合,这样不断循环,直到划分得出的子序列长度小于预先设定的门限值。相对于已有的非线性旋律匹配方法,本发明中的方法采用自上而下的递归方式解决旋律匹配问题,能够更好地强调整体旋律线的匹配,具有更好的匹配效果,也更符合人对音乐的感知。同时,本发明的方法具有较低的算法复杂度。
-
公开(公告)号:CN100403828C
公开(公告)日:2008-07-16
申请号:CN200380101122.X
申请日:2003-10-17
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
CPC classification number: H04M1/271 , G10L15/26 , G10L2015/027
Abstract: 本发明公开一种具有语音操作系统的便携式数字移动通讯设备及语音操作控制方法,在进行语音识别时是利用特征码本对语音的特征矢量序列进行量化编码,而在解码运算中对有效语音特征码字矢量序列的各个码字,是直接从概率表中查到其在搜索路径上的观察概率;采用本发明,可以在手机中实现全音节的语音识别,无需训练,并可实现汉字语音输入和全音节的语音提示,系统具有语义分析、对话管理和语言生成模块,可以处理复杂的对话过程并产生灵活的提示信息反馈给用户,本发明还可由用户进行语音命令和提示内容的定制。
-
公开(公告)号:CN1770256A
公开(公告)日:2006-05-10
申请号:CN200410088428.2
申请日:2004-11-02
Applicant: 北京中科信利技术有限公司 , 中国科学院声学研究所
Abstract: 本发明涉及一种数字混音方法,更具体的说,涉及一种基于变换域的数字音频混合方法。包括如下步骤:1)输入多个已数字化的音频流,进行分帧处理,得到各帧的时域音频序列;2)对多个音频流以帧为单位进行覆盖性频域插值,得到各帧频域混音后的时域音频序列;该覆盖性频域插值是先将原始音频序列由时域变换到频域,然后进行覆盖性频域插值运算,再由频域变回时域,最后得到混音音频序列;3)将混音信号的各帧数据组合成一个完整的输出音频流。与现有技术相比,本发明最大优点是有效地解决了经典混音中的溢出问题,在对数据的动态范围有严格限制的情况下,能够提供很好的“音效级”混合效果。本发明特别适用于嵌入式终端上的实时双路音频流混合。
-
公开(公告)号:CN1248191C
公开(公告)日:2006-03-29
申请号:CN03137014.4
申请日:2003-06-19
Applicant: 北京中科信利技术有限公司 , 中国科学院声学研究所
IPC: G10L13/02
Abstract: 本发明公开了一种基于数字信号处理的语音变声方法,包括步骤(1)选取需要变声的原始语音信号;(2)得到原始语音信号的基音周期长度;(3)根据基音周期长度定位整个原始语音信号的每一个基音周期的位置;(4)在原始语音信号中的基音周期之间删除/插入基音周期,得到缩短/伸长的语音信号;(5)将缩短/伸长的语音信号线性伸长/压缩至与原始语音信号一致的长度,得到变声后的语音信号。本发明是基于数字信号处理的语音变声方法,该方法简单实用,运算量很小,适于在DSP芯片上实时实现,变声的语音的自然度很高。而且变声后的语音的长度与原始语音长度一致,有利于实时传送变声后的语音信号。
-
-
-
-
-
-
-
-
-