-
公开(公告)号:CN115985289A
公开(公告)日:2023-04-18
申请号:CN202211582420.6
申请日:2022-12-09
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种端到端语音合成方法,所述方法具体包括:构建包括HAE、HCE、HAD的层级条件变分自编码器模型;以最大化证据下界为训练目标,训练所述模型;合成语音波形。还涉及了装置,包括HAE、HCE、HAD、训练模块;其中,HAE包括:帧级、音素级、子词级、词级、句子级五级语音编码器,第一仿射模块;HCE包括:语言学表征提取模块、子词级、词级、句子级三级文本编码器;HAD包括:句子级、词级、子词级、音素级、帧级五级解码器,第二仿射模块。本发明的方法和装置,提升了合成语音的整体质量、自然性,以及韵律表现力。
-
公开(公告)号:CN111128191B
公开(公告)日:2023-03-28
申请号:CN201911415035.0
申请日:2019-12-31
Applicant: 中国科学院声学研究所
Abstract: 本发明提供一种在线端对端语音转写方法及系统,在一个实施例中,对所述音频文件提取声学特征;对所述声学特征进行非线性变换和降采样并输出第一特征序列;将第一特征序列进行分块,依次将每块特征序列输入到编码器中并输出多组第二特征序列;对所述第二特征序列进行建模,输出多组汉字序列并对所述多组汉字序列进行打分;将分数最高的汉字序列作为最终转写结果。通过改进编码器结构,让其处理分块的音频;通过改进解码器的结构,让其在截断音频的基础上输出汉字。使得在输入音频的同时转写文本。
-
公开(公告)号:CN112820322B
公开(公告)日:2022-12-23
申请号:CN202110290710.2
申请日:2021-03-18
Applicant: 中国科学院声学研究所
Abstract: 本发明提出一种基于自监督对比学习的半监督音频事件标注方法,包括:提取无标注数据的梅尔对数能量谱特征,并对其做归一化;对每个频谱特征做两次随机增强生成两个特征;搭建自监督网络的编码器和投影层;计算样本输出间的相似度,通过排序确定正负样本;通过加强正负样本的对比训练网络;提取标注数据的梅尔对数能量谱特征,并对其做归一化;在训练好的编码器上加入新的分类器联合再训练;输出音频事件标注结果。本发明通过利用自监督对比学习,利用数据自身特点实现对无标注数据的监督学习,获得有效音频表征,然后利用少量标注数据再训练后生成音频中出现的事件类别。
-
公开(公告)号:CN111938691B
公开(公告)日:2022-03-18
申请号:CN202010829479.5
申请日:2020-08-18
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种心音识别方法,包括:采集多个原始心音数据;对多个原始心音数据进行低通滤波,并计算多个原始心音数据所对应的同态包络;采用双门限法对多个同态包络进行筛选,得到至少一个备选心音数据段;将至少一个备选心音数据段进行短时傅里叶变换,得到至少一个备选心音数据段所对应的备选心音段时频谱;将至少一个备选心音段时频谱输入心音识别分支卷积神经网络进行分类,得到至少一个备选心音段时频谱的分类结果。
-
公开(公告)号:CN110867178B
公开(公告)日:2022-01-21
申请号:CN201810986855.4
申请日:2018-08-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种多通道远场语音识别方法,其包括:步骤1)提取每个通道的远场语音信号的语音特征,串接多个通道的语音特征,获得语音特征向量;步骤2)计算任意两个通道之间的GCC特征,将GCC特征与步骤1)获得的语音特征向量拼接,获得远场特征向量,作为训练远场学生模型的训练数据;步骤3)对专家模型进行训练,获得训练后的专家模型;同时采用知识升华策略,对远场学生模型进行训练,获得训练后的远场学生模型;步骤4)将待识别语音信号的特征和GCC特征拼接,获得拼接后的特征向量,并将其输入至训练后的远场学生模型,获得对应的远场后验概率向量,进而得到对应的后验概率值,再经过维特比解码,对待识别的语音信号进行识别。
-
公开(公告)号:CN113868379A
公开(公告)日:2021-12-31
申请号:CN202111177010.9
申请日:2021-10-09
Applicant: 中国科学院声学研究所
IPC: G06F16/33 , G06F16/332 , G06F40/216 , G06F40/295
Abstract: 本申请提供了一种面向开放域问答的段落选择方法、装置、设备及存储介质,涉及自然语言处理技术领域。该方法包括:通过将海量文本进行筛选,确定目标文档。基于目标文档中的第一实体和问题文本中的第二实体构建实体树,从而可以基于实体树对第一实体所在的节点关联的段落进行精准排序,进而能够精准快速地获取问题对应的答案信息。
-
公开(公告)号:CN113707125A
公开(公告)日:2021-11-26
申请号:CN202111008489.3
申请日:2021-08-30
Applicant: 中国科学院声学研究所
Abstract: 本说明书实施例提供一种多语言语音合成模型的训练方法及装置,方法包括:基于各样本语言的样本音频的梅尔谱特征标签、样本音素序列、说话人标识标签,分别训练风格编码器、文本编码器以及解码器,以获得可以将音频的音色(通过说话人标识表征)、风格以及文本内容解耦开的风格编码器、文本编码器以及解码器,进而利用样本音频的说话人标识标签及样本音素序列,以及已训练的风格编码器输出的该样本音频的风格向量作为标签,训练风格预测器,以得到多语言语音合成模型。
-
公开(公告)号:CN113539238A
公开(公告)日:2021-10-22
申请号:CN202010247070.2
申请日:2020-03-31
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。
-
公开(公告)号:CN113345421A
公开(公告)日:2021-09-03
申请号:CN202010098250.9
申请日:2020-02-18
Applicant: 中国科学院声学研究所 , 中科信利(广州)技术有限公司
Abstract: 本发明公开了一种基于角度谱特征的多通道远场的目标语音识别方法,包括:获取包含目标人语音的M个通道的混合语音;将两个通道组成通道对,得到H个不重复的通道对。提取M个通道的混合语音的MFCC特征,并串接,得到第一特征;计算H个通道对的SRP‑PHAT,根据SRP‑PHAT生成包含目标人的位置信息的角度谱特征作为第二特征;提取出预存的目标人特征作为第三特征;根据第一特征、第二特征和第三特征对混合语音中的目标人进行语音识别。同时说话人的位置信息的引入也能增强模型对于多通道远场信号的处理能力,从而进一步提升模型对于目标说话人语音的识别性能。
-
公开(公告)号:CN108109624B
公开(公告)日:2021-06-08
申请号:CN201611049017.1
申请日:2016-11-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种基于统计规律的中文词汇表未登录词比率的估计方法,利用本发明提供的估计方法,解决了无法直接计算中文词汇表未登录词比率的技术问题;相比于采用字错误率(CER)衡量方法,本发明的估计方法通过采用中文词汇表未登录词比率来衡量中文识别系统性能,不仅省去了解码语音数据的时间,从而缩短评价某个特定中文语音识别系统所需的时间,而且可以在中文语音识别系统搭建之初选择性能最佳的中文词汇表,进而得到性能最佳的中文语音识别系统。
-
-
-
-
-
-
-
-
-