-
公开(公告)号:CN116386602A
公开(公告)日:2023-07-04
申请号:CN202310624720.4
申请日:2023-05-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机技术领域,具体而言涉及一种特征提取模型的训练方法和融合发音特征的语音鉴别方法,其中特征提取模型的训练方法包括:获取训练样本;根据训练样本对特征提取模型进行训练,生成训练数据;将训练数据分别输入到至少两个解码器中,生成至少两个预测音素序列;根据至少两个预测音素序列和训练样本,确定至少两个损失值;根据至少两个损失值,确定训练损失;根据训练损失,更新特征提取模型的参数。
-
公开(公告)号:CN115798453A
公开(公告)日:2023-03-14
申请号:CN202111059801.1
申请日:2021-09-10
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
IPC: G10L13/027 , G10L15/02 , G10L15/06 , G10L15/20
Abstract: 本申请涉及一种语音重建方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:对原始语音进行特征提取,得到对应的声学特征;将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。采用本方法能够控制语音重建中所生成的噪声的分量,有效提高重建的语音的质量。
-
公开(公告)号:CN114297394B
公开(公告)日:2022-07-01
申请号:CN202210238820.9
申请日:2022-03-11
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种对文本中的事件论元进行抽取的方法和电子设备,该方法包括:对待处理文本中包含的事件类型进行检测,得到目标事件类型;根据该目标事件类型及对应的目标论元角色的先验关联信息,构造得到论元抽取问题;将待处理文本和论元抽取问题进行拼接,得到目标文本;将该目标文本的表示向量输入至机器阅读理解模型中,该模型包括两层依序设置的分类器,第一层分类器同步对该目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果;根据该答案预测结果和对应的标签,输出事件论元。
-
公开(公告)号:CN114298053B
公开(公告)日:2022-05-24
申请号:CN202210230832.7
申请日:2022-03-10
Applicant: 中国科学院自动化研究所
IPC: G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种基于特征和注意力机制融合的事件联合抽取系统,包括:输入层、特征提取层、触发词和论元识别层和事件后处理层;将预训练层输出的信息结合词性和位置信息输入到BiGRU和CNN中,得到句子的上下文语义特征矩阵和局部特征矩阵,再利用注意力机制融合这两种特征,最后将三种表示联合起来进行事件抽取;词嵌入层使用预训练模型BioBERT,并对其进行微调,以提高模型的效果;事件联合抽取,避免了级联错误的产生,提升模型的效果。
-
公开(公告)号:CN113889137B
公开(公告)日:2022-04-01
申请号:CN202111473848.2
申请日:2021-12-06
Applicant: 中国科学院自动化研究所
IPC: G10L21/0216 , G10L21/0232
Abstract: 本申请涉及一种麦克风阵列语音增强的方法、装置、电子设备及存储介质,所述方法包括:通过麦克风阵列获取已知声源方向的待增强语音信号;提取所述待增强语音信号的频谱特征和方向相干特征;将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号,本申请通过语音增强网络实现了波束形成的滤波操作,并且波束形成的权重系数基于数据驱动的监督性学习方法训练得到,更接近实际应用场景,以提高语音增强效果。
-
公开(公告)号:CN114093342A
公开(公告)日:2022-02-25
申请号:CN202210078586.8
申请日:2022-01-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供细粒度韵律建模的语音生成模型、设备及存储介质,其中,模型包括:文本信息输入文本编码器模块,得到文本的编码特征;频谱信息输入韵律编码模块,得到音素级别的语音的韵律特征;语音的韵律特征输入解耦合模块,将语音的韵律特征中包含的文本内容信息和韵律信息解耦合,并只留下语音的韵律特征的韵律信息;文本的编码特征和语音的韵律特征的韵律信息输入解码器,生成合成语音。本发明提出的方案能够利用时长信息对音频进行时域的划分,韵律编码器可以建模语音的局部韵律信息以描述韵律的变化走势,同时韵律解耦合模块保证了韵律编码器模型只学习到语音的韵律信息而不包含文本信息。
-
公开(公告)号:CN113948085A
公开(公告)日:2022-01-18
申请号:CN202111577269.2
申请日:2021-12-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例公开了一种语音识别方法、系统、电子设备和存储介质,涉及语音识别技术领域。该实施例包括:对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;确定预设的词表中每一标签的文本预测向量;根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。本发明实施例通过对待识别音频的声学编码状态向量进行稀疏编码,得到待识别音频的声学编码稀疏向量,从而降低编码帧数以实现降低计算代价,提升语音识别的速度。
-
公开(公告)号:CN113555037B
公开(公告)日:2022-01-11
申请号:CN202111103012.3
申请日:2021-09-18
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种篡改音频的篡改区域的检测方法、装置及存储介质,上述方法包括:获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。采用上述技术手段,解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题。
-
公开(公告)号:CN113555023B
公开(公告)日:2022-01-11
申请号:CN202111098690.5
申请日:2021-09-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定说话人识别网络的目标函数;定义语音鉴伪网路的目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个函数进行联合优化。
-
公开(公告)号:CN113724686A
公开(公告)日:2021-11-30
申请号:CN202111292710.2
申请日:2021-11-03
Applicant: 中国科学院自动化研究所
IPC: G10L13/033 , G10L19/16 , G10L25/30 , G06N3/04 , G06N3/08
Abstract: 本申请涉及一种编辑音频的方法、装置、电子设备及存储介质,所述方法包括:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频,本申请通过音频编辑模型得到的编辑后音频上下文听感自然,而且支持合成未出现在语料库中的新词的功能。
-
-
-
-
-
-
-
-
-