-
公开(公告)号:CN113420111B
公开(公告)日:2023-08-11
申请号:CN202110674586.X
申请日:2021-06-17
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06F40/126 , G06F40/289 , G06F40/30 , G06F18/24 , G06N3/02
Abstract: 本申请实施例公开了一种用于多跳推理问题的智能问答方法及装置,方法包括:获取问题文本;对问题文本进行语义编码,获得问题文本的语义编码表示;根据问题文本的语义编码表示,确定第一预测结果,第一预测结果为问题文本的至少一个问题主体所在位置的预测结果;根据问题文本的语义编码表示,确定第二预测结果,第二预测结果为问题文本的至少一个问题关系的预测结果;根据第一预测结果和第二预测结果,生成子问题文本,子问题文本包括至少一个子问题;根据筛选文档,对至少一个子问题依次进行回答,获得与至少一个子问题对应的答案,筛选文档包括至少一个子问题对应的答案;根据至少一个子问题对应的答案,确定问题文本的最终答案。
-
公开(公告)号:CN109859742B
公开(公告)日:2021-04-09
申请号:CN201910015449.8
申请日:2019-01-08
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明提供一种说话人分段聚类方法及装置,以解决相关技术中处理短时说话人语音时,性能下降导致说话人聚类效果较差的问题。该方法包括:将待聚类语音划分为多个子语音段;通过权重联合概率线性判别分析WT‑PLDA模型对基于划分得到的各子语音段的I‑vector提取出各子语音段的特征信息W‑vector,所述WT‑PLDA模型的模型参数至少包括:均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子;通过概率线性判别分析PLDA根据划分后多个子语音段的所述W‑vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类。本发明提高了说话人的聚类效果。
-
公开(公告)号:CN106297819B
公开(公告)日:2019-09-06
申请号:CN201510272422.9
申请日:2015-05-25
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L21/0224
Abstract: 本发明涉及一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。本发明的方法实现了在特征层消除噪声影响;不需要增加额外的训练数据;在系统速度不会大幅降低的情况下可以明显提高系统在在噪声环境下的性能。
-
公开(公告)号:CN109859742A
公开(公告)日:2019-06-07
申请号:CN201910015449.8
申请日:2019-01-08
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明提供一种说话人分段聚类方法及装置,以解决相关技术中处理短时说话人语音时,性能下降导致说话人聚类效果较差的问题。该方法包括:将待聚类语音划分为多个子语音段;通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector,所述WT-PLDA模型的模型参数至少包括:均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子;通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类,直至所述多个子语音段被聚类为两类。本发明提高了说话人的聚类效果。
-
公开(公告)号:CN107305767A
公开(公告)日:2017-10-31
申请号:CN201610236672.1
申请日:2016-04-15
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种应用于语种识别的短时语音时长扩展方法,所述方法包括:对于一条时长较短的待识别语音,首先根据其语音时长确定生成的不同语速语音的数量n;然后根据合成帧移值及n个语速变化率计算生成语音的n个分解帧移;根据分解帧移和合成帧移生成n个不同语速的语音,将n个不同语速的语音与原语音拼接起来,生成一个时长加长的语音。不同语速的语音的语种信息具有互补性,本发明所提出的方法可以显著提升短时语音的语种识别性能。
-
公开(公告)号:CN106297819A
公开(公告)日:2017-01-04
申请号:CN201510272422.9
申请日:2015-05-25
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L21/0224
Abstract: 本发明涉及一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。本发明的方法实现了在特征层消除噪声影响;不需要增加额外的训练数据;在系统速度不会大幅降低的情况下可以明显提高系统在噪声环境下的性能。
-
公开(公告)号:CN113436616B
公开(公告)日:2022-08-02
申请号:CN202110594183.4
申请日:2021-05-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本申请提出一种多领域自适应的端到端语音识别方法,所述方法包括:提取待识别语音的第一特征;将所述第一特征和领域标签输入训练好的端到端语音识别模型;所述领域标签是为所述待识别语音的预先设定的口音标签;基于所述训练好的端到端语音识别模型,根据所述领域标签提取第二特征,将所述第一特征与所述第二特征拼接后进行编码得到第三特征;对所述第三特征进行解码,得到多条候选文本,输出第一文本候选列表,所述第一文本候选列表包括所述多条候选文本。本申请通过使用多领域自适应的方法,利用丰富资源领域预训练模型、多目标领域数据及多目标领域鉴别特征来提升在多个目标领域上的语音识别性能。
-
公开(公告)号:CN113436619A
公开(公告)日:2021-09-24
申请号:CN202110594164.1
申请日:2021-05-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/06 , G10L15/08 , G10L19/18 , G10L25/18 , G10L25/24 , G10L25/27 , G10L25/30 , G10L25/45 , G10L25/54 , H04L9/32 , G10L15/14
Abstract: 本发明提供了一种语音识别解码的方法及装置。语音识别解码方法包括:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。相比于传统的语音识别系统,本申请省略了帧级别对齐的流程,简化了训练和解码的流程;相比于端到端语音识别系统,在束搜索算法过程中使用加权有限状态转移器加快解码速度,高效地利用训练音频数据之外的文本数据,可以在多种领域快速部署语音识别系统。
-
公开(公告)号:CN113436616A
公开(公告)日:2021-09-24
申请号:CN202110594183.4
申请日:2021-05-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本申请提出一种多领域自适应的端到端语音识别方法,所述方法包括:提取待识别语音的第一特征;将所述第一特征和领域标签输入训练好的端到端语音识别模型;所述领域标签是为所述待识别语音的预先设定的口音标签;基于所述训练好的端到端语音识别模型,根据所述领域标签提取第二特征,将所述第一特征与所述第二特征拼接后进行编码得到第三特征;对所述第三特征进行解码,得到多条候选文本,输出第一文本候选列表,所述第一文本候选列表包括所述多条候选文本。本申请通过使用多领域自适应的方法,利用丰富资源领域预训练模型、多目标领域数据及多目标领域鉴别特征来提升在多个目标领域上的语音识别性能。
-
公开(公告)号:CN113326689A
公开(公告)日:2021-08-31
申请号:CN202010128327.2
申请日:2020-02-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/205 , G06F40/211 , G06N20/00 , G06K9/62
Abstract: 本发明属于数据通信和数据处理技术领域,具体涉及一种基于深度强化学习模型的数据清洗方法,该方法包括:获取待清洗的带标签的数据集;采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。
-
-
-
-
-
-
-
-
-