-
公开(公告)号:CN113420111B
公开(公告)日:2023-08-11
申请号:CN202110674586.X
申请日:2021-06-17
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06F40/126 , G06F40/289 , G06F40/30 , G06F18/24 , G06N3/02
Abstract: 本申请实施例公开了一种用于多跳推理问题的智能问答方法及装置,方法包括:获取问题文本;对问题文本进行语义编码,获得问题文本的语义编码表示;根据问题文本的语义编码表示,确定第一预测结果,第一预测结果为问题文本的至少一个问题主体所在位置的预测结果;根据问题文本的语义编码表示,确定第二预测结果,第二预测结果为问题文本的至少一个问题关系的预测结果;根据第一预测结果和第二预测结果,生成子问题文本,子问题文本包括至少一个子问题;根据筛选文档,对至少一个子问题依次进行回答,获得与至少一个子问题对应的答案,筛选文档包括至少一个子问题对应的答案;根据至少一个子问题对应的答案,确定问题文本的最终答案。
-
公开(公告)号:CN110895933B
公开(公告)日:2022-05-03
申请号:CN201811030952.2
申请日:2018-09-05
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于空时残差神经网络的远场语音识别方法,所述方法包括:步骤1)构建并训练空时残差神经网络ST‑RES‑LSTM,该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络;步骤2)利用训练好的空时残差神经网络ST‑RES‑LSTM进行声学模型训练,并生成每一帧的分类概率;步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构,既能缓解层数加深带来的梯度消失问题,又能缓解LSTM在时间维度存在的梯度消失问题,从而提高语音识别的性能。
-
公开(公告)号:CN113420112A
公开(公告)日:2021-09-21
申请号:CN202110685518.3
申请日:2021-06-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F40/289 , G06K9/62
Abstract: 本发明涉及一种基于无监督学习的新闻实体分析方法及装置。方法包括:对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。本申请将分布式的思想引入新闻实体的处理当中,通过新闻实体所处位置的上下文来得到实体的分布式表示,通过对实体的聚类分析来得到实体的聚类结果。
-
公开(公告)号:CN113077785A
公开(公告)日:2021-07-06
申请号:CN201911300918.7
申请日:2019-12-17
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于网络通信技术领域,具体涉及一种端到端的多语言连续语音流语音内容识别方法,该方法包括:将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,提取语句级别语种状态后验概率分布向量;将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
-
公开(公告)号:CN108305616B
公开(公告)日:2021-03-16
申请号:CN201810039421.3
申请日:2018-01-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明涉及一种基于长短时特征提取的音频场景识别方法及装置,该方法包括,对输入待识别音频信号进行预处理;对经过预处理后的所述待识别音频信号,进行短时音频特征提取,再进行长时音频特征提取,将所述待识别音频信号的所述长、短时音频特征联合,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签。本发明在常规短时特征提取的基础之上,进一步联合音频场景长时特征,可以表征复杂的音频场景信息,输入分类模型及其融合模型,进行分类和识别,输出音频场景的识别标签,其鲁棒性更强、区分性更好,且能够在更大程度上表征场景数据的整体特性,识别效率高、稳定性强。
-
公开(公告)号:CN116778910A
公开(公告)日:2023-09-19
申请号:CN202310505872.2
申请日:2023-05-06
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/28 , G06F18/2135 , G06F18/241 , G06N3/0464 , G06N3/08
Abstract: 本申请提供了一种语音检测方法,包括:获取目标语音,将所述目标语音进行预处理,所述预处理包括预加重、分帧及加窗;确定所述预处理后目标语音的第一声道特征、第一声源波特征和多种第一相关特征;基于所述第一声道特征、第一声源波特征和多种第一相关特征确定所述第一主成分特征;将所述第一主成分特征输入训练好的分类器,输出分类的结果,所述分类结果为伪造语音,或自然语音。本申请利用伪造语音在基频处留下的痕迹信息,利用伪造语音与自然语音在声源和声道特征上的差异以实现伪造语音检测。使用主成分分析的方法分别对声源和声道特征进行筛选,选取具有较高相关性的主成分作为特征,减少特征维度和冗余特征,提高模型的泛化能力和效率。
-
公开(公告)号:CN111341319B
公开(公告)日:2023-05-16
申请号:CN201811559040.4
申请日:2018-12-19
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于局部纹理特征的音频场景识别方法,所述方法包括:将待识别的音频信号进行预处理后逐帧提取Mel‑fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。
-
公开(公告)号:CN113436616B
公开(公告)日:2022-08-02
申请号:CN202110594183.4
申请日:2021-05-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本申请提出一种多领域自适应的端到端语音识别方法,所述方法包括:提取待识别语音的第一特征;将所述第一特征和领域标签输入训练好的端到端语音识别模型;所述领域标签是为所述待识别语音的预先设定的口音标签;基于所述训练好的端到端语音识别模型,根据所述领域标签提取第二特征,将所述第一特征与所述第二特征拼接后进行编码得到第三特征;对所述第三特征进行解码,得到多条候选文本,输出第一文本候选列表,所述第一文本候选列表包括所述多条候选文本。本申请通过使用多领域自适应的方法,利用丰富资源领域预训练模型、多目标领域数据及多目标领域鉴别特征来提升在多个目标领域上的语音识别性能。
-
公开(公告)号:CN113436619A
公开(公告)日:2021-09-24
申请号:CN202110594164.1
申请日:2021-05-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/06 , G10L15/08 , G10L19/18 , G10L25/18 , G10L25/24 , G10L25/27 , G10L25/30 , G10L25/45 , G10L25/54 , H04L9/32 , G10L15/14
Abstract: 本发明提供了一种语音识别解码的方法及装置。语音识别解码方法包括:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。相比于传统的语音识别系统,本申请省略了帧级别对齐的流程,简化了训练和解码的流程;相比于端到端语音识别系统,在束搜索算法过程中使用加权有限状态转移器加快解码速度,高效地利用训练音频数据之外的文本数据,可以在多种领域快速部署语音识别系统。
-
公开(公告)号:CN113436616A
公开(公告)日:2021-09-24
申请号:CN202110594183.4
申请日:2021-05-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本申请提出一种多领域自适应的端到端语音识别方法,所述方法包括:提取待识别语音的第一特征;将所述第一特征和领域标签输入训练好的端到端语音识别模型;所述领域标签是为所述待识别语音的预先设定的口音标签;基于所述训练好的端到端语音识别模型,根据所述领域标签提取第二特征,将所述第一特征与所述第二特征拼接后进行编码得到第三特征;对所述第三特征进行解码,得到多条候选文本,输出第一文本候选列表,所述第一文本候选列表包括所述多条候选文本。本申请通过使用多领域自适应的方法,利用丰富资源领域预训练模型、多目标领域数据及多目标领域鉴别特征来提升在多个目标领域上的语音识别性能。
-
-
-
-
-
-
-
-
-