-
公开(公告)号:CN111341319B
公开(公告)日:2023-05-16
申请号:CN201811559040.4
申请日:2018-12-19
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于局部纹理特征的音频场景识别方法,所述方法包括:将待识别的音频信号进行预处理后逐帧提取Mel‑fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。
-
公开(公告)号:CN110119648A
公开(公告)日:2019-08-13
申请号:CN201810111564.0
申请日:2018-02-05
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
Abstract: 本发明公开了一种基于光学字符识别的传真图像分类方法,所述方法包括:步骤1)对扫描得到的传真图像进行噪声消除;步骤2)对噪声消除后的传真图像进行二值化处理;步骤3)对步骤2)得到的二值化图像进行仿射变换校准文本;步骤4)利用OCR方法对步骤3)处理后的传真图像进行识别,得到编码为UTF-8的输出字符串和转写置信度;步骤5)对字符串进行关键词正则匹配,得到传真图像的分类。本发明的方法利用频谱噪声消除和灰度图像二值化的预处理,在满足实时性要求的前提下提升了电子扫描得到的传真图像的质量;使传真图像能够使用基于OCR的分类方法,由此实现了传真图像的自动化分类。
-
公开(公告)号:CN113420111B
公开(公告)日:2023-08-11
申请号:CN202110674586.X
申请日:2021-06-17
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06F40/126 , G06F40/289 , G06F40/30 , G06F18/24 , G06N3/02
Abstract: 本申请实施例公开了一种用于多跳推理问题的智能问答方法及装置,方法包括:获取问题文本;对问题文本进行语义编码,获得问题文本的语义编码表示;根据问题文本的语义编码表示,确定第一预测结果,第一预测结果为问题文本的至少一个问题主体所在位置的预测结果;根据问题文本的语义编码表示,确定第二预测结果,第二预测结果为问题文本的至少一个问题关系的预测结果;根据第一预测结果和第二预测结果,生成子问题文本,子问题文本包括至少一个子问题;根据筛选文档,对至少一个子问题依次进行回答,获得与至少一个子问题对应的答案,筛选文档包括至少一个子问题对应的答案;根据至少一个子问题对应的答案,确定问题文本的最终答案。
-
公开(公告)号:CN111354347B
公开(公告)日:2023-08-15
申请号:CN201811571564.5
申请日:2018-12-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/08
Abstract: 本发明提出了一种基于自适应热词权重的语音识别方法及系统,所述方法包括:生成热词网络并和静态解码网络一起加载到语音识别解码器中;将待识别的语音信号同步地在静态解码网络和热词网络上进行令牌传递,自适应地计算热词权重,并对静态解码网络上令牌的分数重新打分;输出解码结果。本发明的基于自适应热词权重的语音识别方法在一遍解码的过程中就能提升热词召回率,不影响解码的速度,并且自适应地计算热词权重既能有效地提高热词的召回率,不影响原先的解码速度,又能提高系统的鲁棒性。
-
公开(公告)号:CN113420111A
公开(公告)日:2021-09-21
申请号:CN202110674586.X
申请日:2021-06-17
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06F40/126 , G06F40/289 , G06F40/30 , G06K9/62 , G06N3/02
Abstract: 本申请实施例公开了一种用于多跳推理问题的智能问答方法及装置,方法包括:获取问题文本;对问题文本进行语义编码,获得问题文本的语义编码表示;根据问题文本的语义编码表示,确定第一预测结果,第一预测结果为问题文本的至少一个问题主体所在位置的预测结果;根据问题文本的语义编码表示,确定第二预测结果,第二预测结果为问题文本的至少一个问题关系的预测结果;根据第一预测结果和第二预测结果,生成子问题文本,子问题文本包括至少一个子问题;根据筛选文档,对至少一个子问题依次进行回答,获得与至少一个子问题对应的答案,筛选文档包括至少一个子问题对应的答案;根据至少一个子问题对应的答案,确定问题文本的最终答案。
-
公开(公告)号:CN112712096A
公开(公告)日:2021-04-27
申请号:CN201911022350.7
申请日:2019-10-25
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了基于深度递归非负矩阵分解的音频场景分类方法及系统,该方法包括:将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。本发明的方法将深度NMF用于音频场景分类,通过探索相邻帧之间NMF系数的递归关系,降低模型复杂度,提高泛化能力。
-
公开(公告)号:CN111354347A
公开(公告)日:2020-06-30
申请号:CN201811571564.5
申请日:2018-12-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/08
Abstract: 本发明提出了一种基于自适应热词权重的语音识别方法及系统,所述方法包括:生成热词网络并和静态解码网络一起加载到语音识别解码器中;将待识别的语音信号同步地在静态解码网络和热词网络上进行令牌传递,自适应地计算热词权重,并对静态解码网络上令牌的分数重新打分;输出解码结果。本发明的基于自适应热词权重的语音识别方法在一遍解码的过程中就能提升热词召回率,不影响解码的速度,并且自适应地计算热词权重既能有效地提高热词的召回率,不影响原先的解码速度,又能提高系统的鲁棒性。
-
公开(公告)号:CN111341319A
公开(公告)日:2020-06-26
申请号:CN201811559040.4
申请日:2018-12-19
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于局部纹理特征的音频场景识别方法,所述方法包括:将待识别的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。
-
公开(公告)号:CN113205801B
公开(公告)日:2024-03-19
申请号:CN202110498059.8
申请日:2021-05-08
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
Abstract: 本申请涉及一种恶意语音样本的确定方法、装置、计算机设备和存储介质。该方法包括:获取初始语音样本集;根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集;根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度;将恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。本方法基于语音样本子集的恶意类别以及恶意度可自动确定恶意语音样本,有利于提高恶意语音样本的确定效率。
-
公开(公告)号:CN111091809B
公开(公告)日:2023-05-23
申请号:CN201911051663.5
申请日:2019-10-31
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G10L15/00 , G10L15/02 , G10L15/08 , G06F18/2411 , G06F18/214 , G06F18/25
Abstract: 本发明提供一种深度特征融合的地域性口音识别方法和装置,方法包括:提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征;将瓶颈BN特征和滑动差分倒谱SDC特征输入预先训练后的支持向量机SVM分类器中,得到输出的待识别语音的语音类别。本发明采用多特征融合的语种识别系统,提取语音的深度特征,融合传统的SDC特征,输入SVM分类器,实现更鲁棒的语种识别功能,取得了对地域性方言普通话较好的分类效果。
-
-
-
-
-
-
-
-
-