Patent search ap:("中国科学院声学研究所" OR "国家计算机网络与信息安全管理中心") AND inv:"徐及" Page 1

1.

发明公开
一种端到端的多语言连续语音流语音内容识别方法及系统有权

公开(公告)号：CN113077785A

公开(公告)日：2021-07-06

申请号：CN201911300918.7

申请日：2019-12-17

Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心

Inventor： 徐及 , 林格平 , 刘丹阳 , 万辛 , 张鹏远 , 李娅强 , 刘发强 , 颜永红

IPC: G10L15/08 , G10L15/00 , G10L15/06 , G10L15/16

Abstract: 本发明属于网络通信技术领域，具体涉及一种端到端的多语言连续语音流语音内容识别方法，该方法包括：将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型，提取语句级别语种状态后验概率分布向量；将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量输入至预先构建的多语言语音识别模型，输出对应语言种类的语音识别结果。

2.

发明公开
一种全音素框架下的通用语音唤醒识别方法及系统无效

公开(公告)号：CN108281137A

公开(公告)日：2018-07-13

申请号：CN201710002097.3

申请日：2017-01-03

Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心

Inventor： 徐及 , 张震 , 李文凤 , 李鹏 , 颜永红

IPC: G10L15/02 , G10L15/06 , G10L15/08 , G10L15/183 , G10L17/02 , G10L17/04 , G10L19/16 , G10L25/30

Abstract: 本发明公开了一种全音素框架下的通用语音唤醒识别方法及系统，所述方法包括：首先训练深度神经网络声学模型，根据唤醒词修改词典，构造基于filler的解码网络，并根据训练样本训练支持向量机分类器；对输入语音进行预处理，将处理后的语音特征输入解码网络进行解码，根据深度神经网络声学模型计算声学得分，得到解码结果；将识别成功的解码结果的统计量输入支持向量机分类器进行分类，得到最终的识别结果。本发明的方法对全部无调音素扩展得到的三音子状态进行建模得到的是通用声学模型，解码过程中限制解码路径，可以提高唤醒性能，同时结合后期处理部分通过对每条路径上音素后验概率等多维统计量进行分析，消除虚警率升高的隐患。

3.

发明公开
一种基于光学字符识别的传真图像分类方法无效

公开(公告)号：CN110119648A

公开(公告)日：2019-08-13

申请号：CN201810111564.0

申请日：2018-02-05

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所

Inventor： 高圣翔 , 黄远 , 万辛 , 安茂波 , 李鹏 , 孙晓晨 , 沈亮 , 金鑫 , 徐及 , 刘珈麟 , 颜永红

IPC: G06K9/00 , G06K9/34 , G06K9/40 , G06K9/62

Abstract: 本发明公开了一种基于光学字符识别的传真图像分类方法，所述方法包括：步骤1)对扫描得到的传真图像进行噪声消除；步骤2)对噪声消除后的传真图像进行二值化处理；步骤3)对步骤2)得到的二值化图像进行仿射变换校准文本；步骤4)利用OCR方法对步骤3)处理后的传真图像进行识别，得到编码为UTF-8的输出字符串和转写置信度；步骤5)对字符串进行关键词正则匹配，得到传真图像的分类。本发明的方法利用频谱噪声消除和灰度图像二值化的预处理，在满足实时性要求的前提下提升了电子扫描得到的传真图像的质量；使传真图像能够使用基于OCR的分类方法，由此实现了传真图像的自动化分类。

4.

发明授权
一种端到端的多语言连续语音流语音内容识别方法及系统有权

公开(公告)号：CN113077785B

公开(公告)日：2022-07-12

申请号：CN201911300918.7

申请日：2019-12-17

Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心

Inventor： 徐及 , 林格平 , 刘丹阳 , 万辛 , 张鹏远 , 李娅强 , 刘发强 , 颜永红

IPC: G10L15/08 , G10L15/00 , G10L15/06 , G10L15/16

Abstract: 本发明属于网络通信技术领域，具体涉及一种端到端的多语言连续语音流语音内容识别方法，该方法包括：将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型，提取语句级别语种状态后验概率分布向量；将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量输入至预先构建的多语言语音识别模型，输出对应语言种类的语音识别结果。

5.

发明公开
一种基于窗口输入的双向回馈神经网络的语音识别方法有权转让

公开(公告)号：CN111091817A

公开(公告)日：2020-05-01

申请号：CN201811242398.4

申请日：2018-10-24

Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司

Inventor： 徐及 , 程高峰 , 潘接林 , 颜永红

IPC: G10L15/16 , G10L15/26 , G10L15/06 , G10L25/45

Abstract: 本发明公开了一种基于窗口输入的双向回馈神经网络的语音识别方法，所述方法包括：步骤1)建立和训练基于窗口输入的双向回馈神经网络BLSTM-E；步骤2)将待识别的语音帧输入步骤1)的基于窗口输入的双向回馈神经网络BLSTM-E，通过BLSTM-E的前向计算，计算出每个语音帧的后验概率；步骤3)将步骤2)中每个语音帧的后验概率输入解码器，解码器在语言模型的限制下，利用维特比算法在状态空间中搜索一条最优的结果作为识别结果。本发明提出的基于窗口输入的双向回馈神经网络BLSTM-E的语音识别方法，能够在每一帧的语音判决过程中将更广的时间域内的信息利用起来，取得了相比于传统BLSTM语音识别方法更精确的识别结果。

6.

发明公开
一种水下声源定位方法有权转让

公开(公告)号：CN109975762A

公开(公告)日：2019-07-05

申请号：CN201711454053.0

申请日：2017-12-28

Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司

Inventor： 徐及 , 黄兆琼 , 颜永红

IPC: G01S5/20 , G06N3/08

Abstract: 本发明涉及一种水下声源定位方法，包括以下步骤：将通过水听器阵列接收的声源信号转换成数字声音信号；对所述数字声音信号进行做傅里叶变换；在信号带宽内每个频率上计算数据协方差矩阵，然后通过特征值分解提取能表征信号方位信息的特征向量；在训练阶段，利用时延神经网络学习训练样本，得到特征向量和声源方位的映射关系模型；在测试阶段，输入测试样本的特征向量到训练好的模型，得到声源的距离和深度估计值。本发明利用深度神经网络，实现鲁棒而高效的水下声源定位。

7.

发明公开
一种基于混合声学模型的语音识别系统及方法有权转让

公开(公告)号：CN109754790A

公开(公告)日：2019-05-14

申请号：CN201711059592.4

申请日：2017-11-01

Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司

Inventor： 徐及 , 程高峰 , 潘接林 , 颜永红

IPC: G10L15/22 , G10L15/16

Abstract: 本发明公开了一种基于混合声学模型的语音识别系统和方法，所述系统包括：信号处理及特征提取模块、发音词典、语言模型和解码器；所述系统还包括：混合声学模型；所述混合声学模型包括：前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络；所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前；所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接，一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。本发明的系统基于卷积神经网络对特征的平移变换有更鲁棒的建模能力，能够有效降低模型识别错误率，提升多个任务集上的语音识别性能。

8.

发明公开
一种黏着语语音识别方法及系统失效

公开(公告)号：CN103021407A

公开(公告)日：2013-04-03

申请号：CN201210551676.0

申请日：2012-12-18

Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司

Inventor： 颜永红 , 徐及 , 潘接林

IPC: G10L15/02 , G10L15/08

Abstract: 本发明实施例涉及韩语语音识别方法及系统。所述方法包括：提取语音长时特征；对所述长时特征计算扩展音素集后验概率；对所述后验概率进行主成分分析PCA降维处理，得到基于所述长时特征的多层感知MLP特征；将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别，得到识别结果。本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类，有效降低声学模型的混淆程度，提高了语音识别的效果。

9.

发明授权
一种基于条件对抗神经网络的水下目标数据扩增方法及系统有权

公开(公告)号：CN112434716B

公开(公告)日：2024-03-29

申请号：CN201910774388.3

申请日：2019-08-21

Applicant: 中国科学院声学研究所

Inventor： 徐及 , 李琛 , 颜永红

IPC: G06F18/24 , G06F18/213 , G06F18/10 , G01S15/00 , G01H3/00 , G06N3/0475 , G06N3/045 , G06N3/094

Abstract: 本发明公开了一种基于条件对抗生成网络的水下目标数据扩增方法及系统，所述方法包括：将某一目标类别对应的one‑hot向量与随机高斯白噪声级联，输入预先训练好的生成器，输出该目标类别的生成样本。本发明的方法能够利用少量的水下目标数据产生足量的与原样本类似的数据，使得其数据量能够满足深度学习的需求；而且能够利用一个模型实现多个目标类别的样本生成。

10.

发明授权
一种基于无监督特征优化的信号分类方法及系统有权转让

公开(公告)号：CN112949671B

公开(公告)日：2023-06-30

申请号：CN201911266932.X

申请日：2019-12-11

Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司

Inventor： 徐及 , 李琛 , 颜永红

IPC: G06F18/2415 , G06F18/213 , G06N3/047 , G06N3/048 , G06N3/088

Abstract: 本发明公开了一种基于无监督特征优化的信号分类方法及系统，所述方法包括：将待分类的信号进行预处理和分帧；提取每一帧信号的基于能量的时频分类特征；将每一帧信号的能量特征输入预先训练的无监督特征优化网络，输出优化特征；所述无监督特征优化网络的准则为最大化类间距离并最小化类内距离；将优化特征输入预先训练的分类器，输出分类结果。本发明的方法能够最大化利用训练样本的类内‑类间的关系，使得神经网络学习到的表征特征更具判别性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification