Patent search ap:("中国科学院自动化研究所") AND inv:"田正坤" Page 1

1.

发明授权
基于知识迁移的电话信道虚假语音鉴别方法及存储介质有权

公开(公告)号：CN113380235B

公开(公告)日：2021-11-16

申请号：CN202110931452.1

申请日：2021-08-13

Applicant: 中国科学院自动化研究所

Inventor： 易江燕 , 陶建华 , 田正坤 , 傅睿博

IPC: G10L15/02 , G10L15/06 , G10L15/16 , G10L25/30 , G10L25/51

Abstract: 本发明提供一种基于知识迁移的电话信道虚假语音鉴别方法，包括：将利用麦克风信道语音数据训练而得的鉴别模型作为麦克风信道模型，将利用电话信道语音训练数据训练得到的声学模型视为电话信道模型；在所述电话信道模型训练过程中，应用所述麦克风信道模型指导所述电话信道模型进行训练，使得所述电话信道模型模仿所述麦克风信道模型的行为，即迫使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布；应用训练后的电话信道模型对电话信道语音进行预测，得到电话信道语音的真假判别结果。

2.

发明公开
基于层级区分的生成音频检测系统有权

公开(公告)号：CN113284508A

公开(公告)日：2021-08-20

申请号：CN202110827718.8

申请日：2021-07-21

Applicant: 中国科学院自动化研究所

Inventor： 陶建华 , 田正坤 , 易江燕

IPC: G10L25/30 , G10L25/03

Abstract: 本发明提供基于层级区分的生成音频检测系统，包括：音频预处理模块、CQCC特征提取模块、LFCC特征提取模块、第一阶段轻量初步筛选模型和第二阶段深度鉴别模型；音频预处理模块对采集到的音视频数据进行数据预处理，得到长度不超过限定的音频片段；将音频片段分别输入CQCC特征提取模块和LFCC特征提取模块，得到CQCC特征和LFCC特征；将CQCC特征或者LFCC特征输入第一阶段轻量初步筛选模型进行第一阶段筛选，筛选出第一阶段真实语音和第一阶段生成语音；将第一阶段生成语音的CQCC特征或者LFCC特征输入所述第二阶段深度鉴别模型，鉴别出第二阶段真实语音和第二阶段生成语音，第二阶段生成语音确认为生成语音。

3.

发明公开
语音识别方法、系统、电子设备和存储介质有权

公开(公告)号：CN113948085A

公开(公告)日：2022-01-18

申请号：CN202111577269.2

申请日：2021-12-22

Applicant: 中国科学院自动化研究所

Inventor： 陶建华 , 田正坤 , 易江燕

IPC: G10L15/22 , G10L15/26 , G10L19/24

Abstract: 本发明实施例公开了一种语音识别方法、系统、电子设备和存储介质，涉及语音识别技术领域。该实施例包括：对待识别音频进行编码表示，获得所述待识别音频的声学编码状态向量序列；对所述待识别音频的声学编码状态向量序列进行稀疏编码，获得声学编码稀疏向量；确定预设的词表中每一标签的文本预测向量；根据所述声学编码稀疏向量和所述文本预测向量，识别所述待识别音频，确定与所述待识别音频对应的文本内容。本发明实施例通过对待识别音频的声学编码状态向量进行稀疏编码，得到待识别音频的声学编码稀疏向量，从而降低编码帧数以实现降低计算代价，提升语音识别的速度。

4.

发明授权
篡改音频的篡改区域检测方法、装置及存储介质有权

公开(公告)号：CN113555037B

公开(公告)日：2022-01-11

申请号：CN202111103012.3

申请日：2021-09-18

Applicant: 中国科学院自动化研究所

Inventor： 易江燕 , 陶建华 , 田正坤 , 傅睿博

IPC: G10L25/51 , G10L25/30 , G06N3/08 , G06N3/04

Abstract: 本公开涉及一种篡改音频的篡改区域的检测方法、装置及存储介质，上述方法包括：获取待检测信号，并提取所述待检测信号的声学特征；将所述声学特征输入篡改区域检测模型，输出每帧所述待检测信号的标签，其中，所述篡改区域检测模型已通过训练，学习并保存有所述声学特征和所述标签的对应关系，所述标签用于表示所述待检测信号中每一帧信号是否被篡改；通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理，得到所述待检测信号被篡改的起始位置和终止位置。采用上述技术手段，解决现有技术中，根据音频的局部信息检测音频的篡改区域时，现有技术对音频的篡改区域检测准确率低的问题。

5.

发明公开
一种融合组合模型信息的语音鉴别模型压缩方法有权

公开(公告)号：CN113362814A

公开(公告)日：2021-09-07

申请号：CN202110910114.X

申请日：2021-08-09

Applicant: 中国科学院自动化研究所

Inventor： 易江燕 , 陶建华 , 田正坤 , 傅睿博

IPC: G10L15/06 , G10L15/02 , G10L15/16 , G10L25/30 , G10L25/51

Abstract: 本发明提供一种融合组合模型信息的语音鉴别模型压缩方法，包括：采集目标模型的训练数据；提取所述目标模型的训练数据的声学特征；从目标模型的训练数据中提取样本标签信息，作为硬标签信息；同时采用前向计算方法，得到组合模型的后验概率信息；将组合模型的后验概率信息与硬标签信息进行线性插值，得到组合模型的监督概率信息；利用组合模型的监督概率信息辅助目标模型进行训练，通过最小化目标模型和组合模型的概率分布距离，得到训练后的目标模型。

6.

发明公开
篡改音频的篡改区域检测方法、装置及存储介质有权

公开(公告)号：CN113555037A

公开(公告)日：2021-10-26

申请号：CN202111103012.3

申请日：2021-09-18

Applicant: 中国科学院自动化研究所

Inventor： 易江燕 , 陶建华 , 田正坤 , 傅睿博

IPC: G10L25/51 , G10L25/30 , G06N3/08 , G06N3/04

Abstract: 本公开涉及一种篡改音频的篡改区域的检测方法、装置及存储介质，上述方法包括：获取待检测信号，并提取所述待检测信号的声学特征；将所述声学特征输入篡改区域检测模型，输出每帧所述待检测信号的标签，其中，所述篡改区域检测模型已通过训练，学习并保存有所述声学特征和所述标签的对应关系，所述标签用于表示所述待检测信号中每一帧信号是否被篡改；通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理，得到所述待检测信号被篡改的起始位置和终止位置。采用上述技术手段，解决现有技术中，根据音频的局部信息检测音频的篡改区域时，现有技术对音频的篡改区域检测准确率低的问题。

7.

发明公开
一种流式和非流式混合语音识别系统及流式语音识别方法有权

公开(公告)号：CN113257248A

公开(公告)日：2021-08-13

申请号：CN202110675286.3

申请日：2021-06-18

Applicant: 中国科学院自动化研究所

Inventor： 陶建华 , 田正坤 , 易江燕

IPC: G10L15/26 , G10L15/16 , G10L15/06

Abstract: 本发明提供一种流式和非流式混合语音识别系统，包括：流式编码器、联结时序分类解码器和注意力机制解码器；流式编码器采用基于局部自注意力机制的Transformer来进行构建；联结时序分类解码器包含一个线性映射层，负责将编码状态映射到预先设计好的词表空间，使编码状态映射表示的维度与词表空间的维度相同，然后通过Softmax计算预测到的标记，用于流式解码；注意力机制解码器采用Transformer解码器来构建，由前端卷积层和多层重复的单向Transformer编码层组成，最后一层为线性映射层，使编码状态映射表示的维度与词表空间的维度相同，并计算最终输出的概率。

8.

发明授权
语音识别模型的训练方法、语音识别方法和系统有权

公开(公告)号：CN113936647B

公开(公告)日：2022-04-01

申请号：CN202111548060.3

申请日：2021-12-17

Applicant: 中国科学院自动化研究所

Inventor： 陶建华 , 田正坤 , 易江燕

IPC: G10L15/06 , G10L15/22 , G10L15/26 , G10L19/16 , G10L25/03 , G10L25/24

Abstract: 本发明实施例公开了一种语音识别模型的训练方法、语音识别方法和系统，涉及语音识别技术领域。该实施例包括：将音频训练样本输入声学编码器，对音频训练样本进行编码表示，确定声学编码状态向量；将预设的词表输入语言预测器中，确定文本预测向量；将文本预测向量线输入文本映射层，得到文本输出概率分布；根据音频训练样本对应的目标文本序列和文本输出概率分布，计算第一损失函数；将文本预测向量和声学编码状态向量输入联合网络，计算第二损失函数，根据第一损失函数和第二损失函数进行迭代优化，直至满足停止条件。本实施例对语音识别模型的训练、预测过程进行了调整，提高了该语义识别模型的建模能力，从而提高了该语音识别模型的准确率。

9.

发明授权
端到端语音转写模型的训练方法、系统、装置

公开(公告)号：CN110689879B

公开(公告)日：2022-02-25

申请号：CN201910958727.3

申请日：2019-10-10

Applicant: 中国科学院自动化研究所

Inventor： 陶建华 , 田正坤 , 易江燕

IPC: G10L15/14 , G10L15/16 , G10L15/06 , G10L15/02 , G10L15/26 , G10L25/24

10.

发明公开
语音识别模型的训练方法、语音识别方法和系统有权

公开(公告)号：CN113936647A

公开(公告)日：2022-01-14

申请号：CN202111548060.3

申请日：2021-12-17

Applicant: 中国科学院自动化研究所

Inventor： 陶建华 , 田正坤 , 易江燕

IPC: G10L15/06 , G10L15/22 , G10L15/26 , G10L19/16 , G10L25/03 , G10L25/24

Abstract: 本发明实施例公开了一种语音识别模型的训练方法、语音识别方法和系统，涉及语音识别技术领域。该实施例包括：将音频训练样本输入声学编码器，对音频训练样本进行编码表示，确定声学编码状态向量；将预设的词表输入语言预测器中，确定文本预测向量；将文本预测向量线输入文本映射层，得到文本输出概率分布；根据音频训练样本对应的目标文本序列和文本输出概率分布，计算第一损失函数；将文本预测向量和声学编码状态向量输入联合网络，计算第二损失函数，根据第一损失函数和第二损失函数进行迭代优化，直至满足停止条件。本实施例对语音识别模型的训练、预测过程进行了调整，提高了该语义识别模型的建模能力，从而提高了该语音识别模型的准确率。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification