-
公开(公告)号:CN113936647A
公开(公告)日:2022-01-14
申请号:CN202111548060.3
申请日:2021-12-17
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例公开了一种语音识别模型的训练方法、语音识别方法和系统,涉及语音识别技术领域。该实施例包括:将音频训练样本输入声学编码器,对音频训练样本进行编码表示,确定声学编码状态向量;将预设的词表输入语言预测器中,确定文本预测向量;将文本预测向量线输入文本映射层,得到文本输出概率分布;根据音频训练样本对应的目标文本序列和文本输出概率分布,计算第一损失函数;将文本预测向量和声学编码状态向量输入联合网络,计算第二损失函数,根据第一损失函数和第二损失函数进行迭代优化,直至满足停止条件。本实施例对语音识别模型的训练、预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。
-
公开(公告)号:CN113936641A
公开(公告)日:2022-01-14
申请号:CN202111548173.3
申请日:2021-12-17
Applicant: 中国科学院自动化研究所
IPC: G10L15/00 , G10L15/02 , G10L15/06 , G10L15/183 , G06F40/126 , G06F40/237 , G06F40/284
Abstract: 本发明提供一种可定制的中英混合语音识别端到端系统,其中,系统包括:声学编码器、英文词表编码器、所述解码器和softmax函数。声学编码器、英文词表编码器‑解码器结构的端到端模型,声学编码器、英文词表编码器与解码器内部使用基于注意力的建模方式。模型可定制的方式是将需要定制化的英文单词或者英文词组进行提前编码,将离散的单词转化为模型的隐层表示,形成待检索向量列表。在进行识别过程时,解码器同时对声学特征的高维表示和英文词表的最终表示的序列进行注意力的计算。本发明具有能够实现针对不同领域的英文专有名词进行定制化模型,实现中英混合表达中英文的精准识别,同时减少模型对训练数据的依赖。
-
公开(公告)号:CN113284486B
公开(公告)日:2021-11-16
申请号:CN202110841144.X
申请日:2021-07-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种环境对抗的鲁棒语音鉴别方法,包括:采集语音鉴别模型训练数据;提取所述训练数据中每个语音句子的训练声学特征;将所述训练声学特征输入语音鉴别模型,所述语音鉴别模型包括:语音真假判别器和环境对抗判别器,联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数;得到训练后的语音鉴别模型;采集语音鉴别模型预测数据;提取所述预测数据中每个语音句子的预测声学特征;将所述预测声学特征输入训练后的去除环境对抗判别器的所述语音鉴别模型,输出语音的判别结果。
-
公开(公告)号:CN113284508B
公开(公告)日:2021-11-09
申请号:CN202110827718.8
申请日:2021-07-21
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于层级区分的生成音频检测系统,包括:音频预处理模块、CQCC特征提取模块、LFCC特征提取模块、第一阶段轻量初步筛选模型和第二阶段深度鉴别模型;音频预处理模块对采集到的音视频数据进行数据预处理,得到长度不超过限定的音频片段;将音频片段分别输入CQCC特征提取模块和LFCC特征提取模块,得到CQCC特征和LFCC特征;将CQCC特征或者LFCC特征输入第一阶段轻量初步筛选模型进行第一阶段筛选,筛选出第一阶段真实语音和第一阶段生成语音;将第一阶段生成语音的CQCC特征或者LFCC特征输入所述第二阶段深度鉴别模型,鉴别出第二阶段真实语音和第二阶段生成语音,第二阶段生成语音确认为生成语音。
-
公开(公告)号:CN113257248B
公开(公告)日:2021-10-15
申请号:CN202110675286.3
申请日:2021-06-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种流式和非流式混合语音识别系统,包括:流式编码器、联结时序分类解码器和注意力机制解码器;流式编码器采用基于局部自注意力机制的Transformer来进行构建;联结时序分类解码器包含一个线性映射层,负责将编码状态映射到预先设计好的词表空间,使编码状态映射表示的维度与词表空间的维度相同,然后通过Softmax计算预测到的标记,用于流式解码;注意力机制解码器采用Transformer解码器来构建,由前端卷积层和多层重复的单向Transformer编码层组成,最后一层为线性映射层,使编码状态映射表示的维度与词表空间的维度相同,并计算最终输出的概率。
-
公开(公告)号:CN110689879A
公开(公告)日:2020-01-14
申请号:CN201910958727.3
申请日:2019-10-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于电子信号处理技术领域,具体涉及一种端到端语音转写模型的训练方法、系统、装置,旨在解决端到端语音转写模型无法很好的学习语音数据的对齐信息的问题。本系统方法包括提取语音训练数据的特征,得到语音特征序列;通过GMM-HMM模型对语音特征序列进行强制对齐,得到对齐标注,并对各帧语音特征进行拼接;基于拼接后的语音特征序列和文本标注训练数据,对端到端语音转写模型进行训练,得到预设词表中每个词的概率分布及负对数损失值;获取对齐损失值;将对齐损失值和负对数损失值进行加权平均,得到联合损失值,并通过后向传播算法更新模型的参数;迭代训练模型。本发明能够准确的学习语音数据的对齐信息。
-
公开(公告)号:CN108682417A
公开(公告)日:2018-10-19
申请号:CN201810455011.7
申请日:2018-05-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于电子行业信号处理技术领域,旨在解决只具有少量标注数据的目标语种的声学模型判别性能低的问题。为此,本发明提供了一种语音识别中的小数据语音声学建模方法,包括:通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征;利用融合特征进行训练,以建立目标语种的声学模型。采用该方法有效地克服了现有技术中因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度。
-
公开(公告)号:CN106531157A
公开(公告)日:2017-03-22
申请号:CN201610971766.3
申请日:2016-10-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种语音识别中的正则化口音自适应方法,所述方法包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化目标函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。本发明中,通过对声学模型进行正则化自适应,提高了带口音的语音识别的准确率。
-
公开(公告)号:CN118366478B
公开(公告)日:2024-10-11
申请号:CN202410788550.8
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于音素间隔序列的生成音频鉴别与生成区域定位方法,可以应用于人工智能技术领域。该方法包括:对生成音频鉴别请求中待鉴别音频信号的音素进行标记,得到被标记音素;根据被标记音素的连续出现频率,构建待鉴别音频信号的初始音素间隔序列;基于生成音频鉴别请求中携带的生成音频鉴别方式,对初始音素间隔序列进行处理,得到目标音素间隔序列;将目标音素间隔序列输入到生成音频鉴别模型中,通过对提取到的多尺度动力学特征进行分析,输出待鉴别音频信号的真伪鉴别结果。该方法可以适用于生成音频的真假二值鉴别,得到生成音频的整体真伪结果,也适用于区域伪造检测和定位,得到属于真实音频以及属于生成音频的区域定位结果。
-
公开(公告)号:CN118053451B
公开(公告)日:2024-07-19
申请号:CN202410447623.7
申请日:2024-04-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种基于多模态大模型的模仿音频鉴别方法、装置和设备,应用于训练好的多模态大模型,多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型;通过将待鉴别音频输入到音频编码器中,获得音频特征;将音频特征输入到线性对齐层,获得对齐到文本模态的音频特征;将鉴伪音频的文本指令和文本模态的音频特征进行拼接,获得拼接特征;将拼接特征输入到预训练的大语言模型中,输出音频鉴别结果和鉴别原因;音频鉴别结果为真,表示音频是被模仿对象的真实音频;音频鉴别结果为假,表示音频是模仿对象针对被模仿对象所进行的模仿音频;鉴别原因是指做出所述音频鉴别结果的依据信息;实现了模仿音频的精确、快速检测。
-
-
-
-
-
-
-
-
-