-
公开(公告)号:CN116090440B
公开(公告)日:2024-06-14
申请号:CN202211718086.2
申请日:2022-12-29
Applicant: 中国科学院自动化研究所
IPC: G06F40/232 , G06F40/30
Abstract: 本发明提供一种基于反馈的口语文本转换方法、装置及电子设备,其中方法包括:基于待转化口语文本和初始纠错模型,获取初始书面文本;基于待转化口语文本和初始书面文本,确定奖励信息;将待转化口语文本输入至口语文本转换模型中,得到口语文本转换模型输出的目标书面文本;其中,口语文本转换模型是基于奖励信息的反馈信号对初始纠错模型的模型参数进行强化学习后确定的模型。本发明能够避免现有采用完全监督学习学习的口语转换模型不能提升口语文本转换为书面文本的精确性和适用性的缺陷,并且能够通过使用无标注的口语文本在无监督和强化学习条件下生成口语转换模型的方式,大幅提升口语文本转换为书面文本的精确性和适用性。
-
公开(公告)号:CN112466306B
公开(公告)日:2023-07-04
申请号:CN201910766155.9
申请日:2019-08-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种会议纪要生成方法、装置、计算机设备及存储介质,所述方法包括:调用语音采集设备采集会议过程的全程语音,调用图像采集设备采集会议过程的全程图像;从全程语音中提取单通道语音,从单通道语音中分别提取多个语音分段数据流;针对每个语音分段数据流,从全程图像中截取与该语音分段数据流对应的图像分段数据流;将每个语音分段数据流以及对应的图像分段数据流输入语音发出者检测模型,提取多个对应的语音发出者身份信息以及位置信息;将每个语音分段数据流,以及对应的语音发出者身份信息、位置信息输入语音识别模型,提取多个对应的语音转录文字;依次记录每个语音转录文字以及对应的语音发出者身份信息,生成会议纪要。
-
公开(公告)号:CN106126596B
公开(公告)日:2019-08-23
申请号:CN201610447676.4
申请日:2016-06-20
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F17/27
Abstract: 本发明提供了一种基于层次化记忆网络的问答方法,首先进行句粒度记忆编码,并在问题语义编码的刺激下,通过多轮迭代的注意力机制完成句粒度记忆单元的信息推理,通过k最大采样对句子进行筛选,在句粒度记忆编码的基础上还进行词粒度记忆编码,即在两个层次进行记忆编码,形成层次化的记忆编码,利用句粒度和词粒度记忆单元联合预测输出词概率分布,提高了自动问答的准确性,有效解决了低频词和未登录词的答案选择问题。
-
公开(公告)号:CN106126596A
公开(公告)日:2016-11-16
申请号:CN201610447676.4
申请日:2016-06-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于层次化记忆网络的问答方法,首先进行句粒度记忆编码,并在问题语义编码的刺激下,通过多轮迭代的注意力机制完成句粒度记忆单元的信息推理,通过k最大采样对句子进行筛选,在句粒度记忆编码的基础上还进行词粒度记忆编码,即在两个层次进行记忆编码,形成层次化的记忆编码,利用句粒度和词粒度记忆单元联合预测输出词概率分布,提高了自动问答的准确性,有效解决了低频词和未登录词的答案选择问题。
-
公开(公告)号:CN112397089A
公开(公告)日:2021-02-23
申请号:CN201910766157.8
申请日:2019-08-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种语音发出者身份识别方法、装置、计算机设备及存储介质,所述方法包括:调用语音采集设备采集会议过程的全程语音,调用图像采集设备采集会议过程的全程图像;从全程语音中提取单通道语音,从单通道语音中分别提取多个语音分段数据流;针对每个语音分段数据流,从全程图像中截取与该语音分段数据流对应的图像分段数据流;将每个语音分段数据流输入听觉处理子网络模型中,得到多个对应听觉隐层特征,将每个图像分段数据流输入视觉处理子网络模型中,得到多个对应视觉隐层特征;选择听觉隐层特征以及视觉隐层特征进行融合,根据融合结果识别语音发出者身份。
-
公开(公告)号:CN116504248A
公开(公告)日:2023-07-28
申请号:CN202310345272.4
申请日:2023-03-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于层次化蒸馏的语音识别模型的训练方法、装置、电子设备和存储介质,其中方法包括:确定训练语音文本对,得到训练语音文本对对应的高阶声学表征,并确定训练语音文本对对应的语言学表征;基于预训练语言模型确定训练语音文本对的预训练语言学表征,并对高阶声学表征和预训练语言学表征进行归一化处理,得到第一归一表征和第二归一表征;基于第一归一表征和第二归一表征得到声学层次的第一蒸馏损失,以及基于语言学表征和预训练语言学表征得到语言学层次的第二蒸馏损失;基于声学层次的第一蒸馏损失和语言学层次的第二蒸馏损失,确定语音识别模型是否训练完成,并在训练完成时得到语音识别模型。提高了语音识别模型的识别准确率。
-
公开(公告)号:CN116110378B
公开(公告)日:2023-07-18
申请号:CN202310383270.4
申请日:2023-04-12
Applicant: 中国科学院自动化研究所
Abstract: 本申请提供一种模型训练方法、语音识别方法、装置和电子设备,涉及语音识别技术领域。该方法包括:获取基于连续整合发放CIF机制训练得到的语音识别模型,并基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数,分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化;再基于语音样本、语音样本对应的视觉图像样本和文本样本对初始化后的多模态语音识别模型进行训练,使得训练出的多模态语音识别模型在进行语音识别时,在多模态语音识别中引入了情境视觉知识和情境语言知识,有效地提高了语音识别性能,拓展了多模态语音识别的边界。
-
公开(公告)号:CN113035225B
公开(公告)日:2023-02-28
申请号:CN201911252373.7
申请日:2019-12-09
Applicant: 中国科学院自动化研究所
IPC: G10L21/0272 , G10L25/30 , G10L17/18 , H04N21/44
Abstract: 本发明实施例涉及一种视觉声纹辅助的语音分离方法和装置,所述方法包括:对采集到的混合语音数据进行音频处理,得到该混合语音数据的隐层表示;对采集到的目标对象的视频数据进行视频处理,得到该视频数据的隐层表示;所述视频数据与所述混合语音数据在时间维度上对齐;基于所述视频数据的隐层表示,确定目标对象的身份信息;基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据。由此,可以实现混合语音数据中分离出目标对象的语音数据。
-
公开(公告)号:CN108109619B
公开(公告)日:2021-07-06
申请号:CN201711127669.7
申请日:2017-11-15
Applicant: 中国科学院自动化研究所
IPC: G10L15/22 , G10L19/00 , G10L21/0208 , G10L21/0272 , G10L25/30
Abstract: 本发明属于语音分离技术领域,具体涉及基于记忆和注意力模型的听觉选择方法和装置。旨在解决现有技术中监督标签的排列、说话人混叠数目不确定以及记忆单元维度固定的问题。本发明提供一种基于记忆和注意力模型的听觉选择方法,包括将原始语音信号编码为时频矩阵,对时频矩阵进行编码和变换,将其转化为语音向量,利用长时记忆单元存储说话人以及其对应的语音向量,获取目标说话人的语音向量,通过注意力选择模型从原始语音信号中分离出目标语音。本发明提供的方法能够不需要固定或者指定说话人的数目,从原始语音信号中分离出目标语音。
-
公开(公告)号:CN113035225A
公开(公告)日:2021-06-25
申请号:CN201911252373.7
申请日:2019-12-09
Applicant: 中国科学院自动化研究所
IPC: G10L21/0272 , G10L25/30 , G10L17/18 , H04N21/44
Abstract: 本发明实施例涉及一种视觉声纹辅助的语音分离方法和装置,所述方法包括:对采集到的混合语音数据进行音频处理,得到该混合语音数据的隐层表示;对采集到的目标对象的视频数据进行视频处理,得到该视频数据的隐层表示;所述视频数据与所述混合语音数据在时间维度上对齐;基于所述视频数据的隐层表示,确定目标对象的身份信息;基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据。由此,可以实现混合语音数据中分离出目标对象的语音数据。
-
-
-
-
-
-
-
-
-