一种基于堆栈记忆网络的多模态语音合成方法及系统

    公开(公告)号:CN116543749A

    公开(公告)日:2023-08-04

    申请号:CN202310814315.9

    申请日:2023-07-05

    Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。

    声纹识别模型的训练方法、声纹识别方法、装置及设备

    公开(公告)号:CN115424621B

    公开(公告)日:2023-04-07

    申请号:CN202211349630.0

    申请日:2022-10-31

    Abstract: 本发明实施例涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备,涉及语音识别领域,通过迭代执行对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定第一对比正对和对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,并确定第二对比正对;根据所述第一对比正对、第二对比正对和对比负对对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型;即本发明的实施例通过额外引入的说话人嵌入队列,选取最近邻正实例来构成额外的对比正对,使得训练出的声纹识别模型准确性更高。

    一种基于听觉与触觉的水杯水位检测方法及装置

    公开(公告)号:CN117288294A

    公开(公告)日:2023-12-26

    申请号:CN202311459279.5

    申请日:2023-11-03

    Abstract: 本发明公开了一种基于听觉与触觉的水杯水位检测方法及装置,涉及检测水位技术领域。包括:将听觉数据输入到构建好的听觉特征提取模型进行特征提取得到听觉信息;将触觉数据输入到构建好的触觉特征提取模型进行特征提取得到触觉信息;对听觉信息以及触觉信息进行拼接得到多模态特征;根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。本发明引入触觉传感器,通过容器所含液体的增加使触觉传感器变形程度增加判断液体所含多少,结合倒水时的音频,采用神经网络预测液体含量具体的百分比,通过多模态的数据更细致地确定液体含量,提高预测的准确性及在各个环境中的普适性。

    一种基于听觉与触觉的水杯水位检测方法及装置

    公开(公告)号:CN117288294B

    公开(公告)日:2024-06-04

    申请号:CN202311459279.5

    申请日:2023-11-03

    Abstract: 本发明公开了一种基于听觉与触觉的水杯水位检测方法及装置,涉及检测水位技术领域。包括:将听觉数据输入到构建好的听觉特征提取模型进行特征提取得到听觉信息;将触觉数据输入到构建好的触觉特征提取模型进行特征提取得到触觉信息;对听觉信息以及触觉信息进行拼接得到多模态特征;根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。本发明引入触觉传感器,通过容器所含液体的增加使触觉传感器变形程度增加判断液体所含多少,结合倒水时的音频,采用神经网络预测液体含量具体的百分比,通过多模态的数据更细致地确定液体含量,提高预测的准确性及在各个环境中的普适性。

    一种基于空间线索的语音-图像跨模态检索方法及装置

    公开(公告)号:CN116821381A

    公开(公告)日:2023-09-29

    申请号:CN202311104574.9

    申请日:2023-08-30

    Abstract: 本发明公开了一种基于空间线索的语音‑图像跨模态检索方法及装置,涉及计算机视觉和语音处理技术领域。包括:将语音信号输入到音频编码器,得到空间相关的声学特征;将图像信息输入到图像编码器,得到场景图像特征;对特征进行CSIR,得到跨模态检索结果。本发明通过使用深度学习和相关算法,能够对图像和语音之间的空间关联性进行分析与建模,从而实现图像和语音之间的跨模态检索。与以往的跨模态检索方法只针对语音‑图像的共同语义信息建模不同,本发明重点关注不同模态之间的空间语义一致性,通过深入研究图像和语音之间的空间属性联系,本发明可以帮助用户更高效地检索相关的图像和语音内容,提供更好的交互体验和信息管理能力。

    一种多模态的表现性语音合成方法及装置

    公开(公告)号:CN116386590B

    公开(公告)日:2023-08-15

    申请号:CN202310613237.6

    申请日:2023-05-29

    Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。

    一种基于空间线索的语音-图像跨模态检索方法及装置

    公开(公告)号:CN116821381B

    公开(公告)日:2023-12-01

    申请号:CN202311104574.9

    申请日:2023-08-30

    Abstract: 本发明公开了一种基于空间线索的语音‑图像跨模态检索方法及装置,涉及计算机视觉和语音处理技术领域。包括:将语音信号输入到音频编码器,得到空间相关的声学特征;将图像信息输入到图像编码器,得到场景图像特征;对特征进行CSIR,得到跨模态检索结果。本发明通过使用深度学习和相关算法,能够对图像和语音之间的空间关联性进行分析与建模,从而实现图像和语音之间的跨模态检索。与以往的跨模态检索方法只针对语音‑图像的共同语义信息建模不同,本发明重点关注不同模态之间的空间语义一致性,通过深入研究图像和语音之间的空间属性联系,本发明可以帮助用户更高效地检索相关的图像和语音内容,提供更好的交互体验和信息管理

    一种多模态的表现性语音合成方法及装置

    公开(公告)号:CN116386590A

    公开(公告)日:2023-07-04

    申请号:CN202310613237.6

    申请日:2023-05-29

    Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。

    一种基于堆栈记忆网络的多模态语音合成方法及系统

    公开(公告)号:CN116543749B

    公开(公告)日:2023-09-15

    申请号:CN202310814315.9

    申请日:2023-07-05

    Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。

    声纹识别模型的训练方法、声纹识别方法、装置及设备

    公开(公告)号:CN115424621A

    公开(公告)日:2022-12-02

    申请号:CN202211349630.0

    申请日:2022-10-31

    Abstract: 本发明实施例涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备,涉及语音识别领域,通过迭代执行对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定第一对比正对和对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,并确定第二对比正对;根据所述第一对比正对、第二对比正对和对比负对对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型;即本发明的实施例通过额外引入的说话人嵌入队列,选取最近邻正实例来构成额外的对比正对,使得训练出的声纹识别模型准确性更高。

Patent Agency Ranking