一种基于堆栈记忆网络的多模态语音合成方法及系统

    公开(公告)号:CN116543749B

    公开(公告)日:2023-09-15

    申请号:CN202310814315.9

    申请日:2023-07-05

    Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。

    一种多模态三维说话人追踪方法及装置

    公开(公告)号:CN118115541A

    公开(公告)日:2024-05-31

    申请号:CN202410360420.4

    申请日:2024-03-27

    Abstract: 本发明涉及人机交互技术领域,特别是指一种多模态三维说话人追踪方法及装置,方法包括:利用麦克风阵列捕获的多通道音频信号和单目摄像机获取的视频流作为输入,通过音频和视频信息的互补融合提高定位性能,并建立广义标签多伯努利框架实现平滑跟踪。本发明使用麦克风阵列采集的多通道音频信号和视频流进行说话人跟踪,对视频估计的说话人位置进行精确修正,解决了逆境条件下确定说话人真实位置的困难。创造性地提出了基于广义标签多伯努利滤波器的说话人跟踪方法,为广义标签多伯努利滤波器提供了新的视频辅助多通道音频线性搜索功能,有效处理位置估计中的异常值,并在漏检期间保持跟踪。

    一种基于堆栈记忆网络的多模态语音合成方法及系统

    公开(公告)号:CN116543749A

    公开(公告)日:2023-08-04

    申请号:CN202310814315.9

    申请日:2023-07-05

    Abstract: 本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统,涉及视频和语音处理技术领域,包括:用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性,即利用人脸控制合成语音的音色。在训练和推理时,通过引入的视频‑语音堆栈记忆网络,显式的利用视频检索对应语音,并从检索得到的语音中提取风格特征,解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性,定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态,而非利用距离损失去最小化不同模态信息提取的特征之间的距离。

    基于双路径Transformer的生成对抗网络协同手势合成方法及装置

    公开(公告)号:CN118334247B

    公开(公告)日:2024-12-13

    申请号:CN202410477682.9

    申请日:2024-04-19

    Abstract: 本发明公开了一种基于双路径Transformer的生成对抗网络协同手势合成方法及装置,涉及人机交互技术领域。包括:获取文本数据、音频数据以及说话者身份数据,输入到构建好的基于Transformer的跨模态融合网络模型,得到手势合成结果;其中,基于Transformer的跨模态融合网络模型包括:前端单模态编码器模块、跨模态融合模块以及手势翻译模块。本发明引入了一种创新性的多模态融合机制,实现端到端的协同语音手势生成。融合机制通过并行定向跨模态Transformer和交互式级联二维注意力模块的协同作用进行,填补了单个模态的不足,有助于模型将焦点集中在与手势相关的上下文和语音信息上。实现了无需预定义的三维手势生成,而非仅限于简单地预测手势类别,并在实现上取得了最优效果。

    一种基于听觉与触觉的水杯水位检测方法及装置

    公开(公告)号:CN117288294A

    公开(公告)日:2023-12-26

    申请号:CN202311459279.5

    申请日:2023-11-03

    Abstract: 本发明公开了一种基于听觉与触觉的水杯水位检测方法及装置,涉及检测水位技术领域。包括:将听觉数据输入到构建好的听觉特征提取模型进行特征提取得到听觉信息;将触觉数据输入到构建好的触觉特征提取模型进行特征提取得到触觉信息;对听觉信息以及触觉信息进行拼接得到多模态特征;根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。本发明引入触觉传感器,通过容器所含液体的增加使触觉传感器变形程度增加判断液体所含多少,结合倒水时的音频,采用神经网络预测液体含量具体的百分比,通过多模态的数据更细致地确定液体含量,提高预测的准确性及在各个环境中的普适性。

    语音生成方法、装置、设备、存储介质及产品

    公开(公告)号:CN119479609A

    公开(公告)日:2025-02-18

    申请号:CN202411585657.9

    申请日:2024-11-06

    Abstract: 本申请实施例提供了一种语音生成方法、装置、设备、存储介质及产品,该方法包括:提取待处理文本的文本特征,并提取待处理场景图像的场景图像特征。基于图像特征和声学特征之间的映射关系,对该场景图像特征进行映射处理,得到该场景图像特征对应的声学特征。基于该文本特征和该场景图像特征对应的声学特征,生成与待处理文本相对应,且与该待处理场景图像所指示场景的环境音效相匹配的目标语音。本申请实施例的技术方案在生成文本对应的语音的过程中考虑场景图像所指示的环境因素,在能传达预期信息的同时,还能准确反映场景图像所对应的场景,使得生成的语音更具沉浸感和真实感,在一定程度上提高了语音生成的效果。

    一种具有选择性听觉的目标说话人追踪方法及系统

    公开(公告)号:CN118053443A

    公开(公告)日:2024-05-17

    申请号:CN202410043472.9

    申请日:2024-01-11

    Abstract: 本发明提供一种具有选择性听觉的目标说话人追踪方法及系统,涉及语音识别技术领域。所述方法包括:利用一对麦克风捕获包含目标说话人和干扰说话人的混合音频,并给定目标说话人预注册的参考音频;对混合音频和参考音频分别进行短时傅里叶变换,得到混合频谱图和参考频谱图;将混合频谱图和参考频谱图输入预训练的声音滤波器中,生成针对目标说话人的掩码;将掩码与混合频谱图相乘,生成被掩码的频谱图;将被掩码的频谱图输入至预设计的LSTM网络模块进行方位角估算,得到估算的目标说话人的方位角。本发明能够只关注目标说话人的语音内容,忽视其他背景干扰声,从而实现更精确和可靠的目标说话人追踪。

    一种基于空间线索的语音-图像跨模态检索方法及装置

    公开(公告)号:CN116821381B

    公开(公告)日:2023-12-01

    申请号:CN202311104574.9

    申请日:2023-08-30

    Abstract: 本发明公开了一种基于空间线索的语音‑图像跨模态检索方法及装置,涉及计算机视觉和语音处理技术领域。包括:将语音信号输入到音频编码器,得到空间相关的声学特征;将图像信息输入到图像编码器,得到场景图像特征;对特征进行CSIR,得到跨模态检索结果。本发明通过使用深度学习和相关算法,能够对图像和语音之间的空间关联性进行分析与建模,从而实现图像和语音之间的跨模态检索。与以往的跨模态检索方法只针对语音‑图像的共同语义信息建模不同,本发明重点关注不同模态之间的空间语义一致性,通过深入研究图像和语音之间的空间属性联系,本发明可以帮助用户更高效地检索相关的图像和语音内容,提供更好的交互体验和信息管理

    一种多模态的表现性语音合成方法及装置

    公开(公告)号:CN116386590A

    公开(公告)日:2023-07-04

    申请号:CN202310613237.6

    申请日:2023-05-29

    Abstract: 本发明公开了一种多模态的表现性语音合成方法及装置,属于语音合成技术领域,方法包括:将噪声语谱图和与噪声语谱图对应的第一无声视频序列输入至噪声掩码编码器,通过噪声掩码编码器获得去噪掩码;将第二无声视频序列输入至多尺度风格编码器,通过多尺度风格编码器提供多尺度的风格嵌入;将文本信息输入至文本编码器,通过文本编码器获得文本信息嵌入;文本信息嵌入序列经过变量适配器的处理,获得帧级别的语音特征;将帧级别的语音特征与去噪掩码相乘,获得去噪后的帧级别的语音特征;将去噪后的帧级别的语音特征与风格嵌入在通道维度上进行拼接;将拼接得到的特征序列输入至解码器,通过解码器合成干净的语谱图。

    一种说话人提取方法及系统
    10.
    发明公开

    公开(公告)号:CN118865940A

    公开(公告)日:2024-10-29

    申请号:CN202410848619.1

    申请日:2024-06-27

    Abstract: 本发明提供一种说话人提取方法及系统,涉及语音识别技术领域,方法包括:获取文本信息和待识别混合音频,所述待识别混合音频中包括目标说话人的目标语音;将所述文本信息和所述待识别音频输入至语音识别模型,确定所述目标说话人,所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者。本发明通过获取文本信息和待识别混合音频,并将所述文本信息和所述待识别音频输入至语音识别模型,能够同时关注声音的频谱特征和文本信息,又因为所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者,能够利用混合音频场景下的视觉特性。

Patent Agency Ranking