语音合成生成方法、电子设备和存储介质

    公开(公告)号:CN119864006A

    公开(公告)日:2025-04-22

    申请号:CN202411904686.7

    申请日:2024-12-23

    Abstract: 本申请公开了一种语音合成生成方法、电子设备和存储介质。该方法包括:获取初始语音数据对应的初始语音特征和初始韵律特征;将所述初始语音特征和所述初始韵律特征进行拼接,得到初始待加噪对象;对所述初始待加噪对象进行加噪,得到加噪对象;将所述加噪对象和所述初始语音数据对应的音素序列输入到扩散模型,以对所述加噪对象进行去噪,得到目标对象,其中所述目标对象包括目标语音特征与目标韵律特征的组合;获取所述目标对象对应的目标语音数据。本申请提升了语音生成的自然度和表现力。

    对话模型训练方法、对话方法、系统、设备及介质

    公开(公告)号:CN119862964A

    公开(公告)日:2025-04-22

    申请号:CN202510345245.6

    申请日:2025-03-24

    Abstract: 本发明提供一种对话模型训练方法、对话方法、系统、设备及介质,涉及人机交互技术领域,该方法包括:根据样本对话中的当前样本用户输入信息和历史样本对话信息,生成当前样本对话状态信息;基于待训练策略网络和待训练价值网络进行树搜索,得到当前样本回复动作信息,以及当前样本回复动作信息对应的对话轨迹的全局奖励值;根据当前样本回复动作信息模拟生成的下一样本对话状态信息、当前样本对话状态信息、当前样本回复动作信息和全局奖励值,构建样本数据;根据样本数据,对待训练策略网络和待训练价值网络进行联合训练,以构建对话模型。本发明实现在对话时综合考虑长期回报和策略优化,由此提升多轮对话的生成质量、交互能力和用户体验感。

    情感识别方法、装置、电子设备和计算机程序产品

    公开(公告)号:CN119851698A

    公开(公告)日:2025-04-18

    申请号:CN202411990365.3

    申请日:2024-12-31

    Abstract: 本申请提出一种情感识别方法、装置、电子设备和计算机程序产品,该方法能够对语音数据进行识别,得到语音数据对应的文本数据和对象切换点。然后按照对象切换点进行切分,得到语音数据对应的多个语音数据单元,以及文本数据对应的多个文本数据单元,其中,语音数据单元和由该语音数据单元识别得到的文本数据单元对应相同的语音内容。最后根据各语音内容对应的语音数据单元和文本数据单元,识别得到各语音内容的情感。如此设置,可以按照说话对象改变的点进行切分,得到单个说话对象对应的语音数据单元和文本数据单元,从语音和文本两个维度对单个说话对象的语音内容情感进行识别,如此可以得到更加准确的识别结果。

    声音转换模型训练方法、声音转换方法及装置

    公开(公告)号:CN119763590A

    公开(公告)日:2025-04-04

    申请号:CN202510003289.0

    申请日:2025-01-02

    Abstract: 本发明提供一种声音转换模型训练方法、声音转换方法及装置,涉及数据处理技术领域,包括:获取多个不同发声人的发声人音频样本;其中,每个发声人音频样本对应一个基频标签;根据各个发声人音频样本对应的自动语音识别样本特征和发声人样本特征向量,对预设声音转换模型进行训练,得到第一声音转换模型;基于目标发声人的各个发声人音频伪造样本对应的伪造自动语音识别特征和发声人样本特征向量,对第一声音转换模型进行训练,得到第二声音转换模型;其中,发声人音频伪造样本是根据目标发声人真实的发声人音频样本得到的;第二声音转换模型用于基于发声人音频对应的自动语音识别特征和发声人特征向量,输出发声人音频对应的基频信息。

    知识问答方法、装置、电子设备及存储介质

    公开(公告)号:CN119474327A

    公开(公告)日:2025-02-18

    申请号:CN202510066924.X

    申请日:2025-01-16

    Abstract: 本发明涉及知识问答技术领域,提供一种知识问答方法、装置、电子设备及存储介质,方法包括:获取第一用户的待回答问题;基于知识库确定与待回答问题对应的目标知识素材;基于目标知识素材,确定目标回答;基于目标回答,生成以第二用户作为虚拟人形象的目标虚拟人视频;目标虚拟人视频中的音频是以第二用户的声纹对目标回答进行语音合成得到的;知识库基于第二用户的音频、文本和文档中的至少一种构建。将个性化语音合成与知识问答系统进行统一,避免现有技术中二者分离带来的体验割裂问题,确保用户从问答到语音输出的整体流程流畅无缝,提高用户的使用体验;灵活利用第二用户的知识库,对用户的个性特征进行深度适配,提高用户的使用体验。

    三维重建方法、装置、电子设备和存储介质

    公开(公告)号:CN118485785B

    公开(公告)日:2024-09-24

    申请号:CN202410948625.4

    申请日:2024-07-16

    Abstract: 本发明涉及图像处理技术领域,提供一种三维重建方法、装置、电子设备和存储介质,其中方法包括:获取至少两个视角图像;基于至少两个视角图像的视角图特征之间的相关性,对各视角图特征进行特征增强,得到各视角图像的增强图特征,并基于各视角图像的增强图特征,进行深度预测,得到预测深度范围;将预测深度范围作为立体匹配算法的初始深度范围,应用立体匹配算法在至少两个视角图像的基础上进行三维重建。本发明提供的方法、装置、电子设备和存储介质,将预测深度范围作为初始深度范围,能够缩小初始深度范围与真实深度情况之间的误差,提高在三维重建的迭代优化效率,降低陷入局部最优解的风险,由此提高三维重建效率,保证三维重建质量。

    异音检测方法、装置、电子设备、存储介质及产品

    公开(公告)号:CN118629427A

    公开(公告)日:2024-09-10

    申请号:CN202410724239.7

    申请日:2024-06-05

    Abstract: 本申请提出一种异音检测方法、装置、电子设备、存储介质及产品,该方法提取待检测设备对应测点的音频,并对音频进行加噪处理,得到测点对应的加噪音频;基于待检测设备的工况,对加噪音频进行去噪重构处理,得到测点对应的重构音频,并基于音频和重构音频之间的重构差异,确定测点的音频对应的检测结果,检测结果表示测点的音频是否异常;其中,加噪处理算法和去噪重构处理的处理算法是通过对待检测设备对应测点的正常音频进行加噪和去噪重构处理确定的。采用本申请的技术方案,能够对测点的音频进行自动异音检测,提高了异音检测的效率和准确度。

Patent Agency Ranking