政策知识问答方法、设备和存储介质

    公开(公告)号:CN118797021A

    公开(公告)日:2024-10-18

    申请号:CN202411281200.9

    申请日:2024-09-13

    摘要: 本发明涉及人工智能领域,公开了一种政策知识问答方法、设备和存储介质,该方法包括:接收目标问题,并根据目标问题以及预先建立的政策知识库,确定初始答案列表;其中,政策知识库包括文本段库、标题库以及关键词库;对初始答案列表进行重排序,并根据预设答案数量从重排序后的初始答案列表中,确定过程答案列表;根据目标问题,确定系统提示词,并将系统提示词、定制化指令、目标问题以及过程答案列表,输入至大语言模型中,得到目标答案,并将目标答案反馈至目标问题对应的终端设备。通过本发明的技术方案,实现了创建高质量的政策知识库,建立标题库与关键词库的辅助检索机制,提升政策知识问答的准确性的效果。

    基于音频驱动的图像处理方法、设备和存储介质

    公开(公告)号:CN117974850B

    公开(公告)日:2024-06-14

    申请号:CN202410388315.1

    申请日:2024-04-01

    摘要: 本发明涉及图像处理领域,公开了一种基于音频驱动的图像处理方法、设备和存储介质,该方法包括:获取初始图像序列以及初始音频;其中,初始图像序列中的嘴部区域的变化与初始音频不对应;将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中,输出与初始音频对应的目标图像序列;其中,嘴部调整模型基于样本视频中的样本图像序列以及样本音频训练得到,嘴部调整模型包括面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块,目标图像序列中的嘴部区域的变化与初始音频相对应。通过本发明的技术方案,能够提高嘴型变化的连续性以及自然性,提高图像序列和音频的同步性,提高图像序列的清晰度。

    语音合成方法、装置、电子设备和存储介质

    公开(公告)号:CN118197277A

    公开(公告)日:2024-06-14

    申请号:CN202410598515.X

    申请日:2024-05-15

    摘要: 本发明实施例公开一种语音合成方法、装置、电子设备和存储介质,方法包括:确定来自参考语音源的参考语音的参考语音编码、第一参考文本编码和第一参考音素编码,以及确定参考文本的第二参考文本编码和第二参考音素编码;对所述第一参考文本编码和所述第二参考文本编码进行拼接,获得第三参考文本编码;对所述第一参考音素编码和所述第二参考音素编码进行拼接,获得第三参考音素编码;将参考语音编码、第三参考文本编码和所述第三参考音素编码输入至训练好的生成式模型,获得目标语音,目标语音是模拟参考语音源说出所述参考文本的语音。有效解决了在语音合成之前对模型进行再训练的问题,且提高了语音合成流畅度、自然度。

    语音合成方法、装置、电子设备和存储介质

    公开(公告)号:CN118197277B

    公开(公告)日:2024-07-23

    申请号:CN202410598515.X

    申请日:2024-05-15

    摘要: 本发明实施例公开一种语音合成方法、装置、电子设备和存储介质,方法包括:确定来自参考语音源的参考语音的参考语音编码、第一参考文本编码和第一参考音素编码,以及确定参考文本的第二参考文本编码和第二参考音素编码;对所述第一参考文本编码和所述第二参考文本编码进行拼接,获得第三参考文本编码;对所述第一参考音素编码和所述第二参考音素编码进行拼接,获得第三参考音素编码;将参考语音编码、第三参考文本编码和所述第三参考音素编码输入至训练好的生成式模型,获得目标语音,目标语音是模拟参考语音源说出所述参考文本的语音。有效解决了在语音合成之前对模型进行再训练的问题,且提高了语音合成流畅度、自然度。

    基于音频驱动的图像处理方法、设备和存储介质

    公开(公告)号:CN117974850A

    公开(公告)日:2024-05-03

    申请号:CN202410388315.1

    申请日:2024-04-01

    摘要: 本发明涉及图像处理领域,公开了一种基于音频驱动的图像处理方法、设备和存储介质,该方法包括:获取初始图像序列以及初始音频;其中,初始图像序列中的嘴部区域的变化与初始音频不对应;将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中,输出与初始音频对应的目标图像序列;其中,嘴部调整模型基于样本视频中的样本图像序列以及样本音频训练得到,嘴部调整模型包括面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块,目标图像序列中的嘴部区域的变化与初始音频相对应。通过本发明的技术方案,能够提高嘴型变化的连续性以及自然性,提高图像序列和音频的同步性,提高图像序列的清晰度。