-
公开(公告)号:CN115359775B
公开(公告)日:2025-05-16
申请号:CN202210846358.0
申请日:2022-07-05
Applicant: 华南理工大学
Abstract: 本发明公开了一种端到端的音色及情感迁移的中文语音克隆方法,步骤如下:采集用户录制的中文语音作为训练数据,提取出所需的语音特征;训练语音克隆合成模型,包括音色情感编码器、合成器和声码器三部分;利用训练完成的语音克隆合成模型,根据用户输入的语音或文字内容,生成语音克隆合成模型已有的指定说话人的语音;或根据用户输入的短时语音,快速克隆用户语音中的音色和情感。本发明实现端到端的语音合成与克隆,通过多说话人模型,以同一模型和不同说话人向量嵌入合成不同情感和音色的语音。本发明用短语音产生的说话人嵌入向量,结合使用较多语料训练的生成模型进行语音克隆,实现了能够体现特定说话人音色和情感的语音克隆。
-
公开(公告)号:CN115359774A
公开(公告)日:2022-11-18
申请号:CN202210782542.3
申请日:2022-07-05
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于端到端的音色及情感迁移的跨语言语音合成方法,步骤如下:S1、采集并处理中英文的语音训练数据,提取出所需的语音特征;S2、训练中文和英文的语音合成的学习网络架构,包括说话人编码器、合成器和声码器三部分;S3、利用训练完成的学习网络架构,对说话人输入的实时语音进行跨语言的语音合成,合成语音能够有效保留说话人的音色和情感。本方法提供了跨语言的语音合成方法,在给定说话人少量语音的条件下,能够合成跨语言的语音,且可以在合成语音中保留说话人的音色和情感。
-
公开(公告)号:CN115359774B
公开(公告)日:2025-04-29
申请号:CN202210782542.3
申请日:2022-07-05
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于端到端的音色及情感迁移的跨语言语音合成方法,步骤如下:S1、采集并处理中英文的语音训练数据,提取出所需的语音特征;S2、训练中文和英文的语音合成的学习网络架构,包括说话人编码器、合成器和声码器三部分;S3、利用训练完成的学习网络架构,对说话人输入的实时语音进行跨语言的语音合成,合成语音能够有效保留说话人的音色和情感。本方法提供了跨语言的语音合成方法,在给定说话人少量语音的条件下,能够合成跨语言的语音,且可以在合成语音中保留说话人的音色和情感。
-
公开(公告)号:CN119652575A
公开(公告)日:2025-03-18
申请号:CN202411725708.3
申请日:2024-11-28
Applicant: 华南理工大学
IPC: H04L9/40 , G06F18/241 , G06F18/22 , G06N3/042 , G06N3/08
Abstract: 本发明公开了一种基于图嵌入加权宽度网络的网络入侵检测方法,包括:收集网络入侵检测数据并进行预处理;使用预处理后的网络入侵检测数据计算样本构建一个图嵌入矩阵;利用预处理后的网络入侵数据计算类惩罚权重;将得到的图嵌入矩阵和类惩罚权重加入到一个宽度神经网络中,得到一个改进的宽度神经网络,称为图嵌入加权宽度网络;使用训练后的图嵌入加权宽度网络对待测的网络入侵检测数据进行分类,得到分类结果。本发明通过利用宽度网络高效的训练方式和高精确性优点的同时,引入图嵌入技术提高了对网络入侵数据的分类能力,并使用自适应加权惩罚矩阵加强宽度网络在训练过程中对少数类的关注,有助于提高网络入侵检测数据分类的准确性。
-
公开(公告)号:CN118193694A
公开(公告)日:2024-06-14
申请号:CN202410297757.5
申请日:2024-03-15
Applicant: 华南理工大学
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/35
Abstract: 本发明公开了一种面向多源异构本地知识库的大模型语音问答系统,包括:多源异构本地知识库处理模块,考虑本地知识库数据来源、结构、类型等方面的多样性,设计基于语义完整性的切割方式构建向量数据库;基于本地知识库的大模型推理模块,提供行业知识库专属的匹配阈值,进行增量式动态更新,并实现与行业知识库之间自适应上下文匹配,以解决大模型推理本地知识冗余或匮乏问题;人机语音交互模块,引入虚拟数字人和语音交互接口实现模型与用户的“人工”沟通,实现良好的人机交互。本发明将各行业复杂多样的本地知识库进行了统一处理和自适应匹配,实现了低成本、高效率、一站式的大模型语音问答系统部署。
-
公开(公告)号:CN115359775A
公开(公告)日:2022-11-18
申请号:CN202210846358.0
申请日:2022-07-05
Applicant: 华南理工大学
Abstract: 本发明公开了一种端到端的音色及情感迁移的中文语音克隆方法,步骤如下:采集用户录制的中文语音作为训练数据,提取出所需的语音特征;训练语音克隆合成模型,包括音色情感编码器、合成器和声码器三部分;利用训练完成的语音克隆合成模型,根据用户输入的语音或文字内容,生成语音克隆合成模型已有的指定说话人的语音;或根据用户输入的短时语音,快速克隆用户语音中的音色和情感。本发明实现端到端的语音合成与克隆,通过多说话人模型,以同一模型和不同说话人向量嵌入合成不同情感和音色的语音。本发明用短语音产生的说话人嵌入向量,结合使用较多语料训练的生成模型进行语音克隆,实现了能够体现特定说话人音色和情感的语音克隆。
-
-
-
-
-