一种基于语音深度表征映射的语音翻译方法及系统

    公开(公告)号:CN115312029A

    公开(公告)日:2022-11-08

    申请号:CN202211244884.6

    申请日:2022-10-12

    Abstract: 本发明公开了一种基于语音深度表征映射的语音翻译方法及系统属于人工智能领域,涉及人工智能领域,本发明基于语音深度表征映射的语音翻译方法及海量无标注数据和大量成对数据训练深度学习模型,可以方便的使用海量影视等媒体数据进行模型训练,方便的应用于各种语言语音的互译,提供了一种便捷通用的语音互译方案;本发明基于语音深度表征映射的语音翻译方法提供了一种声纹嵌入的声码器进行语音合成,可实现语音翻译发音音色指定可控,并且能够使得合成的语音保真度更高;本发明的语音深度表征映射的语音翻译系统集成了基于语音深度表征映射的语音翻译方法,能够实现语音直接翻译任务,简化了语音翻译的流程,提高了语音翻译的精度。

    基于三维深度特征融合的语音情感识别方法及系统

    公开(公告)号:CN114566189A

    公开(公告)日:2022-05-31

    申请号:CN202210454745.X

    申请日:2022-04-28

    Abstract: 本发明属于人工智能领域,涉及基于三维深度特征融合的语音情感识别方法及系统,该方法包括:步骤一,采集开源数据集得到预训练的识别网络模型和经过去噪处理的干净情感语音音频;步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。本发明有效解决低资源训练模型导致的语音情感识别准确率低的问题。

    一种音频生成的方法、存储介质及电子设备

    公开(公告)号:CN115910002A

    公开(公告)日:2023-04-04

    申请号:CN202310017843.1

    申请日:2023-01-06

    Abstract: 本说明书公开了一种音频生成的方法、存储介质及电子设备,其中,可以获取实际音频以及该实际音频的相关信息;将该实际音频对应的歌词信息与音乐风格信息输入到歌谱生成模型中,得到歌谱预测结果,并以最小化该歌谱预测结果与该歌谱信息之间的差异为优化目标,对该歌谱预测模型进行训练。还可以将歌谱信息、歌词信息以及音乐风格信息输入到音频生成模型中,以使音频生成模型预测实际音频的音频频谱特征,并根据该音频频谱特征生成目标音频,并以最小化目标音频与实际音频之间的差异为优化目标,对音频生成模型进行训练,训练后的歌谱预测模型与训练后的音频生成模型可以共同用于通过用户的输入生成音频,从而提高了音乐生成的效果。

    一种文本检索匹配方法和系统

    公开(公告)号:CN114428850B

    公开(公告)日:2022-08-05

    申请号:CN202210357952.3

    申请日:2022-04-07

    Abstract: 本发明属于人工智能领域,涉及一种文本检索匹配方法和系统,该方法包括:步骤一,采集不同领域的中文自然语言推理文本语料,作为句子表征模型的训练语料;步骤二,结合对比学习方法训练句子表征模型,再利用句子语义匹配基准数据集来测试并筛选出最佳句子表征模型;步骤三,使用筛选出的最佳句子表征模式,对要匹配的长短文本中的句子进行相似度计算;步骤四,根据相似度计算的结果,采用Sigmod函数得到句子的匹配分数,来判断是否为相似句子,完成文本检索。本发明根据文本的长度与各类模型的特性,利用最适合的模型架构进行文本检索的任务,解决了文本匹配遇到的缺乏考虑句子之间主题的相似性、模型长度限制等问题,提高了匹配的效果。

    一种音频驱动人脸动画生成方法、装置、设备与介质

    公开(公告)号:CN113838174B

    公开(公告)日:2022-06-10

    申请号:CN202111412881.4

    申请日:2021-11-25

    Abstract: 本发明公开了一种音频驱动人脸动画生成方法、装置、设备和介质,该方法包括以下步骤:步骤1,采集语音信号,提取MFCC特征并输入音素识别器,获得语音的音素分类概率;步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;步骤3,将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;步骤4,将3D人脸顶点位移与自然表情的人脸模板相加,得到带说话表情的3D人脸;步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频。本发明将发音和人脸表情直接关联,能够识别全球超2000种语言,具有更强的泛化能力,同时,可以为不同语言的动画进行配音,大大降低动画制作成本。

    一种说话人自适应的多视角对话情感识别方法及系统

    公开(公告)号:CN113571097B

    公开(公告)日:2022-01-18

    申请号:CN202111141588.9

    申请日:2021-09-28

    Abstract: 本发明公开了一种说话人自适应的多视角对话情感识别方法及系统,方法包括:S1,将多轮对话中,每条对话语句的说话人,映射到对应的说话人ID序列,去除说话人具体身份;S2,对说话人ID标记后的多轮对话,进行融合说话人信息的上下文编码,得到对话中每个语句的上下文编码表征;S3,基于上下文编码表征,进行说话人自适应的多视角全局对话信息融合编码,得到对话的多视角全局融合信息;S4,将多视角的全局融合信息,进行自适应的信息汇总,并对语句最终情感进行识别;系统包括:依次连接的多轮对话预处理模块、上下文编码模块、多视角全局融合编码模块和情感识别模块。

    结合关键词和语义理解表征的检索式回复对话方法及系统

    公开(公告)号:CN113934835A

    公开(公告)日:2022-01-14

    申请号:CN202111538357.1

    申请日:2021-12-16

    Abstract: 本发明公开了结合关键词和语义理解表征的检索式回复对话方法及系统,系统结合了两种层次粒度的向量表征,分别是词袋向量表征和语义理解表征,结合过程中不只考虑了对话中关键词的信息,还考虑了基于上下文的语义理解,极大地提升了检索式回复模型的性能。本发明中采取了中文预训练模型Bert网络模型获取句向量表征,不仅理解句意,并且排除了词向量加权引起的误差。该系统采取了Bert网络模型在自己的单轮对话上训练分类任务——对话是否匹配的任务,通过微调,学习到了Bert中线性层和激活函数的权重。该系统使用了精排模型LGMRanker,可以直接预测与query相关的回复相对顺序,返回一个排好序的列表回来。

    一种融合情感编码的音频驱动人脸动画生成方法及系统

    公开(公告)号:CN113378806B

    公开(公告)日:2021-12-14

    申请号:CN202110934743.6

    申请日:2021-08-16

    Abstract: 本发明属于人工智能领域,涉及一种融合情感编码的音频驱动人脸动画生成方法及系统,该方法为:首先对采集的音频信号进行预处理,提取MFCC特征后输入语音识别模块,进一步提取音频特征,同时将MFCC特征输入语音情感识别模块,得到情感类别并进行one‑hot编码,然后将音频特征和情感的one‑hot编码向量进行连接,输入表情识别模块得到基于3DMM模型的表情系数,最后将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。本发明方法计算量小,训练稳定,流程简单,成本低廉,能够极大的降低电影制作周期和成本,且充分考虑了语音传达的情感状态,对在网络中输入了情感编码,使得生成的人脸动画更加生动形象,能够给用户带来更优质的体验。

    文本情感识别方法、装置、计算机设备及可读存储介质

    公开(公告)号:CN116108836B

    公开(公告)日:2023-07-11

    申请号:CN202310377930.8

    申请日:2023-04-10

    Inventor: 李太豪 阮玉平

    Abstract: 本申请涉及一种文本情感识别方法、装置、计算机设备及可读存储介质。所述方法包括:获取待识别文本和文本语料集,其中,所述文本语料集包括多个文本语句和与所述多个文本语句匹配的多个表情标签;确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值,并基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量;获取所述待识别文本的语义特征向量,并基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型。本申请提供的文本情感识别方法将表情特征向量作为辅助识别情感的工具,可以有效提高文本情感识别结果的准确度。

    文本情感识别方法、装置、计算机设备及可读存储介质

    公开(公告)号:CN116108836A

    公开(公告)日:2023-05-12

    申请号:CN202310377930.8

    申请日:2023-04-10

    Inventor: 李太豪 阮玉平

    Abstract: 本申请涉及一种文本情感识别方法、装置、计算机设备及可读存储介质。所述方法包括:获取待识别文本和文本语料集,其中,所述文本语料集包括多个文本语句和与所述多个文本语句匹配的多个表情标签;确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值,并基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量;获取所述待识别文本的语义特征向量,并基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型。本申请提供的文本情感识别方法将表情特征向量作为辅助识别情感的工具,可以有效提高文本情感识别结果的准确度。

Patent Agency Ranking