一种模型训练和业务执行的方法、装置、介质及设备

    公开(公告)号:CN115456114A

    公开(公告)日:2022-12-09

    申请号:CN202211376381.4

    申请日:2022-11-04

    Abstract: 本说明书公开了一种模型训练和业务执行的方法、装置、介质及设备。该模型训练的方法包括:获取用户在历史上的语音对话数据并输入待训练的识别模型,通过识别模型的特征提取层,确定语音对话数据对应的数据特征,以及确定所述语音对话数据对应的情感强度,作为预测情感强度,和语音对话数据对应的情感类别,作为预测情感类别,根据预测情感强度和语音对话数据对应的实际情感强度之间的偏差,以及预测情感类别和语音对话数据对应的实际情感类别之间的偏差,确定识别模型的综合损失值,以最小化该综合损失值为优化目标,对识别模型进行训练。

    基于三维深度特征融合的语音情感识别方法及系统

    公开(公告)号:CN114566189B

    公开(公告)日:2022-10-04

    申请号:CN202210454745.X

    申请日:2022-04-28

    Abstract: 本发明属于人工智能领域,涉及基于三维深度特征融合的语音情感识别方法及系统,该方法包括:步骤一,采集开源数据集得到预训练的识别网络模型和经过去噪处理的干净情感语音音频;步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。本发明有效解决低资源训练模型导致的语音情感识别准确率低的问题。

    一种文本检索匹配方法和系统

    公开(公告)号:CN114428850A

    公开(公告)日:2022-05-03

    申请号:CN202210357952.3

    申请日:2022-04-07

    Abstract: 本发明属于人工智能领域,涉及一种文本检索匹配方法和系统,该方法包括:步骤一,采集不同领域的中文自然语言推理文本语料,作为句子表征模型的训练语料;步骤二,结合对比学习方法训练句子表征模型,再利用句子语义匹配基准数据集来测试并筛选出最佳句子表征模型;步骤三,使用筛选出的最佳句子表征模式,对要匹配的长短文本中的句子进行相似度计算;步骤四,根据相似度计算的结果,采用Sigmod函数得到句子的匹配分数,来判断是否为相似句子,完成文本检索。本发明根据文本的长度与各类模型的特性,利用最适合的模型架构进行文本检索的任务,解决了文本匹配遇到的缺乏考虑句子之间主题的相似性、模型长度限制等问题,提高了匹配的效果。

    一种基于深度学习的面部动作捕捉方法及系统

    公开(公告)号:CN114049678B

    公开(公告)日:2022-04-12

    申请号:CN202210023895.5

    申请日:2022-01-11

    Abstract: 本发明公开了一种基于深度学习的面部动作捕捉方法及系统,包括以下步骤:S1:使用深度相机采集人脸的视频数据和对应的深度数据,构建数据集;S2:构建面部动作识别网络,使用所述数据集进行面部动作识别网络训练;S3:将任意视频序列输入训练后的面部动作识别网络,预测混合形状系数;S4:将所述预测混合形状系数应用于任意的虚拟形象上,驱动虚拟形象的面部动作。系统包括视频采集模块,网络训练模块,面部动作预测模块,虚拟形象动画展示模块。本发明的算法运行速率高,只在训练时使用了深度信息进行训练,在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉,无需额外的深度采集设备,可实时的进行面部动作捕捉。

    结合关键词和语义理解表征的检索式回复对话方法及系统

    公开(公告)号:CN113934835B

    公开(公告)日:2022-03-25

    申请号:CN202111538357.1

    申请日:2021-12-16

    Abstract: 本发明公开了结合关键词和语义理解表征的检索式回复对话方法及系统,系统结合了两种层次粒度的向量表征,分别是词袋向量表征和语义理解表征,结合过程中不只考虑了对话中关键词的信息,还考虑了基于上下文的语义理解,极大地提升了检索式回复模型的性能。本发明中采取了中文预训练模型Bert网络模型获取句向量表征,不仅理解句意,并且排除了词向量加权引起的误差。该系统采取了Bert网络模型在自己的单轮对话上训练分类任务——对话是否匹配的任务,通过微调,学习到了Bert中线性层和激活函数的权重。该系统使用了精排模型LGMRanker,可以直接预测与query相关的回复相对顺序,返回一个排好序的列表回来。

    一种基于共性特征提取的跨语种语音情感识别方法和系统

    公开(公告)号:CN113611286B

    公开(公告)日:2022-01-18

    申请号:CN202111169207.8

    申请日:2021-10-08

    Abstract: 本发明属于人工智能领域,涉及一种基于共性特征提取的跨语种语音情感识别方法和系统,该系统包括:语音信号采集模块,采用高保真单麦克风或者麦克风阵列采集用户语音信号;语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据;跨语种语音情感识别模块,用于通过设计的复数网络模型处理声谱图特征,预测用户音频的情感类型;分析存储模块,用于存储用户的语音数据和情感标签数据,并根据实际业务进行统计分析。本发明能够有效解决跨语种的语音情感识别问题,解决音频中的相位特征处理问题,从而提取音频中更加精细的发音特征,提升语音情感识别精度。

    一种音频驱动人脸动画生成方法、装置、设备与介质

    公开(公告)号:CN113838174A

    公开(公告)日:2021-12-24

    申请号:CN202111412881.4

    申请日:2021-11-25

    Abstract: 本发明公开了一种音频驱动人脸动画生成方法、装置、设备和介质,该方法包括以下步骤:步骤1,采集语音信号,提取MFCC特征并输入音素识别器,获得语音的音素分类概率;步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;步骤3,将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;步骤4,将3D人脸顶点位移与自然表情的人脸模板相加,得到带说话表情的3D人脸;步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频。本发明将发音和人脸表情直接关联,能够识别全球超2000种语言,具有更强的泛化能力,同时,可以为不同语言的动画进行配音,大大降低动画制作成本。

    一种基于共性特征提取的跨语种语音情感识别方法和系统

    公开(公告)号:CN113611286A

    公开(公告)日:2021-11-05

    申请号:CN202111169207.8

    申请日:2021-10-08

    Abstract: 本发明属于人工智能领域,涉及一种基于共性特征提取的跨语种语音情感识别方法和系统,该系统包括:语音信号采集模块,采用高保真单麦克风或者麦克风阵列采集用户语音信号;语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据;跨语种语音情感识别模块,用于通过设计的复数网络模型处理声谱图特征,预测用户音频的情感类型;分析存储模块,用于存储用户的语音数据和情感标签数据,并根据实际业务进行统计分析。本发明能够有效解决跨语种的语音情感识别问题,解决音频中的相位特征处理问题,从而提取音频中更加精细的发音特征,提升语音情感识别精度。

    一种融合情感编码的音频驱动人脸动画生成方法及系统

    公开(公告)号:CN113378806A

    公开(公告)日:2021-09-10

    申请号:CN202110934743.6

    申请日:2021-08-16

    Abstract: 本发明属于人工智能领域,涉及一种融合情感编码的音频驱动人脸动画生成方法及系统,该方法为:首先对采集的音频信号进行预处理,提取MFCC特征后输入语音识别模块,进一步提取音频特征,同时将MFCC特征输入语音情感识别模块,得到情感类别并进行one‑hot编码,然后将音频特征和情感的one‑hot编码向量进行连接,输入表情识别模块得到基于3DMM模型的表情系数,最后将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。本发明方法计算量小,训练稳定,流程简单,成本低廉,能够极大的降低电影制作周期和成本,且充分考虑了语音传达的情感状态,对在网络中输入了情感编码,使得生成的人脸动画更加生动形象,能够给用户带来更优质的体验。

    一种融合词汇及音素发音特征的情感语音合成方法及系统

    公开(公告)号:CN113257225A

    公开(公告)日:2021-08-13

    申请号:CN202110600732.4

    申请日:2021-05-31

    Abstract: 本发明属于人工智能领域,具体涉及一种融合词汇及音素发音特征的情感语音合成方法及系统,该方法为:通过录音采集设备,采集文本及情感标签,对所述文本进行预处理,获取音素及音素对齐信息,生成分词及分词语义信息,分别计算并得到分词发音时长信息、分词发音语速信息、分词发音能量信息、音素基频信息,分别训练分词语速预测网络、分词能量预测网络、音素基频预测网络,获取并拼接音素隐含信息、分词语速隐含信息、分词能量隐含信息、音素基频隐含信息,合成情感语音。本发明通过将与情感发音有关的词汇及音素发音特征融合到端到端语音合成模型中去,能够使得合成的情感语音更加自然。

Patent Agency Ranking