-
-
公开(公告)号:CN114049678A
公开(公告)日:2022-02-15
申请号:CN202210023895.5
申请日:2022-01-11
Applicant: 之江实验室
Abstract: 本发明公开了一种基于深度学习的面部动作捕捉方法及系统,包括以下步骤:S1:使用深度相机采集人脸的视频数据和对应的深度数据,构建数据集;S2:构建面部动作识别网络,使用所述数据集进行面部动作识别网络训练;S3:将任意视频序列输入训练后的面部动作识别网络,预测混合形状系数;S4:将所述预测混合形状系数应用于任意的虚拟形象上,驱动虚拟形象的面部动作。系统包括视频采集模块,网络训练模块,面部动作预测模块,虚拟形象动画展示模块。本发明的算法运行速率高,只在训练时使用了深度信息进行训练,在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉,无需额外的深度采集设备,可实时的进行面部动作捕捉。
-
公开(公告)号:CN113576482B
公开(公告)日:2022-01-18
申请号:CN202111141810.5
申请日:2021-09-28
Applicant: 之江实验室
Abstract: 本发明属于注意偏向训练技术领域,涉及一种基于复合表情加工的注意偏向训练评估系统和方法,招募正常组和社交焦虑组的被试者,利用多通道脑电测量设备采集原始脑电信号,并提取P100脑电成分的平均潜伏期特征和N170、P300脑电成分的平均波幅特征作为神经指标,通过社交焦虑组前测复合表情刺激测试与常模复合表情刺激测试、社交焦虑组后测复合表情刺激测试与常模复合表情刺激测试的指标水平差异性检验,对注意偏向训练的效果进行客观评估和优化。本发明可以有效避免传统测量手段事后采样、主观性强、社会期许偏差等问题,同时具有非侵入性、安全高效、成本较低的特点,具有广泛的市场应用前景。
-
公开(公告)号:CN113571097A
公开(公告)日:2021-10-29
申请号:CN202111141588.9
申请日:2021-09-28
Applicant: 之江实验室
Abstract: 本发明公开了一种说话人自适应的多视角对话情感识别方法及系统,方法包括:S1,将多轮对话中,每条对话语句的说话人,映射到对应的说话人ID序列,去除说话人具体身份;S2,对说话人ID标记后的多轮对话,进行融合说话人信息的上下文编码,得到对话中每个语句的上下文编码表征;S3,基于上下文编码表征,进行说话人自适应的多视角全局对话信息融合编码,得到对话的多视角全局融合信息;S4,将多视角的全局融合信息,进行自适应的信息汇总,并对语句最终情感进行识别;系统包括:依次连接的多轮对话预处理模块、上下文编码模块、多视角全局融合编码模块和情感识别模块。
-
公开(公告)号:CN112712824A
公开(公告)日:2021-04-27
申请号:CN202110322720.X
申请日:2021-03-26
Applicant: 之江实验室
Abstract: 本发明属于人工智能领域,具体涉及一种融合人群信息的语音情感识别方法和系统,该方法包括以下步骤:S1、采集用户语音信号;S2、预处理语音信号,获取梅尔谱;S3、切除梅尔谱前后静音段;S4、通过人群分类网络获取深度人群信息;S5、通过梅尔谱预处理网络获取梅尔谱深度信息;S6、通过SENet融合特征,获取融合信息;S7、通过分类网络,得到情感识别结构。本发明融合人群信息特征,使情感特征提取更加准确,通过SENet的通道注意力机制进行信息融合,能够有效的进行深度特征的提取,提高整体识别精度。
-
公开(公告)号:CN115910002B
公开(公告)日:2023-05-16
申请号:CN202310017843.1
申请日:2023-01-06
Applicant: 之江实验室
IPC: G10H1/00
Abstract: 本说明书公开了一种音频生成的方法、存储介质及电子设备,其中,可以获取实际音频以及该实际音频的相关信息;将该实际音频对应的歌词信息与音乐风格信息输入到歌谱生成模型中,得到歌谱预测结果,并以最小化该歌谱预测结果与该歌谱信息之间的差异为优化目标,对该歌谱预测模型进行训练。还可以将歌谱信息、歌词信息以及音乐风格信息输入到音频生成模型中,以使音频生成模型预测实际音频的音频频谱特征,并根据该音频频谱特征生成目标音频,并以最小化目标音频与实际音频之间的差异为优化目标,对音频生成模型进行训练,训练后的歌谱预测模型与训练后的音频生成模型可以共同用于通过用户的输入生成音频,从而提高了音乐生成的效果。
-
公开(公告)号:CN115620706A
公开(公告)日:2023-01-17
申请号:CN202211385690.8
申请日:2022-11-07
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练方法、装置、设备及存储介质,可以从识别模型的特征提取层提取出的目标语音特征中,提取出包含有幅度信息和相位信息的第一语音特征和第二语音特征,从而可以通过多任务学习,基于第一语音特征和第二语音特征对识别模型进行训练,进而可以使识别模型能够有效地根据语音数据中包含的幅度信息和相位信息,进行情感识别,以提升识别出的情感的准确率。
-
公开(公告)号:CN114463688A
公开(公告)日:2022-05-10
申请号:CN202210377011.6
申请日:2022-04-12
Applicant: 之江实验室
Abstract: 本发明公开一种跨模态上下文编码的对话情感识别方法及系统,该方法包括:步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态、语音模态及文本模态表征向量序列;步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。本发明能够有效提升对话情感的识别精度。
-
公开(公告)号:CN113576482A
公开(公告)日:2021-11-02
申请号:CN202111141810.5
申请日:2021-09-28
Applicant: 之江实验室
Abstract: 本发明属于注意偏向训练技术领域,涉及一种基于复合表情加工的注意偏向训练评估系统和方法,招募正常组和社交焦虑组的被试者,利用多通道脑电测量设备采集原始脑电信号,并提取P100脑电成分的平均潜伏期特征和N170、P300脑电成分的平均波幅特征作为神经指标,通过社交焦虑组前测复合表情刺激测试与常模复合表情刺激测试、社交焦虑组后测复合表情刺激测试与常模复合表情刺激测试的指标水平差异性检验,对注意偏向训练的效果进行客观评估和优化。本发明可以有效避免传统测量手段事后采样、主观性强、社会期许偏差等问题,同时具有非侵入性、安全高效、成本较低的特点,具有广泛的市场应用前景。
-
公开(公告)号:CN113257225B
公开(公告)日:2021-11-02
申请号:CN202110600732.4
申请日:2021-05-31
Applicant: 之江实验室
IPC: G10L13/10 , G10L13/08 , G06F40/289 , G06F40/30
Abstract: 本发明属于人工智能领域,具体涉及一种融合词汇及音素发音特征的情感语音合成方法及系统,该方法为:通过录音采集设备,采集文本及情感标签,对所述文本进行预处理,获取音素及音素对齐信息,生成分词及分词语义信息,分别计算并得到分词发音时长信息、分词发音语速信息、分词发音能量信息、音素基频信息,分别训练分词语速预测网络、分词能量预测网络、音素基频预测网络,获取并拼接音素隐含信息、分词语速隐含信息、分词能量隐含信息、音素基频隐含信息,合成情感语音。本发明通过将与情感发音有关的词汇及音素发音特征融合到端到端语音合成模型中去,能够使得合成的情感语音更加自然。
-
-
-
-
-
-
-
-
-