-
公开(公告)号:CN112712824B
公开(公告)日:2021-06-29
申请号:CN202110322720.X
申请日:2021-03-26
Applicant: 之江实验室
Abstract: 本发明属于人工智能领域,具体涉及一种融合人群信息的语音情感识别方法和系统,该方法包括以下步骤:S1、采集用户语音信号;S2、预处理语音信号,获取梅尔谱;S3、切除梅尔谱前后静音段;S4、通过人群分类网络获取深度人群信息;S5、通过梅尔谱预处理网络获取梅尔谱深度信息;S6、通过SENet融合特征,获取融合信息;S7、通过分类网络,得到情感识别结构。本发明融合人群信息特征,使情感特征提取更加准确,通过SENet的通道注意力机制进行信息融合,能够有效的进行深度特征的提取,提高整体识别精度。
-
公开(公告)号:CN115910002A
公开(公告)日:2023-04-04
申请号:CN202310017843.1
申请日:2023-01-06
Applicant: 之江实验室
IPC: G10H1/00
Abstract: 本说明书公开了一种音频生成的方法、存储介质及电子设备,其中,可以获取实际音频以及该实际音频的相关信息;将该实际音频对应的歌词信息与音乐风格信息输入到歌谱生成模型中,得到歌谱预测结果,并以最小化该歌谱预测结果与该歌谱信息之间的差异为优化目标,对该歌谱预测模型进行训练。还可以将歌谱信息、歌词信息以及音乐风格信息输入到音频生成模型中,以使音频生成模型预测实际音频的音频频谱特征,并根据该音频频谱特征生成目标音频,并以最小化目标音频与实际音频之间的差异为优化目标,对音频生成模型进行训练,训练后的歌谱预测模型与训练后的音频生成模型可以共同用于通过用户的输入生成音频,从而提高了音乐生成的效果。
-
公开(公告)号:CN114428850B
公开(公告)日:2022-08-05
申请号:CN202210357952.3
申请日:2022-04-07
Applicant: 之江实验室
IPC: G06F16/335 , G06F16/33 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明属于人工智能领域,涉及一种文本检索匹配方法和系统,该方法包括:步骤一,采集不同领域的中文自然语言推理文本语料,作为句子表征模型的训练语料;步骤二,结合对比学习方法训练句子表征模型,再利用句子语义匹配基准数据集来测试并筛选出最佳句子表征模型;步骤三,使用筛选出的最佳句子表征模式,对要匹配的长短文本中的句子进行相似度计算;步骤四,根据相似度计算的结果,采用Sigmod函数得到句子的匹配分数,来判断是否为相似句子,完成文本检索。本发明根据文本的长度与各类模型的特性,利用最适合的模型架构进行文本检索的任务,解决了文本匹配遇到的缺乏考虑句子之间主题的相似性、模型长度限制等问题,提高了匹配的效果。
-
公开(公告)号:CN113838174B
公开(公告)日:2022-06-10
申请号:CN202111412881.4
申请日:2021-11-25
Applicant: 之江实验室
Abstract: 本发明公开了一种音频驱动人脸动画生成方法、装置、设备和介质,该方法包括以下步骤:步骤1,采集语音信号,提取MFCC特征并输入音素识别器,获得语音的音素分类概率;步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;步骤3,将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;步骤4,将3D人脸顶点位移与自然表情的人脸模板相加,得到带说话表情的3D人脸;步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频。本发明将发音和人脸表情直接关联,能够识别全球超2000种语言,具有更强的泛化能力,同时,可以为不同语言的动画进行配音,大大降低动画制作成本。
-
公开(公告)号:CN113571097B
公开(公告)日:2022-01-18
申请号:CN202111141588.9
申请日:2021-09-28
Applicant: 之江实验室
Abstract: 本发明公开了一种说话人自适应的多视角对话情感识别方法及系统,方法包括:S1,将多轮对话中,每条对话语句的说话人,映射到对应的说话人ID序列,去除说话人具体身份;S2,对说话人ID标记后的多轮对话,进行融合说话人信息的上下文编码,得到对话中每个语句的上下文编码表征;S3,基于上下文编码表征,进行说话人自适应的多视角全局对话信息融合编码,得到对话的多视角全局融合信息;S4,将多视角的全局融合信息,进行自适应的信息汇总,并对语句最终情感进行识别;系统包括:依次连接的多轮对话预处理模块、上下文编码模块、多视角全局融合编码模块和情感识别模块。
-
公开(公告)号:CN113934835A
公开(公告)日:2022-01-14
申请号:CN202111538357.1
申请日:2021-12-16
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/33 , G06F16/335
Abstract: 本发明公开了结合关键词和语义理解表征的检索式回复对话方法及系统,系统结合了两种层次粒度的向量表征,分别是词袋向量表征和语义理解表征,结合过程中不只考虑了对话中关键词的信息,还考虑了基于上下文的语义理解,极大地提升了检索式回复模型的性能。本发明中采取了中文预训练模型Bert网络模型获取句向量表征,不仅理解句意,并且排除了词向量加权引起的误差。该系统采取了Bert网络模型在自己的单轮对话上训练分类任务——对话是否匹配的任务,通过微调,学习到了Bert中线性层和激活函数的权重。该系统使用了精排模型LGMRanker,可以直接预测与query相关的回复相对顺序,返回一个排好序的列表回来。
-
公开(公告)号:CN113378806B
公开(公告)日:2021-12-14
申请号:CN202110934743.6
申请日:2021-08-16
Applicant: 之江实验室
IPC: G06K9/00 , G06K9/62 , G06T13/40 , G06N3/04 , G06N3/08 , G10L15/02 , G10L15/06 , G10L15/16 , G10L25/30 , G10L25/63
Abstract: 本发明属于人工智能领域,涉及一种融合情感编码的音频驱动人脸动画生成方法及系统,该方法为:首先对采集的音频信号进行预处理,提取MFCC特征后输入语音识别模块,进一步提取音频特征,同时将MFCC特征输入语音情感识别模块,得到情感类别并进行one‑hot编码,然后将音频特征和情感的one‑hot编码向量进行连接,输入表情识别模块得到基于3DMM模型的表情系数,最后将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。本发明方法计算量小,训练稳定,流程简单,成本低廉,能够极大的降低电影制作周期和成本,且充分考虑了语音传达的情感状态,对在网络中输入了情感编码,使得生成的人脸动画更加生动形象,能够给用户带来更优质的体验。
-
公开(公告)号:CN112990119A
公开(公告)日:2021-06-18
申请号:CN202110446571.8
申请日:2021-04-25
Applicant: 之江实验室
Abstract: 本发明属于人工智能领域,具体涉及一种视频多目标人脸表情识别方法和系统,该方法包括如下步骤:S1、抽取视频流中图像帧并提取人脸区域;S2、对视频流中的目标进行人脸跟踪;S3、对跟踪目标进行表情识别;S4、结合历史表情识别结果进行分析。本发明提供的方法,通过融合目标跟踪技术实现视频中多目标表情识别、利用前后帧结果加权提升动态表情识别结果的正确性和鲁棒性,防止视频表情识别结果产生的单帧抖动,同时本发明的视频表情识别系统具有表情分析结果及原始视频存储功能,能够帮助做出合理分析和建议,例如在校教育场景,智能驾驶辅助场景等。
-
公开(公告)号:CN116469182A
公开(公告)日:2023-07-21
申请号:CN202310362404.4
申请日:2023-04-06
Applicant: 之江实验室
IPC: G06V40/70 , G06V40/16 , G06V10/82 , G06N3/0464 , G06N3/0475 , G06N3/094 , G06N3/098 , G10L25/30 , G10L25/48
Abstract: 本发明实施例提供跨人脸和语音的生物特征匹配方法、装置、设备和介质,涉及生物特征匹配技术领域。匹配方法包含S1、获取面部图像数据和语音数据。S2、根据面部图像数据,通过第一特征提取网络,提取面部深层特征。S3、根据语音数据,通过第二特征提取网络,提取语音深层特征。S4、根据面部深层特征,获取身份标签对应的人脸数据中心质点队列。S5、根据语音深层特征,获取身份标签对应的语音数据中心质点队列。S6、根据两个中心质点队列,以目标质点作为正样本,其它质点作为负样本,最小化目标样本与目标质点的距离并最大化目标样本和其它质点的距离,进行模态内和模态间的中心质点的对比学习,从而对人脸数据和语音数据进行跨模态配对。
-
公开(公告)号:CN115620706B
公开(公告)日:2023-03-10
申请号:CN202211385690.8
申请日:2022-11-07
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练方法、装置、设备及存储介质,可以从识别模型的特征提取层提取出的目标语音特征中,提取出包含有幅度信息和相位信息的第一语音特征和第二语音特征,从而可以通过多任务学习,基于第一语音特征和第二语音特征对识别模型进行训练,进而可以使识别模型能够有效地根据语音数据中包含的幅度信息和相位信息,进行情感识别,以提升识别出的情感的准确率。
-
-
-
-
-
-
-
-
-