基于深度度量网络的语音合成方法及装置

    公开(公告)号:CN109346056B

    公开(公告)日:2021-06-11

    申请号:CN201811102108.6

    申请日:2018-09-20

    Abstract: 本发明涉及语音合成技术领域,具体涉及一种基于深度度量网络的语音合成方法及装置,旨在解决如何得到更为精确的目标代价以及品质更高的合成语音的技术问题。该方法包括将待测文本信息拆分为多个文本基元,提取文本基元的文本特征;从语料库中获取对应的多个候选基元,并提取每个候选基元对应的文本特征和声学特征;对文本基元的文本特征进行编码得到第一特征向量,对候选基元的文本特征和声学特征进行编码得到第二特征向量;计算文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,获取目标代价;利用语音合成系统根据目标代价对候选基元进行拼接合成语音。上述方法可以提升合成语音的品质。

    多模态维度情感识别方法
    72.
    发明授权

    公开(公告)号:CN112560830B

    公开(公告)日:2021-05-25

    申请号:CN202110214208.3

    申请日:2021-02-26

    Abstract: 本申请涉及多模态维度情感识别方法,包括:输入待测样本的音频、视频及对应的文本,得到帧级别的音频特征、帧级别的视频特征和帧级别的文本特征;利用时序卷积网络对帧级别的音频特征、帧级别的视频特征和帧级别的文本特征分别进行时序上下文建模,得到上下文音频特征、上下文视频特征和上下文文本特征;利用门控注意力机制对上下文音频特征、上下文视频特征和上下文文本特征进行加权融合,得到多模态特征;将多模态特征、上下文音频特征、上下文视频特征和上下文文本特征进行拼接,得到拼接特征,然后再次利用时序卷积网络对所述拼接特征进行时序上下文建模,得到上下文拼接特征;对上下文拼接特征进行回归预测,得到最终的维度情感预测结果。

    基于混合网络和lp范数池化的抑郁状态检测方法及装置

    公开(公告)号:CN112687390A

    公开(公告)日:2021-04-20

    申请号:CN202110270093.X

    申请日:2021-03-12

    Abstract: 本申请涉及一种基于混合网络和lp范数池化的抑郁状态检测方法及装置,包括:对长时语音的对数傅里叶幅值谱进行切割,得到由短时谱段构成的短时谱段集合;将短时谱段输入到卷积神经网络和长短期记忆网络中进行训练,得到空间特征和时序特征,并将空间特征和时序特征的拼接作为短时谱段的时空特征表示;得到所有短时谱段的时空特征表示,排列成矩阵的形式,计算其lp范数池化结果;将lp范数池化结果放入到套索回归框架下进行优化以找到适合于抑郁检测任务的范数池化类型和线性变换矩阵;利用优化结果对所有短时谱段进行特征选择,生成长时谱表示;将混合网络预测结果的中值和长时谱表示经过支持向量回归得到的结果取平均值作为最终的预测结果。

    基于孪生网络的远程监督关系抽取降噪系统

    公开(公告)号:CN112668342A

    公开(公告)日:2021-04-16

    申请号:CN202110024800.7

    申请日:2021-01-08

    Abstract: 本申请实施例涉及一种基于孪生网络的远程监督关系抽取降噪系统,旨在旨在降低远程监督回标训练数据的噪声影响,同时减少训练数据损失的情况。该系统包括:文本分析模块,关系选择器训练模块,关系选择模块,噪声数据聚类模块,关系分类模块;所述文本分析模块用于接收远程监督回标文本数据,输出初始候选数据和初始高可信度数据;所述关系选择器训练模块用于利用标注好的文本数据训练出基于孪生网络的关系选择器;所述关系选择模块用于对初始候选数据和初始高可信度数据进行关系选择,输出噪声数据和新增高可信度数据;所述噪声聚类模块用于对噪声数据进行聚类分析,输出新增候选数据,所述关系分类模块用于输出最后的分类结果。

    基于神经网络和迁移学习的多模态情感识别方法、系统

    公开(公告)号:CN107609572B

    公开(公告)日:2021-04-02

    申请号:CN201710698379.1

    申请日:2017-08-15

    Inventor: 陶建华 黄健 李雅

    Abstract: 本发明涉及多模态情感计算领域,提出了一种基于神经网络和迁移学习的多模态情感识别方法、系统,旨在解决情感数据难以获取且标注困难,使得相应识别模型不能够充分训练,造成多模态情感识别准确率不能满足需求的问题,该方法基于大规模数据训练深度神经网络并通过迁移学习获取音频特征提取器、视频特征提取器,进而对多模态情感数据进行音频特征、视频特征的提取,从而识别各语音情感类别的概率、各视频情感类别的概率,并通概率值判断最终情感类别。该方法可以有效的融合音视频两个模态,提高了多模态情感识别的准确率。

    多模态维度情感识别方法
    76.
    发明公开

    公开(公告)号:CN112560830A

    公开(公告)日:2021-03-26

    申请号:CN202110214208.3

    申请日:2021-02-26

    Abstract: 本申请涉及多模态维度情感识别方法,包括:输入待测样本的音频、视频及对应的文本,得到帧级别的音频特征、帧级别的视频特征和帧级别的文本特征;利用时序卷积网络对帧级别的音频特征、帧级别的视频特征和帧级别的文本特征分别进行时序上下文建模,得到上下文音频特征、上下文视频特征和上下文文本特征;利用门控注意力机制对上下文音频特征、上下文视频特征和上下文文本特征进行加权融合,得到多模态特征;将多模态特征、上下文音频特征、上下文视频特征和上下文文本特征进行拼接,得到拼接特征,然后再次利用时序卷积网络对所述拼接特征进行时序上下文建模,得到上下文拼接特征;对上下文拼接特征进行回归预测,得到最终的维度情感预测结果。

    基于融合深度特征的微表情识别方法

    公开(公告)号:CN112560812A

    公开(公告)日:2021-03-26

    申请号:CN202110188625.5

    申请日:2021-02-19

    Abstract: 本申请涉及基于融合深度特征的微表情识别方法,包括:输入微表情视频文件,得到仅包含人脸的微表情帧序列;对微表情序列归一化和灰度化,得到微表情预处理序列;掩盖微表情预处理序列中不活跃的区域,得到微表情活跃帧序列;使用光流法对微表情活跃帧序列的相邻帧提取光流,得到光流序列;构建能够提取微表情活跃帧序列特征和光流序列特征的深度神经网络模型,将所述微表情活跃帧序列特征和光流序列特征融合得到用于识别微表情的特征;将微表情活跃帧序列以及光流序列作为深度神经网络模型的输入,对深度神经网络模型进行学习优化;将待测试的视频文件经过上述步骤后,送入学习优化后的深度神经网络模型提取特征进行微表情识别。

    基于汉语韵律结构和重音的联合预测模型构建方法及系统

    公开(公告)号:CN107464559B

    公开(公告)日:2020-12-15

    申请号:CN201710561567.X

    申请日:2017-07-11

    Abstract: 本发明涉及一种基于汉语韵律结构和重音的联合的预测模型构建方法及系统,所述构建方法包括:对多个历史语料文本训练语料进行预处理,得到预处理文本;对预处理文本进行分词处理,得到分词文本信息;根据分词文本信息确定对应文本的词向量特征序列;基于注意力机制的RNN的编码‑解码,对所述词向量特征序列进行编码、解码处理,建立基于汉语韵律结构和重音的联合预测模型,用于预测待处理文本的韵律结构和重音。本发明通过对多个历史语料文本训练语料进行预处理、分词处理获得分词文本信息,得到对应文本的词向量特征序列,进而基于注意力机制的RNN的编码‑解码,建立联合预测模型,充分考虑汉语韵律结构与重音的关系,实现对待测文本的准确预测。

    语音识别中的小数据语音声学建模方法

    公开(公告)号:CN108682417B

    公开(公告)日:2020-05-19

    申请号:CN201810455011.7

    申请日:2018-05-14

    Abstract: 本发明属于电子行业信号处理技术领域,旨在解决只具有少量标注数据的目标语种的声学模型判别性能低的问题。为此,本发明提供了一种语音识别中的小数据语音声学建模方法,包括:通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征;利用融合特征进行训练,以建立目标语种的声学模型。采用该方法有效地克服了现有技术中因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度。

    基于深层神经网络中间层特征的头相关传输函数建模系统

    公开(公告)号:CN107480100A

    公开(公告)日:2017-12-15

    申请号:CN201710536423.9

    申请日:2017-07-04

    Inventor: 陶建华 戚肖克

    Abstract: 本发明涉及本发明涉及电子行业信号处理技术领域,提出了一种基于深层神经网络中间层特征的头相关传输函数建模系统,该系统包括训练系统、建模系统;所述训练系统包括特征生成模块、模型训练模块、HRTF数据库;所述建模系统包括特征生成模块、预测模块、HRTF重建模块;所述特征生成模块用以生成模型输入特征;所述模型训练模块用以在所述模型输入特征与HRTF数据库中的HRTF之间产生非线性映射;所述HRTF数据库用于存储HRTF;所述预测模块用以针对目标位置产生对数幅度最小相位HRTF;所述HRTF重建模块用以重构目标位置处的HRTF。本发明充分利用了HRTF数据与基函数之间的非线性关系,并提高模型准确度。

Patent Agency Ranking