一种韵律层级标注的方法、模型训练的方法及装置

    公开(公告)号:CN109697973B

    公开(公告)日:2024-07-19

    申请号:CN201910060152.3

    申请日:2019-01-22

    Abstract: 本发明公开了一种韵律层级标注的方法,包括:获取待标注文本数据以及音频数据,其中,待标注文本数据与音频数据之间具有对应关系;根据待标注文本数据提取每个词语的待标注文本特征集合;根据音频数据提取每个词语的声学特征集合;根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。本发明还公开了一种模型训练的方法、韵律层级标注装置和模型训练装置。本发明联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级的标注提供更加丰富的特征,提高韵律层级标注的准确性,提升语音合成的效果。

    一种韵律层级标注的方法、模型训练的方法及装置

    公开(公告)号:CN110444191B

    公开(公告)日:2021-11-26

    申请号:CN201910751371.6

    申请日:2019-01-22

    Abstract: 本申请公开了一种韵律层级标注的方法,该方法应用于人工智能领域,具体可应用于语音合成领域,该方法包括:获取待标注文本数据以及音频数据,其中,待标注文本数据与音频数据之间具有对应关系;根据待标注文本数据提取每个词语的待标注文本特征集合;根据音频数据提取每个词语的声学特征集合;根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。本申请还公开了一种模型训练的方法、韵律层级标注装置和模型训练装置。本申请联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级的标注提供更加丰富的特征,提高韵律层级标注的准确性,提升语音合成的效果。

    一种文本韵律层级结构预测方法、装置、设备及存储介质

    公开(公告)号:CN110534087B

    公开(公告)日:2022-02-15

    申请号:CN201910834143.5

    申请日:2019-09-04

    Abstract: 本申请实施例公开了一种基于人工智能的韵律层级结构预测方法、装置、设备及存储介质,其中,该方法包括:获取目标文本;对该目标文本进行分词和词性标注得到分词标注序列;根据分词标注序列进行词级特征提取得到词级特征序列,该词级特征序列中每个词的词级特征至少包括经语义特征提取所得的词向量;通过韵律层级结构预测模型获得该词级特征序列对应的韵律层级结构序列,该韵律层级结构预测模型是基于自注意力机制的深度神经网络模型。该方法能够有效地提高对于韵律层级结构的预测精度。

    一种韵律层级标注的方法、模型训练的方法及装置

    公开(公告)号:CN110444191A

    公开(公告)日:2019-11-12

    申请号:CN201910751371.6

    申请日:2019-01-22

    Abstract: 本申请公开了一种韵律层级标注的方法,该方法应用于人工智能领域,具体可应用于语音合成领域,该方法包括:获取待标注文本数据以及音频数据,其中,待标注文本数据与音频数据之间具有对应关系;根据待标注文本数据提取每个词语的待标注文本特征集合;根据音频数据提取每个词语的声学特征集合;根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。本申请还公开了一种模型训练的方法、韵律层级标注装置和模型训练装置。本申请联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级的标注提供更加丰富的特征,提高韵律层级标注的准确性,提升语音合成的效果。

    一种文本韵律层级结构预测方法、装置、设备及存储介质

    公开(公告)号:CN110534087A

    公开(公告)日:2019-12-03

    申请号:CN201910834143.5

    申请日:2019-09-04

    Abstract: 本申请实施例公开了一种基于人工智能的韵律层级结构预测方法、装置、设备及存储介质,其中,该方法包括:获取目标文本;对该目标文本进行分词和词性标注得到分词标注序列;根据分词标注序列进行词级特征提取得到词级特征序列,该词级特征序列中每个词的词级特征至少包括经语义特征提取所得的词向量;通过韵律层级结构预测模型获得该词级特征序列对应的韵律层级结构序列,该韵律层级结构预测模型是基于自注意力机制的深度神经网络模型。该方法能够有效地提高对于韵律层级结构的预测精度。

    一种韵律层级标注的方法、模型训练的方法及装置

    公开(公告)号:CN109697973A

    公开(公告)日:2019-04-30

    申请号:CN201910060152.3

    申请日:2019-01-22

    Abstract: 本发明公开了一种韵律层级标注的方法,包括:获取待标注文本数据以及音频数据,其中,待标注文本数据与音频数据之间具有对应关系;根据待标注文本数据提取每个词语的待标注文本特征集合;根据音频数据提取每个词语的声学特征集合;根据每个词语的词语标识、每个词语的待标注文本特征集合以及每个词语的声学特征集合,通过韵律层级标注模型获取韵律层级结构。本发明还公开了一种模型训练的方法、韵律层级标注装置和模型训练装置。本发明联合文本特征以及声学特征建立韵律层级标注模型,可以为韵律层级的标注提供更加丰富的特征,提高韵律层级标注的准确性,提升语音合成的效果。

    一种基于对抗学习的端到端的跨语言语音情感识别方法

    公开(公告)号:CN110364186B

    公开(公告)日:2021-06-25

    申请号:CN201910731716.1

    申请日:2019-08-08

    Inventor: 吴志勇 代东洋

    Abstract: 本发明提供一种基于对抗学习的端到端的跨语言语音情感识别方法,包括:构建包括特征提取器、情感分类器和语言分类器的情感识别模型;接收原始数据对所述情感识别模型进行训练并在训练过程中使用梯度翻转层;利用训练好的所述情感识别模型预测源语言语音或目标语言语音的情感。通过构建包括特征提取器、情感分类器和语言分类器的情感识别模型,直接接受语音波形或者语谱图作为输入,不再需要其他数据预处理工作,免除了特征工程的工作;模型训练时采用梯度反转层以促进特征提取器提取语言无关的信息,适用于模型训练时一种语言的语音数据有大量的情感标签而其他语言的语音数据没有足够情感标签甚至没有情感标签的情况。

    一种视频镜头分割边界检测的方法及装置

    公开(公告)号:CN105678743B

    公开(公告)日:2018-06-29

    申请号:CN201511020545.X

    申请日:2015-12-29

    Abstract: 本发明公开了一种视频镜头分割边界检测的方法及装置,包括如下步骤:若DHL>αDHR,判定左子窗口内存在镜头突然切换,若DHR>αDHL,则判定右子窗口内存在镜头突然切换,将检测窗口缩小一半,对子窗口内的视频帧进一步检测,直至被检测的视频帧的数量降至2时执行步骤S1;当前两个条件不满足时,若DHL>THg且DHR>THg,判定当前被检测的视频帧内存在镜头渐变切换,并执行步骤S2;S1、比较第一视频帧与第二视频帧的SIFT特征点之间的匹配度与阈值的大小,若小于则判定第一视频帧或第二视频帧为镜头边界;S2、比较首视频帧与尾视频帧的SIFT特征点之间的匹配度与阈值的大小,若小于则判定首视频帧和尾视频帧之间存在镜头渐变切换。

    一种视频中的污染区域的内容补绘方法

    公开(公告)号:CN105376462B

    公开(公告)日:2018-05-25

    申请号:CN201510760914.2

    申请日:2015-11-10

    Abstract: 本发明公开了一种视频中的污染区域的内容补绘方法,包括以下步骤:1)检测视频中的污染区域,并进行标定;2)对视频中的各帧图像进行如下补绘操作:21)取与当前帧图像连续的前L帧图像和后R帧图像;22)根据当前帧图像与前L帧图像、后R帧图像的时间连续性,采用最小化总变差的方法,对当前帧图像中的污染区域进行补绘;23)判断当前帧图像的污染区域是否补绘完全,如果是,则进入步骤25);如果否,则进入步骤24);24)利用当前帧图像自身的空间连续性,采用最小化总变差的方法,对当前帧图像污染区域中剩余未补绘的区域进行补绘:25)结束当前帧图像的补绘。本发明的视频中的污染区域的内容补绘方法,补绘精确度较高。

    一种视频镜头分割边界检测的方法及装置

    公开(公告)号:CN105678743A

    公开(公告)日:2016-06-15

    申请号:CN201511020545.X

    申请日:2015-12-29

    CPC classification number: G06T7/0002 G06K9/00718 G06K9/4671 G06T2207/10016

    Abstract: 本发明公开了一种视频镜头分割边界检测的方法及装置,包括如下步骤:若DHL>αDHR,判定左子窗口内存在镜头突然切换,若DHR>αDHL,则判定右子窗口内存在镜头突然切换,将检测窗口缩小一半,对子窗口内的视频帧进一步检测,直至被检测的视频帧的数量降至2时执行步骤S1;当前两个条件不满足时,若DHL>THg且DHR>THg,判定当前被检测的视频帧内存在镜头渐变切换,并执行步骤S2;S1、比较第一视频帧与第二视频帧的SIFT特征点之间的匹配度与阈值的大小,若小于则判定第一视频帧或第二视频帧为镜头边界;S2、比较首视频帧与尾视频帧的SIFT特征点之间的匹配度与阈值的大小,若小于则判定首视频帧和尾视频帧之间存在镜头渐变切换。

Patent Agency Ranking