图像处理方法、装置和电子设备

    公开(公告)号:CN111277912B

    公开(公告)日:2021-12-31

    申请号:CN202010096887.4

    申请日:2020-02-17

    Abstract: 本申请公开了图像处理方法、装置和电子设备,涉及图像处理技术领域。具体实现方案为:获取第一合成音频;将所述第一合成音频输入至预测模型中,获得预测唇形索引;所述预测模型的训练样本包括第二合成音频,以及与所述第二合成音频对应的唇形索引,所述唇形索引根据对发音对象的唇部采集的唇形图像获得;根据所述预测唇形索引,获得目标唇形图像;将所述目标唇形图像,投影到预获取的目标面部上,获得合成面部图像。由于根据预测模型可获取到与第一合成音频对应的预测唇形索引,并进一步的根据预测唇形索引获得目标唇形图像,使得合成的合成面部图像的唇形与第一合成音频的匹配度更高,提高了真人虚拟形象的合成效果。

    一种生成语音包的方法、装置、设备和计算机存储介质

    公开(公告)号:CN110751940B

    公开(公告)日:2021-06-11

    申请号:CN201910870412.3

    申请日:2019-09-16

    Abstract: 本申请公开了一种生成语音包的方法、装置、设备和计算机存储介质,涉及语音技术领域。具体实现方案为:向用户提供语音录制界面;在所述语音录制界面上获取到触发语音录制的事件后,获取用户录入的语音数据;若录入的语音数据符合训练语音合成模型的要求,则上传录入的语音数据至服务器端;接收所述服务器端利用所述语音数据训练语音合成模型后生成的语音包的下载地址。通过本申请,普通用户也能够通过客户端提供的语音录制界面即可实现个性化语音包的定制,无需专业的录制设备,大大降低了语音包的制作成本。并且大大缩短了制作周期,减少了需要录入的语音数据数量。

    基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质

    公开(公告)号:CN112242144A

    公开(公告)日:2021-01-19

    申请号:CN201910646762.1

    申请日:2019-07-17

    Inventor: 邵俊尧 钱胜 贾磊

    Abstract: 本公开提供了一种基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质。方法包括使用流式注意力模型生成用于解码语音的多个声学路径,然后将多个声学路径中最后一个发音相同的声学路径进行合并以获得多个合并的声学路径。方法还包括从多个合并的声学路径中选择预定数目个声学路径作为保留的候选声学路径。本公开的实施例提出了当前发音片段的声学得分计算只受其前一发音片段的影响而与更早的发音历史无关的思路,通过将多个候选声学路径中最后一个发音相同的若干个声学路径进行合并,能够提升基于流式注意力模型的语音识别系统的准确率和解码速度。

    语音识别方法、装置、设备以及计算机可读存储介质

    公开(公告)号:CN110992974A

    公开(公告)日:2020-04-10

    申请号:CN201911164974.2

    申请日:2019-11-25

    Abstract: 本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括获得从麦克风阵列中的第一麦克风采集的第一语音信号以及从第二麦克风采集的第二语音信号,其中麦克风阵列包括至少两个麦克风,例如两个、三个或者六个麦克风等。方法还包括通过神经网络提取与第一语音信号和第二语音信号相关联的增强特征,然后基于所提取的增强特征来获得语音识别结果。不同于传统的基于数字信号处理的语音增强方式,本公开的实施例通过神经网络来直接提取多通道语音信号的增强特征,能够解决语音增强和语音识别优化目标不一致的问题,从而能够联合优化语音增强和语音识别等目标,实现了语音增强和识别的端到端建模,提高了语音识别的准确率。

    语音交互的方法、装置、设备和计算机可读存储介质

    公开(公告)号:CN110992940A

    公开(公告)日:2020-04-10

    申请号:CN201911168794.1

    申请日:2019-11-25

    Abstract: 根据本公开的实施例,提供了一种语音交互的方法、装置、设备和存储介质,涉及语音交互领域。该方法包括:从接收的语音数据中提取声学特征,所述声学特征指示所述语音数据的短时幅度谱特性;将所述声学特征应用于类型识别模型以确定所述语音数据的意图类型,所述意图类型为交互意图类型和非交互意图类型中的一种,所述类型识别模型是基于训练语音数据的所述声学特征而构建的;以及根据确定所述意图类型为交互意图类型,执行所述语音数据所指示的交互操作。以此方式,提高了语音交互过程的正确性和便利性,改善了交互体验。

    用于处理语音信号的方法、装置、设备和介质

    公开(公告)号:CN110827799A

    公开(公告)日:2020-02-21

    申请号:CN201911146748.1

    申请日:2019-11-21

    Abstract: 根据本公开的实施例,提供了用于处理语音信号的方法、装置、设备和计算机可读存储介质。该方法包括获取所接收的语音信号的语音特征表示集合。该方法还包括基于从语音信号识别的文本,生成源文本特征表示集合,每个源文本特征表示与文本中的一个元素相对应。该方法还包括基于语音特征表示集合和源文本特征表示集合,生成目标文本特征表示集合。该方法还包括确定目标文本特征表示集合与针对文本预定义的参考文本特征表示集合的匹配程度,匹配程度指示对文本的识别的正确性。通过该方法,可以使得语音判定结果更准确,同时使得人机之间的交互更加顺畅,提升了人机交互的体验。

    语音合成模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN110619867A

    公开(公告)日:2019-12-27

    申请号:CN201910927040.3

    申请日:2019-09-27

    Abstract: 本申请公开了语音合成模型的训练方法、装置、电子设备及存储介质,涉及计算机智能语音领域。具体实现方案为:将当前样本的音节输入序列、音素输入序列和汉字输入序列作为待训练模型的编码器的输入,在编码器的输出端得到各个序列的编码表示;将编码表示的三个序列进行融合,得到三个序列的一个加权组合;将该加权组合作为注意力模块的输入,在注意力模块的输出端得到音节输入序列、音素输入序列和汉字输入序列的加权组合在各个时刻上的加权平均;将该加权平均作为待训练模型的解码器的输入,在解码器的输出端得到当前样本的语音Mel谱输出。本申请实施例可以有效地改善发音效果,为语音产品提供高表现力和高自然度的中文合成语音。

    语音识别方法、装置、设备以及计算机可读存储介质

    公开(公告)号:CN110534095A

    公开(公告)日:2019-12-03

    申请号:CN201910779740.2

    申请日:2019-08-22

    Abstract: 本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括针对输入的语音信号,通过第一声学模型获得第一声学解码信息并且通过第二声学模型获得第二声学解码信息,其中第二声学模型是通过声学和语言的联合建模而生成的。方法还包括根据第一声学解码信息确定第一组候选识别结果并且根据第二声学解码信息确定第二组候选识别结果,然后基于这两组候选识别结果来确定针对语音信号的最终识别结果。本公开的实施例提出了一种基于双解码的语音识别方案,利用一个声学模型的声学多样性来弥补另一个声学模型声学路径较少的缺点,两个解码路径彼此独立,扩展了解码空间,从而能够提高语音识别的准确率。

    用LSTM循环神经网络模型进行语音识别的方法和装置

    公开(公告)号:CN105513591B

    公开(公告)日:2019-09-03

    申请号:CN201510967532.7

    申请日:2015-12-21

    Abstract: 本发明公开了一种利用长短时记忆(LSTM)循环神经网络模型进行语音识别的方法和装置,其中方法包括:接收第t时刻的语音输入数据;根据预设规则选择第t‑1时刻至第t‑n时刻的LSTM隐含层状态,其中,n为正整数;根据选择的至少一个LSTM隐含层状态、第t时刻的输入数据、以及LSTM循环神经网络模型生成第t时刻的LSTM结果。该方法和装置可以很好地解决深度循环神经网络的“余尾效应”,提高了语音识别的准确性。

Patent Agency Ranking