图像处理方法、装置和电子设备

    公开(公告)号:CN111277912A

    公开(公告)日:2020-06-12

    申请号:CN202010096887.4

    申请日:2020-02-17

    Abstract: 本申请公开了图像处理方法、装置和电子设备,涉及图像处理技术领域。具体实现方案为:获取第一合成音频;将所述第一合成音频输入至预测模型中,获得预测唇形索引;所述预测模型的训练样本包括第二合成音频,以及与所述第二合成音频对应的唇形索引,所述唇形索引根据对发音对象的唇部采集的唇形图像获得;根据所述预测唇形索引,获得目标唇形图像;将所述目标唇形图像,投影到预获取的目标面部上,获得合成面部图像。由于根据预测模型可获取到与第一合成音频对应的预测唇形索引,并进一步的根据预测唇形索引获得目标唇形图像,使得合成的合成面部图像的唇形与第一合成音频的匹配度更高,提高了真人虚拟形象的合成效果。

    用于语音交互的方法、装置、电子设备和计算机存储介质

    公开(公告)号:CN110866090A

    公开(公告)日:2020-03-06

    申请号:CN201911115505.1

    申请日:2019-11-14

    Abstract: 本公开的实施例涉及一种用于语音交互的方法、装置、电子设备和计算机可读存储介质。该方法可以包括确定与接收的语音信号相对应的文本信息。该方法进一步包括通过对所述文本信息中的元素进行标注,获取所述文本信息的标注信息。此外,该方法还包括基于所述标注信息确定所述文本信息的第一意图信息。并且,该方法进一步包括基于所述第一意图信息和所述标注信息,确定所述文本信息的语义。本公开的技术方案通过引入语义理解技术,从而可以基于语音识别的文本信息推导出语义结果。此外,结合改进的基于深度神经网络的语义理解模型以及线上的实时干预机制,从而可以获取正确率较高的语义结果。

    地图播报的管理方法、装置、电子设备和存储介质

    公开(公告)号:CN110674241A

    公开(公告)日:2020-01-10

    申请号:CN201910942945.8

    申请日:2019-09-30

    Abstract: 本申请公开了地图播报的管理方法、装置、电子设备和存储介质,涉及语音技术领域,具体实现方案为:提供语音包管理界面,其中,语音包管理界面包括多个候选语音包,每个候选语音包对应时间标识,其中,多个候选语音包按照时间标识的顺序排列;获取用户选择的候选语音包,并将用户选择的候选语音包作为当前语音包;以及根据当前语音包生成地图播报语音。该方法通过语音包管理界面提供包含时间标识的多个候选语音包供用户选择,用户可以根据需要选择语音包,不仅可以满足用户的个性化需求,而且可以方便灵活地使用不同时间的语音包进行地图播报。

    一种用于实现语音输入的方法与设备

    公开(公告)号:CN103076893B

    公开(公告)日:2016-08-17

    申请号:CN201210592826.2

    申请日:2012-12-31

    Inventor: 陆阳阳 贾磊

    Abstract: 本发明的目的是提供一种用于实现语音输入的方法与设备,其中,在网络设备端根据语音识别模型,确定语音输入信息对应的输入字符序列,并通过确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息,从而将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备;用户设备端根据所述分词的准确性信息,将所述输入字符序列提供给用户。与现有技术相比,本发明根据输入字符序列中分词的呈现概率信息来获得所述分词的准确性信息,提高了语音输入的准确性与灵活性,使得所述输入词条与用户的输入需求相匹配,提高了输入灵活度与个性化,还提高了输入法的输入效率,改善了用户体验。

    语音唤醒方法和装置
    26.
    发明公开

    公开(公告)号:CN105096939A

    公开(公告)日:2015-11-25

    申请号:CN201510399209.4

    申请日:2015-07-08

    Abstract: 本发明公开了一种语音唤醒方法和装置,其中,语音唤醒方法包括:S1、获取唤醒词,并根据唤醒词生成符合预设条件的垃圾词,以及根据唤醒词和垃圾词构建识别网络;S2、获取用户输入的语音信息,将语音信息切分为多个语音帧,并提取每个语音帧中的声学特征;S3、基于卷积神经网络声学模型对多个声学特征依次进行似然计算,以获得每个声学特征的声学特征得分;S4、根据声学特征得分从识别网络中选取最优识别路径,以及将最优识别路径对应的语音结果作为识别结果;以及S5、根据识别结果计算识别结果对应的置信度,并根据置信度获得唤醒结果并输出。本发明实施例的语音唤醒方法和装置,计算量小,功耗低,能够降低语音唤醒的误报率,提升用户使用体验。

    基于深层神经网络的声学模型训练方法、主机和系统

    公开(公告)号:CN103680496A

    公开(公告)日:2014-03-26

    申请号:CN201310704701.9

    申请日:2013-12-19

    Inventor: 贾磊 苏丹 胡娜

    Abstract: 本发明公开了一种基于深层神经网络的声学模型训练方法、主机和系统。所述基于深层神经网络的声学模型方法包括:算主机从主控主机获取原始深层神经网络的副本深层神经网络;所述运算主机基于训练数据对副本深层神经网络进行训练,且按照设定规律进入停止状态;当所述运算主机处于停止状态时,将所述副本深层神经网络的加权参数的变化量提供给所述主控主机;所述运算主机接收所述主控主机发送的原始深层神经网络的加权参数绝对值,并根据加权参数绝对值更新副本深层神经网络的加权参数。本发明公开的声学模型训练方法、主机和系统利用多台主机异步、并行的进行深层神经网络训练,大幅提高了深层神经网络训练的效率。

    语音识别方法和语音识别系统

    公开(公告)号:CN103325370A

    公开(公告)日:2013-09-25

    申请号:CN201310271192.5

    申请日:2013-07-01

    Inventor: 贾磊 万广鲁

    Abstract: 公开语音识别方法和语音识别系统。所述语音识别方法包括:接收语音输入并提取语音帧特征;通过使用解码空间对输入的语音进行语音解码,以确定语音解码结果,其中,解码空间包括基于语法规则构造的多条解码路径,所述多条解码路径包括仅包含类语言模型节点的解码路径、仅包含统计语言模型节点的解码路径以及包含类语言模型节点和统计语言模型节点二者的解码路径的三种类型的解码路径;通过回溯选择的解码路径上的各个节点确定语义解析结果,其中,所述语音解码的步骤包括:将输入的语音遍历解码空间中的每一条解码路径,选择语言层得分与声学层得分之和最大的一条解码路径,并根据选择的解码路径上的各个节点的三音子声学模型确定语音解码结果。

    语法编译方法、语义解析方法以及对应装置

    公开(公告)号:CN103294666A

    公开(公告)日:2013-09-11

    申请号:CN201310203987.2

    申请日:2013-05-28

    CPC classification number: G06F17/274 G06F8/42 G06F8/427 G06F17/271 G06F17/2785

    Abstract: 本发明提供了一种语法编译方法、语义解析方法以及对应装置,按照语义的常用语句表达采用基于逻辑语法直观语言(LGML)预先定义对应的语法描述文件和词类描述文件,在语法描述文件中由词类、操作符和函数构成常用语句的描述,词类描述文件用于描述词类的具体取值;将语法描述文件和词类描述文件分别按照预设顺序的归约方法生成语法描述文件的语法树和词类描述文件的词类树,将词类树挂接在语法树中对应词类的位置,形成语义的语法树,从而实现语法编译。基于该方式建立的语义的语法树,采用整句匹配、语义映射匹配或者整句匹配和语义映射匹配相结合的方式进行语义解析。

    一种用于实现语音输入的方法与设备

    公开(公告)号:CN103076893A

    公开(公告)日:2013-05-01

    申请号:CN201210592826.2

    申请日:2012-12-31

    Inventor: 陆阳阳 贾磊

    Abstract: 本发明的目的是提供一种用于实现语音输入的方法与设备,其中,在网络设备端根据语音识别模型,确定语音输入信息对应的输入字符序列,并通过确定所述输入字符序列中分词所对应的呈现概率信息,以获得所述分词的准确性信息,从而将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备;用户设备端根据所述分词的准确性信息,将所述输入字符序列提供给用户。与现有技术相比,本发明根据输入字符序列中分词的呈现概率信息来获得所述分词的准确性信息,提高了语音输入的准确性与灵活性,使得所述输入词条与用户的输入需求相匹配,提高了输入灵活度与个性化,还提高了输入法的输入效率,改善了用户体验。

Patent Agency Ranking