一种可定制的中英混合语音识别端到端系统

    公开(公告)号:CN113936641B

    公开(公告)日:2022-03-25

    申请号:CN202111548173.3

    申请日:2021-12-17

    Abstract: 本发明提供一种可定制的中英混合语音识别端到端系统,其中,系统包括:声学编码器、英文词表编码器、所述解码器和softmax函数。声学编码器、英文词表编码器‑解码器结构的端到端模型,声学编码器、英文词表编码器与解码器内部使用基于注意力的建模方式。模型可定制的方式是将需要定制化的英文单词或者英文词组进行提前编码,将离散的单词转化为模型的隐层表示,形成待检索向量列表。在进行识别过程时,解码器同时对声学特征的高维表示和英文词表的最终表示的序列进行注意力的计算。本发明具有能够实现针对不同领域的英文专有名词进行定制化模型,实现中英混合表达中英文的精准识别,同时减少模型对训练数据的依赖。

    一种语音识别与语音翻译端到端系统及设备

    公开(公告)号:CN113920989A

    公开(公告)日:2022-01-11

    申请号:CN202111516645.7

    申请日:2021-12-13

    Abstract: 本发明提供一种语音识别与语音翻译端到端系统及电子设备,其中,系统包括:声学编码器、多任务解码器和语义不变性约束模块,同时完成识别系统与翻译系统这两个任务,另外根据不同任务的文本语义相同特点,对模型施加语义约束,学习高层次语义信息,语义信息可以有效提升语音识别与语音翻译的性能。本发明具有避免了串行系统的误差累积问题,同时模型的计算代价低,实时性很高;同时利用不同任务之间文本的语义一致性特点,对模型施加语义约束,学习高层次语义信息。

    统一中英混合文本生成和语音识别的端到端系统

    公开(公告)号:CN113284485B

    公开(公告)日:2021-11-09

    申请号:CN202110777611.7

    申请日:2021-07-09

    Abstract: 本发明提供通用的统一中英混合文本生成和语音识别的端到端系统,包括:声学编码器、音素编码器、判别器和解码器;所述音素编码器和所述判别器构成生成对抗网络,所述音素编码器作为所述生成对抗网络的生成器,所述判别器为所述生成对抗网络的判别器,所述声学编码器作为所述生成对抗网络的真实数据输入,以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示,所述解码器将所述声学编码表示和所述音素编码表示融合,得到解码表示,再将所述解码表示输入到softmax函数得到概率最大的输出目标。

    一种多源图像处理方法
    4.
    发明公开

    公开(公告)号:CN110119716A

    公开(公告)日:2019-08-13

    申请号:CN201910400558.1

    申请日:2019-05-15

    Abstract: 本发明实施例提供一种多源图像处理方法,包括:采用自动聚类获取多幅相关图像的第一聚类类标;其中,所述多幅相关图像包括采用多个传感器获取的多幅与地点或者目标相关的图像;至少基于所述第一聚类类标提取所述多幅相关图像的不变性特征和差异性特征;以及根据所述不变性特征以及所述差异性特征进行图像后处理,其中,所述图像后处理包括目标识别或图像融合。本发明综合利用多源遥感图像,在无先验的情况下从数据本身出发提取、解译不同传感器图像的不同层次、不同尺度上的不变性特征和差异性特征。本发明可以广泛应用于多源遥感图像融合和目标识别中。

    一种可定制的中英混合语音识别端到端系统

    公开(公告)号:CN113936641A

    公开(公告)日:2022-01-14

    申请号:CN202111548173.3

    申请日:2021-12-17

    Abstract: 本发明提供一种可定制的中英混合语音识别端到端系统,其中,系统包括:声学编码器、英文词表编码器、所述解码器和softmax函数。声学编码器、英文词表编码器‑解码器结构的端到端模型,声学编码器、英文词表编码器与解码器内部使用基于注意力的建模方式。模型可定制的方式是将需要定制化的英文单词或者英文词组进行提前编码,将离散的单词转化为模型的隐层表示,形成待检索向量列表。在进行识别过程时,解码器同时对声学特征的高维表示和英文词表的最终表示的序列进行注意力的计算。本发明具有能够实现针对不同领域的英文专有名词进行定制化模型,实现中英混合表达中英文的精准识别,同时减少模型对训练数据的依赖。

    一种语音识别与语音翻译端到端系统及设备

    公开(公告)号:CN113920989B

    公开(公告)日:2022-04-01

    申请号:CN202111516645.7

    申请日:2021-12-13

    Abstract: 本发明提供一种语音识别与语音翻译端到端系统及电子设备,其中,系统包括:声学编码器、多任务解码器和语义不变性约束模块,同时完成识别系统与翻译系统这两个任务,另外根据不同任务的文本语义相同特点,对模型施加语义约束,学习高层次语义信息,语义信息可以有效提升语音识别与语音翻译的性能。本发明具有避免了串行系统的误差累积问题,同时模型的计算代价低,实时性很高;同时利用不同任务之间文本的语义一致性特点,对模型施加语义约束,学习高层次语义信息。

    一种融合多模态语义不变性的语音识别文本增强系统

    公开(公告)号:CN113270086B

    公开(公告)日:2021-10-15

    申请号:CN202110815743.4

    申请日:2021-07-19

    Abstract: 本发明提供一种融合多模态语义不变性的语音识别文本增强系统,包括:声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对短时音频帧提取声学特征,将声学特征输入到声学降采样模块进行降采样,得到声学表示;将语音数据输入现有语音识别模块,得到输入文本数据,将输入文本数据输入到编码器,得到输入文本编码表示;将声学表示和所述输入文本编码表示输入到解码器融合,声学模态和文本模态的表示进行相似性约束,得到解码表示;该方法通过融合跨模态语义不变性约束损失,减少模型对数据的依赖,提高模型的性能,适用于中英混合语音识别。

Patent Agency Ranking