-
公开(公告)号:CN113936641B
公开(公告)日:2022-03-25
申请号:CN202111548173.3
申请日:2021-12-17
Applicant: 中国科学院自动化研究所
IPC: G10L15/00 , G10L15/02 , G10L15/06 , G10L15/183 , G06F40/126 , G06F40/237 , G06F40/284
Abstract: 本发明提供一种可定制的中英混合语音识别端到端系统,其中,系统包括:声学编码器、英文词表编码器、所述解码器和softmax函数。声学编码器、英文词表编码器‑解码器结构的端到端模型,声学编码器、英文词表编码器与解码器内部使用基于注意力的建模方式。模型可定制的方式是将需要定制化的英文单词或者英文词组进行提前编码,将离散的单词转化为模型的隐层表示,形成待检索向量列表。在进行识别过程时,解码器同时对声学特征的高维表示和英文词表的最终表示的序列进行注意力的计算。本发明具有能够实现针对不同领域的英文专有名词进行定制化模型,实现中英混合表达中英文的精准识别,同时减少模型对训练数据的依赖。
-
公开(公告)号:CN113920989A
公开(公告)日:2022-01-11
申请号:CN202111516645.7
申请日:2021-12-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音识别与语音翻译端到端系统及电子设备,其中,系统包括:声学编码器、多任务解码器和语义不变性约束模块,同时完成识别系统与翻译系统这两个任务,另外根据不同任务的文本语义相同特点,对模型施加语义约束,学习高层次语义信息,语义信息可以有效提升语音识别与语音翻译的性能。本发明具有避免了串行系统的误差累积问题,同时模型的计算代价低,实时性很高;同时利用不同任务之间文本的语义一致性特点,对模型施加语义约束,学习高层次语义信息。
-
公开(公告)号:CN113284485B
公开(公告)日:2021-11-09
申请号:CN202110777611.7
申请日:2021-07-09
Applicant: 中国科学院自动化研究所
IPC: G10L15/06 , G10L15/02 , G10L15/183 , G10L15/26
Abstract: 本发明提供通用的统一中英混合文本生成和语音识别的端到端系统,包括:声学编码器、音素编码器、判别器和解码器;所述音素编码器和所述判别器构成生成对抗网络,所述音素编码器作为所述生成对抗网络的生成器,所述判别器为所述生成对抗网络的判别器,所述声学编码器作为所述生成对抗网络的真实数据输入,以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示,所述解码器将所述声学编码表示和所述音素编码表示融合,得到解码表示,再将所述解码表示输入到softmax函数得到概率最大的输出目标。
-
公开(公告)号:CN110119716A
公开(公告)日:2019-08-13
申请号:CN201910400558.1
申请日:2019-05-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例提供一种多源图像处理方法,包括:采用自动聚类获取多幅相关图像的第一聚类类标;其中,所述多幅相关图像包括采用多个传感器获取的多幅与地点或者目标相关的图像;至少基于所述第一聚类类标提取所述多幅相关图像的不变性特征和差异性特征;以及根据所述不变性特征以及所述差异性特征进行图像后处理,其中,所述图像后处理包括目标识别或图像融合。本发明综合利用多源遥感图像,在无先验的情况下从数据本身出发提取、解译不同传感器图像的不同层次、不同尺度上的不变性特征和差异性特征。本发明可以广泛应用于多源遥感图像融合和目标识别中。
-
公开(公告)号:CN113936641A
公开(公告)日:2022-01-14
申请号:CN202111548173.3
申请日:2021-12-17
Applicant: 中国科学院自动化研究所
IPC: G10L15/00 , G10L15/02 , G10L15/06 , G10L15/183 , G06F40/126 , G06F40/237 , G06F40/284
Abstract: 本发明提供一种可定制的中英混合语音识别端到端系统,其中,系统包括:声学编码器、英文词表编码器、所述解码器和softmax函数。声学编码器、英文词表编码器‑解码器结构的端到端模型,声学编码器、英文词表编码器与解码器内部使用基于注意力的建模方式。模型可定制的方式是将需要定制化的英文单词或者英文词组进行提前编码,将离散的单词转化为模型的隐层表示,形成待检索向量列表。在进行识别过程时,解码器同时对声学特征的高维表示和英文词表的最终表示的序列进行注意力的计算。本发明具有能够实现针对不同领域的英文专有名词进行定制化模型,实现中英混合表达中英文的精准识别,同时减少模型对训练数据的依赖。
-
公开(公告)号:CN107064513A
公开(公告)日:2017-08-18
申请号:CN201710045397.X
申请日:2017-01-22
Applicant: 中国科学院自动化研究所
IPC: G01N33/577 , G01N33/574 , G01N33/533
CPC classification number: G01N33/577 , G01N33/533 , G01N33/574 , G01N33/57419 , G01N33/57423 , G01N33/57446
Abstract: 本发明公开了一种肿瘤诊断试剂盒。其是将Cetuximab用于肿瘤诊断的新用途而开发的试剂盒,通过细胞及动物实验验证,发现对cetuximab进行一定荧光标记后具有食管癌、结直肠癌以及肺癌等早期检测的功效,实现旧药新用。
-
公开(公告)号:CN110210574B
公开(公告)日:2022-02-18
申请号:CN201910510470.5
申请日:2019-06-13
Applicant: 中国科学院自动化研究所
IPC: G06V20/10 , G06V10/774 , G06V10/762 , G06V10/764 , G06V10/82 , G06V10/80 , G06K9/62
Abstract: 本发明涉及图像处理领域,具体涉及一种合成孔径雷达图像解译方法、目标识别装置及设备,旨在解决合成孔径雷达图像解译性能不高的问题,本发明方法包括利用合成孔径雷达训练图像和光学训练图像来获取合成孔径雷达图像的解译模型;以及基于所述解译模型进行图像解译或目标识别。本发明提高了SAR图像解译性能。
-
公开(公告)号:CN110210574A
公开(公告)日:2019-09-06
申请号:CN201910510470.5
申请日:2019-06-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及图像处理领域,具体涉及一种合成孔径雷达图像解译方法、目标识别装置及设备,旨在解决合成孔径雷达图像解译性能不高的问题,本发明方法包括利用合成孔径雷达训练图像和光学训练图像来获取合成孔径雷达图像的解译模型;以及基于所述解译模型进行图像解译或目标识别。本发明提高了SAR图像解译性能。
-
公开(公告)号:CN113920989B
公开(公告)日:2022-04-01
申请号:CN202111516645.7
申请日:2021-12-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音识别与语音翻译端到端系统及电子设备,其中,系统包括:声学编码器、多任务解码器和语义不变性约束模块,同时完成识别系统与翻译系统这两个任务,另外根据不同任务的文本语义相同特点,对模型施加语义约束,学习高层次语义信息,语义信息可以有效提升语音识别与语音翻译的性能。本发明具有避免了串行系统的误差累积问题,同时模型的计算代价低,实时性很高;同时利用不同任务之间文本的语义一致性特点,对模型施加语义约束,学习高层次语义信息。
-
公开(公告)号:CN113270086B
公开(公告)日:2021-10-15
申请号:CN202110815743.4
申请日:2021-07-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种融合多模态语义不变性的语音识别文本增强系统,包括:声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对短时音频帧提取声学特征,将声学特征输入到声学降采样模块进行降采样,得到声学表示;将语音数据输入现有语音识别模块,得到输入文本数据,将输入文本数据输入到编码器,得到输入文本编码表示;将声学表示和所述输入文本编码表示输入到解码器融合,声学模态和文本模态的表示进行相似性约束,得到解码表示;该方法通过融合跨模态语义不变性约束损失,减少模型对数据的依赖,提高模型的性能,适用于中英混合语音识别。
-
-
-
-
-
-
-
-
-