-
公开(公告)号:CN113574595A
公开(公告)日:2021-10-29
申请号:CN202080021866.4
申请日:2020-01-16
Applicant: 三菱电机株式会社
Abstract: 一种语音识别系统包括用于将输入声学信号转换为编码器状态序列的编码器、用于识别编码器状态序列中的对转录输出进行编码的编码器状态的位置的对齐解码器、用于基于所识别的编码器状态的位置将编码器状态序列划分成分区集合的划分模块、以及确定针对作为输入提交至基于注意力的解码器的编码器状态的每个分区的转录输出的基于注意力的解码器。当接收到声学信号时,系统使用编码器生成编码器状态序列,基于由对齐解码器识别出的编码器状态的位置,将编码器状态序列划分为分区集合,并且将分区集合顺序地提交到基于注意力的解码器中,以产生针对每个所提交的分区的转录输出。
-
公开(公告)号:CN116324974A
公开(公告)日:2023-06-23
申请号:CN202180068325.1
申请日:2021-04-28
Applicant: 三菱电机株式会社
IPC: G10L15/16
Abstract: 本发明总体上涉及语音处理,更特别地是,涉及利用长语境信息的端到端自动语音识别(ASR)。本发明的一些实施方式提供了适合识别长音频记录(诸如演讲和交谈语音)的端到端ASR的系统和方法。本公开包括利用语境信息的基于变换器的ASR系统,其中变换器同时接受多句话语,并预测最后一句话语的转录。这是以滑动窗口方式按照一句话语移位进行重复,来识别整个记录。此外,当长音频记录包括多个讲话者时,本发明的一些实施方式可以使用仅从由与最后一句话语相同的讲话者所说的先前话语获得的声学和/或文本特征。
-
公开(公告)号:CN111557029B
公开(公告)日:2021-06-04
申请号:CN201880077778.9
申请日:2018-05-31
Applicant: 三菱电机株式会社
Abstract: 一种用于训练多语言语音识别网络的方法包括:提供与预定语言相对应的话语数据集;在话语数据集中插入语言标识(ID)标签,其中,话语数据集中的每一个由语言ID标签中的每一个来加标签;将加标签的话语数据集级联;从话语数据集生成初始网络参数;根据预定序列选择初始网络参数;以及用一系列所选择的初始网络参数和级联的加标签的话语数据集迭代地训练端到端网络,直到训练结果达到阈值。
-
公开(公告)号:CN111989742A
公开(公告)日:2020-11-24
申请号:CN201880091966.7
申请日:2018-10-24
Applicant: 三菱电机株式会社
IPC: G10L25/30
Abstract: 用于语音识别系统的系统和方法,该语音识别系统用于识别包括多个讲话者的交叠语音的语音。该系统包括硬件处理器。计算机储存存储器存储数据并且具有存储于其上的计算机可执行指令,该计算机可执行指令在由处理器执行时将实现所存储的语音识别网络。输入接口接收声学信号,所接收的声学信号包括多个讲话者的语音信号的混合体,其中多个讲话者包括目标讲话者。所存储的语音识别网络的编码器网络和解码器网络被训练为将所接收的声学信号变换为针对每个目标讲话者的文本。使得编码器网络输出一组识别编码,并且解码器网络使用一组识别编码以输出针对每个目标讲话者的文本。输出接口传输针对每个目标讲话者的文本。
-
公开(公告)号:CN114365121B
公开(公告)日:2025-02-14
申请号:CN202080063045.7
申请日:2020-07-22
Applicant: 三菱电机株式会社
IPC: G06F16/3329 , G10L25/30 , H04N21/8549 , H04N21/439 , G06N3/006 , G06F3/16 , G06N5/04 , G06N3/08 , G06N3/04
Abstract: 提供了一种用于训练对话响应生成系统的计算机实现方法和对话响应生成系统。该方法包括:布置用于对话响应生成或视频描述的第一多模式编码器‑解码器,第一多模式编码器‑解码器具有第一输入端和第一输出端,其中,已经通过用视频描述语句训练视听数据集预训练了第一多模式编码器‑解码器;布置用于对话响应生成的第二多模式编码器‑解码器,第二多模式编码器‑解码器具有第二输入端和第二输出端;向第一多模式编码器‑解码器的第一输入端提供具有第一对应视频描述语句的第一视听数据集,其中,第一编码器‑解码器基于具有第一对应描述语句的第一视听数据集生成第一输出值;将不包括第一对应视频描述语句的第一视听数据集提供给第二多模式编码器‑解码器。在这种情况下,第二多模式编码器‑解码器基于没有第一对应视频描述语句的第一视听数据集生成第二输出值。
-
公开(公告)号:CN113574595B
公开(公告)日:2023-11-24
申请号:CN202080021866.4
申请日:2020-01-16
Applicant: 三菱电机株式会社
IPC: G10L15/16 , G06N3/044 , G06N3/0442 , G06N3/08 , G10L15/32
Abstract: 本申请实施例提供一种语音识别系统、方法以及非暂时性计算机可读存储介质,该语音识别系统包括用于将输入声学信号转换为编码器状态序列的编码器、用于识别编码器状态序列中的对转录输出进行编码的编码器状态的位置的对齐解码器、用于基于所识别的编码器状态的位置将编码器状态序列划分成分区集合的划分模块、以及确定针对作为输入提交至基于注意力的解码器的编码器状态的每个分区的转录输出的基于注意力的解码器。当接收到声学信号时,系统使用编码器生成编码器状态序列,基于由对齐解码器识别出的编码器状态的位置,将编码器状态序列划分为分区集合,并且将分区集合顺序地提交到基于注意力的解码器中,以产生针对每个所
-
公开(公告)号:CN117043786A
公开(公告)日:2023-11-10
申请号:CN202180096134.6
申请日:2021-11-30
Applicant: 三菱电机株式会社
IPC: G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/08 , G10L15/16 , G06F40/58 , G06N3/047 , G06N3/048
Abstract: 公开了一种人工智能(AI)系统。该AI系统包括处理器,该处理器利用神经网络处理输入帧序列,该神经网络包括扩张的自注意力模块,该扩张的自注意力模块被训练成,通过以下操作来计算输出序列:将各个输入帧变换成对应的查询帧、对应的键帧以及对应的值帧,从而导致具有相同排序的键帧序列、值帧序列以及查询帧序列;以及关于键帧序列和值帧序列中的基于查询帧的位置而受限的一部分与键帧的扩张序列和值帧的扩张序列的组合来执行针对各个查询帧的注意力计算,所述键帧的扩张序列和值帧的扩张序列是通过利用预定提取函数处理键帧序列和值帧序列中的不同帧来提取的。此外,该处理器呈现输出序列。
-
公开(公告)号:CN110383377B
公开(公告)日:2023-10-13
申请号:CN201880015644.4
申请日:2018-02-23
Applicant: 三菱电机株式会社
IPC: G10L21/0216 , G10L15/16 , G10L15/20
Abstract: 一种语音识别系统包括接收包括语音信号的声信号的多个麦克风;从声信号生成多通道输入的输入接口;存储多通道语音识别网络的一个或多个储存器,其中,多通道语音识别网络包括从多通道输入生成时间‑频率掩模的掩模估计网络;被训练为使用时间‑频率掩模从多通道输入中选择基准通道输入并且基于基准通道输入生成增强语音数据集的波束形成器网络;以及被训练为将增强语音数据集变换为文本的编码器‑解码器网络。系统还包括与一个或多个储存器关联地使用多通道语音识别网络以从多通道输入生成文本的一个或多个处理器;和渲染文本的输出接口。
-
公开(公告)号:CN111480197B
公开(公告)日:2023-06-27
申请号:CN201880079228.0
申请日:2018-05-21
Applicant: 三菱电机株式会社
IPC: G10L15/187 , G10L15/19 , G10L15/16
Abstract: 一种语音识别系统包括:接收话语声音的输入装置、一个或更多个处理器以及一个或更多个储存装置,所述一个或多个储存装置存储参数和包括使一个或更多个处理器执行操作的指令的程序模块。操作包括:从由话语声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列;通过将隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率;通过使用字符类语言模型(LM)和单词级LM的混合网络来预测第二输出标签序列概率;以及使用标签序列搜索模块,通过组合从解码器网络和混合网络提供的第一输出标签序列概率和第二输出标签序列概率,来搜索具有最高序列概率的输出标签序列。
-
公开(公告)号:CN116324984A
公开(公告)日:2023-06-23
申请号:CN202180067206.4
申请日:2021-04-27
Applicant: 三菱电机株式会社
IPC: G10L25/30
Abstract: 提供了一种音频处理系统。该音频处理系统包括输入接口,其被配置为接受音频信号。此外,该音频处理系统包括存储器,其被配置为存储被训练以确定不同起因的多个并发音频事件的不同类型的属性的神经网络,其中,属性的类型包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性。此外,该音频处理系统包括处理器,其被配置为利用神经网络处理音频信号以生成音频信号的元数据,该元数据包括音频信号中的一个或多个音频事件的一个或多个属性。
-
-
-
-
-
-
-
-
-