-
公开(公告)号:CN111480197B
公开(公告)日:2023-06-27
申请号:CN201880079228.0
申请日:2018-05-21
Applicant: 三菱电机株式会社
IPC: G10L15/187 , G10L15/19 , G10L15/16
Abstract: 一种语音识别系统包括:接收话语声音的输入装置、一个或更多个处理器以及一个或更多个储存装置,所述一个或多个储存装置存储参数和包括使一个或更多个处理器执行操作的指令的程序模块。操作包括:从由话语声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列;通过将隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率;通过使用字符类语言模型(LM)和单词级LM的混合网络来预测第二输出标签序列概率;以及使用标签序列搜索模块,通过组合从解码器网络和混合网络提供的第一输出标签序列概率和第二输出标签序列概率,来搜索具有最高序列概率的输出标签序列。
-
公开(公告)号:CN110168531B
公开(公告)日:2023-06-20
申请号:CN201780079516.1
申请日:2017-12-25
Applicant: 三菱电机株式会社
IPC: G06V20/40 , G06N3/0464 , G06N3/0442 , G06N3/0455 , G06V10/80 , G06V10/82 , H04N21/2343 , H04N21/439 , H04N21/8549 , G10L25/30 , G10L25/57
Abstract: 一种生成单词序列的系统,该系统包括:与存储器连接的一个或更多个处理器;以及存储指令的一个或更多个存储装置,所述指令导致多个操作,所述操作包括:接收第一输入矢量和第二输入矢量;提取第一特征矢量和第二特征矢量;估计第一组权重和第二组权重;根据所述第一组权重和所述第一特征矢量计算第一内容矢量,并且计算第二内容矢量;将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;估计一组模态注意力权重;根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维度的加权内容矢量;以及利用所述序列生成器生成预测单词。
-
公开(公告)号:CN108292305A
公开(公告)日:2018-07-17
申请号:CN201680069394.3
申请日:2016-11-29
Applicant: 三菱电机株式会社
CPC classification number: G06F17/279 , G06N3/0454 , G06N3/0472 , G06N3/084 , G10L15/07 , G10L15/16 , G10L15/183 , G10L15/26
Abstract: 方法和系统处理从自动语音识别(ASR)系统或文本获取的语句。语句具有关联的各当事方的标识,诸如角色A语句和角色B语句。将与语句对应的信息,诸如词序列和标识,转换成特征。在神经网络(NN)的输入层中接收各特征。在NN的投影层中减小各特征的维度从而生成降维特征。处理降维特征,以提供针对语句的标引的概率。
-
公开(公告)号:CN107077860B
公开(公告)日:2021-02-09
申请号:CN201580056485.9
申请日:2015-10-08
Applicant: 三菱电机株式会社
IPC: G10L21/0208 , G10L21/0324 , G10L25/03 , G10L25/30
Abstract: 通过首先从环境获取有噪音频信号,方法将该有噪音频信号转换为增强音频信号。通过具有网络参数的增强网络来处理该有噪音频信号,以共同产生幅度掩蔽和相位估计。然后,使用所述幅度掩蔽和相位估计来获得增强音频信号。
-
公开(公告)号:CN106796697A
公开(公告)日:2017-05-31
申请号:CN201580044204.8
申请日:2015-08-11
Applicant: 三菱电机株式会社
Inventor: 丹尼尔·N·尼科夫斯基 , B·哈尔沙姆 , J·赫尔希 , 德克·布林克曼
IPC: G06Q30/02
Abstract: 一种首先通过获取与车辆的当前状态相关的数据来递送信息,以满足所述车辆的驾驶员的当前需求的方法。所述当前状态和预测模型被传递到预测过程,以确定选择树(CT)中的节点的选择概率。基于所述选择概率,从存储商业信息和非商业信息的数据库中选择与所述驾驶员的所述当前需求相关的信息。然后,将所述信息递送到所述驾驶员,其中,所述递送是对所述驾驶员自发的。
-
公开(公告)号:CN106537489A
公开(公告)日:2017-03-22
申请号:CN201580040168.8
申请日:2015-07-22
Applicant: 三菱电机株式会社
Abstract: 一种用于识别包括单词序列的语音的方法,该方法确定手势的形状和手势相对于示出所述语音的一组解释的显示设备的位置。该方法基于所述手势的形状确定单词序列约束的类型,并且基于所述手势的位置,确定所述单词序列约束的值。接下来,使用所述单词序列约束来识别所述语音。
-
公开(公告)号:CN111557029B
公开(公告)日:2021-06-04
申请号:CN201880077778.9
申请日:2018-05-31
Applicant: 三菱电机株式会社
Abstract: 一种用于训练多语言语音识别网络的方法包括:提供与预定语言相对应的话语数据集;在话语数据集中插入语言标识(ID)标签,其中,话语数据集中的每一个由语言ID标签中的每一个来加标签;将加标签的话语数据集级联;从话语数据集生成初始网络参数;根据预定序列选择初始网络参数;以及用一系列所选择的初始网络参数和级联的加标签的话语数据集迭代地训练端到端网络,直到训练结果达到阈值。
-
公开(公告)号:CN112567458A
公开(公告)日:2021-03-26
申请号:CN201980052229.0
申请日:2019-02-13
Applicant: 三菱电机株式会社
IPC: G10L21/0208 , G10L21/0232
Abstract: 用于音频信号处理的系统和方法包括输入接口,其接收包括目标音频信号和噪声的混合体的有噪音频信号。编码器将有噪音频信号的每个时频区间映射到指示目标信号的相位的相位相关值的一个或更多个相位量化码本中的一个或更多个相位相关值。针对有噪音频信号的每个时频区间计算幅度比值,该幅度比值指示目标音频信号的幅度与有噪音频信号的幅度之比。滤波器基于相位相关值和幅度比值从有噪音频信号消除噪声,以产生增强音频信号。输出接口输出增强音频信号。
-
公开(公告)号:CN111989742A
公开(公告)日:2020-11-24
申请号:CN201880091966.7
申请日:2018-10-24
Applicant: 三菱电机株式会社
IPC: G10L25/30
Abstract: 用于语音识别系统的系统和方法,该语音识别系统用于识别包括多个讲话者的交叠语音的语音。该系统包括硬件处理器。计算机储存存储器存储数据并且具有存储于其上的计算机可执行指令,该计算机可执行指令在由处理器执行时将实现所存储的语音识别网络。输入接口接收声学信号,所接收的声学信号包括多个讲话者的语音信号的混合体,其中多个讲话者包括目标讲话者。所存储的语音识别网络的编码器网络和解码器网络被训练为将所接收的声学信号变换为针对每个目标讲话者的文本。使得编码器网络输出一组识别编码,并且解码器网络使用一组识别编码以输出针对每个目标讲话者的文本。输出接口传输针对每个目标讲话者的文本。
-
公开(公告)号:CN106537420B
公开(公告)日:2019-06-11
申请号:CN201580038701.7
申请日:2015-07-24
Applicant: 三菱电机株式会社
CPC classification number: G06N3/0445 , G06N3/0436 , G06N3/084 , G06N7/005 , G06N20/00 , G10L15/16
Abstract: 一种用于通过首先定义用于转换输入信号的模型来转换输入信号的方法,其中,模型由约束和一组模型参数来指定。迭代推断过程从模型和一组模型参数导出,并且被展开为一组层,其中,针对所述过程的各次迭代存在一层,并且其中,所有层使用同一组网络参数。通过解放该一组网络参数使得针对各层存在一组网络参数且各组网络参数分别可维持并分别可应用于相应层来形成神经网络。训练神经网络,以获得受训神经网络,并且然后,使用受训神经网络来转换输入信号,以获得输出信号。
-
-
-
-
-
-
-
-
-