-
公开(公告)号:CN110168531B
公开(公告)日:2023-06-20
申请号:CN201780079516.1
申请日:2017-12-25
Applicant: 三菱电机株式会社
IPC: G06V20/40 , G06N3/0464 , G06N3/0442 , G06N3/0455 , G06V10/80 , G06V10/82 , H04N21/2343 , H04N21/439 , H04N21/8549 , G10L25/30 , G10L25/57
Abstract: 一种生成单词序列的系统,该系统包括:与存储器连接的一个或更多个处理器;以及存储指令的一个或更多个存储装置,所述指令导致多个操作,所述操作包括:接收第一输入矢量和第二输入矢量;提取第一特征矢量和第二特征矢量;估计第一组权重和第二组权重;根据所述第一组权重和所述第一特征矢量计算第一内容矢量,并且计算第二内容矢量;将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;估计一组模态注意力权重;根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维度的加权内容矢量;以及利用所述序列生成器生成预测单词。
-
公开(公告)号:CN108292305A
公开(公告)日:2018-07-17
申请号:CN201680069394.3
申请日:2016-11-29
Applicant: 三菱电机株式会社
CPC classification number: G06F17/279 , G06N3/0454 , G06N3/0472 , G06N3/084 , G10L15/07 , G10L15/16 , G10L15/183 , G10L15/26
Abstract: 方法和系统处理从自动语音识别(ASR)系统或文本获取的语句。语句具有关联的各当事方的标识,诸如角色A语句和角色B语句。将与语句对应的信息,诸如词序列和标识,转换成特征。在神经网络(NN)的输入层中接收各特征。在NN的投影层中减小各特征的维度从而生成降维特征。处理降维特征,以提供针对语句的标引的概率。
-
公开(公告)号:CN117597708A
公开(公告)日:2024-02-23
申请号:CN202280043057.2
申请日:2022-05-10
Applicant: 三菱电机株式会社
IPC: G06V20/40
Abstract: 提供了一种场景字幕系统。该场景字幕系统包括:接口,其被配置为获取包括帧和声音数据的场景数据信号的流;存储器,其存储包括场景编码器、定时解码器、定时检测器和字幕解码器的计算机可执行场景字幕模型,其中,视听编码器由定时解码器和定时检测器和字幕解码器共享;以及处理器,其与存储器连接。处理器被配置为执行以下步骤:利用视听编码器从场景数据信号提取场景特征;利用定时检测器确定生成字幕的定时,其中,该定时布置在场景数据信号的流的早期阶段;以及根据该定时通过使用字幕解码器基于场景特征生成字幕。
-
公开(公告)号:CN116547674A
公开(公告)日:2023-08-04
申请号:CN202180071325.7
申请日:2021-07-02
Applicant: 三菱电机株式会社
IPC: G06N3/09
Abstract: 提供了一种用于使用由代表标签和标签之间的转移的边连接的节点的有向图,用基于图的时间分类(GTC)目标函数来训练神经网络的方法。有向图指定了标签序列和概率分布序列之间的非单调对齐以及对标签重复的约束中的一种或组合。该方法包括:实施神经网络,以将观察序列变换为概率分布序列;以及基于GTC目标函数更新神经网络的参数,GTC目标函数被配置为使通过将有向图展开到观察序列的长度并将每个展开的节点和边的序列映射到可能的标签序列而生成的所有可能的标签序列的条件概率之和最大化。
-
公开(公告)号:CN114787914A
公开(公告)日:2022-07-22
申请号:CN202080083717.0
申请日:2020-12-04
Applicant: 三菱电机株式会社
Abstract: 语音识别系统利用帧同步解码器(FSD)模块和标签同步解码器(LSD)模块连续处理经编码声学特征的每个编码器状态。当识别出携带关于新转录输出的信息的编码器状态时,系统利用FSD模块扩展当前的FSD前缀列表,利用LSD模块评估FSD前缀,并根据联合的FSD评分和LSD评分修剪FSD前缀。通过使LSD模块处理编码器状态的包括由FSD模块识别的新转录输出的部分并产生由FSD模块确定的FSD前缀的LSD评分,来使FSD模块和LSD模块同步。
-
公开(公告)号:CN108292305B
公开(公告)日:2021-10-26
申请号:CN201680069394.3
申请日:2016-11-29
Applicant: 三菱电机株式会社
Abstract: 方法和系统处理从自动语音识别(ASR)系统或文本获取的语句。语句具有关联的各当事方的标识,诸如角色A语句和角色B语句。将与语句对应的信息,诸如词序列和标识,转换成特征。在神经网络(NN)的输入层中接收各特征。在NN的投影层中减小各特征的维度从而生成降维特征。处理降维特征,以提供针对语句的标引的概率。
-
公开(公告)号:CN111480197A
公开(公告)日:2020-07-31
申请号:CN201880079228.0
申请日:2018-05-21
Applicant: 三菱电机株式会社
IPC: G10L15/187 , G10L15/19 , G10L15/16
Abstract: 一种语音识别系统包括:接收话语声音的输入装置、一个或更多个处理器以及一个或更多个储存装置,所述一个或多个储存装置存储参数和包括使一个或更多个处理器执行操作的指令的程序模块。操作包括:从由话语声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列;通过将隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率;通过使用字符类语言模型(LM)和单词级LM的混合网络来预测第二输出标签序列概率;以及使用标签序列搜索模块,通过组合从解码器网络和混合网络提供的第一输出标签序列概率和第二输出标签序列概率,来搜索具有最高序列概率的输出标签序列。
-
公开(公告)号:CN110603583A
公开(公告)日:2019-12-20
申请号:CN201780090477.5
申请日:2017-11-10
Applicant: 三菱电机株式会社
Abstract: 语音识别系统包括接收声音的输入装置、一个或更多个处理器、以及存储参数和程序模块的一个或更多个储存装置,所述程序模块包括一个或更多个处理器可执行的指令。指令包括:从由声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列(HVS);通过将HVS馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率(OLSP);由联结主义时间分类(CTC)模块使用CTC网络参数和来自编码器网络的所述(HVS),来预测第二(OLSP);以及使用标签序列搜索模块,通过将从解码器网络和CTC模块提供的第一(OLSP)和第二(OLSP)组合,来搜索具有最高序列概率的输出标签序列。
-
公开(公告)号:CN110168531A
公开(公告)日:2019-08-23
申请号:CN201780079516.1
申请日:2017-12-25
Applicant: 三菱电机株式会社
IPC: G06F16/783 , G06N3/04 , H04N21/2343 , H04N21/439 , H04N21/8549 , G10L25/30 , G10L25/57
Abstract: 一种生成单词序列的系统,该系统包括:与存储器连接的一个或更多个处理器;以及存储指令的一个或更多个存储装置,所述指令导致多个操作,所述操作包括:接收第一输入矢量和第二输入矢量;提取第一特征矢量和第二特征矢量;估计第一组权重和第二组权重;根据所述第一组权重和所述第一特征矢量计算第一内容矢量,并且计算第二内容矢量;将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;估计一组模态注意力权重;根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维度的加权内容矢量;以及利用所述序列生成器生成预测单词。
-
公开(公告)号:CN111989742B
公开(公告)日:2024-08-30
申请号:CN201880091966.7
申请日:2018-10-24
Applicant: 三菱电机株式会社
IPC: G10L25/30
Abstract: 用于语音识别系统的系统和方法,该语音识别系统用于识别包括多个讲话者的交叠语音的语音。该系统包括硬件处理器。计算机储存存储器存储数据并且具有存储于其上的计算机可执行指令,该计算机可执行指令在由处理器执行时将实现所存储的语音识别网络。输入接口接收声学信号,所接收的声学信号包括多个讲话者的语音信号的混合体,其中多个讲话者包括目标讲话者。所存储的语音识别网络的编码器网络和解码器网络被训练为将所接收的声学信号变换为针对每个目标讲话者的文本。使得编码器网络输出一组识别编码,并且解码器网络使用一组识别编码以输出针对每个目标讲话者的文本。输出接口传输针对每个目标讲话者的文本。
-
-
-
-
-
-
-
-
-