-
公开(公告)号:CN105981099A
公开(公告)日:2016-09-28
申请号:CN201480074908.5
申请日:2014-02-06
Applicant: 三菱电机株式会社
Inventor: 花泽利行
CPC classification number: G10L15/10 , G06F16/3343 , G06F16/3344 , G06F17/2211 , G10L15/183 , G10L15/26 , G10L25/54
Abstract: 具有:识别部(2),其参照声学模型和学习数据不同的多个语言模型来进行输入语音的语音识别,针对多个语言模型取得识别文字串;文字串对照部(6),其对照多个语言模型的各个语言模型的识别文字串与蓄积在文字串词典存储部(7)所存储的文字串词典中的检索对象词汇的文字串,计算表示识别文字串相对于检索对象词汇的文字串的一致度的文字串对照分数,针对识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数;以及检索结果确定部(8),其参照所取得的所述文字串对照分数,按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。
-
公开(公告)号:CN105009206A
公开(公告)日:2015-10-28
申请号:CN201380074221.7
申请日:2013-03-06
Applicant: 三菱电机株式会社
Inventor: 花泽利行
IPC: G10L15/32 , G10L15/187 , G10L15/197 , G10L15/30
CPC classification number: G10L15/18 , G06F17/2735 , G10L15/30 , G10L15/32
Abstract: 语音识别装置(1)在内部识别部(7)中,对输入语音(2)的语音数据(4)进行使用了声学模型(9)的识别处理,求出内部识别结果(10)和声学似然度。读音赋予部(12)取得由外部识别部(19)对输入语音(2)的语音数据(4)进行识别处理后的外部识别结果(11),对该语音数据(4)赋予读音,重新对照部(15)使用声学模型(9),求出外部识别结果(11)的声学似然度,作为重新对照结果(16)。结果确定部(17)对内部识别结果(10)的声学似然度、和重新对照结果(16)所包含的外部识别结果(11)的声学似然度进行比较,确定最终识别结果(18)。
-
-
公开(公告)号:CN109155128B
公开(公告)日:2022-12-27
申请号:CN201680085706.X
申请日:2016-05-20
Applicant: 三菱电机株式会社
Inventor: 花泽利行
IPC: G10L15/07
Abstract: 本发明的声学模型学习装置使用每个讲话者的学习数据和全部讲话者的学习数据来学习声学模型,因此,能够学习针对第1讲话也不会延迟识别结束时间且确保了识别精度的声学模型,其中,该每个讲话者的学习数据是从每个讲话者的各特征向量中减去每个讲话者的全部特征向量的平均向量而生成的,该全部讲话者的学习数据是从全部讲话者的各特征向量中减去全部讲话者的全部特征向量的平均向量而生成的。并且,在本发明的语音识别装置中,如果所输入的语音是第1讲话,则将全部讲话者的全部特征向量的平均向量作为校正向量,将从所输入的语音的特征向量中减去校正向量而得到的校正后向量与所述声学模型进行核对,因此,针对第1讲话也不会延迟识别结束时间且能够确保语音识别的精度。
-
公开(公告)号:CN112567459A
公开(公告)日:2021-03-26
申请号:CN201880096367.4
申请日:2018-08-24
Applicant: 三菱电机株式会社
IPC: G10L21/028 , G10L21/0308
Abstract: 声音分离系统的声音分离装置(12)具备:特征量抽出部(121),抽出混合声音的声音特征量的时间序列数据;块分割部(122),将声音特征量的时间序列数据分割成具有一定的时间宽度的块;声音分离神经网络(1b),根据块化的声音特征量的时间序列数据,制作多个说话者各自的掩码的时间序列数据;以及声音恢复部(123),从掩码的时间序列数据和混合声音的声音特征量的时间序列数据,恢复多个说话者各自的声音数据。在多个说话者各自的掩码的时间序列数据的制作中,声音分离神经网络(1b)在正向的LSTM神经网络中使用与当前相比在时间上靠前的块的时间序列数据,在逆向的LSTM神经网络中使用与当前相比在时间上靠后的包括预先决定的数量的帧的块的时间序列数据。
-
公开(公告)号:CN107004405A
公开(公告)日:2017-08-01
申请号:CN201480084123.6
申请日:2014-12-18
Applicant: 三菱电机株式会社
Abstract: 语音识别装置具有:嘴唇图像识别部(103),其根据作为语音以外的信息的图像数据识别用户状态;非讲话区间判定部(104),其根据识别出的用户状态判定用户是否正在讲话;语音区间检测阈值学习部(106),其在判定为用户未在讲话的情况下,根据语音数据设定第1语音区间检测阈值,在判定为用户正在讲话的情况下,根据语音输入部转换后的语音数据设定第2语音区间检测阈值;语音区间检测部(107),其使用所设定的阈值,根据语音数据检测表示用户的讲话的语音区间,在无法使用第2语音区间检测阈值检测语音区间的情况下,应用第1语音区间检测阈值检测语音区间;以及语音识别部(108),其识别检测到的语音区间的语音数据,输出识别结果。
-
公开(公告)号:CN105027198A
公开(公告)日:2015-11-04
申请号:CN201380073708.3
申请日:2013-11-20
Applicant: 三菱电机株式会社
IPC: G10L15/32 , G10L15/10 , G10L15/183 , G10L15/30
Abstract: 具有:识别结果候选比较部(205),其对接收部(204)接收到的多个服务器侧语音识别结果候选进行比较,检测有差异的文本;识别结果综合部(206),其根据客户端侧语音识别结果候选、服务器侧语音识别结果候选以及识别结果候选比较部(205)的检测结果,综合客户端侧语音识别结果候选和服务器侧语音识别结果候选,确定语音识别结果。
-
-
-
-
-
-