语音识别装置和语音识别方法

    公开(公告)号:CN110447068A

    公开(公告)日:2019-11-12

    申请号:CN201780088586.3

    申请日:2017-03-24

    Abstract: 具有:第1特征向量计算部(2),其根据输入的语音数据计算第1特征向量;声学似然度计算部(4),其使用用于计算特征向量的声学似然度的声学模型计算第1特征向量的声学似然度;第2特征向量计算部(3),其根据语音数据计算第2特征向量;噪声度计算部(6),其使用用于计算表示特征向量是噪声还是语音的噪声度的判别模型,计算第2特征向量的噪声度;噪声似然度重新计算部(8),其根据第1特征向量的声学似然度和第2特征向量的噪声度,重新计算噪声的声学似然度;以及对照部(9),其使用计算出的声学似然度和重新计算出的噪声的声学似然度,进行与作为识别对象的词汇模式之间的对照,输出语音数据的识别结果。

    信息处理装置、检测方法和检测程序

    公开(公告)号:CN114746939A

    公开(公告)日:2022-07-12

    申请号:CN201980102693.6

    申请日:2019-12-13

    Inventor: 花泽利行

    Abstract: 信息处理装置(100)具有:取得部(110),其取得声音信号;以及控制部(120),其将声音信号分割成多个区间,根据声音信号计算多个区间各自的每区间时间的变动量即变动值,在多个区间中确定变动值为预先设定的阈值以下的区间,根据声音信号计算所确定的区间中的声音信号的功率,从所确定的区间中的声音信号的功率中确定最大值,将基于最大值的值设定为检测阈值,在伴随着时间经过的声音信号的功率中,检测检测阈值以上的区间作为检测对象区间。

    标准图形生成装置和方法以及计算机可读的记录媒体

    公开(公告)号:CN1301006A

    公开(公告)日:2001-06-27

    申请号:CN00133832.3

    申请日:2000-09-12

    Inventor: 花泽利行

    CPC classification number: G10L15/063 G10L15/12 G10L2015/0631

    Abstract: 能够降低以不希望的局部最小值来收敛标准图形的更新的现象,并能够生成表达效率更高的标准图形。初始标准图形生成器9把输入声音的特征矢量的时间序列4相互重叠地分割开,把属于这些小区间的特征矢量的时间序列取平均值来生成初始标准图形10,标准图形生成器7按照音形选配使初始标准图形的各状态与特征矢量的时间序列一一对应,对与各状态相对应的特征矢量的时间序列取平均值来更新初始标准图形,由此来生成标准图形8。

    声音分离装置、声音分离系统、声音分离方法以及存储介质

    公开(公告)号:CN112567459B

    公开(公告)日:2023-12-12

    申请号:CN201880096367.4

    申请日:2018-08-24

    Abstract: 声音分离系统的声音分离装置(12)具备:特征量抽出部(121),抽出混合声音的声音特征量的时间序列数据;块分割部(122),将声音特征量的时间序列数据分割成具有一定的时间宽度的块;声音分离神经网络(1b),根据块化的声音特征量的时间序列数据,制作多个说话者各自的掩码的时间序列数据;以及声音恢复部(123),从掩码的时间序列数据和混合声音的声音特征量的时间序列数据,恢复多个说话者各自的声音数据。在多个说话者各自的掩码的时间序列数据的制作中,声音分离神经网络(1b)在正向的LSTM神经网络中使用与当前相比在时间上靠前的块的时间序列数据,在逆向的LSTM神经网络中使用与当前相比在时间上靠后的包括预先决定的数量

    声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法

    公开(公告)号:CN109155128A

    公开(公告)日:2019-01-04

    申请号:CN201680085706.X

    申请日:2016-05-20

    Inventor: 花泽利行

    Abstract: 本发明的声学模型学习装置使用每个讲话者的学习数据和全部讲话者的学习数据来学习声学模型,因此,能够学习针对第1讲话也不会延迟识别结束时间且确保了识别精度的声学模型,其中,该每个讲话者的学习数据是从每个讲话者的各特征向量中减去每个讲话者的全部特征向量的平均向量而生成的,该全部讲话者的学习数据是从全部讲话者的各特征向量中减去全部讲话者的全部特征向量的平均向量而生成的。并且,在本发明的语音识别装置中,如果所输入的语音是第1讲话,则将全部讲话者的全部特征向量的平均向量作为校正向量,将从所输入的语音的特征向量中减去校正向量而得到的校正后向量与所述声学模型进行核对,因此,针对第1讲话也不会延迟识别结束时间且能够确保语音识别的精度。

    语音识别装置和语音识别方法

    公开(公告)号:CN105009206B

    公开(公告)日:2018-02-09

    申请号:CN201380074221.7

    申请日:2013-03-06

    Inventor: 花泽利行

    CPC classification number: G10L15/18 G06F17/2735 G10L15/30 G10L15/32

    Abstract: 语音识别装置(1)在内部识别部(7)中,对输入语音(2)的语音数据(4)进行使用了声学模型(9)的识别处理,求出内部识别结果(10)和声学似然度。读音赋予部(12)取得由外部识别部(19)对输入语音(2)的语音数据(4)进行识别处理后的外部识别结果(11),对该语音数据(4)赋予读音,重新对照部(15)使用声学模型(9),求出外部识别结果(11)的声学似然度,作为重新对照结果(16)。结果确定部(17)对内部识别结果(10)的声学似然度、和重新对照结果(16)所包含的外部识别结果(11)的声学似然度进行比较,确定最终识别结果(18)。

    基准图形生成装置和方法

    公开(公告)号:CN1165888C

    公开(公告)日:2004-09-08

    申请号:CN00133832.3

    申请日:2000-09-12

    Inventor: 花泽利行

    CPC classification number: G10L15/063 G10L15/12 G10L2015/0631

    Abstract: 本发明的基准图形生成装置和方法,能够降低以不希望的局部最小值来收敛基准图形的更新的现象,并能够生成表达效率更高的基准图形。初始基准图形生成器(9)把输入声音的特征矢量的时间序列(4)相互重叠地分割开,把属于这些小区间的特征矢量的时间序列取平均值来生成初始基准图形(10),基准图形生成器(7)按照音形选配使初始基准图形的各状态与特征矢量的时间序列一一对应,对与各状态相对应的特征矢量的时间序列取平均值来更新初始基准图形,由此来生成基准图形(8)。

    噪声抑制装置、噪声抑制方法以及噪声抑制程序

    公开(公告)号:CN116964664A

    公开(公告)日:2023-10-27

    申请号:CN202180094907.7

    申请日:2021-03-10

    Inventor: 花泽利行

    Abstract: 噪声抑制装置(1)具备:噪声抑制部(11),其对输入数据(Si(t))进行噪声抑制处理而生成噪声抑制后数据(Ss(t));加权系数计算部(12),其基于时间序列上的预先决定的区间(E)内的输入数据(Si(t))和预先决定的区间(E)内的噪声抑制后数据(Ss(t))来决定加权系数(α);以及加权和部(13),其将基于加权系数(α)的值用作权重,对输入数据(Si(t))与噪声抑制后数据(Ss(t))进行加权相加,由此生成输出数据(So(t))。

    语音识别系统以及语音识别装置

    公开(公告)号:CN105027198B

    公开(公告)日:2018-11-20

    申请号:CN201380073708.3

    申请日:2013-11-20

    Abstract: 具有:识别结果候选比较部(205),其对接收部(204)接收到的多个服务器侧语音识别结果候选进行比较,检测有差异的文本;识别结果综合部(206),其根据客户端侧语音识别结果候选、服务器侧语音识别结果候选以及识别结果候选比较部(205)的检测结果,综合客户端侧语音识别结果候选和服务器侧语音识别结果候选,确定语音识别结果。

Patent Agency Ranking