-
公开(公告)号:CN107680597B
公开(公告)日:2019-07-09
申请号:CN201710994268.5
申请日:2017-10-23
Applicant: 平安科技(深圳)有限公司
Abstract: 本发明实施例公开了一种语音识别方法、装置、设备以及计算机可读存储介质,其中所述方法包括根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列;将所述帧级语音特征序列依次分为n个信息块;将所有信息块并行输入预设的双向长短时递归神经网络模型中;获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果,以得到所述待测语音信息的语音识别结果。本发明可以极大地提高语音识别的效果,有效缩短了语音解码的时延。
-
公开(公告)号:CN109065026A
公开(公告)日:2018-12-21
申请号:CN201811076604.9
申请日:2018-09-14
Applicant: 海信集团有限公司
CPC classification number: G10L15/04 , G10L15/06 , G10L17/005 , G10L17/04
Abstract: 本申请提供一种录音控制方法及装置,该方法包括:当检测到目标说话人的特定语音数据时,控制拾音设备开始录音;按照预设的采样规则对拾音设备录制的语音数据进行采样,得到采样数据;对采样数据进行特征提取,得到特征值;将特征值输入已训练的目标说话人模型,得到目标说话人模型的输出结果;若根据输出结果确定采样数据与目标说话人不匹配,则控制拾音设备停止录音。应用该方法,可以实现准确确定出目标说话人的语音结束点,从而有效保障拾音设备录制的语音仅包括目标说话人的讲话语音,继而提高后续基于拾音设备录制的语音进行语音识别的准确性,提升用户体验。
-
公开(公告)号:CN109036388A
公开(公告)日:2018-12-18
申请号:CN201810827885.0
申请日:2018-07-25
CPC classification number: G10L15/06 , G10L13/02 , G10L15/22 , G10L15/26 , G10L2015/223
Abstract: 本发明涉及语音对话技术领域,具体涉及一种基于对话设备的智能语音交互方法,包括以下步骤:A)建立标准声线模型,录制真人语音,调整标准声线模型参数,生成真人专属声线模型;B)根据交互内容建立或更新包括语速、语调或语气中至少一项的播放策略,根据播放策略调整真人专属声线模型参数,将交互内容代入调整后的真人专属声线模型,生成交互语音并播放;C)监测使用者声音,根据使用者声音更新交互内容。本发明的有益效果是:通过语音交互过程中收集使用者语音,分析得出使用者语音交互的反馈,根据反馈对交互内容合成音的声音合成策略进行调整或更新语音交互内容,增强使用者参与感,提高语音交互效果。
-
公开(公告)号:CN108475504A
公开(公告)日:2018-08-31
申请号:CN201680062048.2
申请日:2016-12-20
Applicant: 夏普株式会社
Inventor: 加藤和永
Abstract: 本发明提供一种在多个设备进行通信的系统中,使设备之间的协作的可靠性提升的技术。在信息家电系统中,多个信息家电(40)与智能手机等通信装置(10A)进行M2M通信。通信装置(10A)接收来自用户的声音输入,并基于声音信号和为识别用户而蓄积的样本声音数据认证用户。通信装置(10A)通过对声音信号进行声音识别处理来判别用户的指示内容。在用户被认证且用户的指示内容被判别的情况下,通信装置(10A)将与指示内容相关的指令发送到与判别了用户的指示内容相关联的信息家电(40)。
-
公开(公告)号:CN104700828B
公开(公告)日:2018-01-12
申请号:CN201510122982.6
申请日:2015-03-19
Applicant: 清华大学
Abstract: 一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,通过在深度长短期记忆循环神经网络声学模型中增加注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时间序列上存在间隔;通过对包含Cross‑talk噪声的大量语音数据进行训练获得的上述神经网络声学模型,可以实现对Cross‑talk噪声的鲁棒特征提取和鲁棒声学模型的构建,通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的;该方法可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。
-
-
公开(公告)号:CN106935239A
公开(公告)日:2017-07-07
申请号:CN201511016459.1
申请日:2015-12-29
Applicant: 阿里巴巴集团控股有限公司
Abstract: 本申请公开一种发音词典的构建方法,用以解决按照现有技术构建的发音词典的质量较差问题。方法包括:将目标词汇的语音声学特征,输入语音识别解码器;其中,所述语音识别解码器中的发音词典包括:目标词汇和目标词汇的候选发音音素序列;根据所述语音识别解码器输出的候选发音音素序列,确定所述目标词汇对应于输出的候选发音音素序列的概率分布;根据所述概率分布,从所述输出的候选发音音素序列中,选择作为所述目标词汇的正确发音的发音音素序列;根据所述正确发音的发音音素序列,构建发音词典。本申请还公开了一种发音词典的构建装置。
-
公开(公告)号:CN106875939A
公开(公告)日:2017-06-20
申请号:CN201710025229.4
申请日:2017-01-13
Applicant: 佛山市父母通智能机器人有限公司
Inventor: 陈修志
CPC classification number: G10L15/06 , G10L15/1815 , G10L15/22 , G10L15/26 , G10L25/51 , G10L2015/221 , G10L2015/223
Abstract: 本发明提供一种对大范围波动的汉语方言语音识别处理方法及智能机器人,所述汉语方言语音识别处理方法包括:步骤S1,对用户的音频信号进行语音识别,并返回语音识别后的识别结果至管理中心;步骤S2,在预先设置的目标关键字和语音识别后的识别结果之间建立映射表;步骤S3,实时识别用户的音频控制指令,将实时识别的音频控制指令结果通过映射表映射至通讯录。本发明能够很好地消除了由于汉语方言或用户口音而带来的无法准确识别语音的问题,提高了对于汉语方言的语音识别准确率和适应性,应用范围很广,不再局限于识别标准的普通话而是适用于各种汉语方言和用户口音,更是能够大大提高老年人这一特殊群体中的语音识别的适应性和识别率。
-
公开(公告)号:CN106847293A
公开(公告)日:2017-06-13
申请号:CN201710044272.5
申请日:2017-01-19
Applicant: 内蒙古农业大学
Abstract: 一种设施养殖羊应激行为的声信号监测方法,包括:将声音传感器安装在设施羊舍的中间位置,采集羊在不同应激行为下的叫声信号;对羊叫声信号进行预处理;提取羊叫声信号特征参数,并对提取的特征参数进行加权;建立羊叫声信号的识别模型,将羊叫声信号中的一部分用于模型训练,得到模型参数;对羊叫声信号进行分类识别,统计设施羊舍内叫声信号的类别和数量,用于设施羊舍的福利化状况评价。本发明的优点是:利用声信号数字化处理技术,对设施养殖羊叫声信号进行采集、特征参数提取和分类识别,建立羊叫声信号特征参数与羊只不同应激行为之间的相关性,对于构建设施福利化养羊系统及羊只健康状况监测等具有明显的现实意义。
-
公开(公告)号:CN106663422A
公开(公告)日:2017-05-10
申请号:CN201580040890.1
申请日:2015-07-24
Applicant: 哈曼国际工业有限公司
Inventor: R.帕夏因
IPC: G10L15/06
CPC classification number: G10L15/07 , G10L15/005 , G10L15/02 , G10L15/06 , G10L15/22 , G10L25/51 , G10L2015/025
Abstract: 公开用于在计算系统中识别言语的实施方案。一种示例性言语识别方法包括:在包括带口音子字符串的数据库的生成单元处接收元数据;通过所述生成单元生成包括在所述元数据中的单词的口音校正的语音数据,所述口音校正的语音数据基于存储在所述数据库中的所述带口音子字符串而表示包括在所述元数据中的所述单词的不同发音;在话音识别引擎处接收源自由用户输入到所述言语识别系统的话语的所提取的言语数据;以及在所述话音识别引擎处接收所述口音校正的语音数据。所述方法还包括:确定所提取的言语数据中标识所识别的话语的终端ID;生成标识在所识别的话语中检测到的口音的口音数据;基于所述一个或多个终端ID和所述口音数据来生成所识别的言语数据;以及将所识别的言语数据输出到所述言语控制装置。
-
-
-
-
-
-
-
-
-