Patent search ap:("中国科学院声学研究所") AND inv:"刘作桢" Page 1

1.

发明授权
一种语音唤醒方法及装置有权

公开(公告)号：CN112951211B

公开(公告)日：2022-10-18

申请号：CN202110437391.3

申请日：2021-04-22

Applicant: 中国科学院声学研究所

Inventor： 黎塔 , 刘作桢 , 张鹏远 , 颜永红

IPC: G10L15/02 , G10L15/08 , G10L15/16 , G10L15/22

Abstract: 本申请实施例公开了一种语音唤醒方法及装置，方法包括：接收用户语音；提取用户语音中每一帧的声学特征；将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率；其中，第一音素序列是预定义的关键词的音素序列；对后验概率进行最小编辑距离加和置信度判决；若后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块，对关键词进行优化，加强了建模效果；依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统，提高了识别关键词的能力。

2.

发明公开
一种语音唤醒方法及装置有权

公开(公告)号：CN112951211A

公开(公告)日：2021-06-11

申请号：CN202110437391.3

申请日：2021-04-22

Applicant: 中国科学院声学研究所

Inventor： 黎塔 , 刘作桢 , 张鹏远 , 颜永红

IPC: G10L15/02 , G10L15/08 , G10L15/16 , G10L15/22

Abstract: 本申请实施例公开了一种语音唤醒方法及装置，方法包括：接收用户语音；提取用户语音中每一帧的声学特征；将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率；其中，第一音素序列是预定义的关键词的音素序列；对后验概率进行最小编辑距离加和置信度判决；若后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块，对关键词进行优化，加强了建模效果；依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统，提高了识别关键词的能力。

Patent Agency Ranking