检索音频和训练声学模型的方法、终端及存储介质

发明授权

CN113724739B 检索音频和训练声学模型的方法、终端及存储介质有权

请登陆查看更多内容

专利标题： 检索音频和训练声学模型的方法、终端及存储介质
申请号： CN202111022458.3

申请日： 2021-09-01
公开(公告)号： CN113724739B

公开(公告)日： 2024-06-11
发明人: 张斌
申请人： 腾讯音乐娱乐科技(深圳)有限公司
申请人地址： 广东省深圳市前海深港合作区前湾一路1号A栋201室
专利权人： 腾讯音乐娱乐科技(深圳)有限公司
当前专利权人： 腾讯音乐娱乐科技(深圳)有限公司
当前专利权人地址： 广东省深圳市前海深港合作区前湾一路1号A栋201室
代理机构： 北京三高永信知识产权代理有限责任公司
代理商 张所明
主分类号： G10L25/54
IPC分类号： G10L25/54 ; G10L25/18 ; G10L19/16

摘要：

本申请公开了一种检索音频和训练声学模型的方法、终端及存储介质，属于互联网技术领域。该方法包括：提取待检索的目标音频片段的目标频谱数据；基于目标频谱数据，确定目标特征信息；将目标特征信息分别输入训练完成的声学模型中的第一解码器和第二解码器，得到第一目标概率矩阵和第二目标概率矩阵；根据第一目标概率矩阵和第二目标概率矩阵，确定音节序列；确定音节序列分别和参考音节序列库中每个参考音节序列之间的相似度，并确定相似度最大的预设数目个目标参考音节序列，将目标参考音节序列对应的目标音频标识确定为检索结果。本申请可以直接通过音频片段进行检索，避免了当用户不知道歌曲的名称时，无法进行检索的问题。

公开/授权文献

CN113724739A 检索音频和训练声学模型的方法、终端及存储介质公开/授权日：2021-11-30

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L25/00	不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术(当利用语音检测器来感知一些信号特殊特征的基于半导体的静噪放大器，如无信号时的感知入H03G3/34)
G10L25/48	.专门适用于特定用途
G10L25/51	..比较或判别
G10L25/54	...为检索