Patent search ap:("微软技术许可有限责任公司") AND inv:"宋謌平" Page 1

1.

发明授权
语音波形生成有权

公开(公告)号：CN111602194B

公开(公告)日：2023-07-04

申请号：CN201880085612.1

申请日：2018-09-30

Applicant: 微软技术许可有限责任公司

Inventor： 崔洋 , 汪曦 , 何磊 , 宋謌平

IPC: G10L13/00

Abstract: 本公开内容提供了用于生成语音波形的方法和装置。可以接收与输入相关联的基频信息、声门特征和声道特征，其中声门特征包括相位特征、形状特征和能量特征。基于基频信息和声门特征通过第一神经网络模型来生成声门波形。基于声门波形和声道特征通过第二神经网络模型来生成语音波形。

2.

发明公开
语音波形生成有权

公开(公告)号：CN111602194A

公开(公告)日：2020-08-28

申请号：CN201880085612.1

申请日：2018-09-30

Applicant: 微软技术许可有限责任公司

Inventor： 崔洋 , 汪曦 , 何磊 , 宋謌平

IPC: G10L13/00

Abstract: 本公开内容提供了用于生成语音波形的方法和装置。可以接收与输入相关联的基频信息、声门特征和声道特征，其中声门特征包括相位特征、形状特征和能量特征。基于基频信息和声门特征通过第一神经网络模型来生成声门波形。基于声门波形和声道特征通过第二神经网络模型来生成语音波形。

3.

发明公开
获得歌声检测模型有权

公开(公告)号：CN112309428A

公开(公告)日：2021-02-02

申请号：CN201910694160.3

申请日：2019-07-30

Applicant: 微软技术许可有限责任公司

Inventor： 侯元波 , 栾剑 , 宋謌平

IPC: G10L25/48 , G10L25/30 , G10L25/03

Abstract: 本公开提供了用于获得歌声检测模型的方法和装置。可以将多个话音片段和多个器乐片段合成为多个音频片段。可以利用所述多个音频片段来训练话音检测模型。可以将所述话音检测模型的至少一部分迁移到歌声检测模型。可以利用一组多音音乐片段来训练所述歌声检测模型。

4.

发明授权
获得歌声检测模型有权

公开(公告)号：CN112309428B

公开(公告)日：2024-03-19

申请号：CN201910694160.3

申请日：2019-07-30

Applicant: 微软技术许可有限责任公司

Inventor： 侯元波 , 栾剑 , 宋謌平

IPC: G10L25/48 , G10L25/30 , G10L25/03

Abstract: 本公开提供了用于获得歌声检测模型的方法和装置。可以将多个话音片段和多个器乐片段合成为多个音频片段。可以利用所述多个音频片段来训练话音检测模型。可以将所述话音检测模型的至少一部分迁移到歌声检测模型。可以利用一组多音音乐片段来训练所述歌声检测模型。

5.

发明授权
利用提前停止聚类的讲话者分离有权

公开(公告)号：CN112204657B

公开(公告)日：2023-12-22

申请号：CN201980035652.X

申请日：2019-03-29

Applicant: 微软技术许可有限责任公司

Inventor： 陈丽萍 , 宋謌平

IPC: G10L17/00

Abstract: 本公开提供了用于利用提前停止聚类的讲话者分离的方法和装置。可以将音频流分割为至少一个语音段，所述音频流包括来自至少一个讲话者的语音。可以将所述至少一个语音段聚类为多个簇，所述多个簇的数量大于所述至少一个讲话者的数量。可以从所述多个簇中选择相似度最高的至少一个簇，所选择的至少一个簇的数量等于所述至少一个讲话者的数量。可以基于所选择的至少一个簇来建立讲话者分类模型。可以通过所述讲话者分类模型，将所述音频流中的语音帧与所述至少一个讲话者对准。

6.

发明公开
利用提前停止聚类的讲话者分离有权

公开(公告)号：CN112204657A

公开(公告)日：2021-01-08

申请号：CN201980035652.X

申请日：2019-03-29

Applicant: 微软技术许可有限责任公司

Inventor： 陈丽萍 , 宋謌平

IPC: G10L17/00

Abstract: 本公开提供了用于利用提前停止聚类的讲话者分离的方法和装置。可以将音频流分割为至少一个语音段，所述音频流包括来自至少一个讲话者的语音。可以将所述至少一个语音段聚类为多个簇，所述多个簇的数量大于所述至少一个讲话者的数量。可以从所述多个簇中选择相似度最高的至少一个簇，所选择的至少一个簇的数量等于所述至少一个讲话者的数量。可以基于所选择的至少一个簇来建立讲话者分类模型。可以通过所述讲话者分类模型，将所述音频流中的语音帧与所述至少一个讲话者对准。

Patent Agency Ranking