Patent search ap:("哈尔滨理工大学") AND inv:"卜宇琳" Page 1

1.

发明授权
基于调整余弦互信息估计的语种识别方法有权

公开(公告)号：CN114639372B

公开(公告)日：2024-10-25

申请号：CN202210221484.7

申请日：2022-03-07

Applicant: 哈尔滨理工大学

Inventor： 陈晨 , 蓝海乐 , 卜宇琳 , 何勇军 , 陈德运

IPC: G10L15/00 , G10L15/02 , G10L15/06 , G10L21/0216 , G10L25/18 , G10L25/24 , G10L25/27 , G10L25/45

Abstract: 本发明公开了一种基于调整余弦互信息估计的语种识别方法，解决了在复杂的声音环境下以分类损失为目标函数提取到的embedding(嵌入特征)区分能力不强的问题。在训练阶段，先将训练集的声学特征做预处理，输入TDNN‑F网络；然后将网络中输出的embeddings根据半困难负样本挖掘策略，选择出正负样本对进行基于调整余弦相似度的互信息估计，并以此作为目标函数进行网络训练。在识别阶段，先将注册集和测试集的声学特征输入训练好的TDNN‑F网络得到对应的embeddings；然后将注册集与测试集的embeddings进行线性判别分析、减平均、零相位成分分析白化以及向量长度归一化；最后使用逻辑回归(LR)分类器进行评分。该方法能够有效利用正负样本对语言嵌入特征之间的互信息，以此优化网络训练并降低系统的错误率。本发明可以应用于语种识别领域。

2.

发明授权
基于概率有监督总变化空间学习的语种识别方法有权

公开(公告)号：CN115762473B

公开(公告)日：2024-08-09

申请号：CN202211186809.9

申请日：2022-09-27

Applicant: 哈尔滨理工大学

Inventor： 陈晨 , 卜宇琳 , 陈勇 , 杨海陆 , 王莉莉 , 陈德运

IPC: G10L15/00 , G10L15/02 , G10L15/06 , G06F17/16 , G06N3/09

Abstract: 本发明公开了一种基于概率有监督总变化空间学习的语种识别方法，解决了传统i‑vector语种识别系统先验信息利用不充分的问题。在训练阶段，利用开发集移位差分倒谱(SDC)特征训练通用背景模型(UBM)，再将数据集中每段语音的SDC特征作为输入，在UBM上进行自适应得到每段语音的GMM均值超矢量；然后将开发集均值超矢量和类别标签作为模型输入，建立基于概率有监督总变化空间学习的语种识别模型。在识别阶段，分别得到开发集、注册集、测试集中全部语音在概率有监督总变化空间上的i‑vector特征，然后利用线性判别分析(LDA)进行降维，最后利用概率线性判别分析(PLDA)分类器进行评分。该方法能够充分利用先验信息，以此提高系统性能。本发明可以应用于语种识别领域。

3.

发明公开
基于概率有监督总变化空间学习的语种识别方法有权

公开(公告)号：CN115762473A

公开(公告)日：2023-03-07

申请号：CN202211186809.9

申请日：2022-09-27

Applicant: 哈尔滨理工大学

Inventor： 陈晨 , 卜宇琳 , 陈勇 , 杨海陆 , 王莉莉 , 陈德运

IPC: G10L15/00 , G10L15/02 , G10L15/06 , G06F17/16 , G06N3/09

Abstract: 本发明公开了一种基于概率有监督总变化空间学习的语种识别方法，解决了传统i‑vector语种识别系统先验信息利用不充分的问题。在训练阶段，利用开发集移位差分倒谱(SDC)特征训练通用背景模型(UBM)，再将数据集中每段语音的SDC特征作为输入，在UBM上进行自适应得到每段语音的GMM均值超矢量；然后将开发集均值超矢量和类别标签作为模型输入，建立基于概率有监督总变化空间学习的语种识别模型。在识别阶段，分别得到开发集、注册集、测试集中全部语音在概率有监督总变化空间上的i‑vector特征，然后利用线性判别分析(LDA)进行降维，最后利用概率线性判别分析(PLDA)分类器进行评分。该方法能够充分利用先验信息，以此提高系统性能。本发明可以应用于语种识别领域。

4.

发明公开
基于调整余弦互信息估计的语种识别方法审中-实审

公开(公告)号：CN114639372A

公开(公告)日：2022-06-17

申请号：CN202210221484.7

申请日：2022-03-07

Applicant: 哈尔滨理工大学

Inventor： 陈晨 , 蓝海乐 , 卜宇琳 , 何勇军 , 陈德运

IPC: G10L15/00 , G10L15/02 , G10L15/06 , G10L21/0216 , G10L25/18 , G10L25/24 , G10L25/27 , G10L25/45

Abstract: 本发明公开了一种基于调整余弦互信息估计的语种识别方法，解决了在复杂的声音环境下以分类损失为目标函数提取到的embedding(嵌入特征)区分能力不强的问题。在训练阶段，先将训练集的声学特征做预处理，输入TDNN‑F网络；然后将网络中输出的embeddings根据半困难负样本挖掘策略，选择出正负样本对进行基于调整余弦相似度的互信息估计，并以此作为目标函数进行网络训练。在识别阶段，先将注册集和测试集的声学特征输入训练好的TDNN‑F网络得到对应的embeddings；然后将注册集与测试集的embeddings进行线性判别分析、减平均、零相位成分分析白化以及向量长度归一化；最后使用逻辑回归(LR)分类器进行评分。该方法能够有效利用正负样本对语言嵌入特征之间的互信息，以此优化网络训练并降低系统的错误率。本发明可以应用于语种识别领域。

Patent Agency Ranking