一种基于时频域动态特征矩阵的说话人识别方法和系统

    公开(公告)号:CN119943058A

    公开(公告)日:2025-05-06

    申请号:CN202510118255.6

    申请日:2025-01-24

    Applicant: 厦门大学

    Inventor: 李琳 苏祺 洪青阳

    Abstract: 本申请提出了一种基于时频域动态特征矩阵的说话人识别方法和系统,将原始语音的时间动态特征序列映射为二维图像并通过相似性矩阵计算相似度,采用自适应加权方法增强时间动态特征序列中的时域动态特征;对原始语音进行短时傅里叶变换得到频谱值并计算频域动态特征,对相似性阈值进行动态调整;在卷积神经网络模型CNN中进行训练,通过传统方式提取声学特征得到原始语音的初始说话人特征;特征融合分类器根据全连接层的加权自适应融合的特征向量计算说话人的类别概率分布,将概率最大的类别作为最终的结果。本申请提高了复杂场景中说话人识别的准确性和鲁棒性,增强了对不同语音场景的适应能力,更好地保留了语音信号中识别说话人身份的信息。

    一种基于嵌入特征融合的防伪说话人识别方法及系统

    公开(公告)号:CN117789727A

    公开(公告)日:2024-03-29

    申请号:CN202410007071.8

    申请日:2024-01-03

    Applicant: 厦门大学

    Abstract: 公开了一种基于嵌入特征融合的防伪说话人识别方法及系统,包括,获取注册语音数据集和测试语音数据集;搭建说话人识别模型,提取注册语音数据集中的说话人嵌入特征和测试语音数据集中的说话人嵌入特征;搭建语音防伪检测模型,提取测试语音数据集中的鉴伪嵌入特征;搭建多嵌入特征双分支多维注意力融合模型,将注册语音数据集中的说话人嵌入特征和测试语音数据集中的说话人嵌入特征进行拼接操作,得到整体说话人嵌入特征,将整体说话人嵌入特征和鉴伪嵌入特征输入多嵌入特征双分支多维注意力融合模型进行训练和模型优化,得到融合后的嵌入特征;将融合后的嵌入特征输入下游分类网络模型中,获得具备伪造感知能力的说话人识别得分。

    一种基于文本感知的语音端点检测方法和系统

    公开(公告)号:CN116092535A

    公开(公告)日:2023-05-09

    申请号:CN202310047513.7

    申请日:2023-01-31

    Applicant: 厦门大学

    Inventor: 李琳 王捷 洪青阳

    Abstract: 本申请提出一种基于文本感知的语音端点检测方法和系统,方法包括步骤:S1,获取原始音频,提取原始音频的浅层声学特征和文本特征;S2,将浅层声学特征和文本特征进行自适应加权融合,获得融合音频特征;S3,将融合音频特征进行上下文编码,获得时序特征;S4,对时序特征进行二分类预测,获得语音帧概率和非语音帧概率;S5,对二分类预测的结果进行判决,并将原始音频的各帧判决结果拼接,获得语音端点检测结果。该方法能够有效利用音频中的文本信息,通过融合浅层声学特征和文本特征,可以提高后端语音端点检测模型的准确度和稳定性。在缺乏目标域训练数据的情况下,借助预训练的文本特征提取子网络能够保证语音端点检测模型的鲁棒性。

    一种基于文本相关信息感知的说话人识别方法与系统

    公开(公告)号:CN113705671A

    公开(公告)日:2021-11-26

    申请号:CN202110996082.X

    申请日:2021-08-27

    Applicant: 厦门大学

    Inventor: 李琳 刘妍 洪青阳

    Abstract: 本发明给出了一种基于文本相关信息感知的说话人识别方法与系统,包括利用包含说话人分类、文本相关信息分类的子网络构建网络结构,其中文本相关信息分类子网络可以有效辅助说话人识别;提出的文本相关信息感知注意力池化,有效利用文本相关信息分类子网络的信息,对帧级别共享特征赋予不同的文本相关信息的权重值,区分不同特征向量对于系统识别能力的贡献度;提出文本相关信息感知动态角边距损失函数,有效利用文本相关信息分类子网络的信息,针对每个输入样本对应的角边距赋予不同的文本相关信息的权重值,压缩类内间距,加快损失函数收敛。可应用于跨信道、跨语种、噪声干扰等多种情况下的生物智能识别、安防领域,提高说话人识别的准确率。

    一种面向模拟IC有源器件的对称约束检测方法及系统

    公开(公告)号:CN112287633A

    公开(公告)日:2021-01-29

    申请号:CN202011160909.5

    申请日:2020-10-27

    Applicant: 厦门大学

    Abstract: 本发明给出了一种面向模拟IC有源器件的对称约束检测方法及系统,包括根据模拟IC的网表,对两个MOS器件之间的连接权重使用变量表示并对变量进行赋值,根据网表中两个MOS器件之间的连接状态使用所述变量进行编码,得到器件互连矢量,根据预设的初层基块互连矢量编码查找表识别出模拟IC初层基块的对称约束关系;根据得到的初层基块检测得到两两相邻的初层基块,求出两个相邻的初层基块的互连矢量,并根据预设的高层基块互连矢量编码查找表检测出模拟IC中高层基块中具有对称约束的器件组。本发明能在模拟IC网表层级中有效的检测出模拟IC中有源器件的对称约束,对于模拟IC版图设计提供了更加准确的对称约束指导。

    一种基于深度神经网络的多类声学特征整合方法和系统

    公开(公告)号:CN111276131A

    公开(公告)日:2020-06-12

    申请号:CN202010073244.8

    申请日:2020-01-22

    Applicant: 厦门大学

    Inventor: 李琳 李铮 洪青阳

    Abstract: 本申请公开一种基于深度神经网络的多类声学特征整合方法和系统。包括利用已知语音数据训练并建立基于深度神经网络的多类声学特征整合模型,以确定或更新多类声学特征整合模型的网络参数;将从待测语音中提取的多类声学特征输入已训练好的具有网络参数的多类声学特征整合模型中,并提取帧级别深度整合特征向量或段级别深度整合特征向量。该方案支持语音识别、语音唤醒、语种识别、说话人识别、防录音攻击欺骗等语音任务中多种声学特征整合向量的提取,可根据实际语音任务充分挖掘多种声学特征的内在联系,用于改善语音任务应用的识别精准度和稳定性。

    一种抗干扰的喉振动发声测评装置

    公开(公告)号:CN104523236B

    公开(公告)日:2016-08-24

    申请号:CN201510006619.8

    申请日:2015-01-07

    Applicant: 厦门大学

    Abstract: 一种抗干扰的喉振动发声测评装置,涉及嗓音测评装置。设有静音室和室内测评装置;静音室设有静音室本体、消音通风装置和安全警报装置;静音室本体入口设有隔声门,消音通风装置设有消音通风箱,安全警报装置设有安全警报器,室内测评装置设有喉实验操作单元和数据采集单元;喉实验操作单元设有离体喉实验平台和仪器固定平台,离体喉实验平台设有人工肺、空压机和离体喉微调固定平台,仪器固定平台设有冷光源、二维步进电机、步进电机控制器、光学平台支架;数据采集单元设有数字电子压力计、数字电子气流计、数字电子声强计、驻极体电容传声器、声卡、摄影仪、计算机。可有效解决临床医学嗓音评估的局限性,提高数据的精准度和可靠性。

    一种抗干扰的喉振动发声测评装置

    公开(公告)号:CN104523236A

    公开(公告)日:2015-04-22

    申请号:CN201510006619.8

    申请日:2015-01-07

    Applicant: 厦门大学

    CPC classification number: A61B5/4803 G01H17/00 G09B23/28

    Abstract: 一种抗干扰的喉振动发声测评装置,涉及嗓音测评装置。设有静音室和室内测评装置;静音室设有静音室本体、消音通风装置和安全警报装置;静音室本体入口设有隔声门,消音通风装置设有消音通风箱,安全警报装置设有安全警报器,室内测评装置设有喉实验操作单元和数据采集单元;喉实验操作单元设有离体喉实验平台和仪器固定平台,离体喉实验平台设有人工肺、空压机和离体喉微调固定平台,仪器固定平台设有冷光源、二维步进电机、步进电机控制器、光学平台支架;数据采集单元设有数字电子压力计、数字电子气流计、数字电子声强计、驻极体电容传声器、声卡、摄影仪、计算机。可有效解决临床医学嗓音评估的局限性,提高数据的精准度和可靠性。

    基于概率生成和非自回归模型的多说话人语音合成方法

    公开(公告)号:CN114267329B

    公开(公告)日:2024-09-10

    申请号:CN202111601179.2

    申请日:2021-12-24

    Applicant: 厦门大学

    Abstract: 本发明提出了一种基于概率生成和非自回归模型的多说话人语音合成方法,包括:S1、说话人个性化编码器和概率生成编码器接收目标梅尔频谱并分别提取说话人个性化向量和概率生成向量;S2、基于深度网络的编码器对拼接融合的输入向量进行编码得到音素级深层特征;S3、音素时长预测器接收拼接融合的融合特征并预测音素时长序列;S4、长度规整网络接收音素时长序列并对融合特征进行扩展,得到帧级特征;S5、基于深度网络的解码器接收帧级特征并映射为预测梅尔频谱,后处理网络补充预测梅尔频谱的残差信息;S6、声码器将补充了残差信息的预测梅尔频谱映射为声音波形,得到合成语音。本发明能够提高多说话人语音合成系统的泛化性和合成语音的相似性。

Patent Agency Ranking