-
公开(公告)号:CN107545508A
公开(公告)日:2018-01-05
申请号:CN201610474035.8
申请日:2016-06-24
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G06Q50/00
Abstract: 本发明提供了一种基于社区结构的集体预测方法,所述方法包括:步骤1)遍历网络V中的每个节点,利用社区模块度指标生成若干个社区,每个节点归属于其中一个社区;步骤2)利用网络V中已知标签的节点自身的特征向量和社区结构向量训练预测模型;步骤3)计算所有未知标签节点的自身特征向量和社区结构向量,输入预测模型获取所有未知标签节点的标签和概率;反复进行该步骤,直至所有未知标签节点的标签不再发生改变,输出所有未知标签节点的最终标签和概率。本发明的方法能够提高社区结构中节点标签的预测的正确率。
-
公开(公告)号:CN106972967A
公开(公告)日:2017-07-21
申请号:CN201710195501.3
申请日:2017-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
CPC classification number: H04L41/147 , G06N20/00 , G06Q10/04 , H04L41/12
Abstract: 本发明提出了一种用于链路预测的深度学习降维方法和装置,该方法,包括:根据各个网络节点在设定时间段内的连接关系,确定每个网络节点的一级连接网络节点和二级连接网络节点;按照设定时长将所述设定时间段划分为多个时间片,并根据所述各个网络节点在每个时间片内的连接关系,确定出在每个时间片内每个网络节点与对应的一级连接网络节点和二级连接网络节点的连接关系;根据在每个时间片内每个网络节点与对应的一级连接网络节点和二级连接网络节点的连接关系,通过深度学习算法模型,对所述各个网络节点进行链路预测。本发明减少输入到深度学习算法模型的数据量,减少学习训练时间并提高链路预测的准确性。
-
公开(公告)号:CN106960672A
公开(公告)日:2017-07-18
申请号:CN201710203054.1
申请日:2017-03-30
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院声学研究所
IPC: G10L21/0388 , H04S7/00
CPC classification number: G10L21/0388 , H04S7/303
Abstract: 本发明公开了一种立体声音频的带宽扩展方法与装置。该方法包括:将立体声信号分解为直达声和扩散声;按照预设的频带扩展方法对扩散声进行带宽扩展;将直达声分离成多个不同方位的点声源,对多个点声源分别进行带宽扩展,得到带宽扩展后的多个点声源;将带宽扩展后的多个点声源按照预先估计的方位信息进行重新混合,得到带宽扩展后的直达声;根据带宽扩展后的直达声结合带宽扩展后的扩散声重建出宽带立体声音频信号。借助于本发明的技术方案,解决了现有技术中仅根据单个声道重建信号的主观质量实现对信号带宽的扩展,没有考虑到两个声道中信号能量和相位的相关性,其重建立体声信号严重影响了听者对声源位置和距离的判定的问题。
-
公开(公告)号:CN107342077A
公开(公告)日:2017-11-10
申请号:CN201710395341.7
申请日:2017-05-27
Applicant: 国家计算机网络与信息安全管理中心
CPC classification number: G10L15/063 , G10L15/07 , G10L15/14 , G10L17/04 , G10L17/14 , G10L2015/0631 , G10L2015/0635
Abstract: 本发明涉及一种基于因子分析的说话人分段聚类方法及系统。该方法包括:1)提取训练语音的声学特征,训练高斯混合通用背景模型,进而训练总变化因子模型和高斯概率线性判别分析模型;2)对测试语音进行分段并提取语音片段的声学特征;3)依据高斯混合通用背景模型和总变化因子模型将提取的声学特征映射为总变化量因子,加载高斯概率线性判别分析模型,根据总变化量因子计算任意两语音片段之间的对数似然比得分;4)选择得分最高的两类进行合并,根据层次聚类的方法逐步迭代至收敛,最终输出说话人分段聚类结果。本发明将总变化因子的不确定性引入到高斯概率线性判别分析模型进行训练和打分,能够提升短时语音片段上的基于因子分析的系统性能。
-
公开(公告)号:CN114822583B
公开(公告)日:2024-11-22
申请号:CN202110120284.8
申请日:2021-01-28
Applicant: 中国科学院声学研究所
IPC: G10L21/0272
Abstract: 本发明公开了一种采用核化听觉模型的单通道声源分离方法,所述方法包括:将混合声源信号输入编码器,输出隐藏空间矩阵;将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;将估计值输入解码器,输出分离后的目标信号波形;其中,所述编码器和解码器均采用核化听觉模型;所述声源分离器采用基于一维时域卷积的源分离模型,所述编码器和解码器的训练过程和所述声源分离器的训练过程是独立的。本发明的方法在编码器和解码器中引入了模型偏置,有效减少了模型参数,极大降低了模型复杂度。
-
公开(公告)号:CN114783443B
公开(公告)日:2024-11-01
申请号:CN202210325453.6
申请日:2022-03-30
Applicant: 中国科学院声学研究所
Abstract: 本申请提出一种语音识别模型的个性化联邦学习方法和系统,应用于中心端和多个客户端,在中心端,该方法包括:利用本地有标注语音样本进行有监督的训练语音识别模型,获得所述语音识别模型的种子模型,所述种子模型包括特征提取器及分类器;所述特征提取器用于处理多个客户端输入的语音信息,确定多个客户端中每个客户端的语音信息的个性化特征;利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,获得训练好的分类器;将所述训练好的分类器传递至所述多个客户端中每个客户端。本申请通过将语音识别模型的特征提取器与分类器进行解耦优化的方式实现个性化联邦学习,有效提升语音识别模型性能,降低错误识别率。
-
公开(公告)号:CN114783425B
公开(公告)日:2024-10-01
申请号:CN202210326775.2
申请日:2022-03-30
Applicant: 中国科学院声学研究所
Abstract: 本申请涉及一种基于私有参数的语音识别联邦学习方法和系统,应用于中心端和多个客户端,在所述中心端,所述方法包括:利用本地有标注语音样本进行有监督地训练语音识别模型,获得所述语音识别模型的种子模型;根据所述种子模型确定第一私有参数和第一共享参数;根据多个第二共享参数更新所述第一共享参数;所述多个第二共享参数由多个客户端上传得到;将更新后的所述第一共享参数传递至所述多个客户端中每个客户端。本申请实施例利用模型中的私有参数实现对每个客户端的个性化建模,从而可以通过一次训练产生针对多个客户端的个性化语音识别模型,有效提升语音识别模型在每个客户端的性能。
-
公开(公告)号:CN112289304B
公开(公告)日:2024-05-31
申请号:CN201910671050.5
申请日:2019-07-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于变分自编码器的多说话人语音合成方法,包括:提取一条待合成说话人干净语音的音素级别时长参数和帧级别声学参数,将归一化的音素级别时长参数输入第一变分自编码器,输出时长说话人标签;将归一化的帧级别声学参数输入第二变分自编码器,输出声学说话人标签;对待合成的包含多个说话人的语音信号提取帧级别语言学特征和音素级别语言学特征;将时长说话人标签和归一化的音素级别语言学特征输入时长预测网络,输出当前音素预测时长;通过当前音素预测时长获得该音素的帧级别语言学特征,将其与声学说话人标签输入声学参数预测网络,输出归一化的预测语音的声学参数;将归一化的预测语音声学参数输入声码器,输出合成语音信号。
-
公开(公告)号:CN117979218A
公开(公告)日:2024-05-03
申请号:CN202410092438.0
申请日:2024-01-23
Applicant: 中国科学院声学研究所
IPC: H04R29/00 , G10L19/093 , G10L25/51
Abstract: 本发明公开了一种基于听觉感知特性的头相关传输函数客观评价方法及系统,该方法包括:对输入目标和参考的头相关冲激响应分别进行去除双耳时间差及中耳滤波处理,获得相应的头相关传输函数;对目标和参考的头相关传输函数分别进行内耳感知分析,获得相应的伽玛通特征;利用固定的听觉感知阈值对目标伽玛通特征和参考伽玛通特征之间的误差进行调整,得到调整后的目标伽玛通特征;利用调整后的目标伽玛通特征和参考伽玛通特征计算各频段下的平均误差和对应的包络相似度;对平均误差和包络相似度进行加权求和;利用人耳在不同水平方向下的感知特点对求和值进行调整,并建模得到感知评分,从而实现了基于听觉感知特性的头相关传输函数客观评价。
-
公开(公告)号:CN113095113B
公开(公告)日:2024-04-09
申请号:CN201911342527.1
申请日:2019-12-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G06F18/00 , G06F18/10 , G06F18/213 , G06F18/24 , G06N3/049
Abstract: 本发明属于水下目标识别和信号处理技术领域,具体涉及一种基于小波线谱特征提取的水下目标识别方法,该方法包括:对声呐阵列接收的信号进行频谱分析,获得各个频段内的频谱信息;基于获得的每个频段内的频谱信息,提取单个频段内线谱特征的最大值,作为当前频段的特征向量,获得各个频段的特征向量;将各个频段的特征向量进行拼接或平均,获得优化后的特征向量;将当前频段的特征向量和优化后的特征向量一起作为新的特征向量,并将该新的特征向量输入至预先训练的时延神经网络,输出当前频段对应的目标类别信息,作为分类结果。
-
-
-
-
-
-
-
-
-