-
公开(公告)号:CN110120231A
公开(公告)日:2019-08-13
申请号:CN201910408086.4
申请日:2019-05-15
Applicant: 哈尔滨工业大学
Abstract: 基于自适应半监督非负矩阵分解的跨语料情感识别方法,它属于语音中的情感识别技术领域。本发明解决了话者语音不匹配现象导致的现有跨语料语音情感识别方法对情感识别的准确率低的问题。本发明通过特征空间与标签空间共享编码信息的方式,可以学习到更具判别性的语音情感特征表示,同时采用最大平均差异来度量特征表示中存在的差异,减少话者语音的不匹配,并根据流形一致性假设,使得新的特征表示尽可能保留原始特征空间的信息,增强了语音情感特征表示的健壮性。本发明在四组跨语料语音情感识别任务中的未加权平均召回率达到43.74%,加权平均召回率达到43.84%,有效提高了跨语料语音情感识别的准确率。本发明可以应用于语音中的情感识别技术领域。
-
公开(公告)号:CN118887658A
公开(公告)日:2024-11-01
申请号:CN202410970713.4
申请日:2024-07-18
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种基于梯度和Shapley Additive Explanation的二阶段激光雷达3D目标检测器的可解释性方法,流程框架如图1,能够高效地生成高质量的归因图,可视化点云中每个点对于模型预测结果的影响大小。通过基于梯度生成的归因图能够有效地定位对于目标检测器输出影响最大的点云区域。此外,结合聚类和Shapley Additive Explanation进行二阶段增强,获取一个更加精细的归因图。本发明已应用于激光雷达3D目标检测可解释性分析系统中,能够高效地可视化展示输入点云中每个点对于模型预测结果的影响。
-
公开(公告)号:CN113704552A
公开(公告)日:2021-11-26
申请号:CN202111012714.0
申请日:2021-08-31
Applicant: 哈尔滨工业大学
IPC: G06F16/783 , G06F40/30 , G06K9/62
Abstract: 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备,它属于机器的多模态感知技术领域。本发明解决了现有情感分析技术需要人工对各模态序列进行对齐标注的问题。本发明对现有大规模预训练语言模型的多模态情感分析方法进行改进,使本发明方法不需要人工的对齐标注,因而适合目前大规模数据量、未对齐的多模态序列场景的情形,极大地提高了其实用性。而且,将本发明提出的方法在公开的最常使用的多模态情感分析的2个数据集上进行验证,结果表明其分类性能较基线系统有很大提高。本发明可以应用于情感分析。
-
公开(公告)号:CN113380232A
公开(公告)日:2021-09-10
申请号:CN202110661855.9
申请日:2021-06-15
Applicant: 哈尔滨工业大学
Abstract: 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质,属于语音识别技术领域。本发明是为了解决现有的基于Softmax注意力机制的语音识别方法解码过程中存在大量预测无关信息而导致严重干扰解码器识别过程的问题。本发明首先首先对原始信号分别进行采样、量化、帧级特征提取、高层声学表示提取、匹配分计算;然后,通过匹配分排序、匹配分阈值计算、注意力得分归一化、瞥向量生成,来获得其每一解码时刻的瞥向量;最后,利用解码器进行识别,并用以训练识别器,得到语音识别模型。本发明通过产生均匀、连续且稀疏的注意力得分向量,以降低瞥向量中预测无关信息占比,进而达到提升识别性能的目的。本发明主要用于语音的识别。
-
公开(公告)号:CN110136741B
公开(公告)日:2021-07-13
申请号:CN201910411692.1
申请日:2019-05-16
Applicant: 哈尔滨工业大学
IPC: G10L21/0264 , G10L25/30
Abstract: 一种基于多尺度上下文的单通道语音增强方法,本发明涉及单通道语音增强方法。本发明是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题。过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。本发明用于语音增强领域。
-
公开(公告)号:CN110148417B
公开(公告)日:2021-03-23
申请号:CN201910439064.4
申请日:2019-05-24
Applicant: 哈尔滨工业大学
Abstract: 基于总变化空间与分类器联合优化的说话人身份识别方法,它属于说话人识别技术领域。本发明解决了目前的总变化空间估计方法对说话人身份识别的等错误率高的问题。本发明首先求得训练集均值超矢量在初始总变化空间上的表示;然后对该表示进行长度规整,并输入分类器PLDA;接着在分类器PLDA的监督下,更新分类器的参数与总变化空间的参数,重复上述步骤,直至达到设置的最大迭代次数,获得最终的分类器参数与总变化空间参数;测试时,利用测试语音的均值超矢量和目标说话人的均值超矢量,计算其在总变化空间上的表示,然后对该表示进行长度规整,并计算其在分类器上的联合概率密度作为最终分类的依据。本发明可以应用于说话人识别技术领域。
-
公开(公告)号:CN110164418A
公开(公告)日:2019-08-23
申请号:CN201910621276.4
申请日:2019-07-10
Applicant: 哈尔滨工业大学
Abstract: 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,属于语音信号处理技术领域。本发明是为了解决目前的加速方法大多是在牺牲识别性能的条件下进行加速导致其不能满足实际任务的需要问题。本发明的方法针对频谱或者频谱的多通道频谱子带进行时频块切分,然后进行局部特征提取,将卷积神经网络与Grid-LSTM相结合,弥补了Grid-LSTM在大频域步长情况下的精度损失。主要用于自动语音识别。
-
公开(公告)号:CN110148428A
公开(公告)日:2019-08-20
申请号:CN201910447562.3
申请日:2019-05-27
Applicant: 哈尔滨工业大学
Abstract: 一种基于子空间表示学习的声学事件识别方法,涉及声音信号处理技术领域,为解决现有技术在AER任务中,语义特征提取时不能兼顾原始信号本质内容和时序结构的问题,包括:步骤1、信号预处理,步骤2、帧级特征提取,步骤3、子声学事件特征提取,步骤4、子声学事件特征的时序扩展,步骤5、子声学事件特征间的整体语义特征提取,步骤6、声学事件的识别,本发明提取语义特征时,能够兼顾原始信号的整体内容信息和全局时序结构。
-
公开(公告)号:CN104916289A
公开(公告)日:2015-09-16
申请号:CN201510324584.2
申请日:2015-06-12
Applicant: 哈尔滨工业大学
IPC: G10L21/0232 , G10L25/24 , G10L25/21 , G10L15/07
Abstract: 行车噪声环境下快速声学事件的检测方法,属于无人车声学事件检测领域。为了解决现有无人车无法感知声音的问题。所述方法包括:在训练阶段,将各种目标声学事件的音频信号和行车噪声信号作为训练数据,利用音频信号为每个目标声学事件建立SVM模型,利用行车噪声信号获得的能量训练BPNN噪声模型;在识别阶段,对行车噪声环境下实时采集的待检测目标声学事件的音频信号进行过滤,再利用BPNN噪声模型降噪和增强,然后提取MFCC系数,根据MFCC系数,采用SVM模型分类识别,确定待检测目标声学事件的类别;进而确定相应的笛语序列编码,根据笛语序列编码,对当前的鸣笛序列库进行检索,确定对应的笛语信息。本发明用于无人车中。
-
公开(公告)号:CN118884379A
公开(公告)日:2024-11-01
申请号:CN202410903575.8
申请日:2024-07-08
Applicant: 哈尔滨工业大学
IPC: G01S7/41 , G06F18/2415 , G06F18/23213 , G06N3/0464 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种面向毫米波雷达目标识别深度学习模型的概念级解释方法。该方法包括:结合雷达专家视觉经验,从毫米波雷达距离‑角度谱图中提取基本概念;构建自编码器以学习距离‑角度谱图的深层语义特征;根据已提取到的基本概念构建相应的概念数据集;计算每个基本概念数据集的形心以引导概念发现聚类算法训练;利用聚类熵评估聚类结果质量,并保存符合条件的聚类结果为复合概念;利用基本概念和复合概念共同解释毫米波雷达目标识别模型。本发明已成功应用于毫米波雷达目标识别解释系统中,能够对毫米波雷达目标识别深度模型提供有效的概念级解释。
-
-
-
-
-
-
-
-
-